DE10040214B4 - Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem - Google Patents

Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem Download PDF

Info

Publication number
DE10040214B4
DE10040214B4 DE10040214A DE10040214A DE10040214B4 DE 10040214 B4 DE10040214 B4 DE 10040214B4 DE 10040214 A DE10040214 A DE 10040214A DE 10040214 A DE10040214 A DE 10040214A DE 10040214 B4 DE10040214 B4 DE 10040214B4
Authority
DE
Germany
Prior art keywords
word
replacement
replaced
replacement word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE10040214A
Other languages
English (en)
Other versions
DE10040214A1 (de
Inventor
Amado Boynton Beach Nassiff
Kerry A. Raleigh Ortega
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE10040214A1 publication Critical patent/DE10040214A1/de
Application granted granted Critical
Publication of DE10040214B4 publication Critical patent/DE10040214B4/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst:
automatische Festellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort,
automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort,
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und
wenn das Ersetzungswort...

Description

  • Gegenstand der Erfindung
  • Die vorliegende Erfindung betrifft Sprachdiktiersysteme im Allgemeinen, und speziell ein Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem.
  • Die Spracherkennung ist ein Prozess, durch den ein akustisches Signal, das von einem Wandlerelement wie z.B. einem Mikrofon empfangen wird, von einem Computer in eine Folge von Textwörtern umgewandelt wird. Diese erkannten Wörter können dann in verschiedenen Computersoftware-Anwendungen zum Zweck der Dokumentbearbeitung oder Dateneingabe sowie für Befehle und Steueranweisungen verwendet werden. Verbesserungen bei Sprachdiktiersystemen sind ein wichtiges Mittel zur Steigerung der Produktivität eines Benutzers. Eine Möglichkeit der Verbesserung besteht darin, dass man dem Benutzer Mittel zur Verfügung stellt, mit denen er diktierten Text direkt, d.h. ohne Interaktion mit Korrekturdialogen, ändern kann. Sofern das System Änderungen nicht überwacht und entscheidet, was Korrekturen sind, die zur Verarbeitung als Korrektur an das Sprachmodul gesendet werden müssen, und was Editierungen sind, die vom System ignoriert werden sollen, hat der Benutzer keinen Vorteil von der kontinuierlichen Verbesserung der Erkennungsleistung, die sich ergibt, wenn das Modul Korrekturinformationen erhält.
  • ÜBERBLICK ÜBER DIE ERFINDUNG
  • In einem Spracherkennungssystem umfasst ein Verfahren zur Aktualisierung eines Sprachmodells während einer Korrektursitzung folgende Schritte: Diktieren eines diktierten Wortes, Bereitstellung eines Ersetzungswortes und automatischer Vergleich des diktierten Wortes mit dem Ersetzungswort unter Zuhilfenahme eines geeigneten Vergleichsmittels, z.B. eines Algorithmus zum Vergleich der Phonetik, Grammatik, Rechtschreibung oder des Kontexts aus vorausgehenden und nachfolgenden Wörtern. wenn beim Vergleich innerhalb einer statistischen Vorgabe eine hinreichende Ähnlichkeit festgestellt wird, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und nicht eine Editierung ist, umfasst das verfahren außerdem den Schritt der Erkennung, ob das Ersetzungswort in einer Alternativwörterliste enthalten ist. Das Alternativwort kann bereits vorhanden sein oder durch ein geeignetes Verfahren generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung identifiziert. Das Verfahren umfasst ferner die Aktualisierung des Sprachmodells ohne Interaktion des Benutzers, falls das Ersetzungswort in der Alternativwörterliste aufgeführt ist. wenn das Ersetzungswort nicht in der Alternativwörterliste steht, wird die digitale Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes verglichen, und das Sprachmodell wird aktualisiert, wenn der digitale Vergleich eine hinreichende Übereinstimmung innerhalb eines vorgegebenen statistischen Bereichs ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
  • Das Verfahren kann außerdem vor dem digitalen Vergleich folgende Schritte umfassen: Umwandeln der Audiodaten des diktierten Wortes in digitale Information des diktierten Wortes, Umwandeln des Textes des Ersetzungswortes in digitale Information des Ersetzungswortes und Verwendung der digitalen Information des diktierten Wortes und des Ersetzungswortes im digitalen Vergleichsschritt.
  • In dem Verfahren kann das Ersetzungswort durch jedes geeignete Verfahren generiert werden, z.B. durch Überschreiben des diktierten Wortes, durch Ausschneiden des diktierten Wortes und Einfügen des Ersetzungswortes oder durch Löschen des diktierten Wortes und Ersetzen durch das Ersetzungswort. Das diktierte Wort kann aus einem einzigen Wort oder aus mehreren Wörtern bestehen; in der Regel handelt es sich aber um ein einzelnes Wort. Entsprechend kann auch das diktierte Wort aus einem einzigen Wort oder aus mehreren Wörtern bestehen, in der Regel aber aus einem einzelnen Wort.
  • In einem zweiten Aspekt umfasst die Erfindung ein System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem wobei das System ein Mittel umfasst, das ein diktiertes Wort automatisch mit Hilfe eines geeigneten Vergleichsmittels mit einem Ersetzungswort vergleicht, z.B. mit Hilfe eines Algorithmus zum Vergleichen der Phonetik, Grammatik, Rechtschreibung und/oder der Wörter, die den Kontext bilden. Wenn beim Vergleich innerhalb einer statistischen Vorgabe eine hinreichende Ähnlichkeit festgestellt wird, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und nicht eine Editierung ist, umfasst das System außerdem ein Mittel zum Aktualisieren des Sprachmodells ohne Interaktion des Benutzers, sofern das Ersetzungswort in der Alternativwörterliste enthalten ist. Das Alternativwort kann bereits vorhanden sein oder durch ein geeignetes Mittel generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung identifiziert. Wenn das Ersetzungswort nicht in der Alternativwörterliste steht, umfasst das System außerdem ein Mittel zum Vergleichen der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes, und ein Mittel zur Aktualisierung des Sprachmodells, wenn der digitale Vergleich eine hinreichende Übereinstimmung innerhalb einer statistischen Vorgabe ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und keine Editierung ist.
  • In einem dritten Aspekt umfasst die Erfindung einen maschinenlesbaren Speicher, in dem ein Computerprogramm gespeichert ist, um die Maschine dazu zu veranlassen, eine Folge von Schritten auszuführen. Der maschinenlesbare Speicher veranlasst die Maschine, den Schritt auszuführen, in dem automatisch ein diktiertes Wort mit Hilfe eines geeigneten Vergleichsmittels mit einem Ersetzungswort verglichen wird, z.B. mit Hilfe eines Algorithmus zum Vergleich der Phonetik, Grammatik, Rechtschreibung und/oder der Wörter, die den Kontext bilden. Außerdem veranlasst der maschinenlesbare Speicher die Maschine dazu, folgende Schritte auszuführen: Feststellen, ob das Ersetzungswort in einer Alternativliste steht, falls der Vergleich eine hinreichende Übereinstimmung innerhalb vorgegebener statistischer Grenzen ergibt, die darauf schließen lässt, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung darstellt, und Aktualisieren des Sprachmodells ohne Interaktion des Benutzers, falls das Ersetzungswort in der Alternativwörterliste aufgeführt ist. Wenn das Ersetzungswort nicht in der Alternativwörterliste steht, veranlasst der maschinenlesbare Speicher die Maschine dazu, den Schritt des Vergleichs der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes auszuführen, und falls der digitale Vergleich eine hinreichende Übereinstimmung innerhalb vorgegebener statistischer Grenzen ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und keine Editierung ist, das Sprachmodell zu aktualisieren.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • In den Zeichnungen sind bevorzugte Ausführungsformen dargestellt, wobei die Erfindung aber selbstverständlich nicht auf die genauen Anordnungen und Instrumentalisierungen in den Zeichnungen beschränkt ist. Die Zeichnungen haben folgenden Inhalt:
  • 1 zeigt ein Computersystem zur Spracherkennung, in dem das erfindungsgemäße System verwendet werden kann.
  • 2 ist ein Blockdiagramm des Prinzips einer typischen Architektur des in 1 dargestellten Computersystems.
  • 3 ist ein Blockdiagramm einer typischen Architektur für ein Spracherkennungsmodul.
  • 4 ist ein Flussdiagramm, in dem der Ablauf der Programmsteuerung gemäß einem Aspekt der erfindungsgemäßen Anordnungen dargestellt ist.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • In 1 ist ein typisches Computersystem 20 zur Verwendung in Verbindung mit der vorliegenden Erfindung dargestellt. Das System besteht vorzugsweise aus einem Computer 34 mit einer Zentraleinheit (CPU), einer oder mehreren Speichervorrichtungen und den zugehörigen Schaltungen. Außerdem enthält das System ein Mikrofon 30, das über eine geeignete Schnittstellenschaltung oder eine Soundkarte (nicht dargestellt) mit dem Computer verbunden ist, und mindestens ein Anzeigegerät 32, z.B. ein Videodatenterminal (VDT), das an den Computer angeschlossen ist. Wie in Fachkreisen bekannt ist, kann die CPU aus jedem geeigneten Mikroprozessor oder einer anderen elektronischen Verarbeitungseinheit bestehen. Ein Beispiel für eine solche CPU ist der Mikroprozessor des Typs Pentium oder Pentium II von der Intel Corporation oder ein ähnlicher Mikroprozessor. Das System kann ferner Lautsprecher 23 sowie eine Schnittstellenvorrichtung wie z.B. eine Maus 21 enthalten; diese Komponenten sind aber für die hier beschriebene Erfindung nicht unbedingt erforderlich.
  • Die verschiedenen Hardware-Voraussetzungen für das hier beschriebene Computersystem können in der Regel durch einen der vielen im Handel erhältlichen, schnellen Multimedia-PCs von Herstellern wie der International Business Machines Corporation (IBM) erfüllt werden. In 2 ist eine typische Architektur für ein Spracherkennungssystem in Computer 20 dargestellt. Wie in 2 zu sehen ist, enthält das System typischerweise ein Betriebssystem 24 und eine Spracherkennungsanwendung 26. In dem dargestellten Beispiel sind auch eine Sprachtextverarbeitung 28 und eine Sprachnavigationsanwendung 22 vorhanden. Die Erfindung ist in dieser Hinsicht jedoch nicht beschränkt, und die Spracherkennungsanwendung 2b kann in Verbindung mit jedem anderen Anwendungsprogramm verwendet werden, das mit einer Sprachverarbeitungsfähigkeit ausgestattet werden soll. In 2 sind das Spracherkennungsmodul 26, die Sprachtextverarbeitung 28 und der Sprachnavigator 22 als separate Anwendungsprogramme dargestellt. Es sei jedoch darauf hingewiesen, dass die Erfindung in dieser Hinsicht keinen Einschränkungen unterliegt, und dass diese verschiedenen Anwendungsprogramme im Form eines komplexeren Anwendungsprogramms implementiert werden könnten. So könnte zum Beispiel die Spracherkennungsanwendung 26 mit der Sprachtextverarbeitungsanwendung oder mit einer anderen Anwendung, die in Verbindung mit der Spracherkennungsanwendung verwendet werden soll, kombiniert sein. Wenn keine anderen Sprachanwendungsprogramme in Verbindung mit der Sprachtextverarbeitungs-Anwendung und dem Spracherkennungsmodul verwendet werden sollen, kann das System auch so abgewandelt werden, dass es ohne die Sprachnavigationsanwendung arbeitet. Der Hauptzweck der Sprachnavigationsanwendung besteht darin, zur Koordination der Funktion der Spracherkennungsanwendung beizutragen.
  • In einer bevorzugten Ausführungsform, die hier beschrieben wird, ist das Betriebssystem eines der Betriebssysteme aus der Windows-Familie. Das System unterliegt in dieser Hinsicht aber keinerlei Einschränkungen, und die Erfindung kann auch in Verbindung mit jedem anderen Betriebssystem wie z.B. Windows NT, Windows 95 oder Windows 98, die alle von der Microsoft Corporation in Redmond, Washington, hergestellt werden, verwendet werden. Das hier beschriebene System kann von einem Programmierer mit Hilfe handelsüblicher Entwicklungs-Tools für das erwähnte Betriebssystem implementiert werden. Wie in 2 zu sehen ist, enthält das Computersystem 20 eine Speichervorrichtung 27, die vorzugsweise aus einem elektronischen Arbeitsspeicher und einem großen Datenspeichermedium wie einem Festplattenlaufwerk besteht.
  • Audiosignale, die einen im Mikrofon 30 empfangenen Klang oder einen in einer Aufzeichnung auf einem Aufnahmegerät enthaltenen Klang darstellen, werden im Computer 20 mit Hilfe konventioneller Computer-Audioschaltungen verarbeitet, so dass sie dem Betriebssystem 24 in digitalisierter Form zur Verfügung stehen. Die vom Computer empfangenen Audiosignale werden dem Spracherkennungsmodul 26 konventionell über das Betriebssystem 24 zur Verfügung gestellt, um Spracherkennungsfunktionen auszuführen. In konventionellen Spracherkennungssystemen werden die Audiosignale vom Spracherkennungsmodul 26 verarbeitet, um Wörter, die von einem Benutzer in das Mikrofon 30 gesprochen werden, oder Wörter, die von einem Benutzer gesprochen und auf einem Aufnahmegerät aufgezeichnet werden, zu identifizieren.
  • Audiosignale, die auf einem Aufnahmegerät aufgezeichnet worden sind, können auf verschiedene Weise an das Spracherkennungssystem übertragen werden. Das Aufnahmegerät ist über ein geeignetes Kabel mit dem Computersystem verbunden. Im Fall digitaler Aufnahmegeräte kann ein digitaler Ausgang des Aufnahmegeräts mit einem digitalen Eingang des Computersystems verbunden sein. Alternativ kann im Fall von analogen Aufnahmegeräten ein Kabel vom analogen Ausgang des Aufnahmegeräts mit dem analogen Eingang der Soundkarte des Computersystems verbunden sein. Eine Variante des Aufnahmegeräts enthält Software, die mit dem Spracherkennungssystem zusammenarbeitet. Diese Software gibt dem Spracherkennungssystem die Möglichkeit, diktierte Aufzeichnungen auf Aufnahmegeräten als Computerdateien zu betrachten, ähnlich wie Dateien auf einem Magnetplattenlaufwerk betrachtet werden können. So kann das Aufnahmegerät beispielsweise, wenn es richtig an das Computersystem angeschlossen ist, für die Spracherkennungsanwendung als Massenspeicher erscheinen wie ein Magnetplattenlaufwerk. In diesem Fall kann der Benutzer eine Dialogbox öffnen, während er mit der Spracherkennungsanwendung arbeitet, und die diktierte Aufzeichnung auswählen, die an das Spracherkennungssystem übertragen werden soll. Die diktierte Aufzeichnung wird dann vom Diktiergerät als Computerdatei an das Computersystem und an das Spracherkennungssystem übertragen.
  • Eine andere Art von Aufnahmegeräten besitzt Software-Tools, die die diktierte Aufzeichnung auf das Computersystem kopieren. In diesem Fall ist das Aufnahmegerät auf die oben beschriebene Weise mit dem Computersystem verbunden. Die Software-Tools des Aufnahmegeräts können dazu verwendet werden, die diktierte Aufzeichnung vom Aufnahmegerät an das Computersystem zu übertragen und dabei die diktierte Aufzeichnung als Computerdatei zu speichern. Dann kann der Benutzer über eine Dialogbox in der Spracherkennungsanwendung die gewünschte diktierte Aufzeichnung auswählen, die als Computerdatei von der Festplatte des Computersystems erscheint.
  • Unabhängig davon, wie die diktierte Aufzeichnung übertragen wird, ist daran zu denken, dass entweder eine digitale Aufzeichnung oder eine analoge Aufzeichnung übertragen werden kann. Im Fall einer analogen Aufzeichnung kann das Computersystem die diktierte Aufzeichnung, wenn diese vom Aufnahmegerät abgespielt wird, digital aufzeichnen. Die resultierende Computerdatei, die die diktierte Aufzeichnung enthält, kann dann dem Sprachverarbeitungssystem zur Verfügung gestellt werden.
  • 3 ist ein Blockdiagramm der typischen Komponenten, aus denen die Spracherkennungsanwendung 26 besteht. Wie in 3 zu sehen ist, empfängt das Spracherkennungsmodul 26 ein digitalisiertes Sprachsignal vom Betriebssystem. Das Signal wird dann in Block 34 in einen sinnvollen Datensatz umgewandelt, indem das Signal mit einer festgelegten Rate abgetastet wird, typischerweise alle 10-20 msec. Im Darstellungsblock wird eine neue Darstellung des Audiosignals erzeugt, die dann in nachfolgenden Schritten des Spracherkennungsprozesses benutzt werden kann, um die Wahrscheinlichkeit zu ermitteln, mit der dieser gerade analysierte Wellenformteil einem bestimmten phonetischen Ereignis zugeordnet werden kann. Dieser Prozess soll wichtige vom Sprecher unabhängige Faktoren der vom Betriebssystem empfangenen Sprachsignale wahrnehmbar verstärken. Im Modellierungs- und Klassifizierungsblock 36 verarbeiten Algorithmen die Sprachsignale weiter, um vom Sprecher unabhängige akustische Modelle an diejenigen des aktuellen Sprechers anzupassen. Schließlich werden in Suchblock 38 Suchalgorithmen verwendet, um die Suchmaschine zu den Wörtern zu führen, die mit der größten Wahrscheinlichkeit dem Sprachsignal entsprechen. Der Suchprozess in Suchblock 38 erfolgt mit Hilfe von akustischen Modellen 40, lexikalischen Modellen 42 und Sprachmodellen 44. Die Trainingsdaten 46 arbeiten mit lexikalischen Modellen 42 zusammen.
  • Ein Verfahren zur automatischen Aktualisierung von Sprachmodellen in einer Spracherkennungsanwendung in einer erfindungsgemäßen Anordnung ist in Flussdiagramm 50 in 4 dargestellt. Von Startblock 52 aus führt ein Sprecher eine Spracherkennungssitzung mit einer Spracherkennungsanwendung gemäß dem Schritt in Block 54 aus.
  • Gemäß einer bevorzugten Ausführungsform der Erfindung überwacht das System, ob ein diktiertes Wort durch ein Ersetzungswort ersetzt wird. Das diktierte Wort kann selbstverständlich auch eine Folge von diktierten Wörtern sein, und das Ersetzungswort kann eine Folge von Ersetzungswörtern sein. In den meisten Fällen besteht jedoch das diktierte Wort und das Ersetzungswort aus einem einzigen Wort.
  • Es gibt viele Situationen, in denen das System feststellt, dass ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist. Wenn beispielsweise ein neues Wort eingegeben oder auf andere Weise in ein Dokument eingefügt wird, wird geprüft, ob der Benutzer Text in unmittelbarer Nachbarschaft des eingefügten neuen Wortes gelöscht hat. Ist dies der Fall, so geht das System davon aus, dass ein Erkennungsfehler gemacht worden ist, und dass das neue Wort ein Ersetzungswort ist. Entsprechend zieht das System, wenn die Rücktaste oder die Löschtaste benutzt worden ist, um Zeichen in unmittelbarer Nachbarschaft des neuen Textes zu löschen, ebenfalls den Schluss, dass ein Erkennungsfehler gemacht wurde, und dass der neue Text als Ersetzungswort betrachtet wird. Wenn hingegen neuer Text eingefügt wurde, ohne dass diktierter Text überschrieben wurde, kann das System davon ausgehen, dass der neue Text einfach hinzugefügt wurde, und dass kein Erkennungsfehler gemacht wurde. In einem solchen Fall ist der neue Text nicht als Ersetzungswort charakterisiert.
  • In dem Schritt in Block 56 prüft das System zuerst, ob ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist. Eine solche Ersetzung kann erfolgen, indem das ganze diktierte Wort oder ein Teil davon überschrieben wird, indem das ganze diktierte Wort, oder ein Teil davon ausgeschnitten und ein Ersetzungswort eingefügt wird, oder indem das ganze diktierte Wort oder ein Teil davon gelöscht und durch ein Ersetzungswort ersetzt wird. Selbstverständlich ist die Erfindung aber nicht auf diese speziellen Ersetzungsverfahren beschränkt, und diese Ersetzung kann mit jedem geeigneten Ersetzungsverfahren, das in Fachkreisen bekannt ist, erfolgen. Das diktierte Wort kann aus einem einzigen Wort oder einer Folge von Wörtern bestehen.
  • Entsprechend kann auch das Ersetzungswort aus einem einzigen Wort oder einer Folge von Wörtern bestehen.
  • Wurde in Block 56 festgestellt, dass keine Ersetzung vorgenommen wurde, so verzweigt das System zu Schritt 74, wo geprüft wird, ob eine zusätzliche Eingabe für die Bewertung zur Verfügung steht. Wenn dies der Fall ist, verzweigt das System zurück zu dem Schritt in Block 54. Andernfalls verzweigt das System zu dem Schritt in Block 76, wo der erfindungsgemäße Algorithmus stoppt und auf ein Signal zur Rückkehr zum Startschritt in Block 52 wartet.
  • Wenn in dem Schritt in Block 56 festgestellt wird, dass ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist, verzweigt das Verfahren zu dem Schritt in Block 58, wo das diktierte Wort mit dem Ersetzungswort verglichen wird. Anschließend wird in Block 60 geprüft, ob das Ersetzungswort in einer Alternativwörterliste steht.
  • Die Alternativwörterliste kann bereits vorhanden sein oder durch ein geeignetes Verfahren generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung wie das diktierte Wort identifiziert. Die Alternativwörterliste besteht typischerweise aus Wörtern, die ähnlich klingen können wie die vom Spracherkennungsmodul identifizierten Wörter. Im wesentlichen handelt es sich bei den in der Alternativwörterliste aufgeführten Wörtern um weniger bevorzugte Wortidentifikationsmöglichkeiten, die vom Spracherkennungsmodul in Betracht gezogen wurden, als es versuchte, ein bestimmtes Wort oder eine Wortgruppe, die vom Sprecher gesprochen wurde, zu identifizieren. In manchen Fällen ist ein vom Spracherkennungsmodul ausgewähltes Wort falsch, und eines der Wörter in der Alternativwörterliste ist das vom Benutzer gesprochene Wort.
  • Wenn das Ersetzungswort in der Alternativwörterliste steht, geht das System davon aus, dass ein Erkennungsfehler gemacht wurde, und fährt mit dem Schritt in Block 72 fort, wo ein Sprachmodell mit einer Korrektur aktualisiert wird. Wie in Fachkreisen bekannt ist, besteht das Sprachmodell selbstverständlich aus statistischen Informationen über Wortmuster. Entsprechend handelt es sich bei der Korrektur des Sprachmodells nicht um eine akustische Korrektur, sondern um eine statistische. Nach der Aktualisierung des Sprachmodells fährt das System mit dem Schritt in Block 74 fort wie oben beschrieben.
  • Wenn beispielsweise ein Benutzer eines Spracherkennungssystems das Wort "beten" diktiert, das System dieses Wort aber als "bieten" erkennt, wurde ein Erkennungsfehler gemacht. Der Benutzer kann den Fehler korrigieren, indem er einfach die Rücktaste oder die Löschtaste benutzt, um das "i" aus dem Wort "bieten" zu löschen. Das System erkennt diese Änderung, klassifiziert das Wort "bieten" als diktiertes Wort und das Wort "beten" als Ersetzungswort und vergleicht das diktierte Wort mit dem Ersetzungswort (Block 58).
  • Das System entscheidet dann, ob das Ersetzungswort in einer Alternativwörterliste steht (Block 60). Wenn das Ersetzungswort in einer Alternativwörterliste steht, wird das Sprachmodell mit der Korrektur aktualisiert (Block 72), so dass das System lernt, wie das Diktat des Wortes "beten" richtig zu erkennen ist.
  • In manchen Fällen steht das Ersetzungswort nicht in einer Alternativwörterliste. In diesen Situationen entscheidet das Verfahren in Block 62, ob zwischen dem diktierten Wort und dem Ersetzungswort eine gute Übereinstimmung innerhalb einer statistischen Vorgabe besteht. Diese Entscheidung kann mittels eines geeigneten Vergleichsprozesses getroffen werden, z.B. durch Verwendung eines Algorithmus zum Vergleich von Phonetik, Grammatik, Rechtschreibung und/oder Kontext des diktierten Wortes und des Ersetzungswortes. Bei bestimmten Wörtern, z.B. bei dem Wort "zehn", kann der Kontext im Vergleichsschritt besonders nützlich sein. Wenn ein Benutzer beispielsweise diktiert "zehn geteilt durch fünf", erhöhen die Kontextwörter "geteilt" und "fünf" die statistische Wahrscheinlichkeit, dass der Benutzer das Wort "zehn" und nicht "Zehen" diktiert hat, sehr stark.
  • Wenn es zwischen dem diktierten Wort und dem Ersetzungswort keine gute Übereinstimmung, bestimmt durch eine vorgegebene statistische Größe, gibt, verzweigt das Verfahren zu dem oben beschriebenen Schritt in Block 74. Gibt es eine gute Übereinstimmung, so muss das System die Audiodaten der diktierten Sprache mit dem Ersetzungswort vergleichen, um festzustellen, ob es sich bei der Korrektur um eine Editierung oder um einen Spracherkennungsfehler handelt. Ein direkter Vergleich ist nicht möglich, da die Audiodaten des diktierten Wortes als Wellenform vorliegen, während das Ersetzungswort aus einer Folge von Zeichen besteht. Sowohl die Audiodaten des diktierten Wortes als auch die Zeichen des Ersetzungswortes müssen in Informationen umgewandelt werden, die direkt verglichen werden können.
  • Deshalb fährt das Verfahren, wenn in Block 62 eine gute Übereinstimmung festgestellt wurde, mit dem Schritt in Block 64 fort. In diesem Schritt werden die Audiodaten des diktierten Wortes in digitale Daten des diktierten Wortes umgewandelt. Dann verzweigt die Erfindung zu dem Schritt in Block 66, wo die Zeichen des Ersetzungswortes in digitale Daten des Ersetzungswortes umgewandelt werden. Verfahren zur Umwandlung von Sprache in Text und/oder von Text in Sprache sind in Fachkreisen gut bekannt. Verfahren zur Umwandlung von Sprache in Text umfassen typischerweise einen zweistufigen Prozess, in dem die Sprache zuerst in vom Computer generierte digitale Daten und diese dann in Text umgewandelt werden. Entsprechend wird bei der Umwandlung von Text in Sprache der Text typischerweise zuerst in vom Computer generierte digitale Informationen umgewandelt, und dann erzeugt das System Audiodaten, die mit den vom Computer generierten digitalen Informationen konsistent sind. In der Erfindung kann jedes beliebige Text-Sprache-Umwandlungsverfahren verwendet werden, das geeignet ist, ein Ersetzungswort in digitale Daten des Ersetzungswortes umzuwandeln. Außerdem kann jedes beliebige Sprache-Text-Umwandlungsverfahren verwendet werden, das geeignet ist, ein diktiertes Wort in digitale Daten des diktierten Wortes umzuwandeln.
  • Anschließend werden in dem Schritt in Block 68 die digitalen Daten des diktierten Wortes mit den digitalen Daten des Ersetzungswortes verglichen. In dem Schritt in Block 70 fährt das Verfahren, wenn eine gute Übereinstimmung innerhalb einer vorgegebenen statistischen Größe vorliegt, mit dem oben beschriebenen Block 72 fort, wo das Sprachmodell mit der Korrektur aktualisiert wird. Dann folgt Block 74, wo das System prüft, ob weitere Informationen zur Bewertung zur Verfügung stehen. Wurde keine gute Obereinstimmung innerhalb einer vorgegebenen statistischen Größe festgestellt, fährt das Verfahren mit dem oben beschriebenen Block 74 fort.
  • Wenn der Benutzer beispielsweise das Wort "beten" diktiert, das System dieses Wort fälschlicherweise als "bieten" identifiziert und der Benutzer den Fehler korrigiert, indem er das "i" aus dem Wort "bieten" entfernt, so verwendet das System ein Vergleichsverfahren wie oben beschrieben, um das diktierte Wort "bieten" mit dem Ersetzungswort "beten" zu vergleichen. Das System kann dann feststellen, ob das Ersetzungswort "beten" in einer Alternativwörterliste aufgeführt ist. Wenn "beten" nicht in der Alternativwörterliste steht, wird festgestellt, ob zwischen "beten" und "bieten" eine gute Übereinstimung innerhalb einer statistischen Vorgabe vorliegt (Schritt 62). Liegt eine gute Übereinstimmung vor, so wandelt das System die Rudiodaten des vom Benutzer diktierten Wortes in digitale Daten des diktierten Wortes (Schritt 64) und das Wort "beten" in digitale Daten des Ersetzungswortes (Schritt 66) um. Dann folgt ein digitaler Vergleich in Block 68. Wenn bei dem Vergleich festgestellt wird, dass eine gute Übereinstimmung innerhalb einer vorgegebenen Vorgabe vorliegt, wird das Sprachmodell aktualisiert, so dass das System lernt, die Aussprache des Wortes "beten" durch den Benutzer zu erkennen (Block 72).
  • Nachdem ein Benutzer ein einzelnes Wort oder mehrere Wörter diktiert hat, werden die Audiosignale dieses Diktats automatisch vom System gespeichert. Die Audiosignale können gespeichert bleiben, bis der Benutzer die Löschung der gespeicherten Audiosignale anfordert. Das System kann so konfiguriert werden, dass es einen Benutzer automatisch fragt, ob gespeicherte Audiosignale gelöscht werden sollen. Die Speicherung der Audiosignale, bis der Benutzer ihre Löschung anfordert, ermöglicht es dem Benutzer, das Diktat zu einem späteren Zeitpunkt zu editieren, da die Audiosignale der vom Benutzer diktierten Sprache für die Umwandlung in digitale Daten diktierter Wörter zur Verfügung stehen, die dann mit den digitalen Informationen von Ersetzungswörtern verglichen werden können.
  • Selbstverständlich dienen die hier beschriebenen Beispiele und Ausführungsformen nur Illustrationszwecken, und der Fachmann kann sich verschiedene Abwandlungen oder Änderungen verstellen, die ebenfalls unter den Schutzbereich dieser Patentanmeldung fallen. Die Erfindung kann andere spezifische Formen annehmen, ohne dass die eine Abweichung vom Wesen oder wesentlichen Attributen der Erfindung darstellt.

Claims (9)

  1. Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst: automatische Festellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort, automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort, wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Berücksichtigung des Ersetzungswortes bei der Aktualisierung des Sprachmodells.
  2. Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechenden Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst: automatische Festellung der Ersetzung eines Wortes der visuellen Darstellung eines diktierten Textes mit einem Ersetzungswort; automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort; wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Vergleich der Information des ersetzten Wortes mit der Information des Ersetzungswortes, ob die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung, und wenn die Übereinstimmung gut genug ist, Umwandlung der Audiosignale des ersetzten Wortes in digitale Informationen; Umwandlung des Ersetzungswortes in digitale Informationen; und Verwendung der digitalen Informationen des ersetzten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt und Berücksichtigung des Ersetzungswortes bei der Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist.
  3. Das Verfahren nach Anspruch 1 oder 2, wobei das Ersetzungswort entweder durch Überschreiben des ersetzten Wortes, durch Ausschneiden des ersetzten Wortes und Einfügen des Ersetzungswortes oder durch Löschen des ersetzten Wortes und Ersetzen durch das Ersetzungswort generiert wird.
  4. Das Verfahren nach Anspruch 1, wobei zumindest entweder das ersetzte Wort oder das Ersetzungswort aus mehreren Wörtern besteht.
  5. System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das System folgende Mittel umfasst Mittel zur automatischen Feststellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort, Mittel zum automatischen Vergleich des ersetzten Wortes mit dem Ersetzungswort, wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten diktierten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Mittel zur Verwendung des Ersetzungswortes bei der Aktualisierung des Sprachmodells.
  6. System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das System folgende Mittel umfasst: Mittel zur automatischen Feststellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort; Mittel zum automatischem Vergleich des ersetzten Wortes mit dem Ersetzungswort; wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Mittel zum Vergleich der Information des ersetzten Wortes mit der Information des Ersetzungswortes, ob die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung, und wenn die Übereinstimmung gut genug ist, Mittel zur Umwandlung der Audiosignale des ersetzten Wortes in digitale Informationen; Mittel zur Umwandlung des Ersetzungswortes in digitale Informationen; und Mittel zur Verwendung der digitalen Informationen des ersetzten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt und Mittel zur Verwendung des Ersetzungswortes bei der Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist.
  7. Das System nach Anspruch 5 oder 6, wobei das Ersetzungswort entweder durch ein Mittel zum Überschreiben des ersetzten Wortes, ein Mittel zum Ausschneiden des ersetzten Wortes und Einfügen des Ersetzungswortes oder ein Mittel zum Löschen des eresetzten Wortes und Ersetzen durch das Ersetzungswort generiert wird.
  8. Das System nach Anspruch 5 oder 6, wobei zumindest entweder das ersetzte Wort oder das Ersetzungswort aus mehreren Wörtern besteht.
  9. Ein maschinenlesbarer Speicher, in dem ein Computerprogramm, das von einer Maschine ausgeführt werden kann, gespeichert ist, um die Maschine dazu zu veranlassen, die Schritte nach Anspruch 1 – 4 auszuführen.
DE10040214A 1999-09-27 2000-08-17 Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem Expired - Fee Related DE10040214B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/406,661 1999-09-27
US09/406,661 US6418410B1 (en) 1999-09-27 1999-09-27 Smart correction of dictated speech

Publications (2)

Publication Number Publication Date
DE10040214A1 DE10040214A1 (de) 2001-04-19
DE10040214B4 true DE10040214B4 (de) 2006-03-30

Family

ID=23608946

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10040214A Expired - Fee Related DE10040214B4 (de) 1999-09-27 2000-08-17 Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem

Country Status (2)

Country Link
US (1) US6418410B1 (de)
DE (1) DE10040214B4 (de)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60128816T2 (de) * 2000-09-08 2008-02-07 Koninklijke Philips Electronics N.V. Spracherkennungsverfahren mit ersetzungsbefehl
US20020123894A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Processing speech recognition errors in an embedded speech recognition system
US6934682B2 (en) * 2001-03-01 2005-08-23 International Business Machines Corporation Processing speech recognition errors in an embedded speech recognition system
DE60207742T2 (de) * 2001-09-17 2006-08-03 Koninklijke Philips Electronics N.V. Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
US20030120493A1 (en) * 2001-12-21 2003-06-26 Gupta Sunil K. Method and system for updating and customizing recognition vocabulary
CA2502412A1 (en) * 2002-06-26 2004-01-08 Custom Speech Usa, Inc. A method for comparing a transcribed text file with a previously created file
US7260534B2 (en) * 2002-07-16 2007-08-21 International Business Machines Corporation Graphical user interface for determining speech recognition accuracy
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
CN100578615C (zh) * 2003-03-26 2010-01-06 微差通信奥地利有限责任公司 语音识别系统
GB2433002A (en) * 2003-09-25 2007-06-06 Canon Europa Nv Processing of Text Data involving an Ambiguous Keyboard and Method thereof.
GB0322516D0 (en) * 2003-09-25 2003-10-29 Canon Europa Nv Cellular mobile communication device
US8019602B2 (en) 2004-01-20 2011-09-13 Microsoft Corporation Automatic speech recognition learning using user corrections
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US7310602B2 (en) * 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
US7565282B2 (en) * 2005-04-14 2009-07-21 Dictaphone Corporation System and method for adaptive automatic error correction
US8473295B2 (en) * 2005-08-05 2013-06-25 Microsoft Corporation Redictation of misrecognized words using a list of alternatives
US7983914B2 (en) * 2005-08-10 2011-07-19 Nuance Communications, Inc. Method and system for improved speech recognition by degrading utterance pronunciations
US20070094022A1 (en) * 2005-10-20 2007-04-26 Hahn Koo Method and device for recognizing human intent
US7640158B2 (en) * 2005-11-08 2009-12-29 Multimodal Technologies, Inc. Automatic detection and application of editing patterns in draft documents
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US8407052B2 (en) * 2006-04-17 2013-03-26 Vovision, Llc Methods and systems for correcting transcribed audio files
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US7627562B2 (en) * 2006-06-13 2009-12-01 Microsoft Corporation Obfuscating document stylometry
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20080221884A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20080221900A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile local search environment speech processing facility
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US20110022387A1 (en) 2007-12-04 2011-01-27 Hager Paul M Correcting transcribed audio files with an email-client interface
US9111540B2 (en) * 2009-06-09 2015-08-18 Microsoft Technology Licensing, Llc Local and remote aggregation of feedback data for speech recognition
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US9904768B2 (en) 2011-02-18 2018-02-27 Nuance Communications, Inc. Methods and apparatus for presenting alternative hypotheses for medical facts
US10460288B2 (en) 2011-02-18 2019-10-29 Nuance Communications, Inc. Methods and apparatus for identifying unspecified diagnoses in clinical documentation
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US10504622B2 (en) 2013-03-01 2019-12-10 Nuance Communications, Inc. Virtual medical assistant methods and apparatus
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US11183300B2 (en) 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
US10496743B2 (en) 2013-06-26 2019-12-03 Nuance Communications, Inc. Methods and apparatus for extracting facts from a medical text
US9218811B2 (en) 2013-06-28 2015-12-22 Google Technology Holdings LLC Electronic device and method for managing voice entered text using gesturing
US20160004502A1 (en) * 2013-07-16 2016-01-07 Cloudcar, Inc. System and method for correcting speech input
US10319004B2 (en) 2014-06-04 2019-06-11 Nuance Communications, Inc. User and engine code handling in medical coding system
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
US10331763B2 (en) 2014-06-04 2019-06-25 Nuance Communications, Inc. NLU training with merged engine and user annotations
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10366424B2 (en) 2014-06-04 2019-07-30 Nuance Communications, Inc. Medical coding system with integrated codebook interface
US20170018268A1 (en) * 2015-07-14 2017-01-19 Nuance Communications, Inc. Systems and methods for updating a language model based on user input
US10366687B2 (en) 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
US11152084B2 (en) 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
WO2018057639A1 (en) 2016-09-20 2018-03-29 Nuance Communications, Inc. Method and system for sequencing medical billing codes
US10229682B2 (en) * 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
WO2018213788A1 (en) * 2017-05-18 2018-11-22 Aiqudo, Inc. Systems and methods for crowdsourced actions and commands
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
US11551006B2 (en) * 2019-09-09 2023-01-10 International Business Machines Corporation Removal of personality signatures

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
DE68928097T2 (de) * 1988-12-06 1997-10-16 Dragon Systems Inc Spracherkennungssystem
EP0840288A2 (de) * 1996-10-31 1998-05-06 Microsoft Corporation Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
DE68928097T2 (de) * 1988-12-06 1997-10-16 Dragon Systems Inc Spracherkennungssystem
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
EP0840288A2 (de) * 1996-10-31 1998-05-06 Microsoft Corporation Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text

Also Published As

Publication number Publication date
DE10040214A1 (de) 2001-04-19
US6418410B1 (en) 2002-07-09

Similar Documents

Publication Publication Date Title
DE10040214B4 (de) Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem
DE60010827T2 (de) Hintergrundsystem für Audiodatenbeseitigung
DE60033106T2 (de) Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60012655T2 (de) Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE68928097T2 (de) Spracherkennungssystem
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE3910467C2 (de) Verfahren und Vorrichtung zur Erzeugung von Berichten
DE69829802T2 (de) Spracherkennungsapparat zum Übertragen von Sprachdaten auf einem Datenträger in Textdaten
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE60318505T2 (de) Sprachbefehlinterpreter mit Funktion zur Verfolgung des Dialogfokuses und Verfahren zur Interpretation von Sprachbefehlen
EP1184839A2 (de) Graphem-Phonem-Konvertierung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE10054583A1 (de) Verfahren und Vorrichtung zur Behandlung von Sprachinformationen
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE10040063A1 (de) Verfahren zur Zuordnung von Phonemen
DE69333762T2 (de) Spracherkennungssystem

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)
8321 Willingness to grant licences paragraph 23 withdrawn
8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN

8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee