DE10040214B4 - Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem - Google Patents
Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem Download PDFInfo
- Publication number
- DE10040214B4 DE10040214B4 DE10040214A DE10040214A DE10040214B4 DE 10040214 B4 DE10040214 B4 DE 10040214B4 DE 10040214 A DE10040214 A DE 10040214A DE 10040214 A DE10040214 A DE 10040214A DE 10040214 B4 DE10040214 B4 DE 10040214B4
- Authority
- DE
- Germany
- Prior art keywords
- word
- replacement
- replaced
- replacement word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012937 correction Methods 0.000 claims abstract description 24
- 230000000007 visual effect Effects 0.000 claims abstract 15
- 230000005236 sound signal Effects 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 2
- 238000003780 insertion Methods 0.000 claims 2
- 230000037431 insertion Effects 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000012800 visualization Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 230000003993 interaction Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000003371 toe Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
Verfahren
zur automatischen Erkennung einer Aktualisierung eines Sprachmodells
in einem Spracherkennungssystem, wobei das Spracherkennungssystem
einen vom Benutzer dikitierten Text in Sprachsignale umwandelt,
diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende
Wörter
zuordnet und dem Benutzer als visuelle Darstellung des diktierten
Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung
des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das
Verfahren folgende Schritte umfasst:
automatische Festellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort,
automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort,
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und
wenn das Ersetzungswort...
automatische Festellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort,
automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort,
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und
wenn das Ersetzungswort...
Description
- Gegenstand der Erfindung
- Die vorliegende Erfindung betrifft Sprachdiktiersysteme im Allgemeinen, und speziell ein Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem.
- Die Spracherkennung ist ein Prozess, durch den ein akustisches Signal, das von einem Wandlerelement wie z.B. einem Mikrofon empfangen wird, von einem Computer in eine Folge von Textwörtern umgewandelt wird. Diese erkannten Wörter können dann in verschiedenen Computersoftware-Anwendungen zum Zweck der Dokumentbearbeitung oder Dateneingabe sowie für Befehle und Steueranweisungen verwendet werden. Verbesserungen bei Sprachdiktiersystemen sind ein wichtiges Mittel zur Steigerung der Produktivität eines Benutzers. Eine Möglichkeit der Verbesserung besteht darin, dass man dem Benutzer Mittel zur Verfügung stellt, mit denen er diktierten Text direkt, d.h. ohne Interaktion mit Korrekturdialogen, ändern kann. Sofern das System Änderungen nicht überwacht und entscheidet, was Korrekturen sind, die zur Verarbeitung als Korrektur an das Sprachmodul gesendet werden müssen, und was Editierungen sind, die vom System ignoriert werden sollen, hat der Benutzer keinen Vorteil von der kontinuierlichen Verbesserung der Erkennungsleistung, die sich ergibt, wenn das Modul Korrekturinformationen erhält.
- ÜBERBLICK ÜBER DIE ERFINDUNG
- In einem Spracherkennungssystem umfasst ein Verfahren zur Aktualisierung eines Sprachmodells während einer Korrektursitzung folgende Schritte: Diktieren eines diktierten Wortes, Bereitstellung eines Ersetzungswortes und automatischer Vergleich des diktierten Wortes mit dem Ersetzungswort unter Zuhilfenahme eines geeigneten Vergleichsmittels, z.B. eines Algorithmus zum Vergleich der Phonetik, Grammatik, Rechtschreibung oder des Kontexts aus vorausgehenden und nachfolgenden Wörtern. wenn beim Vergleich innerhalb einer statistischen Vorgabe eine hinreichende Ähnlichkeit festgestellt wird, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und nicht eine Editierung ist, umfasst das verfahren außerdem den Schritt der Erkennung, ob das Ersetzungswort in einer Alternativwörterliste enthalten ist. Das Alternativwort kann bereits vorhanden sein oder durch ein geeignetes Verfahren generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung identifiziert. Das Verfahren umfasst ferner die Aktualisierung des Sprachmodells ohne Interaktion des Benutzers, falls das Ersetzungswort in der Alternativwörterliste aufgeführt ist. wenn das Ersetzungswort nicht in der Alternativwörterliste steht, wird die digitale Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes verglichen, und das Sprachmodell wird aktualisiert, wenn der digitale Vergleich eine hinreichende Übereinstimmung innerhalb eines vorgegebenen statistischen Bereichs ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.
- Das Verfahren kann außerdem vor dem digitalen Vergleich folgende Schritte umfassen: Umwandeln der Audiodaten des diktierten Wortes in digitale Information des diktierten Wortes, Umwandeln des Textes des Ersetzungswortes in digitale Information des Ersetzungswortes und Verwendung der digitalen Information des diktierten Wortes und des Ersetzungswortes im digitalen Vergleichsschritt.
- In dem Verfahren kann das Ersetzungswort durch jedes geeignete Verfahren generiert werden, z.B. durch Überschreiben des diktierten Wortes, durch Ausschneiden des diktierten Wortes und Einfügen des Ersetzungswortes oder durch Löschen des diktierten Wortes und Ersetzen durch das Ersetzungswort. Das diktierte Wort kann aus einem einzigen Wort oder aus mehreren Wörtern bestehen; in der Regel handelt es sich aber um ein einzelnes Wort. Entsprechend kann auch das diktierte Wort aus einem einzigen Wort oder aus mehreren Wörtern bestehen, in der Regel aber aus einem einzelnen Wort.
- In einem zweiten Aspekt umfasst die Erfindung ein System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem wobei das System ein Mittel umfasst, das ein diktiertes Wort automatisch mit Hilfe eines geeigneten Vergleichsmittels mit einem Ersetzungswort vergleicht, z.B. mit Hilfe eines Algorithmus zum Vergleichen der Phonetik, Grammatik, Rechtschreibung und/oder der Wörter, die den Kontext bilden. Wenn beim Vergleich innerhalb einer statistischen Vorgabe eine hinreichende Ähnlichkeit festgestellt wird, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und nicht eine Editierung ist, umfasst das System außerdem ein Mittel zum Aktualisieren des Sprachmodells ohne Interaktion des Benutzers, sofern das Ersetzungswort in der Alternativwörterliste enthalten ist. Das Alternativwort kann bereits vorhanden sein oder durch ein geeignetes Mittel generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung identifiziert. Wenn das Ersetzungswort nicht in der Alternativwörterliste steht, umfasst das System außerdem ein Mittel zum Vergleichen der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes, und ein Mittel zur Aktualisierung des Sprachmodells, wenn der digitale Vergleich eine hinreichende Übereinstimmung innerhalb einer statistischen Vorgabe ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und keine Editierung ist.
- In einem dritten Aspekt umfasst die Erfindung einen maschinenlesbaren Speicher, in dem ein Computerprogramm gespeichert ist, um die Maschine dazu zu veranlassen, eine Folge von Schritten auszuführen. Der maschinenlesbare Speicher veranlasst die Maschine, den Schritt auszuführen, in dem automatisch ein diktiertes Wort mit Hilfe eines geeigneten Vergleichsmittels mit einem Ersetzungswort verglichen wird, z.B. mit Hilfe eines Algorithmus zum Vergleich der Phonetik, Grammatik, Rechtschreibung und/oder der Wörter, die den Kontext bilden. Außerdem veranlasst der maschinenlesbare Speicher die Maschine dazu, folgende Schritte auszuführen: Feststellen, ob das Ersetzungswort in einer Alternativliste steht, falls der Vergleich eine hinreichende Übereinstimmung innerhalb vorgegebener statistischer Grenzen ergibt, die darauf schließen lässt, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung darstellt, und Aktualisieren des Sprachmodells ohne Interaktion des Benutzers, falls das Ersetzungswort in der Alternativwörterliste aufgeführt ist. Wenn das Ersetzungswort nicht in der Alternativwörterliste steht, veranlasst der maschinenlesbare Speicher die Maschine dazu, den Schritt des Vergleichs der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes auszuführen, und falls der digitale Vergleich eine hinreichende Übereinstimmung innerhalb vorgegebener statistischer Grenzen ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und keine Editierung ist, das Sprachmodell zu aktualisieren.
- KURZBESCHREIBUNG DER ZEICHNUNGEN
- In den Zeichnungen sind bevorzugte Ausführungsformen dargestellt, wobei die Erfindung aber selbstverständlich nicht auf die genauen Anordnungen und Instrumentalisierungen in den Zeichnungen beschränkt ist. Die Zeichnungen haben folgenden Inhalt:
-
1 zeigt ein Computersystem zur Spracherkennung, in dem das erfindungsgemäße System verwendet werden kann. -
2 ist ein Blockdiagramm des Prinzips einer typischen Architektur des in1 dargestellten Computersystems. -
3 ist ein Blockdiagramm einer typischen Architektur für ein Spracherkennungsmodul. -
4 ist ein Flussdiagramm, in dem der Ablauf der Programmsteuerung gemäß einem Aspekt der erfindungsgemäßen Anordnungen dargestellt ist. - AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
- In
1 ist ein typisches Computersystem20 zur Verwendung in Verbindung mit der vorliegenden Erfindung dargestellt. Das System besteht vorzugsweise aus einem Computer34 mit einer Zentraleinheit (CPU), einer oder mehreren Speichervorrichtungen und den zugehörigen Schaltungen. Außerdem enthält das System ein Mikrofon30 , das über eine geeignete Schnittstellenschaltung oder eine Soundkarte (nicht dargestellt) mit dem Computer verbunden ist, und mindestens ein Anzeigegerät32 , z.B. ein Videodatenterminal (VDT), das an den Computer angeschlossen ist. Wie in Fachkreisen bekannt ist, kann die CPU aus jedem geeigneten Mikroprozessor oder einer anderen elektronischen Verarbeitungseinheit bestehen. Ein Beispiel für eine solche CPU ist der Mikroprozessor des Typs Pentium oder Pentium II von der Intel Corporation oder ein ähnlicher Mikroprozessor. Das System kann ferner Lautsprecher23 sowie eine Schnittstellenvorrichtung wie z.B. eine Maus21 enthalten; diese Komponenten sind aber für die hier beschriebene Erfindung nicht unbedingt erforderlich. - Die verschiedenen Hardware-Voraussetzungen für das hier beschriebene Computersystem können in der Regel durch einen der vielen im Handel erhältlichen, schnellen Multimedia-PCs von Herstellern wie der International Business Machines Corporation (IBM) erfüllt werden. In
2 ist eine typische Architektur für ein Spracherkennungssystem in Computer20 dargestellt. Wie in2 zu sehen ist, enthält das System typischerweise ein Betriebssystem24 und eine Spracherkennungsanwendung26 . In dem dargestellten Beispiel sind auch eine Sprachtextverarbeitung28 und eine Sprachnavigationsanwendung22 vorhanden. Die Erfindung ist in dieser Hinsicht jedoch nicht beschränkt, und die Spracherkennungsanwendung2b kann in Verbindung mit jedem anderen Anwendungsprogramm verwendet werden, das mit einer Sprachverarbeitungsfähigkeit ausgestattet werden soll. In2 sind das Spracherkennungsmodul26 , die Sprachtextverarbeitung28 und der Sprachnavigator22 als separate Anwendungsprogramme dargestellt. Es sei jedoch darauf hingewiesen, dass die Erfindung in dieser Hinsicht keinen Einschränkungen unterliegt, und dass diese verschiedenen Anwendungsprogramme im Form eines komplexeren Anwendungsprogramms implementiert werden könnten. So könnte zum Beispiel die Spracherkennungsanwendung26 mit der Sprachtextverarbeitungsanwendung oder mit einer anderen Anwendung, die in Verbindung mit der Spracherkennungsanwendung verwendet werden soll, kombiniert sein. Wenn keine anderen Sprachanwendungsprogramme in Verbindung mit der Sprachtextverarbeitungs-Anwendung und dem Spracherkennungsmodul verwendet werden sollen, kann das System auch so abgewandelt werden, dass es ohne die Sprachnavigationsanwendung arbeitet. Der Hauptzweck der Sprachnavigationsanwendung besteht darin, zur Koordination der Funktion der Spracherkennungsanwendung beizutragen. - In einer bevorzugten Ausführungsform, die hier beschrieben wird, ist das Betriebssystem eines der Betriebssysteme aus der Windows-Familie. Das System unterliegt in dieser Hinsicht aber keinerlei Einschränkungen, und die Erfindung kann auch in Verbindung mit jedem anderen Betriebssystem wie z.B. Windows NT, Windows 95 oder Windows 98, die alle von der Microsoft Corporation in Redmond, Washington, hergestellt werden, verwendet werden. Das hier beschriebene System kann von einem Programmierer mit Hilfe handelsüblicher Entwicklungs-Tools für das erwähnte Betriebssystem implementiert werden. Wie in
2 zu sehen ist, enthält das Computersystem20 eine Speichervorrichtung27 , die vorzugsweise aus einem elektronischen Arbeitsspeicher und einem großen Datenspeichermedium wie einem Festplattenlaufwerk besteht. - Audiosignale, die einen im Mikrofon
30 empfangenen Klang oder einen in einer Aufzeichnung auf einem Aufnahmegerät enthaltenen Klang darstellen, werden im Computer20 mit Hilfe konventioneller Computer-Audioschaltungen verarbeitet, so dass sie dem Betriebssystem24 in digitalisierter Form zur Verfügung stehen. Die vom Computer empfangenen Audiosignale werden dem Spracherkennungsmodul26 konventionell über das Betriebssystem24 zur Verfügung gestellt, um Spracherkennungsfunktionen auszuführen. In konventionellen Spracherkennungssystemen werden die Audiosignale vom Spracherkennungsmodul26 verarbeitet, um Wörter, die von einem Benutzer in das Mikrofon30 gesprochen werden, oder Wörter, die von einem Benutzer gesprochen und auf einem Aufnahmegerät aufgezeichnet werden, zu identifizieren. - Audiosignale, die auf einem Aufnahmegerät aufgezeichnet worden sind, können auf verschiedene Weise an das Spracherkennungssystem übertragen werden. Das Aufnahmegerät ist über ein geeignetes Kabel mit dem Computersystem verbunden. Im Fall digitaler Aufnahmegeräte kann ein digitaler Ausgang des Aufnahmegeräts mit einem digitalen Eingang des Computersystems verbunden sein. Alternativ kann im Fall von analogen Aufnahmegeräten ein Kabel vom analogen Ausgang des Aufnahmegeräts mit dem analogen Eingang der Soundkarte des Computersystems verbunden sein. Eine Variante des Aufnahmegeräts enthält Software, die mit dem Spracherkennungssystem zusammenarbeitet. Diese Software gibt dem Spracherkennungssystem die Möglichkeit, diktierte Aufzeichnungen auf Aufnahmegeräten als Computerdateien zu betrachten, ähnlich wie Dateien auf einem Magnetplattenlaufwerk betrachtet werden können. So kann das Aufnahmegerät beispielsweise, wenn es richtig an das Computersystem angeschlossen ist, für die Spracherkennungsanwendung als Massenspeicher erscheinen wie ein Magnetplattenlaufwerk. In diesem Fall kann der Benutzer eine Dialogbox öffnen, während er mit der Spracherkennungsanwendung arbeitet, und die diktierte Aufzeichnung auswählen, die an das Spracherkennungssystem übertragen werden soll. Die diktierte Aufzeichnung wird dann vom Diktiergerät als Computerdatei an das Computersystem und an das Spracherkennungssystem übertragen.
- Eine andere Art von Aufnahmegeräten besitzt Software-Tools, die die diktierte Aufzeichnung auf das Computersystem kopieren. In diesem Fall ist das Aufnahmegerät auf die oben beschriebene Weise mit dem Computersystem verbunden. Die Software-Tools des Aufnahmegeräts können dazu verwendet werden, die diktierte Aufzeichnung vom Aufnahmegerät an das Computersystem zu übertragen und dabei die diktierte Aufzeichnung als Computerdatei zu speichern. Dann kann der Benutzer über eine Dialogbox in der Spracherkennungsanwendung die gewünschte diktierte Aufzeichnung auswählen, die als Computerdatei von der Festplatte des Computersystems erscheint.
- Unabhängig davon, wie die diktierte Aufzeichnung übertragen wird, ist daran zu denken, dass entweder eine digitale Aufzeichnung oder eine analoge Aufzeichnung übertragen werden kann. Im Fall einer analogen Aufzeichnung kann das Computersystem die diktierte Aufzeichnung, wenn diese vom Aufnahmegerät abgespielt wird, digital aufzeichnen. Die resultierende Computerdatei, die die diktierte Aufzeichnung enthält, kann dann dem Sprachverarbeitungssystem zur Verfügung gestellt werden.
-
3 ist ein Blockdiagramm der typischen Komponenten, aus denen die Spracherkennungsanwendung26 besteht. Wie in3 zu sehen ist, empfängt das Spracherkennungsmodul26 ein digitalisiertes Sprachsignal vom Betriebssystem. Das Signal wird dann in Block34 in einen sinnvollen Datensatz umgewandelt, indem das Signal mit einer festgelegten Rate abgetastet wird, typischerweise alle 10-20 msec. Im Darstellungsblock wird eine neue Darstellung des Audiosignals erzeugt, die dann in nachfolgenden Schritten des Spracherkennungsprozesses benutzt werden kann, um die Wahrscheinlichkeit zu ermitteln, mit der dieser gerade analysierte Wellenformteil einem bestimmten phonetischen Ereignis zugeordnet werden kann. Dieser Prozess soll wichtige vom Sprecher unabhängige Faktoren der vom Betriebssystem empfangenen Sprachsignale wahrnehmbar verstärken. Im Modellierungs- und Klassifizierungsblock36 verarbeiten Algorithmen die Sprachsignale weiter, um vom Sprecher unabhängige akustische Modelle an diejenigen des aktuellen Sprechers anzupassen. Schließlich werden in Suchblock38 Suchalgorithmen verwendet, um die Suchmaschine zu den Wörtern zu führen, die mit der größten Wahrscheinlichkeit dem Sprachsignal entsprechen. Der Suchprozess in Suchblock38 erfolgt mit Hilfe von akustischen Modellen40 , lexikalischen Modellen42 und Sprachmodellen44 . Die Trainingsdaten46 arbeiten mit lexikalischen Modellen42 zusammen. - Ein Verfahren zur automatischen Aktualisierung von Sprachmodellen in einer Spracherkennungsanwendung in einer erfindungsgemäßen Anordnung ist in Flussdiagramm
50 in4 dargestellt. Von Startblock52 aus führt ein Sprecher eine Spracherkennungssitzung mit einer Spracherkennungsanwendung gemäß dem Schritt in Block54 aus. - Gemäß einer bevorzugten Ausführungsform der Erfindung überwacht das System, ob ein diktiertes Wort durch ein Ersetzungswort ersetzt wird. Das diktierte Wort kann selbstverständlich auch eine Folge von diktierten Wörtern sein, und das Ersetzungswort kann eine Folge von Ersetzungswörtern sein. In den meisten Fällen besteht jedoch das diktierte Wort und das Ersetzungswort aus einem einzigen Wort.
- Es gibt viele Situationen, in denen das System feststellt, dass ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist. Wenn beispielsweise ein neues Wort eingegeben oder auf andere Weise in ein Dokument eingefügt wird, wird geprüft, ob der Benutzer Text in unmittelbarer Nachbarschaft des eingefügten neuen Wortes gelöscht hat. Ist dies der Fall, so geht das System davon aus, dass ein Erkennungsfehler gemacht worden ist, und dass das neue Wort ein Ersetzungswort ist. Entsprechend zieht das System, wenn die Rücktaste oder die Löschtaste benutzt worden ist, um Zeichen in unmittelbarer Nachbarschaft des neuen Textes zu löschen, ebenfalls den Schluss, dass ein Erkennungsfehler gemacht wurde, und dass der neue Text als Ersetzungswort betrachtet wird. Wenn hingegen neuer Text eingefügt wurde, ohne dass diktierter Text überschrieben wurde, kann das System davon ausgehen, dass der neue Text einfach hinzugefügt wurde, und dass kein Erkennungsfehler gemacht wurde. In einem solchen Fall ist der neue Text nicht als Ersetzungswort charakterisiert.
- In dem Schritt in Block
56 prüft das System zuerst, ob ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist. Eine solche Ersetzung kann erfolgen, indem das ganze diktierte Wort oder ein Teil davon überschrieben wird, indem das ganze diktierte Wort, oder ein Teil davon ausgeschnitten und ein Ersetzungswort eingefügt wird, oder indem das ganze diktierte Wort oder ein Teil davon gelöscht und durch ein Ersetzungswort ersetzt wird. Selbstverständlich ist die Erfindung aber nicht auf diese speziellen Ersetzungsverfahren beschränkt, und diese Ersetzung kann mit jedem geeigneten Ersetzungsverfahren, das in Fachkreisen bekannt ist, erfolgen. Das diktierte Wort kann aus einem einzigen Wort oder einer Folge von Wörtern bestehen. - Entsprechend kann auch das Ersetzungswort aus einem einzigen Wort oder einer Folge von Wörtern bestehen.
- Wurde in Block
56 festgestellt, dass keine Ersetzung vorgenommen wurde, so verzweigt das System zu Schritt74 , wo geprüft wird, ob eine zusätzliche Eingabe für die Bewertung zur Verfügung steht. Wenn dies der Fall ist, verzweigt das System zurück zu dem Schritt in Block54 . Andernfalls verzweigt das System zu dem Schritt in Block76 , wo der erfindungsgemäße Algorithmus stoppt und auf ein Signal zur Rückkehr zum Startschritt in Block52 wartet. - Wenn in dem Schritt in Block
56 festgestellt wird, dass ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist, verzweigt das Verfahren zu dem Schritt in Block58 , wo das diktierte Wort mit dem Ersetzungswort verglichen wird. Anschließend wird in Block60 geprüft, ob das Ersetzungswort in einer Alternativwörterliste steht. - Die Alternativwörterliste kann bereits vorhanden sein oder durch ein geeignetes Verfahren generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung wie das diktierte Wort identifiziert. Die Alternativwörterliste besteht typischerweise aus Wörtern, die ähnlich klingen können wie die vom Spracherkennungsmodul identifizierten Wörter. Im wesentlichen handelt es sich bei den in der Alternativwörterliste aufgeführten Wörtern um weniger bevorzugte Wortidentifikationsmöglichkeiten, die vom Spracherkennungsmodul in Betracht gezogen wurden, als es versuchte, ein bestimmtes Wort oder eine Wortgruppe, die vom Sprecher gesprochen wurde, zu identifizieren. In manchen Fällen ist ein vom Spracherkennungsmodul ausgewähltes Wort falsch, und eines der Wörter in der Alternativwörterliste ist das vom Benutzer gesprochene Wort.
- Wenn das Ersetzungswort in der Alternativwörterliste steht, geht das System davon aus, dass ein Erkennungsfehler gemacht wurde, und fährt mit dem Schritt in Block
72 fort, wo ein Sprachmodell mit einer Korrektur aktualisiert wird. Wie in Fachkreisen bekannt ist, besteht das Sprachmodell selbstverständlich aus statistischen Informationen über Wortmuster. Entsprechend handelt es sich bei der Korrektur des Sprachmodells nicht um eine akustische Korrektur, sondern um eine statistische. Nach der Aktualisierung des Sprachmodells fährt das System mit dem Schritt in Block74 fort wie oben beschrieben. - Wenn beispielsweise ein Benutzer eines Spracherkennungssystems das Wort "beten" diktiert, das System dieses Wort aber als "bieten" erkennt, wurde ein Erkennungsfehler gemacht. Der Benutzer kann den Fehler korrigieren, indem er einfach die Rücktaste oder die Löschtaste benutzt, um das "i" aus dem Wort "bieten" zu löschen. Das System erkennt diese Änderung, klassifiziert das Wort "bieten" als diktiertes Wort und das Wort "beten" als Ersetzungswort und vergleicht das diktierte Wort mit dem Ersetzungswort (Block
58 ). - Das System entscheidet dann, ob das Ersetzungswort in einer Alternativwörterliste steht (Block
60 ). Wenn das Ersetzungswort in einer Alternativwörterliste steht, wird das Sprachmodell mit der Korrektur aktualisiert (Block72 ), so dass das System lernt, wie das Diktat des Wortes "beten" richtig zu erkennen ist. - In manchen Fällen steht das Ersetzungswort nicht in einer Alternativwörterliste. In diesen Situationen entscheidet das Verfahren in Block
62 , ob zwischen dem diktierten Wort und dem Ersetzungswort eine gute Übereinstimmung innerhalb einer statistischen Vorgabe besteht. Diese Entscheidung kann mittels eines geeigneten Vergleichsprozesses getroffen werden, z.B. durch Verwendung eines Algorithmus zum Vergleich von Phonetik, Grammatik, Rechtschreibung und/oder Kontext des diktierten Wortes und des Ersetzungswortes. Bei bestimmten Wörtern, z.B. bei dem Wort "zehn", kann der Kontext im Vergleichsschritt besonders nützlich sein. Wenn ein Benutzer beispielsweise diktiert "zehn geteilt durch fünf", erhöhen die Kontextwörter "geteilt" und "fünf" die statistische Wahrscheinlichkeit, dass der Benutzer das Wort "zehn" und nicht "Zehen" diktiert hat, sehr stark. - Wenn es zwischen dem diktierten Wort und dem Ersetzungswort keine gute Übereinstimmung, bestimmt durch eine vorgegebene statistische Größe, gibt, verzweigt das Verfahren zu dem oben beschriebenen Schritt in Block
74 . Gibt es eine gute Übereinstimmung, so muss das System die Audiodaten der diktierten Sprache mit dem Ersetzungswort vergleichen, um festzustellen, ob es sich bei der Korrektur um eine Editierung oder um einen Spracherkennungsfehler handelt. Ein direkter Vergleich ist nicht möglich, da die Audiodaten des diktierten Wortes als Wellenform vorliegen, während das Ersetzungswort aus einer Folge von Zeichen besteht. Sowohl die Audiodaten des diktierten Wortes als auch die Zeichen des Ersetzungswortes müssen in Informationen umgewandelt werden, die direkt verglichen werden können. - Deshalb fährt das Verfahren, wenn in Block
62 eine gute Übereinstimmung festgestellt wurde, mit dem Schritt in Block64 fort. In diesem Schritt werden die Audiodaten des diktierten Wortes in digitale Daten des diktierten Wortes umgewandelt. Dann verzweigt die Erfindung zu dem Schritt in Block66 , wo die Zeichen des Ersetzungswortes in digitale Daten des Ersetzungswortes umgewandelt werden. Verfahren zur Umwandlung von Sprache in Text und/oder von Text in Sprache sind in Fachkreisen gut bekannt. Verfahren zur Umwandlung von Sprache in Text umfassen typischerweise einen zweistufigen Prozess, in dem die Sprache zuerst in vom Computer generierte digitale Daten und diese dann in Text umgewandelt werden. Entsprechend wird bei der Umwandlung von Text in Sprache der Text typischerweise zuerst in vom Computer generierte digitale Informationen umgewandelt, und dann erzeugt das System Audiodaten, die mit den vom Computer generierten digitalen Informationen konsistent sind. In der Erfindung kann jedes beliebige Text-Sprache-Umwandlungsverfahren verwendet werden, das geeignet ist, ein Ersetzungswort in digitale Daten des Ersetzungswortes umzuwandeln. Außerdem kann jedes beliebige Sprache-Text-Umwandlungsverfahren verwendet werden, das geeignet ist, ein diktiertes Wort in digitale Daten des diktierten Wortes umzuwandeln. - Anschließend werden in dem Schritt in Block
68 die digitalen Daten des diktierten Wortes mit den digitalen Daten des Ersetzungswortes verglichen. In dem Schritt in Block70 fährt das Verfahren, wenn eine gute Übereinstimmung innerhalb einer vorgegebenen statistischen Größe vorliegt, mit dem oben beschriebenen Block72 fort, wo das Sprachmodell mit der Korrektur aktualisiert wird. Dann folgt Block74 , wo das System prüft, ob weitere Informationen zur Bewertung zur Verfügung stehen. Wurde keine gute Obereinstimmung innerhalb einer vorgegebenen statistischen Größe festgestellt, fährt das Verfahren mit dem oben beschriebenen Block74 fort. - Wenn der Benutzer beispielsweise das Wort "beten" diktiert, das System dieses Wort fälschlicherweise als "bieten" identifiziert und der Benutzer den Fehler korrigiert, indem er das "i" aus dem Wort "bieten" entfernt, so verwendet das System ein Vergleichsverfahren wie oben beschrieben, um das diktierte Wort "bieten" mit dem Ersetzungswort "beten" zu vergleichen. Das System kann dann feststellen, ob das Ersetzungswort "beten" in einer Alternativwörterliste aufgeführt ist. Wenn "beten" nicht in der Alternativwörterliste steht, wird festgestellt, ob zwischen "beten" und "bieten" eine gute Übereinstimung innerhalb einer statistischen Vorgabe vorliegt (Schritt
62 ). Liegt eine gute Übereinstimmung vor, so wandelt das System die Rudiodaten des vom Benutzer diktierten Wortes in digitale Daten des diktierten Wortes (Schritt64 ) und das Wort "beten" in digitale Daten des Ersetzungswortes (Schritt66 ) um. Dann folgt ein digitaler Vergleich in Block68 . Wenn bei dem Vergleich festgestellt wird, dass eine gute Übereinstimmung innerhalb einer vorgegebenen Vorgabe vorliegt, wird das Sprachmodell aktualisiert, so dass das System lernt, die Aussprache des Wortes "beten" durch den Benutzer zu erkennen (Block72 ). - Nachdem ein Benutzer ein einzelnes Wort oder mehrere Wörter diktiert hat, werden die Audiosignale dieses Diktats automatisch vom System gespeichert. Die Audiosignale können gespeichert bleiben, bis der Benutzer die Löschung der gespeicherten Audiosignale anfordert. Das System kann so konfiguriert werden, dass es einen Benutzer automatisch fragt, ob gespeicherte Audiosignale gelöscht werden sollen. Die Speicherung der Audiosignale, bis der Benutzer ihre Löschung anfordert, ermöglicht es dem Benutzer, das Diktat zu einem späteren Zeitpunkt zu editieren, da die Audiosignale der vom Benutzer diktierten Sprache für die Umwandlung in digitale Daten diktierter Wörter zur Verfügung stehen, die dann mit den digitalen Informationen von Ersetzungswörtern verglichen werden können.
- Selbstverständlich dienen die hier beschriebenen Beispiele und Ausführungsformen nur Illustrationszwecken, und der Fachmann kann sich verschiedene Abwandlungen oder Änderungen verstellen, die ebenfalls unter den Schutzbereich dieser Patentanmeldung fallen. Die Erfindung kann andere spezifische Formen annehmen, ohne dass die eine Abweichung vom Wesen oder wesentlichen Attributen der Erfindung darstellt.
Claims (9)
- Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst: automatische Festellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort, automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort, wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Berücksichtigung des Ersetzungswortes bei der Aktualisierung des Sprachmodells.
- Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechenden Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst: automatische Festellung der Ersetzung eines Wortes der visuellen Darstellung eines diktierten Textes mit einem Ersetzungswort; automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort; wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Vergleich der Information des ersetzten Wortes mit der Information des Ersetzungswortes, ob die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung, und wenn die Übereinstimmung gut genug ist, Umwandlung der Audiosignale des ersetzten Wortes in digitale Informationen; Umwandlung des Ersetzungswortes in digitale Informationen; und Verwendung der digitalen Informationen des ersetzten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt und Berücksichtigung des Ersetzungswortes bei der Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist.
- Das Verfahren nach Anspruch 1 oder 2, wobei das Ersetzungswort entweder durch Überschreiben des ersetzten Wortes, durch Ausschneiden des ersetzten Wortes und Einfügen des Ersetzungswortes oder durch Löschen des ersetzten Wortes und Ersetzen durch das Ersetzungswort generiert wird.
- Das Verfahren nach Anspruch 1, wobei zumindest entweder das ersetzte Wort oder das Ersetzungswort aus mehreren Wörtern besteht.
- System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das System folgende Mittel umfasst Mittel zur automatischen Feststellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort, Mittel zum automatischen Vergleich des ersetzten Wortes mit dem Ersetzungswort, wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten diktierten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Mittel zur Verwendung des Ersetzungswortes bei der Aktualisierung des Sprachmodells.
- System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das System folgende Mittel umfasst: Mittel zur automatischen Feststellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort; Mittel zum automatischem Vergleich des ersetzten Wortes mit dem Ersetzungswort; wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Mittel zum Vergleich der Information des ersetzten Wortes mit der Information des Ersetzungswortes, ob die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung, und wenn die Übereinstimmung gut genug ist, Mittel zur Umwandlung der Audiosignale des ersetzten Wortes in digitale Informationen; Mittel zur Umwandlung des Ersetzungswortes in digitale Informationen; und Mittel zur Verwendung der digitalen Informationen des ersetzten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt und Mittel zur Verwendung des Ersetzungswortes bei der Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist.
- Das System nach Anspruch 5 oder 6, wobei das Ersetzungswort entweder durch ein Mittel zum Überschreiben des ersetzten Wortes, ein Mittel zum Ausschneiden des ersetzten Wortes und Einfügen des Ersetzungswortes oder ein Mittel zum Löschen des eresetzten Wortes und Ersetzen durch das Ersetzungswort generiert wird.
- Das System nach Anspruch 5 oder 6, wobei zumindest entweder das ersetzte Wort oder das Ersetzungswort aus mehreren Wörtern besteht.
- Ein maschinenlesbarer Speicher, in dem ein Computerprogramm, das von einer Maschine ausgeführt werden kann, gespeichert ist, um die Maschine dazu zu veranlassen, die Schritte nach Anspruch 1 – 4 auszuführen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/406,661 | 1999-09-27 | ||
US09/406,661 US6418410B1 (en) | 1999-09-27 | 1999-09-27 | Smart correction of dictated speech |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10040214A1 DE10040214A1 (de) | 2001-04-19 |
DE10040214B4 true DE10040214B4 (de) | 2006-03-30 |
Family
ID=23608946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10040214A Expired - Fee Related DE10040214B4 (de) | 1999-09-27 | 2000-08-17 | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem |
Country Status (2)
Country | Link |
---|---|
US (1) | US6418410B1 (de) |
DE (1) | DE10040214B4 (de) |
Families Citing this family (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60128816T2 (de) * | 2000-09-08 | 2008-02-07 | Koninklijke Philips Electronics N.V. | Spracherkennungsverfahren mit ersetzungsbefehl |
US20020123894A1 (en) * | 2001-03-01 | 2002-09-05 | International Business Machines Corporation | Processing speech recognition errors in an embedded speech recognition system |
US6934682B2 (en) * | 2001-03-01 | 2005-08-23 | International Business Machines Corporation | Processing speech recognition errors in an embedded speech recognition system |
DE60207742T2 (de) * | 2001-09-17 | 2006-08-03 | Koninklijke Philips Electronics N.V. | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes |
US20030120493A1 (en) * | 2001-12-21 | 2003-06-26 | Gupta Sunil K. | Method and system for updating and customizing recognition vocabulary |
CA2502412A1 (en) * | 2002-06-26 | 2004-01-08 | Custom Speech Usa, Inc. | A method for comparing a transcribed text file with a previously created file |
US7260534B2 (en) * | 2002-07-16 | 2007-08-21 | International Business Machines Corporation | Graphical user interface for determining speech recognition accuracy |
US7386454B2 (en) * | 2002-07-31 | 2008-06-10 | International Business Machines Corporation | Natural error handling in speech recognition |
CN100578615C (zh) * | 2003-03-26 | 2010-01-06 | 微差通信奥地利有限责任公司 | 语音识别系统 |
GB2433002A (en) * | 2003-09-25 | 2007-06-06 | Canon Europa Nv | Processing of Text Data involving an Ambiguous Keyboard and Method thereof. |
GB0322516D0 (en) * | 2003-09-25 | 2003-10-29 | Canon Europa Nv | Cellular mobile communication device |
US8019602B2 (en) | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
US7844464B2 (en) * | 2005-07-22 | 2010-11-30 | Multimodal Technologies, Inc. | Content-based audio playback emphasis |
US7310602B2 (en) * | 2004-09-27 | 2007-12-18 | Kabushiki Kaisha Equos Research | Navigation apparatus |
US7565282B2 (en) * | 2005-04-14 | 2009-07-21 | Dictaphone Corporation | System and method for adaptive automatic error correction |
US8473295B2 (en) * | 2005-08-05 | 2013-06-25 | Microsoft Corporation | Redictation of misrecognized words using a list of alternatives |
US7983914B2 (en) * | 2005-08-10 | 2011-07-19 | Nuance Communications, Inc. | Method and system for improved speech recognition by degrading utterance pronunciations |
US20070094022A1 (en) * | 2005-10-20 | 2007-04-26 | Hahn Koo | Method and device for recognizing human intent |
US7640158B2 (en) * | 2005-11-08 | 2009-12-29 | Multimodal Technologies, Inc. | Automatic detection and application of editing patterns in draft documents |
US20070136069A1 (en) * | 2005-12-13 | 2007-06-14 | General Motors Corporation | Method and system for customizing speech recognition in a mobile vehicle communication system |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US8407052B2 (en) * | 2006-04-17 | 2013-03-26 | Vovision, Llc | Methods and systems for correcting transcribed audio files |
US7831423B2 (en) * | 2006-05-25 | 2010-11-09 | Multimodal Technologies, Inc. | Replacing text representing a concept with an alternate written form of the concept |
US7627562B2 (en) * | 2006-06-13 | 2009-12-01 | Microsoft Corporation | Obfuscating document stylometry |
US8521510B2 (en) * | 2006-08-31 | 2013-08-27 | At&T Intellectual Property Ii, L.P. | Method and system for providing an automated web transcription service |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US20110054900A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application |
US20080221884A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US20110054896A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application |
US20110054894A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Speech recognition through the collection of contact information in mobile dictation application |
US8838457B2 (en) | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US20110054898A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Multiple web-based content search user interface in mobile search application |
US10056077B2 (en) * | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20110054897A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Transmitting signal quality information in mobile dictation application |
US8886540B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8635243B2 (en) | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US20080221900A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile local search environment speech processing facility |
US20090030688A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US20110054899A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US20110060587A1 (en) * | 2007-03-07 | 2011-03-10 | Phillips Michael S | Command and control utilizing ancillary information in a mobile voice-to-speech application |
US20110054895A1 (en) * | 2007-03-07 | 2011-03-03 | Phillips Michael S | Utilizing user transmitted text to improve language model in mobile dictation application |
US20090030697A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US20090030685A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using speech recognition results based on an unstructured language model with a navigation system |
US20080288252A1 (en) * | 2007-03-07 | 2008-11-20 | Cerra Joseph P | Speech recognition of speech recorded by a mobile communication facility |
US20110022387A1 (en) | 2007-12-04 | 2011-01-27 | Hager Paul M | Correcting transcribed audio files with an email-client interface |
US9111540B2 (en) * | 2009-06-09 | 2015-08-18 | Microsoft Technology Licensing, Llc | Local and remote aggregation of feedback data for speech recognition |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US9904768B2 (en) | 2011-02-18 | 2018-02-27 | Nuance Communications, Inc. | Methods and apparatus for presenting alternative hypotheses for medical facts |
US10460288B2 (en) | 2011-02-18 | 2019-10-29 | Nuance Communications, Inc. | Methods and apparatus for identifying unspecified diagnoses in clinical documentation |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9064492B2 (en) | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
US10504622B2 (en) | 2013-03-01 | 2019-12-10 | Nuance Communications, Inc. | Virtual medical assistant methods and apparatus |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
US10496743B2 (en) | 2013-06-26 | 2019-12-03 | Nuance Communications, Inc. | Methods and apparatus for extracting facts from a medical text |
US9218811B2 (en) | 2013-06-28 | 2015-12-22 | Google Technology Holdings LLC | Electronic device and method for managing voice entered text using gesturing |
US20160004502A1 (en) * | 2013-07-16 | 2016-01-07 | Cloudcar, Inc. | System and method for correcting speech input |
US10319004B2 (en) | 2014-06-04 | 2019-06-11 | Nuance Communications, Inc. | User and engine code handling in medical coding system |
US10754925B2 (en) | 2014-06-04 | 2020-08-25 | Nuance Communications, Inc. | NLU training with user corrections to engine annotations |
US10331763B2 (en) | 2014-06-04 | 2019-06-25 | Nuance Communications, Inc. | NLU training with merged engine and user annotations |
US10373711B2 (en) | 2014-06-04 | 2019-08-06 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
US10366424B2 (en) | 2014-06-04 | 2019-07-30 | Nuance Communications, Inc. | Medical coding system with integrated codebook interface |
US20170018268A1 (en) * | 2015-07-14 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for updating a language model based on user input |
US10366687B2 (en) | 2015-12-10 | 2019-07-30 | Nuance Communications, Inc. | System and methods for adapting neural network acoustic models |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
WO2018057639A1 (en) | 2016-09-20 | 2018-03-29 | Nuance Communications, Inc. | Method and system for sequencing medical billing codes |
US10229682B2 (en) * | 2017-02-01 | 2019-03-12 | International Business Machines Corporation | Cognitive intervention for voice recognition failure |
WO2018213788A1 (en) * | 2017-05-18 | 2018-11-22 | Aiqudo, Inc. | Systems and methods for crowdsourced actions and commands |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
US11551006B2 (en) * | 2019-09-09 | 2023-01-10 | International Business Machines Corporation | Removal of personality signatures |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
DE4331710A1 (de) * | 1993-09-17 | 1995-03-23 | Sel Alcatel Ag | Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten |
DE68928097T2 (de) * | 1988-12-06 | 1997-10-16 | Dragon Systems Inc | Spracherkennungssystem |
EP0840288A2 (de) * | 1996-10-31 | 1998-05-06 | Microsoft Corporation | Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung |
US5909667A (en) * | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
-
1999
- 1999-09-27 US US09/406,661 patent/US6418410B1/en not_active Expired - Lifetime
-
2000
- 2000-08-17 DE DE10040214A patent/DE10040214B4/de not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5231670A (en) * | 1987-06-01 | 1993-07-27 | Kurzweil Applied Intelligence, Inc. | Voice controlled system and method for generating text from a voice controlled input |
DE68928097T2 (de) * | 1988-12-06 | 1997-10-16 | Dragon Systems Inc | Spracherkennungssystem |
DE4331710A1 (de) * | 1993-09-17 | 1995-03-23 | Sel Alcatel Ag | Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten |
EP0840288A2 (de) * | 1996-10-31 | 1998-05-06 | Microsoft Corporation | Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung |
US5909667A (en) * | 1997-03-05 | 1999-06-01 | International Business Machines Corporation | Method and apparatus for fast voice selection of error words in dictated text |
Also Published As
Publication number | Publication date |
---|---|
DE10040214A1 (de) | 2001-04-19 |
US6418410B1 (en) | 2002-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE10040214B4 (de) | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem | |
DE60010827T2 (de) | Hintergrundsystem für Audiodatenbeseitigung | |
DE60033106T2 (de) | Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE69327188T2 (de) | Einrichtung für automatische Spracherkennung | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
DE60012655T2 (de) | Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen | |
DE60215272T2 (de) | Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen | |
DE69634239T2 (de) | Erkennung kontinuierlich gesprochener Texte und Befehle | |
DE69632517T2 (de) | Erkennung kontinuierlicher Sprache | |
DE68928097T2 (de) | Spracherkennungssystem | |
DE69914131T2 (de) | Positionshandhabung bei der Spracherkennung | |
DE3910467C2 (de) | Verfahren und Vorrichtung zur Erzeugung von Berichten | |
DE69829802T2 (de) | Spracherkennungsapparat zum Übertragen von Sprachdaten auf einem Datenträger in Textdaten | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE69937176T2 (de) | Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern | |
DE60318505T2 (de) | Sprachbefehlinterpreter mit Funktion zur Verfolgung des Dialogfokuses und Verfahren zur Interpretation von Sprachbefehlen | |
EP1184839A2 (de) | Graphem-Phonem-Konvertierung | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE10054583A1 (de) | Verfahren und Vorrichtung zur Behandlung von Sprachinformationen | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
DE69333762T2 (de) | Spracherkennungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8321 | Willingness to grant licences paragraph 23 withdrawn | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US |
|
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |