DE10040214B4

DE10040214B4 - Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem

Info

Publication number: DE10040214B4
Application number: DE10040214A
Authority: DE
Inventors: Amado Boynton Beach Nassiff; Kerry A. Raleigh Ortega
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 1999-09-27
Filing date: 2000-08-17
Publication date: 2006-03-30
Anticipated expiration: 2020-08-18
Also published as: DE10040214A1; US6418410B1

Abstract

Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst:
automatische Festellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort,
automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort,
wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und
wenn das Ersetzungswort...

Description

Gegenstand der Erfindung
Die vorliegende Erfindung betrifft Sprachdiktiersysteme im Allgemeinen, und speziell ein Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem.

Die Spracherkennung ist ein Prozess, durch den ein akustisches Signal, das von einem Wandlerelement wie z.B. einem Mikrofon empfangen wird, von einem Computer in eine Folge von Textwörtern umgewandelt wird. Diese erkannten Wörter können dann in verschiedenen Computersoftware-Anwendungen zum Zweck der Dokumentbearbeitung oder Dateneingabe sowie für Befehle und Steueranweisungen verwendet werden. Verbesserungen bei Sprachdiktiersystemen sind ein wichtiges Mittel zur Steigerung der Produktivität eines Benutzers. Eine Möglichkeit der Verbesserung besteht darin, dass man dem Benutzer Mittel zur Verfügung stellt, mit denen er diktierten Text direkt, d.h. ohne Interaktion mit Korrekturdialogen, ändern kann. Sofern das System Änderungen nicht überwacht und entscheidet, was Korrekturen sind, die zur Verarbeitung als Korrektur an das Sprachmodul gesendet werden müssen, und was Editierungen sind, die vom System ignoriert werden sollen, hat der Benutzer keinen Vorteil von der kontinuierlichen Verbesserung der Erkennungsleistung, die sich ergibt, wenn das Modul Korrekturinformationen erhält.

ÜBERBLICK ÜBER DIE ERFINDUNG

In einem Spracherkennungssystem umfasst ein Verfahren zur Aktualisierung eines Sprachmodells während einer Korrektursitzung folgende Schritte: Diktieren eines diktierten Wortes, Bereitstellung eines Ersetzungswortes und automatischer Vergleich des diktierten Wortes mit dem Ersetzungswort unter Zuhilfenahme eines geeigneten Vergleichsmittels, z.B. eines Algorithmus zum Vergleich der Phonetik, Grammatik, Rechtschreibung oder des Kontexts aus vorausgehenden und nachfolgenden Wörtern. wenn beim Vergleich innerhalb einer statistischen Vorgabe eine hinreichende Ähnlichkeit festgestellt wird, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und nicht eine Editierung ist, umfasst das verfahren außerdem den Schritt der Erkennung, ob das Ersetzungswort in einer Alternativwörterliste enthalten ist. Das Alternativwort kann bereits vorhanden sein oder durch ein geeignetes Verfahren generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung identifiziert. Das Verfahren umfasst ferner die Aktualisierung des Sprachmodells ohne Interaktion des Benutzers, falls das Ersetzungswort in der Alternativwörterliste aufgeführt ist. wenn das Ersetzungswort nicht in der Alternativwörterliste steht, wird die digitale Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes verglichen, und das Sprachmodell wird aktualisiert, wenn der digitale Vergleich eine hinreichende Übereinstimmung innerhalb eines vorgegebenen statistischen Bereichs ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung.

Das Verfahren kann außerdem vor dem digitalen Vergleich folgende Schritte umfassen: Umwandeln der Audiodaten des diktierten Wortes in digitale Information des diktierten Wortes, Umwandeln des Textes des Ersetzungswortes in digitale Information des Ersetzungswortes und Verwendung der digitalen Information des diktierten Wortes und des Ersetzungswortes im digitalen Vergleichsschritt.

In dem Verfahren kann das Ersetzungswort durch jedes geeignete Verfahren generiert werden, z.B. durch Überschreiben des diktierten Wortes, durch Ausschneiden des diktierten Wortes und Einfügen des Ersetzungswortes oder durch Löschen des diktierten Wortes und Ersetzen durch das Ersetzungswort. Das diktierte Wort kann aus einem einzigen Wort oder aus mehreren Wörtern bestehen; in der Regel handelt es sich aber um ein einzelnes Wort. Entsprechend kann auch das diktierte Wort aus einem einzigen Wort oder aus mehreren Wörtern bestehen, in der Regel aber aus einem einzelnen Wort.

In einem zweiten Aspekt umfasst die Erfindung ein System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem wobei das System ein Mittel umfasst, das ein diktiertes Wort automatisch mit Hilfe eines geeigneten Vergleichsmittels mit einem Ersetzungswort vergleicht, z.B. mit Hilfe eines Algorithmus zum Vergleichen der Phonetik, Grammatik, Rechtschreibung und/oder der Wörter, die den Kontext bilden. Wenn beim Vergleich innerhalb einer statistischen Vorgabe eine hinreichende Ähnlichkeit festgestellt wird, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und nicht eine Editierung ist, umfasst das System außerdem ein Mittel zum Aktualisieren des Sprachmodells ohne Interaktion des Benutzers, sofern das Ersetzungswort in der Alternativwörterliste enthalten ist. Das Alternativwort kann bereits vorhanden sein oder durch ein geeignetes Mittel generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung identifiziert. Wenn das Ersetzungswort nicht in der Alternativwörterliste steht, umfasst das System außerdem ein Mittel zum Vergleichen der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes, und ein Mittel zur Aktualisierung des Sprachmodells, wenn der digitale Vergleich eine hinreichende Übereinstimmung innerhalb einer statistischen Vorgabe ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und keine Editierung ist.

In einem dritten Aspekt umfasst die Erfindung einen maschinenlesbaren Speicher, in dem ein Computerprogramm gespeichert ist, um die Maschine dazu zu veranlassen, eine Folge von Schritten auszuführen. Der maschinenlesbare Speicher veranlasst die Maschine, den Schritt auszuführen, in dem automatisch ein diktiertes Wort mit Hilfe eines geeigneten Vergleichsmittels mit einem Ersetzungswort verglichen wird, z.B. mit Hilfe eines Algorithmus zum Vergleich der Phonetik, Grammatik, Rechtschreibung und/oder der Wörter, die den Kontext bilden. Außerdem veranlasst der maschinenlesbare Speicher die Maschine dazu, folgende Schritte auszuführen: Feststellen, ob das Ersetzungswort in einer Alternativliste steht, falls der Vergleich eine hinreichende Übereinstimmung innerhalb vorgegebener statistischer Grenzen ergibt, die darauf schließen lässt, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung darstellt, und Aktualisieren des Sprachmodells ohne Interaktion des Benutzers, falls das Ersetzungswort in der Alternativwörterliste aufgeführt ist. Wenn das Ersetzungswort nicht in der Alternativwörterliste steht, veranlasst der maschinenlesbare Speicher die Maschine dazu, den Schritt des Vergleichs der digitalen Information des diktierten Wortes mit der digitalen Information des Ersetzungswortes auszuführen, und falls der digitale Vergleich eine hinreichende Übereinstimmung innerhalb vorgegebener statistischer Grenzen ergibt, so dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers und keine Editierung ist, das Sprachmodell zu aktualisieren.

KURZBESCHREIBUNG DER ZEICHNUNGEN
In den Zeichnungen sind bevorzugte Ausführungsformen dargestellt, wobei die Erfindung aber selbstverständlich nicht auf die genauen Anordnungen und Instrumentalisierungen in den Zeichnungen beschränkt ist. Die Zeichnungen haben folgenden Inhalt:
1 zeigt ein Computersystem zur Spracherkennung, in dem das erfindungsgemäße System verwendet werden kann.
2 ist ein Blockdiagramm des Prinzips einer typischen Architektur des in 1 dargestellten Computersystems.
3 ist ein Blockdiagramm einer typischen Architektur für ein Spracherkennungsmodul.
4 ist ein Flussdiagramm, in dem der Ablauf der Programmsteuerung gemäß einem Aspekt der erfindungsgemäßen Anordnungen dargestellt ist.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
In 1 ist ein typisches Computersystem 20 zur Verwendung in Verbindung mit der vorliegenden Erfindung dargestellt. Das System besteht vorzugsweise aus einem Computer 34 mit einer Zentraleinheit (CPU), einer oder mehreren Speichervorrichtungen und den zugehörigen Schaltungen. Außerdem enthält das System ein Mikrofon 30, das über eine geeignete Schnittstellenschaltung oder eine Soundkarte (nicht dargestellt) mit dem Computer verbunden ist, und mindestens ein Anzeigegerät 32, z.B. ein Videodatenterminal (VDT), das an den Computer angeschlossen ist. Wie in Fachkreisen bekannt ist, kann die CPU aus jedem geeigneten Mikroprozessor oder einer anderen elektronischen Verarbeitungseinheit bestehen. Ein Beispiel für eine solche CPU ist der Mikroprozessor des Typs Pentium oder Pentium II von der Intel Corporation oder ein ähnlicher Mikroprozessor. Das System kann ferner Lautsprecher 23 sowie eine Schnittstellenvorrichtung wie z.B. eine Maus 21 enthalten; diese Komponenten sind aber für die hier beschriebene Erfindung nicht unbedingt erforderlich.
Die verschiedenen Hardware-Voraussetzungen für das hier beschriebene Computersystem können in der Regel durch einen der vielen im Handel erhältlichen, schnellen Multimedia-PCs von Herstellern wie der International Business Machines Corporation (IBM) erfüllt werden. In 2 ist eine typische Architektur für ein Spracherkennungssystem in Computer 20 dargestellt. Wie in 2 zu sehen ist, enthält das System typischerweise ein Betriebssystem 24 und eine Spracherkennungsanwendung 26. In dem dargestellten Beispiel sind auch eine Sprachtextverarbeitung 28 und eine Sprachnavigationsanwendung 22 vorhanden. Die Erfindung ist in dieser Hinsicht jedoch nicht beschränkt, und die Spracherkennungsanwendung 2b kann in Verbindung mit jedem anderen Anwendungsprogramm verwendet werden, das mit einer Sprachverarbeitungsfähigkeit ausgestattet werden soll. In 2 sind das Spracherkennungsmodul 26, die Sprachtextverarbeitung 28 und der Sprachnavigator 22 als separate Anwendungsprogramme dargestellt. Es sei jedoch darauf hingewiesen, dass die Erfindung in dieser Hinsicht keinen Einschränkungen unterliegt, und dass diese verschiedenen Anwendungsprogramme im Form eines komplexeren Anwendungsprogramms implementiert werden könnten. So könnte zum Beispiel die Spracherkennungsanwendung 26 mit der Sprachtextverarbeitungsanwendung oder mit einer anderen Anwendung, die in Verbindung mit der Spracherkennungsanwendung verwendet werden soll, kombiniert sein. Wenn keine anderen Sprachanwendungsprogramme in Verbindung mit der Sprachtextverarbeitungs-Anwendung und dem Spracherkennungsmodul verwendet werden sollen, kann das System auch so abgewandelt werden, dass es ohne die Sprachnavigationsanwendung arbeitet. Der Hauptzweck der Sprachnavigationsanwendung besteht darin, zur Koordination der Funktion der Spracherkennungsanwendung beizutragen.
In einer bevorzugten Ausführungsform, die hier beschrieben wird, ist das Betriebssystem eines der Betriebssysteme aus der Windows-Familie. Das System unterliegt in dieser Hinsicht aber keinerlei Einschränkungen, und die Erfindung kann auch in Verbindung mit jedem anderen Betriebssystem wie z.B. Windows NT, Windows 95 oder Windows 98, die alle von der Microsoft Corporation in Redmond, Washington, hergestellt werden, verwendet werden. Das hier beschriebene System kann von einem Programmierer mit Hilfe handelsüblicher Entwicklungs-Tools für das erwähnte Betriebssystem implementiert werden. Wie in 2 zu sehen ist, enthält das Computersystem 20 eine Speichervorrichtung 27, die vorzugsweise aus einem elektronischen Arbeitsspeicher und einem großen Datenspeichermedium wie einem Festplattenlaufwerk besteht.
Audiosignale, die einen im Mikrofon 30 empfangenen Klang oder einen in einer Aufzeichnung auf einem Aufnahmegerät enthaltenen Klang darstellen, werden im Computer 20 mit Hilfe konventioneller Computer-Audioschaltungen verarbeitet, so dass sie dem Betriebssystem 24 in digitalisierter Form zur Verfügung stehen. Die vom Computer empfangenen Audiosignale werden dem Spracherkennungsmodul 26 konventionell über das Betriebssystem 24 zur Verfügung gestellt, um Spracherkennungsfunktionen auszuführen. In konventionellen Spracherkennungssystemen werden die Audiosignale vom Spracherkennungsmodul 26 verarbeitet, um Wörter, die von einem Benutzer in das Mikrofon 30 gesprochen werden, oder Wörter, die von einem Benutzer gesprochen und auf einem Aufnahmegerät aufgezeichnet werden, zu identifizieren.
Audiosignale, die auf einem Aufnahmegerät aufgezeichnet worden sind, können auf verschiedene Weise an das Spracherkennungssystem übertragen werden. Das Aufnahmegerät ist über ein geeignetes Kabel mit dem Computersystem verbunden. Im Fall digitaler Aufnahmegeräte kann ein digitaler Ausgang des Aufnahmegeräts mit einem digitalen Eingang des Computersystems verbunden sein. Alternativ kann im Fall von analogen Aufnahmegeräten ein Kabel vom analogen Ausgang des Aufnahmegeräts mit dem analogen Eingang der Soundkarte des Computersystems verbunden sein. Eine Variante des Aufnahmegeräts enthält Software, die mit dem Spracherkennungssystem zusammenarbeitet. Diese Software gibt dem Spracherkennungssystem die Möglichkeit, diktierte Aufzeichnungen auf Aufnahmegeräten als Computerdateien zu betrachten, ähnlich wie Dateien auf einem Magnetplattenlaufwerk betrachtet werden können. So kann das Aufnahmegerät beispielsweise, wenn es richtig an das Computersystem angeschlossen ist, für die Spracherkennungsanwendung als Massenspeicher erscheinen wie ein Magnetplattenlaufwerk. In diesem Fall kann der Benutzer eine Dialogbox öffnen, während er mit der Spracherkennungsanwendung arbeitet, und die diktierte Aufzeichnung auswählen, die an das Spracherkennungssystem übertragen werden soll. Die diktierte Aufzeichnung wird dann vom Diktiergerät als Computerdatei an das Computersystem und an das Spracherkennungssystem übertragen.
Eine andere Art von Aufnahmegeräten besitzt Software-Tools, die die diktierte Aufzeichnung auf das Computersystem kopieren. In diesem Fall ist das Aufnahmegerät auf die oben beschriebene Weise mit dem Computersystem verbunden. Die Software-Tools des Aufnahmegeräts können dazu verwendet werden, die diktierte Aufzeichnung vom Aufnahmegerät an das Computersystem zu übertragen und dabei die diktierte Aufzeichnung als Computerdatei zu speichern. Dann kann der Benutzer über eine Dialogbox in der Spracherkennungsanwendung die gewünschte diktierte Aufzeichnung auswählen, die als Computerdatei von der Festplatte des Computersystems erscheint.
Unabhängig davon, wie die diktierte Aufzeichnung übertragen wird, ist daran zu denken, dass entweder eine digitale Aufzeichnung oder eine analoge Aufzeichnung übertragen werden kann. Im Fall einer analogen Aufzeichnung kann das Computersystem die diktierte Aufzeichnung, wenn diese vom Aufnahmegerät abgespielt wird, digital aufzeichnen. Die resultierende Computerdatei, die die diktierte Aufzeichnung enthält, kann dann dem Sprachverarbeitungssystem zur Verfügung gestellt werden.
3 ist ein Blockdiagramm der typischen Komponenten, aus denen die Spracherkennungsanwendung 26 besteht. Wie in 3 zu sehen ist, empfängt das Spracherkennungsmodul 26 ein digitalisiertes Sprachsignal vom Betriebssystem. Das Signal wird dann in Block 34 in einen sinnvollen Datensatz umgewandelt, indem das Signal mit einer festgelegten Rate abgetastet wird, typischerweise alle 10-20 msec. Im Darstellungsblock wird eine neue Darstellung des Audiosignals erzeugt, die dann in nachfolgenden Schritten des Spracherkennungsprozesses benutzt werden kann, um die Wahrscheinlichkeit zu ermitteln, mit der dieser gerade analysierte Wellenformteil einem bestimmten phonetischen Ereignis zugeordnet werden kann. Dieser Prozess soll wichtige vom Sprecher unabhängige Faktoren der vom Betriebssystem empfangenen Sprachsignale wahrnehmbar verstärken. Im Modellierungs- und Klassifizierungsblock 36 verarbeiten Algorithmen die Sprachsignale weiter, um vom Sprecher unabhängige akustische Modelle an diejenigen des aktuellen Sprechers anzupassen. Schließlich werden in Suchblock 38 Suchalgorithmen verwendet, um die Suchmaschine zu den Wörtern zu führen, die mit der größten Wahrscheinlichkeit dem Sprachsignal entsprechen. Der Suchprozess in Suchblock 38 erfolgt mit Hilfe von akustischen Modellen 40, lexikalischen Modellen 42 und Sprachmodellen 44. Die Trainingsdaten 46 arbeiten mit lexikalischen Modellen 42 zusammen.
Ein Verfahren zur automatischen Aktualisierung von Sprachmodellen in einer Spracherkennungsanwendung in einer erfindungsgemäßen Anordnung ist in Flussdiagramm 50 in 4 dargestellt. Von Startblock 52 aus führt ein Sprecher eine Spracherkennungssitzung mit einer Spracherkennungsanwendung gemäß dem Schritt in Block 54 aus.
Gemäß einer bevorzugten Ausführungsform der Erfindung überwacht das System, ob ein diktiertes Wort durch ein Ersetzungswort ersetzt wird. Das diktierte Wort kann selbstverständlich auch eine Folge von diktierten Wörtern sein, und das Ersetzungswort kann eine Folge von Ersetzungswörtern sein. In den meisten Fällen besteht jedoch das diktierte Wort und das Ersetzungswort aus einem einzigen Wort.
Es gibt viele Situationen, in denen das System feststellt, dass ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist. Wenn beispielsweise ein neues Wort eingegeben oder auf andere Weise in ein Dokument eingefügt wird, wird geprüft, ob der Benutzer Text in unmittelbarer Nachbarschaft des eingefügten neuen Wortes gelöscht hat. Ist dies der Fall, so geht das System davon aus, dass ein Erkennungsfehler gemacht worden ist, und dass das neue Wort ein Ersetzungswort ist. Entsprechend zieht das System, wenn die Rücktaste oder die Löschtaste benutzt worden ist, um Zeichen in unmittelbarer Nachbarschaft des neuen Textes zu löschen, ebenfalls den Schluss, dass ein Erkennungsfehler gemacht wurde, und dass der neue Text als Ersetzungswort betrachtet wird. Wenn hingegen neuer Text eingefügt wurde, ohne dass diktierter Text überschrieben wurde, kann das System davon ausgehen, dass der neue Text einfach hinzugefügt wurde, und dass kein Erkennungsfehler gemacht wurde. In einem solchen Fall ist der neue Text nicht als Ersetzungswort charakterisiert.
In dem Schritt in Block 56 prüft das System zuerst, ob ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist. Eine solche Ersetzung kann erfolgen, indem das ganze diktierte Wort oder ein Teil davon überschrieben wird, indem das ganze diktierte Wort, oder ein Teil davon ausgeschnitten und ein Ersetzungswort eingefügt wird, oder indem das ganze diktierte Wort oder ein Teil davon gelöscht und durch ein Ersetzungswort ersetzt wird. Selbstverständlich ist die Erfindung aber nicht auf diese speziellen Ersetzungsverfahren beschränkt, und diese Ersetzung kann mit jedem geeigneten Ersetzungsverfahren, das in Fachkreisen bekannt ist, erfolgen. Das diktierte Wort kann aus einem einzigen Wort oder einer Folge von Wörtern bestehen.
Entsprechend kann auch das Ersetzungswort aus einem einzigen Wort oder einer Folge von Wörtern bestehen.
Wurde in Block 56 festgestellt, dass keine Ersetzung vorgenommen wurde, so verzweigt das System zu Schritt 74, wo geprüft wird, ob eine zusätzliche Eingabe für die Bewertung zur Verfügung steht. Wenn dies der Fall ist, verzweigt das System zurück zu dem Schritt in Block 54. Andernfalls verzweigt das System zu dem Schritt in Block 76, wo der erfindungsgemäße Algorithmus stoppt und auf ein Signal zur Rückkehr zum Startschritt in Block 52 wartet.
Wenn in dem Schritt in Block 56 festgestellt wird, dass ein diktiertes Wort durch ein Ersetzungswort ersetzt worden ist, verzweigt das Verfahren zu dem Schritt in Block 58, wo das diktierte Wort mit dem Ersetzungswort verglichen wird. Anschließend wird in Block 60 geprüft, ob das Ersetzungswort in einer Alternativwörterliste steht.
Die Alternativwörterliste kann bereits vorhanden sein oder durch ein geeignetes Verfahren generiert werden, z.B. durch die Verwendung eines Algorithmus, der Wörter mit ähnlicher Phonetik, Grammatik und/oder Rechtschreibung wie das diktierte Wort identifiziert. Die Alternativwörterliste besteht typischerweise aus Wörtern, die ähnlich klingen können wie die vom Spracherkennungsmodul identifizierten Wörter. Im wesentlichen handelt es sich bei den in der Alternativwörterliste aufgeführten Wörtern um weniger bevorzugte Wortidentifikationsmöglichkeiten, die vom Spracherkennungsmodul in Betracht gezogen wurden, als es versuchte, ein bestimmtes Wort oder eine Wortgruppe, die vom Sprecher gesprochen wurde, zu identifizieren. In manchen Fällen ist ein vom Spracherkennungsmodul ausgewähltes Wort falsch, und eines der Wörter in der Alternativwörterliste ist das vom Benutzer gesprochene Wort.
Wenn das Ersetzungswort in der Alternativwörterliste steht, geht das System davon aus, dass ein Erkennungsfehler gemacht wurde, und fährt mit dem Schritt in Block 72 fort, wo ein Sprachmodell mit einer Korrektur aktualisiert wird. Wie in Fachkreisen bekannt ist, besteht das Sprachmodell selbstverständlich aus statistischen Informationen über Wortmuster. Entsprechend handelt es sich bei der Korrektur des Sprachmodells nicht um eine akustische Korrektur, sondern um eine statistische. Nach der Aktualisierung des Sprachmodells fährt das System mit dem Schritt in Block 74 fort wie oben beschrieben.
Wenn beispielsweise ein Benutzer eines Spracherkennungssystems das Wort "beten" diktiert, das System dieses Wort aber als "bieten" erkennt, wurde ein Erkennungsfehler gemacht. Der Benutzer kann den Fehler korrigieren, indem er einfach die Rücktaste oder die Löschtaste benutzt, um das "i" aus dem Wort "bieten" zu löschen. Das System erkennt diese Änderung, klassifiziert das Wort "bieten" als diktiertes Wort und das Wort "beten" als Ersetzungswort und vergleicht das diktierte Wort mit dem Ersetzungswort (Block 58).
Das System entscheidet dann, ob das Ersetzungswort in einer Alternativwörterliste steht (Block 60). Wenn das Ersetzungswort in einer Alternativwörterliste steht, wird das Sprachmodell mit der Korrektur aktualisiert (Block 72), so dass das System lernt, wie das Diktat des Wortes "beten" richtig zu erkennen ist.
In manchen Fällen steht das Ersetzungswort nicht in einer Alternativwörterliste. In diesen Situationen entscheidet das Verfahren in Block 62, ob zwischen dem diktierten Wort und dem Ersetzungswort eine gute Übereinstimmung innerhalb einer statistischen Vorgabe besteht. Diese Entscheidung kann mittels eines geeigneten Vergleichsprozesses getroffen werden, z.B. durch Verwendung eines Algorithmus zum Vergleich von Phonetik, Grammatik, Rechtschreibung und/oder Kontext des diktierten Wortes und des Ersetzungswortes. Bei bestimmten Wörtern, z.B. bei dem Wort "zehn", kann der Kontext im Vergleichsschritt besonders nützlich sein. Wenn ein Benutzer beispielsweise diktiert "zehn geteilt durch fünf", erhöhen die Kontextwörter "geteilt" und "fünf" die statistische Wahrscheinlichkeit, dass der Benutzer das Wort "zehn" und nicht "Zehen" diktiert hat, sehr stark.
Wenn es zwischen dem diktierten Wort und dem Ersetzungswort keine gute Übereinstimmung, bestimmt durch eine vorgegebene statistische Größe, gibt, verzweigt das Verfahren zu dem oben beschriebenen Schritt in Block 74. Gibt es eine gute Übereinstimmung, so muss das System die Audiodaten der diktierten Sprache mit dem Ersetzungswort vergleichen, um festzustellen, ob es sich bei der Korrektur um eine Editierung oder um einen Spracherkennungsfehler handelt. Ein direkter Vergleich ist nicht möglich, da die Audiodaten des diktierten Wortes als Wellenform vorliegen, während das Ersetzungswort aus einer Folge von Zeichen besteht. Sowohl die Audiodaten des diktierten Wortes als auch die Zeichen des Ersetzungswortes müssen in Informationen umgewandelt werden, die direkt verglichen werden können.
Deshalb fährt das Verfahren, wenn in Block 62 eine gute Übereinstimmung festgestellt wurde, mit dem Schritt in Block 64 fort. In diesem Schritt werden die Audiodaten des diktierten Wortes in digitale Daten des diktierten Wortes umgewandelt. Dann verzweigt die Erfindung zu dem Schritt in Block 66, wo die Zeichen des Ersetzungswortes in digitale Daten des Ersetzungswortes umgewandelt werden. Verfahren zur Umwandlung von Sprache in Text und/oder von Text in Sprache sind in Fachkreisen gut bekannt. Verfahren zur Umwandlung von Sprache in Text umfassen typischerweise einen zweistufigen Prozess, in dem die Sprache zuerst in vom Computer generierte digitale Daten und diese dann in Text umgewandelt werden. Entsprechend wird bei der Umwandlung von Text in Sprache der Text typischerweise zuerst in vom Computer generierte digitale Informationen umgewandelt, und dann erzeugt das System Audiodaten, die mit den vom Computer generierten digitalen Informationen konsistent sind. In der Erfindung kann jedes beliebige Text-Sprache-Umwandlungsverfahren verwendet werden, das geeignet ist, ein Ersetzungswort in digitale Daten des Ersetzungswortes umzuwandeln. Außerdem kann jedes beliebige Sprache-Text-Umwandlungsverfahren verwendet werden, das geeignet ist, ein diktiertes Wort in digitale Daten des diktierten Wortes umzuwandeln.
Anschließend werden in dem Schritt in Block 68 die digitalen Daten des diktierten Wortes mit den digitalen Daten des Ersetzungswortes verglichen. In dem Schritt in Block 70 fährt das Verfahren, wenn eine gute Übereinstimmung innerhalb einer vorgegebenen statistischen Größe vorliegt, mit dem oben beschriebenen Block 72 fort, wo das Sprachmodell mit der Korrektur aktualisiert wird. Dann folgt Block 74, wo das System prüft, ob weitere Informationen zur Bewertung zur Verfügung stehen. Wurde keine gute Obereinstimmung innerhalb einer vorgegebenen statistischen Größe festgestellt, fährt das Verfahren mit dem oben beschriebenen Block 74 fort.
Wenn der Benutzer beispielsweise das Wort "beten" diktiert, das System dieses Wort fälschlicherweise als "bieten" identifiziert und der Benutzer den Fehler korrigiert, indem er das "i" aus dem Wort "bieten" entfernt, so verwendet das System ein Vergleichsverfahren wie oben beschrieben, um das diktierte Wort "bieten" mit dem Ersetzungswort "beten" zu vergleichen. Das System kann dann feststellen, ob das Ersetzungswort "beten" in einer Alternativwörterliste aufgeführt ist. Wenn "beten" nicht in der Alternativwörterliste steht, wird festgestellt, ob zwischen "beten" und "bieten" eine gute Übereinstimung innerhalb einer statistischen Vorgabe vorliegt (Schritt 62). Liegt eine gute Übereinstimmung vor, so wandelt das System die Rudiodaten des vom Benutzer diktierten Wortes in digitale Daten des diktierten Wortes (Schritt 64) und das Wort "beten" in digitale Daten des Ersetzungswortes (Schritt 66) um. Dann folgt ein digitaler Vergleich in Block 68. Wenn bei dem Vergleich festgestellt wird, dass eine gute Übereinstimmung innerhalb einer vorgegebenen Vorgabe vorliegt, wird das Sprachmodell aktualisiert, so dass das System lernt, die Aussprache des Wortes "beten" durch den Benutzer zu erkennen (Block 72).
Nachdem ein Benutzer ein einzelnes Wort oder mehrere Wörter diktiert hat, werden die Audiosignale dieses Diktats automatisch vom System gespeichert. Die Audiosignale können gespeichert bleiben, bis der Benutzer die Löschung der gespeicherten Audiosignale anfordert. Das System kann so konfiguriert werden, dass es einen Benutzer automatisch fragt, ob gespeicherte Audiosignale gelöscht werden sollen. Die Speicherung der Audiosignale, bis der Benutzer ihre Löschung anfordert, ermöglicht es dem Benutzer, das Diktat zu einem späteren Zeitpunkt zu editieren, da die Audiosignale der vom Benutzer diktierten Sprache für die Umwandlung in digitale Daten diktierter Wörter zur Verfügung stehen, die dann mit den digitalen Informationen von Ersetzungswörtern verglichen werden können.
Selbstverständlich dienen die hier beschriebenen Beispiele und Ausführungsformen nur Illustrationszwecken, und der Fachmann kann sich verschiedene Abwandlungen oder Änderungen verstellen, die ebenfalls unter den Schutzbereich dieser Patentanmeldung fallen. Die Erfindung kann andere spezifische Formen annehmen, ohne dass die eine Abweichung vom Wesen oder wesentlichen Attributen der Erfindung darstellt.

Claims

Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst: automatische Festellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort, automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort, wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Berücksichtigung des Ersetzungswortes bei der Aktualisierung des Sprachmodells.
Verfahren zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechenden Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das Verfahren folgende Schritte umfasst: automatische Festellung der Ersetzung eines Wortes der visuellen Darstellung eines diktierten Textes mit einem Ersetzungswort; automatischer Vergleich des ersetzten Wortes mit dem Ersetzungswort; wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Vergleich der Information des ersetzten Wortes mit der Information des Ersetzungswortes, ob die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung, und wenn die Übereinstimmung gut genug ist, Umwandlung der Audiosignale des ersetzten Wortes in digitale Informationen; Umwandlung des Ersetzungswortes in digitale Informationen; und Verwendung der digitalen Informationen des ersetzten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt und Berücksichtigung des Ersetzungswortes bei der Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist.
Das Verfahren nach Anspruch 1 oder 2, wobei das Ersetzungswort entweder durch Überschreiben des ersetzten Wortes, durch Ausschneiden des ersetzten Wortes und Einfügen des Ersetzungswortes oder durch Löschen des ersetzten Wortes und Ersetzen durch das Ersetzungswort generiert wird.
Das Verfahren nach Anspruch 1, wobei zumindest entweder das ersetzte Wort oder das Ersetzungswort aus mehreren Wörtern besteht.
System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das System folgende Mittel umfasst Mittel zur automatischen Feststellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort, Mittel zum automatischen Vergleich des ersetzten Wortes mit dem Ersetzungswort, wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten diktierten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort in der Alternativwörterliste aufgeführt ist, Mittel zur Verwendung des Ersetzungswortes bei der Aktualisierung des Sprachmodells.
System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem, wobei das Spracherkennungssystem einen vom Benutzer dikitierten Text in Sprachsignale umwandelt, diesen Sprachsignalen mit Hilfe des Sprachmodells die entsprechende Wörter zuordnet und dem Benutzer als visuelle Darstellung des diktierten Textes anbietet, wobei der Benutzer zumindest ein Wort der visuellen Darstellung des diktierten Textes mit einem Ersetzungswort ersetzt, wobei das System folgende Mittel umfasst: Mittel zur automatischen Feststellung der Ersetzung eines Wortes der visuellen Dastellung eines diktierten Textes mit einem Ersetzungswort; Mittel zum automatischem Vergleich des ersetzten Wortes mit dem Ersetzungswort; wenn die Übereinstimmung innerhalb einer vorgegebenen statistischen Größe gut genug ist, dass angenommen werden kann, dass das Ersetzungswort eine Korrektur eines Erkennungsfehlers und keine Editierung ist, Mittel zur Feststellung, ob das Ersetzungswort in einer Alternativwörterliste aufgeführt ist, wobei die Alternativwörterliste aus Wörtern besteht, die vom System bei der Erkennung des ersetzten Wortes in Betracht gezogen worden sind; und wenn das Ersetzungswort nicht in der Alternativwörterliste steht, Mittel zum Vergleich der Information des ersetzten Wortes mit der Information des Ersetzungswortes, ob die Übereinstimmung gut genug ist, dass anzunehmen ist, dass das Ersetzungswort die Korrektur eines Erkennungsfehlers ist und keine Editierung, und wenn die Übereinstimmung gut genug ist, Mittel zur Umwandlung der Audiosignale des ersetzten Wortes in digitale Informationen; Mittel zur Umwandlung des Ersetzungswortes in digitale Informationen; und Mittel zur Verwendung der digitalen Informationen des ersetzten Wortes und der digitalen Informationen des Ersetzungswortes im digitalen Vergleichsschritt und Mittel zur Verwendung des Ersetzungswortes bei der Aktualisierung des Sprachmodells, wenn die Übereinstimmung gut genug ist.
Das System nach Anspruch 5 oder 6, wobei das Ersetzungswort entweder durch ein Mittel zum Überschreiben des ersetzten Wortes, ein Mittel zum Ausschneiden des ersetzten Wortes und Einfügen des Ersetzungswortes oder ein Mittel zum Löschen des eresetzten Wortes und Ersetzen durch das Ersetzungswort generiert wird.
Das System nach Anspruch 5 oder 6, wobei zumindest entweder das ersetzte Wort oder das Ersetzungswort aus mehreren Wörtern besteht.
Ein maschinenlesbarer Speicher, in dem ein Computerprogramm, das von einer Maschine ausgeführt werden kann, gespeichert ist, um die Maschine dazu zu veranlassen, die Schritte nach Anspruch 1 – 4 auszuführen.