DE60020504T2

DE60020504T2 - Anpassung eines spracherkenners an korrigierte texte

Info

Publication number: DE60020504T2
Application number: DE60020504T
Authority: DE
Inventors: Heinrich Bartosik; Walter Müller; Martin Schatz
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 1999-07-08
Filing date: 2000-06-30
Publication date: 2006-05-04
Anticipated expiration: 2020-07-01
Also published as: DE60020504D1; EP1110204A1; JP2003504674A; US6725194B1; EP1110204B1; WO2001004874A1; ATE297046T1

Description

Die Erfindung bezieht sich auf eine Spracherkennungseinrichtung gemäß dem Oberbegriff von Anspruch 1 und auch auf ein Spracherkennungsverfahren gemäß dem Oberbegriff von Anspruch 3.
Spracherkennungseinrichtungen werden heutzutage allgemein verwendet, und daher sind ein paar Lösungen zum Anpassen einer solchen Einrichtung an die Aussprache des Benutzers nach dem Stand der Technik bekannt.
Das „Speech-to-text dictation system with audio message capability" des US-Patents 5.857.099, vom 15. Januar 1999, offenbart beispielsweise ein „Sprache in Text"-Diktatsystem, bei dem erkannte Wörter oder Zeichen zusammen mit den entsprechenden Audiodaten gespeichert werden. Darüber hinaus werden Verbindungsdaten gebildet, um die Position der Wörter oder Zeichen in der Datei und die Position der entsprechenden Audiokomponente in den Audiodaten miteinander zu verbinden. Daher können die erkannten Wörter oder Zeichen ohne Verlust der Audiodaten verarbeitet werden, beispielsweise wenn das Spracherkennungsmodell aktualisiert wird. In diesem Fall kann der Bediener eine bestimmte Textpassage für diese Aktualisierung wählen.
EP 0 773 532 , „Continuous speech recognition", 14. Mai 1997, schlägt darüber hinaus ein Verfahren zur Verwendung bei der Erkennung von Sprache vor, bei dem Signale akzeptiert werden, die eingefügten Sprachelementen entsprechen, die Textelemente, die zu erkennendem Text entsprechen, und auszuführende Kommandoelemente enthalten. Abwandlungsprozeduren werden in Reaktion auf erkannte, zuvor bestimmte Kommandoelemente ausgeführt. Die Abwandlungsprozeduren enthalten das Absehen vom Trainieren von Sprachmodellen, wenn die Abwandlungsprozeduren keinen Spracherkennungsfehler korrigieren. Bei einem anderen Aspekt enthalten die Abwandlungsprozeduren gleichzeitig das Abwandeln von zuvor erkannten Textelementen.
Zusätzlich offenbart „On-Line Distinction between Text Editing and Speech Recognition Adaption", IBM Technical Disclosure Bulletin, IBM Cooperation New York, Bd. 37, Nr. 10, 1. Oktober 1994, S. 403, ein Merkmal für ein Diktatsystem, das einem Be nutzer die Möglichkeit gibt, den erkannten Text zu ändern und anzugeben, welche Änderungen auf einer Fehlinterpretation beruhen und welche Änderungen nicht auf einer Fehlinterpretation beruhen. Hierfür bietet das System dem Benutzer eine Nachricht der Art an: „Von jetzt an, wenn Sie sagen xxx, wird yyy geschrieben, OK?" Der Benutzer kann dann entscheiden, ob er die vorgeschlagene Systemanpassung wünscht oder nicht.
Außerdem offenbart „Distinction at Exit between Text Editing and Speech Recognition Adaptation", IBM Technical Disclosure Bulletin, IBM Cooperation New York, Bd. 37, Nr. 10, 1. Oktober 1994, S. 391, ein Merkmal für ein Diktatsystem, das es dem System erlaubt, sich an die Sprache eines individuellen Benutzers anzupassen. Hierzu wird erwartet, dass der Benutzer mit der Hand geänderte oder eingefügte Wörter am Endpunkt eines Vorgangs ausspricht. Da dieser Prozess zeitlich von dem Prozess des Diktierens von Text getrennt ist, ist es für den Benutzer einfach, den Unterschied zwischen der Änderung des laufenden Textes und der Änderung der Weise, in der das Spracherkennungsmerkmal zukünftiges Diktieren erkennt, zu verstehen und anzuwenden.
Schließlich offenbart „Addword through correction of recognition Errors", IBM Technical Disclosure Bulletin, IBM Cooperation New York, Bd. 35, Nr. 1A, 1. Juni 1994, S. 226–227, ein Verfahren zum Zufügen neuer Wörter zu dem Diktatsystem, wobei Erkennungsfehler während des Diktierens korrigiert werden. Daher braucht der Benutzer zusätzliche Wörter für das System nicht zuvor zu definieren. Wenn das System einen Fehler macht, korrigiert der Benutzer einfach den Fehler.
Eine weitere Spracherkennungseinrichtung und ein solches Spracherkennungsverfahren sind auch aus US 5.031.113 bekannt. Die bekannte Spracherkennungseinrichtung weist Empfangsmittel auf, die durch ein Mikrofon und einen Audiospeicher zum Empfangen und Speichern einer von einem Sprecher bei einem Diktat gesprochenen Sprachinformation gebildet sind.
Die bekannte Spracherkennungseinrichtung weist weiterhin Sprachkoeffizienten-Speichermittel auf, in denen ein Sprachkoeffizienten-Indikator gespeichert ist, der bei der Abarbeitung des Spracherkennungsverfahrens benötigt wird. Ein solcher Sprachkoeffizienten-Indikator beinhaltet Wortschatz-Information, Sprachmodell-Information und Phonemreferenz-Information. Die Wortschatz-Information enthält sämtliche von der Spracherkennungseinrichtung erkennbaren Wörter, die Sprachmodell-Information enthält Wahrscheinlichkeiten für die Abfolge der Wörter der Wortschatz-Information in einer Sprachinformation und die Phonemreferenz-Information enthält Informationen, wie ein Wortteil (Phonem) von einem Sprecher ausgesprochen wird.
Die bekannte Spracherkennungseinrichtung weist weiterhin Spracherkennungsmittel auf, die bei der Abarbeitung des Spracherkennungsverfahrens durch Auswertung des in den Sprachkoeffizienten-Speichermitteln gespeicherten Sprachkoeffizienten-Indikators zum Erkennen einer der empfangenen Sprachinformation entsprechenden Textinformation und zum Abgeben dieser Textinformation als erkannte Textinformation ausgebildet sind. Die erkannte Textinformation wird mit einem Monitor dargestellt.
Ein Textverarbeitungsprogramm und eine Tastatur bilden Korrekturmittel, mit denen eine mit dem Monitor dargestellte erkannte Textinformation korrigiert und als korrigierte Textinformation erneut mit dem Monitor dargestellt werden kann. Hierbei werden von einem Benutzer üblicherweise einerseits bei dem Spracherkennungsvorgang falsch erkannte Wörter der erkannten Textinformation durch die eigentlich gesprochenen Wörter ersetzt und andererseits auch andere Korrekturen durchgeführt. Solche anderen Korrekturen können beispielsweise das Einfügen eines Standard-Textabschnitts, wie beispielsweise eine Adresse, das Einfügen von bei dem Diktat vergessenen Textabschnitte oder das Ersetzten eines Textteils der erkannten Textinformation durch eine mit der Tastatur eingegebene Textinformation sein.
Die bekannte Spracherkennungseinrichtung weist Anpassungsmittel zum Anpassen des Sprachkoeffizienten-Indikators auf, um durch eine bessere Anpassung an den Sprecher und die Sprache bei einem darauffolgenden Spracherkennungsvorgang zuvor falsch erkannte Wörter nunmehr richtig zu erkennen. Zur Anpassung der Wortschatz-Information und der Sprachmodell-Information wird die korrigierte Textinformation und zur Anpassung der Phonemreferenz-Information zusätzlich auch die in dem Audiospeicher gespeicherte Sprachinformation ausgewertet, um einen angepaßten Sprachkoeffizienten-Indikator zu erhalten und in den Sprachkoeffizienten-Speichermitteln zu speichern.
Bei der bekannten Spracherkennungseinrichtung und bei dem bekannten Spracherkennungsverfahren hat sich als Nachteil erwiesen, daß eine für die Anpassung des Sprachkoeffizienten-Indikators verwendete korrigierte Textinformation auch Textteile enthält, die mit der Sprachinformation überhaupt keinen Zusammenhang haben. Wenn solche Textteile zum Anpassen des Sprachkoeffizienten-Indikators verwendet werden, dann kann es vorkommen, daß der Sprachkoeffizienten-Indikator nach dem Anpassen nicht besser, sondern schlechter an einen Sprecher und die Sprache angepaßt ist.
Die Erfindung hat sich zur Aufgabe gestellt, eine Spracherkennungseinrichtung und ein Spracherkennungsverfahren zu schaffen, bei der bzw. bei dem nur eine korrigierte Textinformation zur Anpassung des Sprachkoeffizienten-Indikators verwendet wird, die einen ausreichenden Zusammenhang mit der empfangenen Sprachinformation aufweist. Diese Aufgabenstellung wird bei einer Spracherkennungseinrichtung gemäß dem Oberbegriff von Anspruch 1 durch die Maßnahmen des kennzeichnenden Teils von Anspruch 1 und bei einem Spracherkennungsverfahren gemäß dem Oberbegriff von Anspruch 3 durch die Maßnahmen des kennzeichnenden Teils von Anspruch 3 gelöst.
Hierdurch wird erreicht, daß vor dem Anpassen des Sprachkoeffizienten-Indikators geprüft wird, ob die korrigierte Textinformation Textwörter enthält, die sehr stark korrigiert oder gar vollständig neu eingefügt wurden, und daß solche Textwörter nicht zum Anpassen des Sprachkoeffizienten-Indikators verwendet werden. Vorteilhafterweise ist daher nach jedem Anpassen des Sprachkoeffizienten-Indikators die Erkennungsrate der Spracherkennungseinrichtung und des Spracherkennungsverfahrens wesentlich verbessert und alle in dem Sprachkoeffizienten-Indikator enthaltene Information ist sehr gut angepaßt.
Gemäß den Maßnahmen von Anspruch 2 und Anspruch 4 werden Textwörter der erkannten Textinformation, die einen ausreichenden Zusammenhang mit der empfangenen Sprachinformation oder der erkannten Textinformation aufweisen, zu Abfolgen von Textwörtern aneinander gereiht. Es wird die Abfolge der Textwörter der erkannten Textinformation zum Anpassen verwendet, die den größten Summen-Übereinstimmungswert aufweist. Dies bietet den der Vorteil, daß auch ein zwischen Textwörtern mit einem hohen Übereinstimmungsindikator aufgenommenes Textwort zum Anpassen verwendet wird und somit die Erkennungsrate der Spracherkennungseinrichtung und des Spracherkennungsverfahrens bei jedem Anpassen des Sprachkoeffizienten-Indikators (im weiteren als Sprachkoeffizienten-Information bezeichnet) weiter verbessert wird.
Die Erfindung wird im Folgenden anhand von drei Anwendungsbeispielen eines in den Figuren dargestellten Ausführungsbeispiels beschrieben, auf das die Erfindung aber nicht beschränkt ist.
1 zeigt eine Spracherkennungseinrichtung in Form eines Blockschaltbilds, an die eine in einer Hand haltbare Eingabeeinrichtung und eine mit einem Fuß betätigbare Eingabeeinrichtung angeschlossen sind und die Textvergleichsmittel, zum Vergleichen einer erkannten Textinformation mit einer korrigierten Textinformation, und die Transfermittel, zum Importieren und Exportieren einer Sprachkoeffizienten-Information, aufweist.
2 zeigt die in der Hand haltbare Eingabeeinrichtung gemäß 1 in Form eines Blockschaltbilds, welche Eingabeeinrichtung Audio-Verarbeitungsmittel zum Verarbeiten eines analogen Audiosignals und zum Abgeben digitaler Audiodaten aufweist.
3 zeigt die mit einem Fuß betätigbare Eingabeeinrichtung gemäß 1 in Form eines Blockschaltbilds, an die ein Kopfhörer anschließbar ist und die einen eingebauten Lautsprecher aufweist.
4 zeigt eine von den Textvergleichsmitteln der Spracherkennungseinrichtung erstellte Anpassungstabelle, in der eine erkannte Textinformation und eine korrigierte Textinformation eingetragen sind.
1 zeigt einen Computer 1, mit dem ein Spracherkennungsprogramm gemäß einem Spracherkennungsverfahren abgearbeitet wird, wobei der Computer 1 eine Diktiereinrichtung mit nachgeschalteter Spracherkennungseinrichtung bildet.
An den Computer 1 ist ein Diktiermikrofon 2, das eine in einer Hand haltbare Eingabeeinrichtung bildet, ein Fußschalter 3, der eine mit einem Fuß betätigbare Eingabeeinrichtung bildet, ein Monitor 4 und eine Tastatur 5 angeschlossen. In 2 ist das Diktiermikrofon 2 in Form eines Blockschaltbilds detaillierter dargestellt.
Das Diktiermikrofon 2 weist ein Mikrofon 6 auf, das Audio-Empfangsmittel bildet und zum Empfangen einer von einem Benutzer in das Mikrofon 6 gesprochenen Sprachinformation und zum Abgeben eines ersten analogen Audiosignals AS1 ausgebildet ist. Das Diktiermikrofon 2 weist weiterhin Audio-Verarbeitungsmittel 7 auf, die zum Verarbeiten des ersten analogen Audiosignals AS1 und zum Abgeben digitaler Audiodaten als Audioinformation AI ausgebildet sind.
Die Audio-Verarbeitungsmittel 7 weisen eine erste Verstärkerstufe 8, eine A/D-Wandlerstufe 9, eine zweite Verstärkerstufe 10 und eine D/A-Wandlerstufe 11 auf. Das erste analoge Audiosignal AS1 ist der ersten Verstärkerstufe 8 und das verstärkte erste analoge Audiosignal ist der A/D-Wandlerstufe 9 zuführbar. Die A/D-Wandlerstufe 9 ist zum Abtasten des verstärkten analogen Audiosignals mit einer Abtastfrequenz von 16 kHz und zum Abgeben von Abtastwerten in digitalen Audiodaten ausgebildet, die Datenblöcke mit 16 Bit aufweisen und als Audioinformation AI an USB-Anschlußmittel 12 abgebbar sind.
Dies bietet den Vorteil, daß das erste analoge Audiosignal AS1 gleich in dem Diktiermikrofon digitalisiert wird daß die Verstärkerstufe 8 bereits bei der Herstellung des Diktiermikrofons 2 an die maximale Ausgangsspannung des Mikrofons 6 angepaßt werden kann. Es geht somit keine Sprachinformation durch ein Übersteuern der Verstärkerstufe 8 verloren, weshalb die digitale Audiodaten enthaltende Audioinformation AI eine gute Qualität aufweist.
Von den USB-Anschlußmitteln 12 ist eine digitale Audiodaten enthaltende Audioinformation AI an die D/A-Wandlerstufe 11 der Audio-Verarbeitungsmittel 7 abgebbar. Von der D/A-Wandlerstufe 11 ist ein den digitalen Audiodaten entsprechendes analoges Audiosignal an die zweite Verstärkerstufe 10 abgebbar. Ein von der zweiten Verstärkerstufe 10 abgegebenes zweites analoges Audiosignal AS2 ist an einen Lautsprecher 13 zur akustischen Wiedergabe abgebbar.
Das Diktiermikrofon 2 weist weiterhin Eingabemittel 14 zum manuellen Eingeben einer Steuerinformation SI auf, welche Eingabemittel eine Tastatur 15, einen Trackball 16 und Eingabe-Verarbeitungsmittel 17 enthalten. Die Tastatur 15 weist unter anderem eine Aufnahme-Taste (Record-Taste) 18, eine Stop-Taste 19, eine Vorlauf-Taste 20 und eine Rücklauf-Taste 21 auf. Von der Tastatur 15 ist eine Tasteninformation TSI an die Eingabe-Verarbeitungsmittel 17 abgebbar.
Der Trackball 16 ist durch eine in einer Öffnung des Diktiermikrofons 2 eingelegte Kugel gebildet, die von einem Benutzer gedreht werden kann, um beispielsweise einen mit dem Monitor 4 dargestellten Cursor zu positionieren. Von dem Trackball 16 ist eine Trackballinformation TBI an die Eingabe-Verarbeitungsmittel 17 abgebbar. Die Eingabe-Verarbeitungsmittel 17 sind zum Verarbeiten der an sie abgegebenen Tasteninformation TSI und Trackballinformation TBI und zum Abgeben einer entsprechenden Steuerinformation SI an die USB-Anschlußmittel 12 ausgebildet.
Von den USB-Anschlußmitteln 12 ist eine Versorgungsspannung U sowohl an die Audio-Verarbeitungsmittel 7 als auch an die Eingabemittel 14 zur Versorgung der in den Audio-Verarbeitungsmitteln 7 und den Eingabemitteln 14 enthaltenen Stufen abgebbar. Dies bietet den Vorteil, daß das Diktiermikrofon 2 sowohl Informationen als auch die Versorgungsspannung U der Stufen des Diktiermikrofons 2 über nur eine einzige Kabelverbindung erhält.
Die USB-Anschlußmittel 12 sind über einen ersten Anschluß 22 des Diktiermikrofons 2 mit USB-Anschlußmitteln 23 des Computers 1 verbunden. Die USB- Anschlußmittel 12 des Diktiermikrofons 2 sind zum Aufbau einer digitalen Datenbusverbindung und hierbei vorteilhafterweise zum Aufbau einer USB-Datenbusverbindung (Universal Serial Bus: Specification Version 1.0 on January 15 and Version 2.0) mit den USB-Anschlußmitteln 23 des Computers 1 ausgebildet.
Bei einer USB-Datenbusverbindung werden den an das USB-Anschlußmittel 12 oder 23 abgegebenen Audiodaten der Audioinformation AI oder Steuerdaten der Steuerinformation SI Fehlerkorrekturcodes angehängt und diese gemeinsam als Übertragungsdaten UD an das USB-Anschlußmittel 23 oder 12 übertragen. Das USB-Anschlußmittel 12 oder 23, von dem die Übertragungsdaten UD empfangen wurden, ist zum Auswerten der Fehlerkorrekturcodes und zum Korrigieren gegebenenfalls bei der Übertragung aufgetretener Fehler in den Audiodaten oder den Steuerdaten ausgebildet. Bei einer USB-Datenbusverbindung werden Steuerdaten einer Steuerinformation SI mit einer Datenübertragungsrate von 1,5 MBps und Audiodaten einer Audioinformation AI mit einer Datenübertragungsrate von 12 MBps übertragen.
In 3 ist der in 1 dargestellte Fußschalter 3 in Form eines Blockschaltbildes detailliert dargestellt. Der Fußschalter 3 weist Fußeingabemittel 24 zum manuellen Eingeben einer Steuerinformation SI auf. Die Fußeingabemittel 24 enthalten einen Audiowiedergabe-Schalter 25, einen Stop-Schalter 26 und Eingabe-Verarbeitungsmittel 27. Eine von dem Audiowiedergabe-Schalter 25 oder dem Stop-Schalter 26 abgegebene Schaltinformation SCI ist an die Eingabe-Verarbeitungsmittel 27 abgebbar. Die Eingabe-Verarbeitungsmittel 27 sind zum Verarbeiten der an sie abgegebenen Schaltinformation SCI und zum Abgeben einer entsprechenden Steuerinformation SI an USB-Anschlußmittel 28 des Fußschalters 3 ausgebildet.
Der Fußschalter 3 weist weiterhin Audio-Verarbeitungsmittel 29 auf, die eine D/A-Wandlerstufe 30 und eine dritte Verstärkerstufe 31 enthalten. Eine Audiodaten enthaltene Audioinformation AI ist von den USB-Anschlußmitteln 28 an die D/A-Wandlerstufe 30 abgebbar, welche ein den Audiodaten entsprechendes analoges Audiosignal an die dritte Verstärkerstufe 31 abgibt. Ein von der dritten Verstärkerstufe 31 abgegebenes drittes analoges Audiosignal AS3 ist sowohl an einen in dem Fußschalter 3 vorgesehenen Lautsprecher 32 als auch an einen zweiten Anschluß 33 abgebbar. An den zweiten Anschluß 33 ist ein Kopfhörer 34 angeschlossen. Mit dem Lautsprecher 32 und dem Kopfhörer 34 ist eine akustische Wiedergabe einer Sprachinformation ermöglicht, worauf nachfolgend noch näher eingegangen werden soll.
Durch das Vorsehen der Audio-Verarbeitungsmittel 29 in dem Fußschalter 3 wird der Vorteil erhalten, daß der Kopfhörer 34 oder ein Lautsprecher direkt an den Fußschalter 3 angeschlossen werden kann. Hierdurch braucht der Computer 1, der auch eine Diktiereinrichtung bildet, keine Sound-Karte mit Audio-Verarbeitungsmitteln aufzuweisen.
Die USB-Anschlußmittel 28 des Fußschalters 3 entsprechen den USB-Anschlußmitteln 12 und 23. Von den USB-Anschlußmitteln 28 ist eine Versorgungsspannung U sowohl an die Eingabe-Verarbeitungsmittel 24 als auch an die Audio-Verarbeitungsmittel 29 zur Versorgung der in den Eingabe-Verarbeitungsmitteln 24 und den Audio-Verarbeitungsmitteln 29 enthaltenen Stufen abgebbar. Dies bietet den Vorteil, daß der Fußschalter 3 sowohl Informationen als auch die Versorgungsspannung U über nur eine Kabelverbindung erhält.
Die USB-Anschlußmittel 28 des Fußschalters 3 sind über einen dritten Anschluß 35 an die USB-Anschlußmitteln 23 des Computers 1 angeschlossen. Der Computer 1 weist Empfangsmittel 36 auf, die die USB-Anschlußmittel 23 und Audio-Speichermittel 37 enthalten und die zum Empfangen einer von einem Sprecher gesprochenen Sprachinformation ausgebildet sind. Hierbei ist eine von einem Sprecher in das Mikrofon 6 des Diktiermikrofons 2 gesprochene Sprachinformation als durch digitale Audiodaten gebildete Audioinformation AI von den USB-Anschlußmitteln 12 an die USB-Anschlußmittel 23 übertragbar und von den USB-Anschlußmitteln 23 an die Audio-Speichermittel 37 zur Speicherung der Audioinformation AI abgebbar. Eine von den USB-Anschlußmitteln 12 des Diktiermikrofons 2 oder von den USB-Anschlußmitteln 28 des Fußschalters 3 an die USB-Anschlußmittel 23 des Computers 1 abgegebene Steuerinformation SI ist von den USB-Anschlußmitteln 23 empfangbar und an weitere Mittel des Computers 1 abgebbar, worauf nachfolgend noch näher eingegangen werden soll.
Die durch den Computer 1 gebildete Spracherkennungseinrichtung weist Sprachkoeffizienten-Speichermittel 38 auf, die zum Speichern einer Sprachkoeffizienten-Information SKI ausgebildet sind. Die Sprachkoeffizienten-Information SKI enthält eine Sprachmodell-Information SMI, eine Wortschatz-Information WI und eine Phonemreferenz-Information PRI.
Die Wortschatz-Information WI ist in Wortschatz-Speichermitteln 39 gespeichert und enthält sämtliche von der Spracherkennungseinrichtung in einer Sprachinformation erkennbaren Wörter sowie einen Häufigkeitszähler je Wort, der die Auftrittswahrscheinlichkeit des Worts in einer Sprachinformation angibt. Die Sprachmodell- Information SMI ist in Sprachmodell-Speichermitteln 40 gespeichert und enthält Wortfolgen sowie einen Häufigkeitszähler je Wortfolge, der die Auftrittswahrscheinlichkeiten dieser Wortfolge in einer Sprachinformation angibt. Die Phonemreferenz-Information PRI ist in Phonemreferenz-Speichermitteln 41 gespeichert und ermöglicht ein Anpassen der Spracherkennungseinrichtung an Eigenarten der Aussprache eines Sprechers.
Die Spracherkennungseinrichtung weist weiterhin Spracherkennungsmittel 42 auf. Von den USB-Anschlußmitteln 23 ist eine Steuerinformation SI zur Aktivierung einer Spracherkennungs-Betriebsart zur Abarbeitung eines Spracherkennungsverfahrens an die Spracherkennungsmittel 42 abgebbar. Die Spracherkennungsmittel 42 sind bei aktivierter Spracherkennungs-Betriebsart zum Auslesen einer in den Audio-Speichermitteln 37 gespeicherten Audioinformation AI und zum Auslesen einer in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI ausgebildet.
Die Spracherkennungsmittel 42 sind bei der Abarbeitung des Spracherkennungsverfahrens zum Auswerten der Audioinformation AI und der Sprachkoeffizienten-Information SKI ausgebildet. Hierbei ermitteln die Spracherkennungsmittel 42 zu jedem Teil der Audioinformation AI mehrere mögliche Wortfolgen, die gegebenenfalls dem jeweiligen Teil der Audioinformation AI entsprechen, und geben diese möglichen Wortfolgen für alle Teile der Audioinformation AI als mögliche Textinformation PTI ab. Die mögliche Textinformation PTI enthält also beispielsweise 20 mögliche Wortfolgen für die Audioinformation AI. Weiterhin ermitteln die Spracherkennungsmittel 42 – bei der Abarbeitung des Spracherkennungsverfahrens – die jeweils wahrscheinlichste Wortfolge für jeden Teil der Audioinformation AI und geben diese ermittelten wahrscheinlichsten Wortfolgen der gesamten Audioinformation AI als erkannte Textinformation RTI ab.
Die Spracherkennungseinrichtung weist Text-Speichermittel 43 zum Speichern von Textinformationen auf. Die Text-Speichermittel 43 enthalten Möglicher-Text-Speichermittel 44, Erkannter-Text-Speichermittel 45, Korrigierter-Text-Speichermittel 46 sowie Trainings-Text-Speichermittel 47. Eine von den Spracherkennungsmitteln 42 bei der Abarbeitung des Spracherkennungsverfahrens abgegebene mögliche Textinformation PTI ist in den Möglicher-Text-Speichermittel 44 und erkannte Textinformation RTI ist in den Erkannter-Text-Speichermittel 45 speicherbar.
Der Computer 1 ist weiterhin zum Abarbeiten eines Textverarbeitungsprogramms – wie beispielsweise „Word for Windows95" – ausgebildet und bildet hierbei Textverarbeitungsmittel 48. Eine von den Spracherkennungsmitteln 42 bei der Abarbeitung des Spracherkennungsverfahrens erzeugte erkannte Textinformation RTI ist an die Textverarbeitungsmittel 48 abgebbar. Die Textverarbeitungsmittel 48 sind dann zum Abgeben einer die erkannte Textinformation RTI enthaltenden Bildinformation PI an den Monitor 4 ausgebildet.
Mit den Eingabemitteln 14 des Diktiermikrofons 2 ist eine Steuerinformation SI eingebbar, die an die Spracherkennungsmittel 42 und die Textverarbeitungsmittel 48 abgebbar ist und die eine Korrektur-Betriebsart der Spracherkennungseinrichtung aktiviert. Die Textverarbeitungsmittel 48, der Monitor 4 und die Tastatur 5 bilden hierbei Korrekturmittel 49. Bei aktivierter Korrektur-Betriebsart kann ein Benutzer mit der Tastatur 5 die erkannte Textinformation RTI korrigieren und eine korrigierte Textinformation CTI in den Korrigierter-Text-Speichermitteln 46 speichern, worauf nachfolgend noch näher eingegangen werden soll.
In den Trainings-Text-Speichermitteln 47 ist eine Trainingstextinformation TTI gespeichert, die typische Wörter und Redewendungen bzw. Wortfolgen eines bestimmten Bereichs (Geschäftsbriefe; Fachgebiet: Radiologie; Fachgebiet: Recht...) enthält. Mit den Eingabemitteln 14 des Diktiermikrofons 2 ist eine Steuerinformation SI eingebbar, die an die Spracherkennungsmittel 42 und die Textverarbeitungsmittel 48 abgebbar ist und die eine Initialtraining-Betriebsart der Spracherkennungseinrichtung aktiviert.
Bei aktivierter Initialtraining-Betriebsart sind die Textverarbeitungmittel 47 zum Auslesen der Trainingstextinformation TTI aus den Trainingstext-Speichermitteln 47 und zum Abgeben einer entsprechenden Bildinformation PI an den Monitor 4 ausgebildet. Von einem Benutzer kann hierauf der mit dem Monitor 4 angezeigte Trainingstext in das Mikrofon 6 gesprochen werden, um die Spracherkennungseinrichtung an die Art der Aussprache des Benutzers anzupassen.
Die Spracherkennungseinrichtung weist Anpassungsmittel 50 auf, um die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI sowohl an die An der Aussprache des Benutzers als auch an von dem Benutzer üblicherweise verwendete Wörter und Wortfolgen anzupassen. Die Text-Speichermittel 43, die Korrekturmittel 49, und die Anpassungsmittel 50 bilden hierbei Trainingsmittel 51. Ein solches Anpassen der Sprachkoeffizienten-Information SKI erfolgt bei aktivierter Initialtraining-Betriebsart, bei der die von dem Benutzer vorgelesene Trainingstextinformaion TTI bekannt ist.
Ein solches Anpassen erfolgt aber auch bei einer Anpassungs-Betriebsart, bei der eine einer Sprachinformation entsprechende Textinformation als erkannte Textinformation RTI erkannt und von dem Benutzer in eine korrigierte Textinformation CTI korrigiert wurde. Hierfür weisen die Trainingsmittel 51 Textvergleichsmittel 52 auf, die zum Vergleichen der erkannten Textinformation RTI mit der korrigierten Textinformation CTI und zum Ermitteln zumindest eines Übereinstimmungsindikators CI ausgebildet sind. In den Textvergleichsmitteln 52 wird bei aktivierter Anpassungs-Betriebsart eine in 4 dargestellte Anpassungstabelle 53 erstellt, worauf nachfolgend noch näher eingegangen werden soll.
Von den Anpassungsmitteln 50 ist als Ergebnis der Anpassung eine Anpassungsinformation NI an die Sprachkoeffizienten-Speichermittel 38 abgebbar, mit der die gespeicherte Sprachkoeffizienten-Information SKI angepaßt wird. Von den Anpassungsmitteln 50 der Trainingsmittel 51 ist weiterhin ein Trainingsindikator TI abgebbar, der das Ausmaß der Anpassung der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI angibt. Der Trainingsindikator TI enthält eine Information, wie oft und mit welcher Anzahl von Wörtern die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI bereits an einen Benutzer angepaßt wurde. Je öfter die Sprachkoeffizienten-Information SKI an einen Benutzer angepaßt wurde, desto besser ist die Erkennungsrate der Spracherkennungseinrichtung für diesen Benutzer.
Die Spracherkennungseinrichtung weist Transfermittel 54 auf, die ein Importieren einer Sprachkoeffizienten-Information SKI und ein Speichern der importierten Sprachkoeffizienten-Information SKI in den Sprachkoeffizienten-Speichermitteln 38 und/oder ein Exportieren der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI ermöglichen. Hierfür ist von dem Benutzer eine Transferinformation TRI mit der Tastatur 5 eingebbar und an die Transfermittel 54 abgebbar, worauf nachfolgend näher eingegangen werden soll.
Anhand eines ersten Anwendungsbeispiels soll ferner die Funktion des Diktiermikrofons 2, des Fußschalters 3 und der durch den Computer 1 gebildeten Diktiereinrichtung und Spracherkennungseinrichtung näher erläutert werden. Gemäß dem ersten Anwendungsbeispiel wird angenommen, daß der Benutzer des Computers 1 einen Brief diktieren möchte, um bei seinem Bekannten „John" drei Computer des Typs „Quality" zu bestellen. Hierfür betätigt der Benutzer die Record-Taste 18 des Diktiermikrofons 2 und diktiert „Dear John I herewith order three computer Quality for my office Harry". Eine dieser Sprachinformation entsprechende Audioinformation AI wird hierauf von dem Diktiermikrofon 2 als Übertragungsdaten UD an die USB-Anschlußmittel 23 übertragen und schließlich in den Audio-Speichermitteln 37 gespeichert. Bei diesem Vorgang bilden das Diktiermikrofon 2 und der Computer 1 eine Diktiereinrichtung.
Durch das Betätigen der Record-Taste 18 des Diktiermikrofons 2 wird eine die Spracherkennungs-Betriebsart der Spracherkennungsmittel 42 aktivierende Steuerinformation SI von dem Diktiermikrofon 2 als Übertragungsdaten UD über die USB-Anschlußmittel 23 an die Spracherkennungsmittel 42 abgegeben. Bei in den Spracherkennungsmitteln 42 aktivierter Spracherkennungs-Betriebsart wird die in den Audio-Speichermitteln 37 gespeicherte Audioinformation AI ausgelesen und gemeinsam mit der aus den Sprachkoeffizienten-Speichermitteln 38 ausgelesenen Sprachkoeffizienten-Information SKI ausgewertet. Hierbei ermitteln die Spracherkennungsmittel 42 mehrere mögliche Wortfolgen als mögliche Textinformation PTI und speichern diese in den Möglicher-Text-Speichermitteln 44. Eine mögliche Textinformation PTI könnte hierbei für den ersten Teil der Audioinformation AI beispielsweise die Wortfolgen „Hear John why", „Dear John I" und „Bear John hi" enthalten.
Die Spracherkennungsmittel 42 ermitteln die Textinformation „Dear John I herewith organ three computer Quality for my office Mary" als wahrscheinlichste Textinformation und geben diese als erkannte Textinformation RTI an die Erkannter-Text-Speichermittel 45 ab. Hierbei wurde das gesprochene Wort „order" als das Wort „organ" und das gesprochene Wort „Harry" als das Wort „Mary" falsch erkannt.
Die von den Spracherkennungsmitteln 42 erkannte und in den Erkannter-Text-Speichermitteln 45 gespeicherte erkannte Textinformation RTI wird dann mit den Textverarbeitungsmitteln 48 ausgelesen und mit dem Monitor 4 dargestellt. Der Benutzer erkennt, daß die beiden gesprochenen Wörter „order" und „Harry" falsch erkannt wurden und möchte die erkannte Textinformation RTI korrigieren, weshalb der Benutzer mit den Eingabemitteln 14 des Diktiermikrofons 2 die Korrektur-Betriebsart der Spracherkennungseinrichtung aktiviert.
Bei aktivierter Korrektur-Betriebsart kann der Benutzer durch Betätigen des Audiowiedergabe-Schalters 25 des Fußschalters 3 die in den Audio-Speichermitteln 37 gespeicherte Audioinformation AI mit dem Kopfhörer 34 oder dem Lautsprecher 32 akustisch wiedergeben, wobei synchron zu der wiedergegebenen Audioinformation AI die zu der Audioinformation AI erkannte Textinformation RTI mit dem Monitor 4 gekennzeichnet wird. Ein solches synchrones Editieren bzw. Korrigieren ist seit langem bekannt.
Bei einer ersten Art der Korrektur der erkannten Textinformation RTI durch den Benutzer korrigiert der Benutzer nur die falsch erkannten Wörter „organ" und „Mary" in die beiden ursprünglich gesprochenen Wörter „order" und „Harry" und es wird eine korrigierte Textinformation CTI in den Textverarbeitungsmitteln 48 erstellt und in den Korrigierter-Text-Speichermitteln 46 gespeichert. Diese nach dem ersten Korrekturschritt in den Korrigierter-Text-Speichermitteln 46 gespeicherte korrigierte Textinformation CTI wäre zur Anpassung der Sprachkoeffizienten-Information SKI besonders gut geeignet. Die bei einem weiteren Diktat des Benutzers gesprochenen Wörter „order" und „Harry" würden bei einem darauffolgenden Spracherkennungsvorgang mit der zuvor angepaßten Sprachkoeffizienten-Information SKI richtig erkannt werden.
Wie die Praxis zeigt, werden von Benutzern bei aktivierter Korrektur-Betriebsart auch andere Korrekturen gemäß einer zweiten Art der Korrektur durchgeführt. Gemäß dem ersten Anwendungsbeispiel wird angenommen, daß sich der Benutzer nunmehr erinnert, daß er ebenfalls drei Computer des Typs „Standard" bestellen möchte, weshalb der Benutzer die Wortfolge „and three computer Standard" mit der Tastatur 5 in die bereits korrigierte Textinformation CTI einfügt. Weiterhin kopiert der Benutzer einen Text A vor den Anfang der bereits korrigierten Textinformation CTI, der die Adresse des Briefes an seinen Bekannten „John" enthält. Schließlich kopiert der Benutzer einen Text B hinter der bereits korrigierten Textinformation CTI in die korrigierte Textinformation CTI hinein, die eine bei solchen Bestellungen übliche Fußnote über vereinbarte Prozentnachlässe beinhaltet.
Der Benutzer fügt dann Textteile in die erkannte Textinformation RTI ein, die mit der von dem Benutzer bei dem Diktat gesprochenen Sprachinformation keinen Zusammenhang haben. Solche Textteile dürfen nicht zur Anpassung der Phonemreferenz-Information PRI ausgewertet werden, da keine entsprechende Audioinformation AI in den Audio-Speichermitteln 37 gespeichert ist. Weiterhin ist es nicht gut, die Wortschatz-Information WI oder die Sprachmodell-Information SMI mit solchen Textteilen anzupassen, da der Text A und der Text B oft in korrigierten Textinformationen CTI des Benutzers enthalten sind, in Diktaten des Benutzers aber praktisch nie gesprochen werden.
Wenn die Wortschatz-Information WI und die Sprachmodell-Information SMI mit Textteilen trainiert werden würden, die keinen Zusammenhang mit der Sprachin formation aufweisen, dann hätte beispielsweise die Wortfolge des in dem Text A enthaltenen Straßennamen „Hell Road" der Adresse des Bekannten John eine hohe Auftrittswahrscheinlichkeit, da der Benutzer oft Briefe an John schreibt und die Adresse immer in die korrigierte Textinformation CTI hinein kopiert. Nun würde aber eine in einem Diktat gesprochene Wortfolge „Hello Rod" relativ leicht falsch erkannt werden, da die Wortfolge „Hello Rod" in den Sprachmodell-Speichermitteln 40 eine verglichen mit der Wortfolge „Hellroad" relativ niedrigere Auftrittswahrscheinlichkeit aufweisen würde, obwohl die Wortfolge „Hello Rod" in Diktaten des Benutzers relativ häufig vorkommt.
Nachdem der Benutzer alle von Ihm gewünschten Korrekturen durchgeführt hat und die korrigierte Textinformation CTI in den Korrigierte-Text-Speichermitteln 46 gespeichert wurde, betätigt der Benutzer eine Taste der Tastatur 15 des Diktiermikrofons 2, um die Anpassungs-Betriebsart der Spracherkennungseinrichtung zu aktivieren und die Sprachkoeffizienten-Information SKI der Spracherkennungseinrichtung anzupassen. Eine entsprechende Steuerinformation SI wird hieraufhin von dem Diktiermikrofon 2 über die USB-Anschlußmittel 23 an die Spracherkennungsmittel 42 abgegeben.
Bei in der Spracherkennungseinrichtung aktivierter Anpassungs-Betriebsart sind die Anpassungsmittel 50 zum Auslesen der in den Audio-Speichermitteln 37 gespeicherten Audioinformation AI sowie der in den Text-Speichermitteln 43 gespeicherten möglichen Textinformation PTI, erkannten Textinformation RTI und korrigierten Textinformation CTI ausgebildet. Weiterhin sind die Textvergleichsmittel 52 bei aktivierter Anpassungs-Betriebsart zum Erstellen der in 4 dargestellten Anpassungstabelle 53 ausgebildet, um einen Textteil der korrigierten Textinformation CTI zu ermitteln, der zur Anpassung der Sprachkoeffizienten-Information SKI geeignet ist.
Hierfür wird vorerst die erkannte Textinformation RTI und die korrigierte Textinformation CTI in die Anpassungstabelle 53 eingetragen, wobei falsch erkannte Wörter sowie korrigierte und eingefügte Wörter und Textteile mit der Schriftart „fett" dargestellt sind. Die Textvergleichsmittel 52 sind nunmehr zum Vergleichen der erkannten Textinformation RTI und der korrigierten Textinformation CTI und zum Kennzeichnen übereinstimmender Wörter durch graue Felder an der entsprechenden Stelle der Anpassungstabelle 53 ausgebildet. Der Textteil mit den Wörtern „three computer" der erkannten Textinformation RTI wird zwei Mal in der korrigierten Textinformation CTI gefunden.
Weiterhin sind die Textvergleichsmittel 52 beim Vergleichen der erkannten Textinformation RTI und der korrigierten Textinformation CTI zum Ermitteln eines Über einstimmungsindikators CI für jeden Textteil ausgebildet. Hierbei ermitteln die Textvergleichsmittel 52, wie viele übereinstimmende durch ein graues Feld gekennzeichnete Wörter ein Textteil aufweist. Weiterhin ermitteln die Textvergleichsmittel 52 Strafpunkte für jeden Textteil, wobei für jede Einfügung, Löschung oder Ersetzung eines Wörters in der korrigierten Textinformation CTI ein Strafpunkt vergeben wird. Aus der Anzahl der übereinstimmenden Wörter und der Strafpunkte eines Textteils wird der Übereinstimmungsindikator CI des Textteils ermittelt.
In den Textvergleichsmitteln 52 ist ein Mindestwert MW für den Übereinstimmungsindikator CI festgelegt, der unterschritten wird, wenn für einen Textteil mehr als drei Strafpunkte für Korrekturen benachbarter Wörter der korrigierten Textinformation CTI vergeben werden. Für die Anpassung der Sprachkoeffizienten-Information SKI werden nur Textteile verwendet, deren Übereinstimmungsindikator CI den Mindestwert MW überschreitet.
Die Textvergleichsmittel 52 werten die Anpassungstabelle 53 aus und erkennen, daß sämtliche Wörter von Text A und von Text B in der korrigierten Textinformation CTI eingefügt wurden, weshalb die Textvergleichsmittel 52 für den Text A und den Text B eine mit der Anzahl der Wörter des Text A und das Text B übereinstimmende Anzahl an Strafpunkten vergeben. Die Textvergleichsmittel 52 geben daher einen Übereinstimmungsindikator CI für den Text A und den Text B an die Anpassungsmittel 50 ab, der kleiner als der Mindestwert MW ist. Dies bietet den Vorteil, daß ein Textteil der korrigierten Textinformation CTI, der überhaupt keinen Zusammenhang mit der Sprachinformation aufweist, für die Anpassung der Sprachkoeffizienten-Information SKI nicht verwendet wird.
Gemäß der Anpassungstabelle 53 verbleiben nun Textteile entlang eines Pfades P1 und eines Pfades P2 der korrigierten Textinformation CTI, die für eine Anpassung der Sprachkoeffizienten-Information SKI verwendet werden könnten.
Der Pfad P1 enthält einen ersten Textteil „Dear John I herewith", dem von den Textvergleichsmitteln 52 keine Strafpunkte zugeordnet werden und dessen Übereinstimmungsindikator daher den Mindestwert MW überschreitet. Der Pfad P1 enthält nach dem ersten Textteil einen zweiten Textteil „order three computer Quality and", dem fünf Strafpunkte (1) bis (5) für die Einfügung der Wörter „order three computer Quality" und die Ersetzung des Wortes „organ" durch das Wort „and" zugeordnet werden und dessen Übereinstimmungsindikator daher den Mindestwert MW unterschreitet. Der Pfad P1 enthält nach dem zweiten Textteil einen dritten Textteil „three computer Standard for my office Harry", dem nur ein Strafpunkt (6) für die Einfügung des Wortes „Standard" zugeordnet wird und dessen Übereinstimmungsindikator CI daher den Mindestwert MW überschreitet. Der Pfad P1 enthält daher den ersten und den dritten Textteil, die prinzipiell für eine Anpassung der Sprachkoeffizienten-Information SKI geeignet sind.
Der Pfad P2 enthält einen vierten Textteil „Dear John I herewith order three computer Quality", dem von den Textvergleichsmitteln 52 nur ein Strafpunkt (1) für die Ersetzung des Wortes „organ" durch das Wort „order" zugeordnet wird und dessen Übereinstimmungsindikator CI daher den Mindestwert MW überschreitet. Der Pfad P2 enthält nach dem vierten Textteil einen fünften Textteil „and three computer Standard", dem vier Strafpunkte (2) bis (5) für die Einfügung dieser Wörter zugeordnet werden und dessen Übereinstimmungsindikator daher den Mindestwert MW unterschreitet. Der Pfad P2 enthält nach dem fünften Textteil einen sechsten Textteil „for my office Harry", dem ein Strafpunkt (6) für die Ersetzung des Wortes „Mary" durch das Wort „Harry" zugeordnet wird und dessen Übereinstimmungsindikator CI den Mindestwert MW überschreitet. Der Pfad P2 enthält daher den vierten und den sechsten Textteil; die prinzipiell für eine Anpassung der Sprachkoeffizienten-Information SKI geeignet sind.
Die Textvergleichsmittel 52 sind zum Ermitteln der Textteile des Pfades P1 oder P2 ausgebildet, die den größten Summen-Übereinstimmungsindikator SCI aufweisen. Hierfür ermitteln die Textvergleichsmittel 52, daß neun Wörter des Pfades P1 und zehn Wörter des Pfades P2 der korrigierten Textinformation CTI vollkommen mit den Wörtern der erkannten Textinformation RTI übereinstimmen und in der Anpassungstabelle 53 als graues Feld gekennzeichnet sind. Weiterhin werden von den Textvergleichsmitteln 52 die Strafpunkte jedes Pfades addiert, wobei für den Pfad P1 sieben Strafpunkte und für den Pfad P2 sechs Strafpunkte ermittelt werden.
Schließlich ermitteln die Textvergleichsmittel 52, daß die Textinformationen des Pfades P2 mit zehn übereinstimmenden Wörtern und nur sechs Strafpunkten eine größere Summen-Übereinstimmung mit der erkannten Textinformation RTI aufweisen und geben einen entsprechend hohen Summen-Übereinstimmungsindikator SCI für die Textteile des Pfades P2 an die Anpassungsmittel 50 ab.
Dies bietet den Vorteil, daß für die Anpassung der Sprachkoeffizienten-Information SKI gemäß einer ersten An der Korrektur korrigierte Wörter – wie beispielsweise „order" und „Harry" – zur Anpassung verwendet werden und gemäß der zweiten An der Korrektur korrigierte Textteile – wie beispielsweise „and three computer Standard", die mit der Sprachinformation keinen Zusammenhang aufweisen – nicht zur Anpassung verwendet werden. Hierdurch wird die Sprachkoeffizienten-Information SKI besonders rasch und gut an Eigenarten der Aussprache eines Benutzers und typische Formulierungen eines Benutzers angepaßt, womit eine besonders gute Erkennungsrate der Spracherkennungseinrichtung erzielt wird.
Die Anpassungsmittel 50 sind bei in der Spracherkennungseinrichtung aktivierter Anpassungs-Betriebsart nach dem Erhalt des Summen-Übereinstimmungsindikators SCI von den Textvergleichsmitteln 52 zum Auslesen der Textteile des Pfades P2 der korrigierten Textinformation CTI aus den Korrigierter-Text-Speichermitteln 46 und zum Auswerten dieser Textteile ausgebildet.
Zur Anpassung der Wortschatz-Information WI werden für jedes Wort des vierten und des sechsten Textteils „Dear", „John", „I",..., „Harry" der Wortfolge P2 in dem Wortschatz-Speichermitteln 39 zugeordnet gespecherten Häufigkeitszähler der Wert „1" hinzu addiert, wobei der Häufigkeitszähler die Auftrittswahrscheinlichkeit des jeweiligen Worts in einem Diktat des Benutzers kennzeichnet. Wenn ein Wort des zur Anpassung verwendeten Textteils erstmals von dem Benutzer diktiert wurde, dann wird es in den Wortschatz-Speichermitteln 39 gemeinsam mit einem Häufigkeitszähler mit dem Wert „1" gespeichert.
Zur Anpassung der in den Sprachrmodel-Speichermitteln 40 gespeicherten Sprachmodell-Information SMI wird beispielsweise der der Wortfolge „I herewith order" zugeordnet gespeicherte Häufigkeitszähler um den Wert „1" erhöht, um eine höhere Wahrscheinlichkeit des Auftretens einer solchen Formulierung in einem Diktat des Benutzers zu kennzeichnen.
Zur Anpassung der in den Phonemreferenz-Speichermitteln 41 gespeicherten Phonemreferenz-Information PRI werden nur solche Wörter des vierten und des sechsten Textteils der Wortfolge P2 gemeinsam mit der zugehörigen Audioinformation AI ausgewertet, die eine völlige Übereinstimmung mit einem Wort der erkannten Textinformation RTI aufweisen und in der Anpassungstabelle 53 durch ein graues Feld gekennzeichnet sind. Zusätzlich können auch noch Wörter der möglichen Textinformation PTI mit der zugehörigen Audioinformation AI ausgewertet werden. Hierfür prüfen die Anpassungsmitte150 ob ein von dem Benutzer bei der ersten Art der Korrektur ersetztes Wort („order", „Harry") in den Möglicher-Text-Speichermitteln 44 für diesen Teil der Audioinformation AI gespei chert ist. Wenn ein solches Wort in den Möglicher-Text-Speichermitteln 44 gefunden wird, dann wird auch diese Wort mit der zugehörigen Audioinformation AI zur Anpassung der Phonemreferenz-Information PRI ausgewertet.
Eine diese Anpassungen enthaltende Anpassungsinformation NI wird anschließend von den Anpassungsmitteln 50 an die Sprachkoeffizienten-Speichermittel 38 zur Anpassung der Sprachkoeffizienten-Information SKI abgegeben. Ebenso wird von den Anpassungsmitteln 50 ein Trainingsindikator TI an die Transfermittel 54 abgegeben, der kennzeichnet, mit wie vielen Wörtern die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI bereits trainiert wurde. Dies bietet den Vorteil, daß anhand des Trainingsindikators TI unmittelbar ersichtlich ist, ob die Spracherkennungseinrichtung bereits gut an einen Benutzer angepaßt wurde und daher voraussichtlich eine gute Erkennungsrate für diesen Benutzer aufweisen wird.
Gemäß einem zweiten Anwendungsbeispiel wird angenommen, daß der Benutzer der durch den Computer 1 gebildeten Spracherkennungseinrichtung auch einen anderen Computer besitzt, der eine andere Spracherkennungseinrichtung bildet. Der Benutzer möchte verständlicherweise bei der anderen Spracherkennungseinrichtung eine gleich gute Erkennungsrate erzielen, wie er sie bei der durch den Computer 1 gebildeten Spracherkennungseinrichtung bereits erzielt, deren Sprachkoeffizienten-Information SKI er seit mehreren Monaten trainiert hat.
Hierfür betätigt der Benutzer eine Taste der Tastatur 5, woraufhin eine Transferinformation TRI von der Tastatur 5 an die Transfermittel 54 angegeben wird. Die Transfermittel 54 werden dann zum Auslesen der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI verwendet. Weiterhin werden die Transfermittel 54 zum Speichern der ausgelesenen Sprachkoeffizienten-Information SKI und des Traniningsindikators TI der Sprachkoeffizienten-Information SKI auf einer in ein Diskettenlaufwerk des Computers 1 eingelegten Diskette 55 verwendet.
Dies bietet den Vorteil, daß eine in den Sprachkoeffizienten-Speichermittel 38 gespeicherte und bereits von dem Benutzer trainierte Sprachkoeffizienten-Information SKI aus dem Computer 1 exportiert werden kann. Weiterhin kann die Sprachkoeffizienten-Information SKI in den zweiten Computer des Benutzers importiert werden. Hierdurch kann ein Benutzer eine von ihm trainierte Sprachkoeffizienten-Information SKI bei beliebig vielen anderen Computern, die eine der in 1 dargestellten Spracherkennungseinrich tung entsprechende Spracherkennungseinrichtung bilden, weiter verwenden und so auch bei diesen Computern eine gute Erkennungsrate der Spracherkennungseinrichtung erhalten.
Vorteilhafterweise wird beim Exportieren der Sprachkoeffizienten-Information SKI der Trainingsindikator TI der Sprachkoeffizienten-Information SKI mit exportiert, womit bei einem Importieren der Sprachkoeffizienten-Information SKI von den Transfermitteln 54 vorerst prüfbar ist, ob die zu importierende Sprachkoeffizienten-Information SKI bereits besser trainiert ist als die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI. Die Transfermittel 54 importieren die Sprachkoeffizienten-Information SKI nur dann, wenn die Prüfung ergibt, daß die zu importierende Sprachkoeffizienten-Information SKI bereits besser trainiert ist als die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI.
Gemäß einem dritten Anwendungsbeispiel wird angenommen, daß der Computer 1 einen mit dem Internet verbundenen Internet-Server bildet und mit einem vierten Anschluß 56 mit dem Internet verbunden ist. Weiterhin sei angenommen, daß der Benutzer eines weiteren Computers, der eine Diktiereinrichtung bildet, die in Hompage-Speichermitteln 57 des Computers 1 gespeicherte Textinformation einer Homepage des Internet-Servers abgefragt hat und diese Textinformation über den vierten Anschluß 56 an den weiteren Computer abgegeben wurde. Diese Textinformation der Hompage enthält Link-Informationen, mit denen weitere in den Hompage-Speichermitteln 57 gespeicherte Textinformationen abgefragt werden können, wie dies allgemein üblich ist. Die in 1 dargestellte Spracherkennungseinrichtung des Internet-Servers ermöglicht dem Benutzer des weiteren Computers ein Aktivieren einer in der Homepage dargestellten Link-Information durch eine mit dem weiteren Computer eingegebene Sprachinformation.
Gemäß dem dritten Anwendungsbeispiel wird weiterhin angenommen, daß der Benutzer die in der Hompage angegebene Link-Information „Hotels" aktivieren möchte. Hierfür betätigt der Benutzer eine Record-Taste eines Diktiermikrofons des weiteren Computers und spricht die Sprachinformation „Hotels" in das Mikrofon des Diktiermikrofons. Eine diese Sprachinformation enthaltende Audioinformation AI wird dem Computer 1 über den vierten Anschluß 56 zugeführt und die Audioinformation AI wird in den Audio-Speichermitteln 37 gespeichert. Bei der hierdurch aktivierten Spracherkennungs-Betriebsart der Spracherkennungseinrichtung des Computers 1 wird das Wort „Hotels" von den Spracherkennungsmitteln 42 als erkannte Textinformation RTI erkannt und die dieser Link- Information zugeordnete Textinformation wird von den Hompage-Speichermitteln 57 über den vierten Anschluß 56 an den weiteren Computer des Benutzers abgegeben.
Bei dem Computer 1 wird nun vorteilhafterweise vor der Aktivierung der Spracherkennungs-Betriebsart die von dem weiteren Computer exportierte und über das Internet an den vierten Anschluß 56 abgegebene Sprachkoeffizienten-Information SKI mit den Transfermitteln 54 importiert. Hierdurch wird der durch den Computer 1 gebildete Internet-Server an den jeweiligen Benutzer angepaßt, weshalb eine besonders hohe Erkennungsrate erzielt wird.
Es kann erwähnt werden, daß die Sprachkoeffizienten-Information SKI eines Benutzers gemeinsam mit jeder an den Internet-Server übertragenen Audioinformation AI übertragen werden kann. Besonders vorteilhaft ist es jedoch, die Sprachkoeffizienten-Information SKI eines Benutzers nur bei einem ersten Abfragen der Hompage des Internet-Servers an den Internet-Server zu übertragen und die Sprachkoeffizienten-Information SKI in dem Internet-Server für diesen Benutzer zu speichern. Bei jedem weiteren Empfang einer Audioinformation AI von dem weiteren Computer dieses Benutzers kann der Internet-Server die bereits gespeicherte Sprachkoeffizienten-Information SKI für die Spracherkennung verwenden.
Es kann erwähnt werden, daß die Anpassungs-Betriebsart zum Anpassen der Sprachkoeffizienten-Information SKI auch automatisch nach dem Abspeichern einer korrigierten Textinformation CTI oder durch den Benutzer mit einer Taste der Tastatur 5 des Computers 1 aktiviert werden kann.
Es kann erwähnt werden, daß es auch andere als gemäß dem Ausführungsbeispiel beschriebene Möglichkeiten der Ermittlung eines Übereinstimmungsindikatorens eines Textteils oder eines Summen-Übereinstimmungsindikatorens von Textteilen eines Pfades gibt. Weiterhin ist die Festlegung, daß der Mindestwert MW unterschritten ist, wenn drei aufeinanderfolgende Strafpunkte vergeben werden, nur als Beispiel zu verstehen. Ebenso könnte eine eine bestimmte Anzahl an Strafpunkten in einer bestimmten Anzahl an Wörtern eines Textteils überschreitende Anzahl an Strafpunkten als ein Unterschreiten des Mindestwertes MW festgelegt werden.
Es kann erwähnt werden, daß es auch vorteilhaft sein kann, aus einem prinzipiell zur Anpassung der Sprachkoeffizienten-Information SKI geeigneten Textteil, dessen Ermittlung anhand des ersten Anwendungsbeispiels erläutert wurde, nur bestimmte Teile zur Anpassung der Sprachkoeffizienten-Information SKI zu verwenden. Hierbei können beispielsweise nur Wörter, denen von den Textvergleichsmitteln 52 ein Strafpunkt zugeordnet wurde, und diesen Wörtern benachbarte Wörter, die in der Anpassungstabelle 53 durch ein graues Feld gekennzeichnet sind, verwendet werden.
Dies bietet den Vorteil, daß bei dem Spracherkennungsvorgang falsch erkannte und von dem Benutzer korrigierte (ersetzte) Wörter („order", „Harry") sowie zu diesen Wörtern benachbarte Wörter zur Anpassung verwendet werden. Teile der korrigierten Textinformation CTI von prinzipiell zur Anpassung geeigneten Textteilen, die vollkommen mit der erkannten Textinformation RTI übereinstimmen, werden hierbei nicht zur Anpassung verwendet, da diese Teile eventuell von dem Benutzer gar nicht korrigiert wurden.
Es kann erwähnt werden, daß Eingabemittel einer in einer Hand haltbaren Eingabeeinrichtung auch zum Abgeben einer Steuerinformation an einen Computer ausgebildet sein können, um den Computer aus einer Power-Save-Betriebsart in eine Akiv-Betriebsart aufzuwecken.
Es kann erwähnt werden, daß eine mit einem Fuß betätigbare Eingabeeinrichtung auch ganz allgemein zur Aktivierung von Betriebszuständen in dem Computer verwendbar ist. Hierbei könnte der Computer einen Fernsehempfänger bilden und mit dem Fußschalter könnte beispielsweise ein Fernsehkanal ausgewählt werden, in dem eine Fernsehsendung empfangen wird, die mit dem Monitor wiedergegeben wird.
Es kann erwähnt werden, daß an eine mit einem Fuß betätigbare Eingabeeinrichtung auch ein Mikrofon oder ein Lautsprecher an den USB-Anschlußmitteln der Eingabeeinrichtung angeschlossen werden kann, wenn das Mikrofon oder der Lautsprecher ebenfalls USB-Anschlußmittel aufweist. In diesem Fall ist es nicht notwendig, daß die mit einem Fuß betätigbare Eingabeeinrichtung Audio-Verarbeitungsmittel aufweist, da Audio-Verarbeitungsmittel zum Abgeben eines analogen Audiosignals dann in dem Mikrofon und dem Lautsprecher vorgesehen sind.
Es kann erwähnt werden, daß eine digitale Datenbusverbindung auch durch eine Radio-Frequency-Funkverbindung, wie beispielsweise entsprechend der Bluetooth-Spezifikation (Bluetooth Special Interest Group, May 1998), gebildet sein kann. Dies bietet den Vorteil, daß keine Kabelverbindung zwischen der Eingabeeinrichtung und einem Computer mehr notwendig ist.
Es kann erwähnt werden, daß an den zweiten Anschluß 33 des Fußschalters 3 auch ein Lautsprecher angeschlossen werden kann.

Claims

Spracherkennungseinrichtung (1) mit Empfangsmitteln (36) zum Empfangen einer von einem Sprecher gesprochenen Sprachinformation (AI) und mit Sprachkoeffizienten-Speichermitteln (38) zum Speichern eines Sprachkoeffizienten-Indikators (SKI), wobei der Sprachkoeffizienten-Indikator (SKI) Kontextinformation (WI) enthält, die alle die Wörter enthält, die in Sprachinformation (AI) erkannt werden können, Sprachmodelldaten (SMI), die eine Wahrscheinlichkeit für mindestens ein auf ein erstes Wort folgendes zweites Wort in der Sprachinformation (AI) angeben, und Phonemreferenz-Information (PRI), die Information darüber enthält, wie ein Phonem von einem Sprecher ausgesprochen wird, weiter mit Spracherkennungsmitteln (42), die zum Erkennen einer der empfangenen Sprachinformation (AI) entsprechenden Textinformation (RTI) durch Auswertung der Sprachinformation (AI) und des Sprachkoeffizienten-Indikators (SKI) vorgesehen sind, und mit Korrekturmitteln (49) zum Korrigieren der erkannten Textinformation (RTI) und zum Erzeugen einer korrigierten Textinformation (CTI) und mit Anpassungsmitteln (50) zum Anpassen des gespeicherten Sprachkoeffizienten-Indikators (SKI) durch Auswerten zumindest der korrigierten Textinformation (CTI), dadurch gekennzeichnet, daß Textvergleichsmittel (52) zum Vergleichen der erkannten Textinformation (RTI) mit der korrigierten Textinformation (CTI) und zum Festlegen eines Übereinstimmungsindikators (CI) für zumindest einen Textteil vorgesehen sind und wobei der genannte Übereinstimmungsindikator (CI) eines Textteils aus der sowohl in der erkannten Textinformation (RTI) als auch in der korrigierten Textinformation (CTI) enthaltenen Anzahl Wörter dieses Textteils und aus Strafpunkten für jede Einfügung, Löschung oder Ersetzung eines Wortes in der korrigierten Textinformation (CTI) dieses Textteils ermittelt wird, und daß die Anpassungsmittel (50) zum Anpassen des gespeicherten Sprachkoeffizienten-Indikators (SKI) durch Auswerten nur eines solchen Textteils der korrigierten Textinformation (CTI) vorgesehen sind, dessen Übereinstimmungsindikator (CI) einen Mindestwert (MW) aufweist.
Spracherkennungseinrichtung (1) nach Anspruch 1, dadurch gekennzeichnet, daß die Textvergleichsmittel (52) zum Ermitteln einer Abfolge von Textteilen (P2) der korrigierten Textinformation (CTI) vorgesehen sind, deren bewertete Übereinstimmungsindikatoren (CI) den größten Summen-Übereinstimmungsindikator (SCI) aufweisen, und daß die Anpassungsmittel (50) zum Anpassen des gespeicherten Sprachkoeffizienten-Indikators (SKI) durch Auswerten zumindest der ermittelten Abfolge von Textteilen (P2) der korrigierten Textinformation (RTI) vorgesehen sind.
Spracherkennungsverfahren zum Erkennen einer Sprachinformation (AI) entsprechenden Textinformation (RTI), wobei das Verfahren folgende Schritte enthält: Empfangen einer Sprachinformation (AI), Auswerten der empfangenen Sprachinformation (AI) und eines gespeicherten Sprachkoeffizienten-Indikators (SKI) und Erzeugen einer erkannten Textinformation (RTI), wobei der Sprachkoeffizienten-Indikator (SKI) Kontextinformation (WI) enthält, die alle die Wörter enthält, die in Sprachinformation (AI) erkannt werden können, Sprachmodelldaten (SMI), die eine Wahrscheinlichkeit für mindestens ein auf ein erstes Wort folgendes zweites Wort in der Sprachinformation (AI) angeben, und Phonemreferenz-Information (PRI), die Information darüber enthält, wie ein Phonem von einem Sprecher ausgesprochen wird, weiterhin Korrigieren der erkannten Textinformation (RTI) und Erzeugen einer korrigierten Textinformation (CTI), Anpassen des gespeicherten Sprachkoeffizienten-Indikators (SKI) durch Auswerten zumindest der korrigierten Textinformation (CTI), dadurch gekennzeichnet, daß die erkannte Textinformation (RTI) mit der korrigierten Textinformation (CTI) verglichen und ein Übereinstimmungsindikator (CI) ermittelt wird, wobei der genannte Übereinstimmungsindikator (CI) eines Textteils aus der sowohl in der erkannten Textinformation (RTI) als auch in der korrigierten Textinformation (CTI) enthaltenen Anzahl Wörter dieses Textteils und aus Strafpunkten für jede Einfügung, Löschung oder Ersetzung eines Wortes in der korrigierten Textinformation (CTI) dieses Textteils ermittelt wird, und dass zum Anpassen des gespeicherten Sprachkoeffizienten-Indikators (SKI) nur ein einzelner Textteil (P2) der korrigierten Textinformation (CTI) verwendet wird, dessen Übereinstimmungsindikator (CI) einen Mindestwert (MW) aufweist.
Spracherkennungsverfahren nach Anspruch 3, dadurch gekennzeichnet, daß eine Abfolge von Textteilen (P2) der korrigierten Textinformation (CTI) ermittelt wird, deren Übereinstimmungsindikatoren den größten Summen-Übereinstimmungsindikator (SCI) aufweisen, und daß zum Anpassen des gespeicherten Sprachkoeffizienten-Indikators (SKI) zumindest die ermittelte Abfolge von Textteilen (P2) der korrigierten Textinformation (CTI) verwendet wird.