DE60022976T2 - Spracherkennungseinrichtung mit transfermitteln - Google Patents

Spracherkennungseinrichtung mit transfermitteln Download PDF

Info

Publication number
DE60022976T2
DE60022976T2 DE60022976T DE60022976T DE60022976T2 DE 60022976 T2 DE60022976 T2 DE 60022976T2 DE 60022976 T DE60022976 T DE 60022976T DE 60022976 T DE60022976 T DE 60022976T DE 60022976 T2 DE60022976 T2 DE 60022976T2
Authority
DE
Germany
Prior art keywords
information
speech
ski
text
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60022976T
Other languages
English (en)
Other versions
DE60022976D1 (de
Inventor
Heribert Wutte
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60022976D1 publication Critical patent/DE60022976D1/de
Publication of DE60022976T2 publication Critical patent/DE60022976T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)

Description

  • Die Erfindung bezieht sich auf eine Spracherkennungseinrichtung gemäß dem Oberbegriff von Anspruch 1 und auch ein Spracherkennungsverfahren gemäß dem Oberbegriff von Anspruch 6.
  • Eine solche Spracherkennungseinrichtung und ein solches Spracherkennungsverfahren sind aus dem Dokument US 5.031.113 bekannt. Die bekannte Spracherkennungseinrichtung weist Empfangsmittel auf, die durch ein Mikrofon und einen Audiospeicher zum Empfangen und Speichern einer von einem Sprecher bei einem Diktat gesprochenen Sprachinformation gebildet sind.
  • Die bekannte Spracherkennungseinrichtung weist weiterhin Sprachkoeffizienten-Speichermittel auf, in denen eine Sprachkoeffizienten-Information gespeichert ist, die bei der Abarbeitung des Spracherkennungsverfahrens benötigt wird. Eine solche Sprachkoeffizienten-Information beinhaltet eine Wortschatz-Information, eine Sprachmodell-Information und eine Phonemreferenz-Information. Die Wortschatz-Information enthält sämtliche von der Spracherkennungseinrichtung erkennbaren Wörter, die Sprachmodell-Information enthält Wahrscheinlichkeiten für die Abfolge von Wörtern der Wortschatz-Information in einer Sprachinformation und die Phonemreferenz-Information enthält Informationen darüber, wie ein Wortteil (Phonem) von einem Sprecher ausgesprochen wird.
  • Die bekannte Spracherkennungseinrichtung weist weiterhin Spracherkennungsmittel auf, die bei der Abarbeitung des Spracherkennungsverfahrens durch Auswertung der in den Sprachkoeffizienten-Speichermitteln gespeicherten Sprachkoeffizienten-Information zum Erkennen einer der empfangenen Sprachinformation entsprechenden Textinformation und zum Abgeben dieser Textinformation als erkannte Textinformation ausgebildet sind. Die erkannte Textinformation wird mit einem Monitor dargestellt.
  • Ein Textverarbeitungsprogramm und eine Tastatur bilden Korrekturmittel, mit denen eine mit dem Monitor dargestellte, erkannte Textinformation korrigiert und als korrigierte Textinformation erneut mit dem Monitor dargestellt werden kann.
  • Die bekannte Spracherkennungseinrichtung weist Anpassungsmittel zum Anpassen der Sprachkoeffizienten-Information auf, um infolge einer besseren Anpassung an den Sprecher und die Sprache bei einem darauffolgenden Spracherkennungsvorgang zuvor falsch erkannte Wörter richtig zu erkennen. Zur Anpassung der Wortschatz-Information und der Sprachmodell-Information wird die korrigierte Textinformation und zur Anpassung der Phonemreferenz-Information zusätzlich auch die in dem Audiospeicher gespeicherte Sprachinformation ausgewertet, um eine angepaßte Sprachkoeffizienten-Information zu erhalten und in den Sprachkoeffizienten-Speichermitteln zu speichern.
  • WO99/21165 offenbart weiterhin eine Spracherkennungseinrichtung, die Transfermittel umfaßt, die das Importieren und Exportieren einer Sprachkoeffizienten-Information ermöglichen.
  • Bei der bekannten Spracherkennungseinrichtung und bei dem bekannten Spracherkennungsverfahren hat sich als Nachteil erwiesen, daß ein Benutzer, der beispielsweise sowohl mit seinem Computer im Büro als auch mit seinem Computer zu Hause mit der Spracherkennungseinrichtung und dem Spracherkennungsverfahren arbeitet und die Sprachkoeffizienten-Information beider Spracherkennungseinrichtungen trainiert, nicht imstande ist, herauszufinden, in welchem Ausmaß die Sprachkoeffizienten-Informationen in den beiden Computern trainiert worden ist. Daher kann es vorkommen, daß der Benutzer eine Sprachkoeffizienten-Information importiert und hierbei die Sprachkoeffizienten-Information in dem Computer durch eventuell eine ältere Version der Sprachkoeffizienten-Information überschreibt und es daher relativ lange dauert, bis beide Spracherkennungseinrichtungen an den Benutzer und die verwendete Sprache angepaßt sind und die Erkennungsrate des Spracherkennungsverfahrens zufriedenstellend ist.
  • Die Erfindung hat sich zur Aufgabe gestellt, eine Spracherkennungseinrichtung und ein Spracherkennungsverfahren zu schaffen, bei der bzw. bei dem ein Benutzer eine bereits von dem Benutzer trainierte Sprachkoeffizienten-Information mit einer anderen Spracherkennungseinrichtung bei einem Spracherkennungsverfahren weiter verwenden kann. Diese Aufgabe wird bei einer Spracherkennungseinrichtung gemäß dem Oberbegriff von Anspruch 1 durch die Maßnahmen des kennzeichnenden Teils von Anspruch 1 und bei einem Spracherkennungsverfahren gemäß dem Oberbegriff von Anspruch 6 durch die Maßnahmen des kennzeichnenden Teils von Anspruch 6 gelöst.
  • Hierdurch wird erreicht, daß eine von einem Benutzter trainierte Sprachkoeffizienten-Information von einem eine Spracherkennungseinrichtung bildenden ersten Computer des Benutzers beispielsweise auf eine Diskette exportiert und von dieser Diskette in einen ebenfalls eine Spracherkennungseinrichtung bildenden zweiten Computer des Benutzers importiert werden kann. Die Sprachkoeffizienten-Information kann hierbei beispielsweise bei einem Initialtraining der Spracherkennungseinrichtung von dem Benutzer trainiert worden sein, bei dem der Benutzer eine vorgegebene Textinformation als Sprachinformation in das Mikrofon spricht, woraufhin Trainingsmittel die gesprochene Sprachinformation gemeinsam mit der vorgegebenen Textinformation auswerten, um die Sprachkoeffizienten-Information an den Benutzer und die von dem Benutzer gesprochene Sprache anzupassen.
  • Hierdurch wird der Vorteil erhalten, daß ein Benutzer der Spracherkennungseinrichtung und des Spracherkennungsverfahrens, der die Spracherkennungseinrichtung auf zwei oder mehreren Computern installiert hat, die trainierte Sprachkoeffizienten-Information von dem zuletzt verwendeten Computer exportieren und in den ab jetzt verwendeten Computer importieren kann. Folglich wird bei der Abarbeitung des Spracherkennungsverfahrens mit beiden von einem Benutzer verwendeten Computern die bestmögliche Erkennungsrate erzielt.
  • Weiterhin wird hierdurch vorteilhafterweise erreicht, daß ein durch eine Sprachinformation gesteuerter Computer-Server, der mit dem Internet verbunden ist, an einen Benutzer angepaßt werden kann, indem von dem ebenfalls mit dem Internet verbundenen Computer des Benutzers vor der Übermittlung der Sprachinformation die in dem Computer gespeicherte Sprachkoeffizienten-Information exportiert und über das Internet an den Computer-Server abgegeben wird. Der Computer-Server kann dann die an ihn abgegebene Sprachkoeffizienten-Information importieren und in Sprachkoeffizienten-Speichermitteln speichern, wodurch die durch den Computer-Server gebildete Spracherkennungseinrichtung an den Benutzer angepaßt ist und eine bessere Erkennungsrate erzielbar ist.
  • Dies bietet weiterhin den Vorteil, daß ein Trainingsindikator der Sprachkoeffizienten-Information das Ausmaß der Anpassung der Sprachkoeffizienten-Information an den Benutzer und die Sprache angibt. Das Ausmaß der Anpassung kann hierbei beispielsweise durch die Anzahl der von den Anpassungsmitteln bereits insgesamt ausgewerteten Wörtern einer vorgegebenen oder korrigierten Textinformation oder aber auch durch die Anzahl der von den Anpassungsmitteln ausgeführten Anpassungsvorgänge der Sprachkoeffizienten-Information gegeben sein.
  • Festgestellt kann werden, daß WO 90/00298 eine Kommunikationseinrichtung offenbart, die schnell umprogrammiert werden kann, um sie auf wechselnde Bediener einzustellen. Um dies zu erreichen, wird ein Identifikationscode verwendet, um auf spezielle Spracherkennungsinformation (Codebuch) aus einem ein oder mehrere Spracherkennungscodebücher enthaltenden Lager zuzugreifen. Ein Codebuch kann Informationen über Schwankungen der Vokaltraktantwort, Tonhöhenperiode, kurzfristige Sprachleistung und Amplitude der kurzfristigen Sprachspektren umfassen.
  • Gemäß den Maßnahmen von Anspruch 2 und Anspruch 7 nutzen die Trainingsmittel auch eine beliebige von einem Benutzer gesprochene Sprachinformation, zu der von den Spracherkennungsmitteln eine Textinformation erkannt wurde, welche von dem Benutzer korrigiert und als korrigierte Textinformation abgegeben wurde, zum Trainieren bzw. Anpassen der Sprachkoeffizienten-Information.
  • Die Erfindung wird im Folgenden anhand von drei Anwendungsbeispielen eines in den Figuren dargestellten Ausführungsbeispiels beschrieben, auf das die Erfindung aber nicht beschränkt ist.
  • 1 zeigt eine Spracherkennungseinrichtung in Form eines Blockschaltbilds, an die eine in einer Hand haltbare Eingabeeinrichtung und eine mit einem Fuß betätigbare Eingabeeinrichtung angeschlossen sind und die Textvergleichsmittel, zum Vergleichen einer erkannten Textinformation mit einer korrigierten Textinformation, und die Transfermittel, zum Importieren und Exportieren einer Sprachkoeffizienten-Information, aufweist.
  • 2 zeigt die in der Hand haltbare Eingabeeinrichtung gemäß 1 in Form eines Blockschaltbilds, welche Eingabeeinrichtung Audio-Verarbeitungsmittel zum Verarbeiten eines analogen Audiosignals und zum Abgeben digitaler Audiodaten aufweist.
  • 3 zeigt die mit einem Fuß betätigbare Eingabeeinrichtung gemäß 1 in Form eines Blockschaltbilds, an die ein Kopfhörer anschließbar ist und die einen eingebauten Lautsprecher aufweist.
  • 4 zeigt eine von den Textvergleichsmitteln der Spracherkennungseinrichtung erstellte Anpassungstabelle, in der eine erkannte Textinformation und eine korrigierte Textinformation eingetragen sind.
  • 1 zeigt einen Computer 1, mit dem ein Spracherkennungsprogramm gemäß einem Spracherkennungsverfahren abgearbeitet wird, wobei der Computer 1 eine Diktiereinrichtung mit nachgeschalteter Spracherkennungseinrichtung bildet.
  • An den Computer 1 sind ein Diktiermikrofon 2, das eine in einer Hand haltbare Eingabeeinrichtung bildet, ein Fußschalter 3, der eine mit einem Fuß betätigbare Eingabeeinrichtung bildet, ein Monitor 4 und eine Tastatur 5 angeschlossen. In 2 ist das Diktiermikrofon 2 in Form eines Blockschaltbilds detaillierter dargestellt.
  • Das Diktiermikrofon 2 weist ein Mikrofon 6 auf, das Audio-Empfangsmittel bildet und zum Empfangen einer von einem Benutzer in das Mikrofon 6 gesprochenen Sprachinformation und zum Abgeben eines ersten analogen Audiosignals AS1 ausgebildet ist. Das Diktiermikrofon 2 weist weiterhin Audio-Verarbeitungsmittel 7 auf, die zum Verarbeiten des ersten analogen Audiosignals AS1 und zum Abgeben digitaler Audiodaten als Audioinformation AI ausgebildet sind.
  • Die Audio-Verarbeitungsmittel 7 weisen eine erste Verstärkerstufe 8, eine A/D-Wandlerstufe A/D 9, eine zweite Verstärkerstufe 10 und eine D/A-Wandlerstufe D/A 11 auf. Das erste analoge Audiosignal AS1 ist der ersten Verstärkerstufe 8 und das verstärkte erste analoge Audiosignal ist der A/D-Wandlerstufe A/D 9 zuführbar. Die A/D-Wandlerstufe A/D 9 ist zum Abtasten des verstärkten analogen Audiosignals mit einer Abtastfrequenz von 16 kHz und zum Abgeben von Abtastwerten in digitalen Audiodaten ausgebildet, die Datenblöcke mit 16 Bit aufweisen und als Audioinformation AI an USB-Anschlußmittel 12 abgebbar sind.
  • Dies bietet den Vorteil, daß das erste analoge Audiosignal AS1 gleich in dem Diktiermikrofon digitalisiert wird daß die Verstärkerstufe 8 bereits bei der Herstellung des Diktiermikrofons 2 an die maximale Ausgangsspannung des Mikrofons 6 angepaßt werden kann. Es geht somit keine Sprachinformation durch ein Übersteuern der Verstärkerstufe 8 verloren, weshalb die digitale Audiodaten enthaltende Audioinformation AI eine gute Qualität aufweist.
  • Von den USB-Anschlußmitteln 12 ist eine digitale Audiodaten enthaltende Audioinformation AI an die D/A-Wandlerstufe D/A 11 der Audio-Verarbeitungsmittel 7 abgebbar. Von der D/A-Wandlerstufe D/A 11 ist ein den digitalen Audiodaten entsprechendes analoges Audiosignal an die zweite Verstärkerstufe 10 abgebbar. Ein von der zweiten Verstärkerstufe 10 abgegebenes zweites analoges Audiosignal AS2 ist an einen Lautsprecher 13 zur akustischen Wiedergabe abgebbar.
  • Das Diktiermikrofon 2 weist weiterhin Eingabemittel 14 zum manuellen Eingeben einer Steuerinformation SI auf, welche Eingabemittel eine Tastatur 15, einen Trackball 16 und Eingabe-Verarbeitungsmittel 17 enthalten. Die Tastatur 15 weist unter anderem eine Aufnahme-Taste (Record-Taste) 18, eine Stop-Taste 19, eine Vorlauf-Taste 20 und eine Rücklauf-Taste 21 auf. Von der Tastatur 15 ist eine Tasteninformation TSI an die Eingabe-Verarbeitungsmittel 17 abgebbar.
  • Der Trackball 16 ist durch eine in einer Öffnung des Diktiermikrofons 2 eingelegte Kugel gebildet, die von einem Benutzer gedreht werden kann, um beispielsweise einen mit dem Monitor 4 dargestellten Cursor zu positionieren. Von dem Trackball 16 ist eine Trackballinformation TBI an die Eingabe-Verarbeitungsmittel 17 abgebbar. Die Eingabe-Verarbeitungsmittel 17 sind zum Verarbeiten der an sie abgegebenen Tasteninformation TSI und Trackballinformation TBI und zum Abgeben einer entsprechenden Steuerinformation SI an die USB-Anschlußmittel 12 ausgebildet.
  • Von den USB-Anschlußmitteln 12 ist eine Versorgungsspannung U sowohl an die Audio-Verarbeitungsmittel 7 als auch an die Eingabemittel 14 zur Versorgung der in den Audio-Verarbeitungsmitteln 7 und den Eingabemitteln 14 enthaltenen Stufen abgebbar. Dies bietet den Vorteil, daß das Diktiermikrofon 2 sowohl Informationen als auch die Versorgungsspannung U der Stufen des Diktiermikrofons 2 über nur eine einzige Kabelverbindung erhält.
  • Die USB-Anschlußmittel 12 sind über einen ersten Anschluß 22 des Diktiermikrofons 2 mit USB-Anschlußmitteln 23 des Computers 1 verbunden. Die USB-Anschlußmittel 12 des Diktiermikrofons 2 sind zum Aufbau einer digitalen Datenbusverbindung und hierbei vorteilhafterweise zum Aufbau einer USB-Datenbusverbindung (Universal Serial Bus: Specification Version 1.0, 15. Januar 1996, und Version 2.0) mit den USB-Anschlußmitteln 23 des Computers 1 ausgebildet.
  • Bei einer USB-Datenbusverbindung werden den an das USB-Anschlußmittel 12 oder 23 abgegebenen Audiodaten der Audioinformation AI oder Steuerdaten der Steuerinformation SI Fehlerkorrekturcodes angehängt und diese gemeinsam als Übertragungsdaten UD an das USB-Anschlußmittel 23 oder 12 übertragen. Das USB-Anschlußmittel 12 oder 23, von dem die Übertragungsdaten UD empfangen wurden, ist zum Auswerten der Fehlerkorrekturcodes und zum Korrigieren gegebenenfalls bei der Übertragung aufgetretener Fehler in den Audiodaten oder den Steuerdaten ausgebildet. Bei einer USB-Datenbusverbindung werden Steuerdaten einer Steuerinformation SI mit einer Datenüber tragungsrate von 1,5 MBps und Audiodaten einer Audioinformation AI mit einer Datenübertragungsrate von 12 MBps übertragen.
  • In 3 ist der in 1 dargestellte Fußschalter 3 in Form eines Blockschaltbildes detailliert dargestellt. Der Fußschalter 3 weist Eingabemittel 24 zum Eingeben einer Steuerinformation SI mit Hilfe eines Fußes auf. Die Eingabemittel 24 enthalten einen Audiowiedergabe-Schalter 25, einen Stop-Schalter 26 und Eingabe-Verarbeitungsmittel 27. Eine von dem Audiowiedergabe-Schalter 25 oder dem Stop-Schalter 26 abgegebene Schaltinformation SCI ist an die Eingabe-Verarbeitungsmittel 27 abgebbar. Die Eingabe-Verarbeitungsmittel 27 sind zum Verarbeiten der an sie abgegebenen Schaltinformation SCI und zum Abgeben einer, entsprechenden Steuerinformation SI an USB-Anschlußmittel 28 des Fußschalters 3 ausgebildet.
  • Der Fußschalter 3 weist weiterhin Audio-Verarbeitungsmittel 29 auf, die eine D/A-Wandlerstufe D/A 30 und eine dritte Verstärkerstufe 31 enthalten. Eine Audiodaten enthaltene Audioinformation AI ist von den USB-Anschlußmitteln 28 an die D/A-Wandlerstufe D/A 30 abgebbar, welche ein den Audiodaten entsprechendes analoges Audiosignal an die dritte Verstärkerstufe 31 abgibt. Ein von der dritten Verstärkerstufe 31 abgegebenes drittes analoges Audiosignal AS3 ist sowohl an einen in dem Fußschalter 3 vorgesehenen Lautsprecher 32 als auch an einen ersten Anschluß 33 des Fußschalters abgebbar. An den ersten Anschluß 33 ist ein Kopfhörer 34 angeschlossen. Mit dem Lautsprecher 32 und dem Kopfhörer 34 ist eine akustische Wiedergabe einer Sprachinformation ermöglicht, worauf nachfolgend noch näher eingegangen werden soll.
  • Durch das Vorsehen der Audio-Verarbeitungsmittel 29 in dem Fußschalter 3 wird der Vorteil erhalten, daß der Kopfhörer 34 oder ein Lautsprecher direkt an den Fußschalter 3 angeschlossen werden kann. Hierdurch braucht der Computer 1, der auch eine Diktiereinrichtung bildet, keine Sound-Karte mit Audio-Verarbeitungsmitteln aufzuweisen.
  • Die USB-Anschlußmittel 28 des Fußschalters 3 entsprechen den USB-Anschlußmitteln 12 und 23. Von den USB-Anschlußmitteln 28 ist eine Versorgungsspannung U sowohl an die Eingabe-Verarbeitungsmittel 24 als auch an die Audio-Verarbeitungsmittel 29 zur Versorgung der in den Eingabe-Verarbeitungsmitteln 24 und den Audio-Verarbeitungsmitteln 29 enthaltenen Stufen abgebbar. Dies bietet den Vorteil, daß der Fußschalter 3 sowohl Informationen als auch die Versorgungsspannung U über nur eine Kabelverbindung erhält.
  • Die USB-Anschlußmittel 28 des Fußschalters 3 sind über einen zweiten Anschluß 35 des Fußschalters an die USB-Anschlußmittel 23 des Computers 1 angeschlossen. Der Computer 1 weist Empfangsmittel 36 auf, die die USB-Anschlußmittel 23 und Audio-Speichermittel 37 enthalten und die zum Empfangen einer von einem Sprecher gesprochenen Sprachinformation ausgebildet sind. Hierbei ist eine von einem Sprecher in das Mikrofon 6 des Diktiermikrofons 2 gesprochene Sprachinformation als durch digitale Audiodaten gebildete Audioinformation AI von den USB-Anschlußmitteln 12 an die USB-Anschlußmittel 23 übertragbar und von den USB-Anschlußmitteln 23 an die Audio-Speichermittel 37 zur Speicherung der Audioinformation AI abgebbar. Eine von den USB-Anschlußmitteln 12 des Diktiermikrofons 2 oder von den USB-Anschlußmitteln 28 des Fußschalters 3 an die USB-Anschlußmittel 23 des Computers 1 abgegebene Steuerinformation SI ist von den USB-Anschlußmitteln 23 empfangbar und an weitere Mittel des Computers 1 abgebbar, worauf nachfolgend noch näher eingegangen werden soll.
  • Die durch den Computer 1 gebildete Spracherkennungseinrichtung weist Sprachkoeffizienten-Speichermittel 38 auf, die zum Speichern einer Sprachkoeffizienten-Information SKI ausgebildet sind. Die Sprachkoeffizienten-Information SKI enthält eine Sprachmodell-Information SMI, eine Wortschatz-Information WI und eine Phonemreferenz-Information PRI.
  • Die Wortschatz-Information WI ist in Wortschatz-Speichermitteln 39 gespeichert und enthält sämtliche von der Spracherkennungseinrichtung in einer Sprachinformation erkennbaren Wörter sowie einen Häufigkeitszähler je Wort, der die Auftrittswahrscheinlichkeit des Worts in einer Sprachinformation angibt. Die Sprachmodell-Information SMI ist in Sprachmodell-Speichermitteln 40 gespeichert und enthält Wortfolgen sowie einen Häufigkeitszähler je Wortfolge, der die Auftrittswahrscheinlichkeiten dieser Wortfolge in einer Sprachinformation angibt. Die Phonemreferenz-Information PRI ist in Phonemreferenz-Speichermitteln 41 gespeichert und ermöglicht ein Anpassen der Spracherkennungseinrichtung an Eigenarten der Aussprache eines Sprechers.
  • Die Spracherkennungseinrichtung weist weiterhin Spracherkennungsmittel 42 auf. Von den USB-Anschlußmitteln 23 ist eine Steuerinformation SI zur Aktivierung einer Spracherkennungs-Betriebsart zur Abarbeitung eines Spracherkennungsverfahrens an die Spracherkennungsmittel 42 abgebbar. Die Spracherkennungsmittel 42 sind bei aktivierter Spracherkennungs-Betriebsart zum Auslesen einer in den Audio-Speichermitteln 37 gespeicherten Audioinformation AI und zum Auslesen einer in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI ausgebildet.
  • Die Spracherkennungsmittel 42 sind bei der Abarbeitung des Spracherkennungsverfahrens zum Auswerten der Audioinformation AI und der Sprachkoeffizienten-Information SKI ausgebildet. Hierbei ermitteln die Spracherkennungsmittel 42 zu jedem Teil der Audioinformation AI mehrere mögliche Wortfolgen, die gegebenenfalls dem jeweiligen Teil der Audioinformation AI entsprechen, und geben diese möglichen Wortfolgen für alle Teile der Audioinformation AI als mögliche Textinformation PTI ab. Die mögliche Textinformation PTI enthält also beispielsweise zwanzig (20) mögliche Wortfolgen für die Audioinformation AI. Weiterhin ermitteln die Spracherkennungsmittel 42 – bei der Abarbeitung des Spracherkennungsverfahrens – die jeweils wahrscheinlichste Wortfolge für jeden Teil der Audioinformation AI und geben diese ermittelten wahrscheinlichsten Wortfolgen der gesamten Audioinformation AI als erkannte Textinformation RTI ab.
  • Die Spracherkennungseinrichtung weist Text-Speichermittel 43 zum Speichern von Textinformationen auf. Die Text-Speichermittel 43 enthalten Möglicher-Text-Speichermittel 44, Erkannter-Text-Speichermittel 45, Korrigierter-Text-Speichermittel 46 sowie Trainings-Text-Speichermittel 47. Eine von den Spracherkennungsmitteln 42 bei der Abarbeitung des Spracherkennungsverfahrens abgegebene mögliche Textinformation PTI ist in den Möglicher-Text-Speichermittel 44 und erkannte Textinformation RTI ist in den Erkannter-Text-Speichermittel 45 speicherbar.
  • Der Computer 1 ist weiterhin zum Abarbeiten eines Textverarbeitungsprogramms – wie beispielsweise „Word for Windows95" – ausgebildet und bildet hierbei Textverarbeitungsmittel 48. Eine von den Spracherkennungsmitteln 42 bei der Abarbeitung des Spracherkennungsverfahrens erzeugte erkannte Textinformation RTI ist an die Textverarbeitungsmittel 48 abgebbar. Die Textverarbeitungsmittel 48 sind dann zum Abgeben einer die erkannte Textinformation RTI enthaltenden Bildinformation PI an den Monitor 4 ausgebildet.
  • Mit den Eingabemitteln 14 des Diktiermikrofons 2 ist eine Steuerinformation SI eingebbar, die an die Spracherkennungsmittel 42 und die Textverarbeitungsmittel 48 abgebbar ist und die eine Korrektur-Betriebsart der Spracherkennungseinrichtung aktiviert. Die Textverarbeitungsmitel 48, der Monitor 4 und die Tastatur 5 bilden hierbei Korrekturmittel 49. Bei aktivierter Korrektur-Betriebsart kann ein Benutzer mit der Tastatur 5 die erkannte Textinformation RTI korrigieren und eine korrigierte Textinformation CTI in den Korrigierter-Text-Speichermitteln 46 speichern, worauf nachfolgend noch näher eingegangen werden soll.
  • In den Trainings-Text-Speichermitteln 47 ist eine Trainingstextinformation TTI gespeichert, die typische Wörter und Redewendungen bzw. Wortfolgen eines bestimmten Bereichs (Geschäftsbriefe; Fachgebiet: Radiologie; Fachgebiet: Recht...) enthält. Mit den Eingabemitteln 14 des Diktiermikrofons 2 ist eine Steuerinformation SI eingebbar, die an die Spracherkennungsmittel 42 und die Textverarbeitungsmittel 48 abgebbar ist und die eine Initialtraining-Betriebsart der Spracherkennungseinrichtung aktiviert.
  • Bei aktivierter Initialtraining-Betriebsart sind die Textverarbeitungmittel 47 zum Auslesen der Trainingstextinformation TTI aus den Trainingstext-Speichermitteln 47 und zum Abgeben einer entsprechenden Bildinformation PI an den Monitor 4 ausgebildet. Von einem Benutzer kann hierauf der mit dem Monitor 4 angezeigte Trainingstext in das Mikrofon 6 gesprochen werden, um die Spracherkennungseinrichtung an die Art der Aussprache des Benutzers anzupassen.
  • Die Spracherkennungseinrichtung weist Anpassungsmittel 50 auf, um die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI sowohl an die Art der Aussprache des Benutzers als auch an von dem Benutzer üblicherweise verwendete Wörter und Wortfolgen anzupassen. Die Text-Speichermittel 43, die Korrekturmittel 49, und die Anpassungsmittel 50 bilden hierbei Trainingsmittel 51. Ein solches Anpassen der Sprachkoeffizienten-Information SKI erfolgt bei aktivierter Initialtraining-Betriebsart, bei der die von dem Benutzer vorgelesene Trainingstextinformaion TTI bekannt ist.
  • Ein solches Anpassen erfolgt aber auch bei einer Anpassungs-Betriebsart, bei der eine einer Sprachinformation entsprechende Textinformation als erkannte Textinformation RTI erkannt und von dem Benutzer in eine korrigierte Textinformation CTI korrigiert wurde. Hierfür weisen die Trainingsmittel 51 Textvergleichsmittel 52 auf, die zum Vergleichen der erkannten Textinformation RTI mit der korrigierten Textinformation CTI und zum Ermitteln zumindest eines Übereinstimmungsindikators CI ausgebildet sind. In den Textvergleichsmitteln 52 wird bei aktivierter Anpassungs-Betriebsart eine in 4 dargestellte Anpassungstabelle 53 erstellt, worauf nachfolgend noch näher eingegangen werden soll.
  • Von den Anpassungsmitteln 50 ist als Ergebnis der Anpassung eine Anpassungsinformation NI an die Sprachkoeffizienten-Speichermittel 38 abgebbar, mit der die gespeicherte Sprachkoeffizienten-Information SKI angepaßt wird. Von den Anpassungsmitteln 50 der Trainingsmittel 51 ist weiterhin ein Trainingsindikator TI abgebbar, der das Ausmaß der Anpassung der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI angibt. Der Trainingsindikator TI enthält eine Information, wie oft und mit welcher Anzahl von Wörtern die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI bereits an einen Benutzer angepaßt wurde. Je öfter die Sprachkoeffizienten-Information SKI an einen Benutzer angepaßt wurde, desto besser ist die Erkennungsrate der Spracherkennungseinrichtung für diesen Benutzer.
  • Die Spracherkennungseinrichtung weist Transfermittel 54 auf, die ein Importieren einer Sprachkoeffizienten-Information SKI und ein Speichern der importierten Sprachkoeffizienten-Information SKI in den Sprachkoeffizienten-Speichermitteln 38 und/oder ein Exportieren der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI ermöglichen. Hierfür ist von dem Benutzer eine Transferinformation TRI mit der Tastatur 5 eingebbar und an die Transfermittel 54 abgebbar, worauf nachfolgend näher eingegangen werden soll.
  • Anhand eines ersten Anwendungsbeispiels soll ferner die Funktion des Diktiermikrofons 2, des Fußschalters 3 und der durch den Computer 1 gebildeten Diktiereinrichtung und Spracherkennungseinrichtung näher erläutert werden. Gemäß dem ersten Anwendungsbeispiel wird angenommen, daß der Benutzer des Computers 1 einen Brief diktieren möchte, um bei seinem Bekannten „John" drei Computer des Typs „Quality" zu bestellen. Hierfür betätigt der Benutzer die Record-Taste 18 des Diktiermikrofons 2 und diktiert „Dear John I herewith order three computer Quality for my office Harry". Eine dieser Sprachinformation entsprechende Audioinformation AI wird hierauf von dem Diktiermikrofon 2 als Übertragungsdaten UD an die USB-Anschlußmittel 23 übertragen und schließlich in den Audio-Speichermitteln 37 gespeichert. Bei diesem Vorgang bilden das Diktiermikrofon 2 und der Computer 1 eine Diktiereinrichtung.
  • Durch das Betätigen der Record-Taste 18 des Diktiermikrofons 2 wird eine die Spracherkennungs-Betriebsart der Spracherkennungsmittel 42 aktivierende Steuerinformation SI von dem Diktiermikrofon 2 als Übertragungsdaten UD über die USB-Anschlußmittel 23 an die Spracherkennungsmittel 42 abgegeben. Bei in den Spracherkennungsmitteln 42 aktivierter Spracherkennungs-Betriebsart wird die in den Audio-Speichermitteln 37 gespeicherte Audioinformation AI ausgelesen und gemeinsam mit der aus den Sprachkoeffizienten-Speichermitteln 38 ausgelesenen Sprachkoeffizienten-Information SKI ausgewertet. Hierbei ermitteln die Spracherkennungsmittel 42 mehrere mögliche Wortfolgen als mögliche Textinformation PTI und speichern diese in den Möglicher-Text-Speichermitteln 44. Eine mögliche Textinformation PTI könnte hierbei für den ersten Teil der Audioinformation AI beispielsweise die Wortfolgen „Hear John why", „Dear John I" und „Bear John hi" enthalten.
  • Die Spracherkennungsmittel 42 ermitteln die Textinformation „Dear John I herewith organ three computer Quality for my office Mary" als wahrscheinlichste Textinformation und geben diese als erkannte Textinformation RTI an die Erkannter-Text-Speichermittel 45 ab. Hierbei wurde das gesprochene Wort „order" als das Wort „organ" und das gesprochene Wort „Harry" als das Wort „Mary" falsch erkannt.
  • Die von den Spracherkennungsmitteln 42 erkannte und in den Erkannter-Text-Speichermitteln 45 gespeicherte erkannte Textinformation RTI wird dann mit den Textverarbeitungsmitteln 48 ausgelesen und mit dem Monitor 4 dargestellt. Der Benutzer erkennt, daß die beiden gesprochenen Wörter „order" und „Harry" falsch erkannt wurden und möchte die erkannte Textinformation RTI korrigieren, weshalb der Benutzer mit den Eingabemitteln 14 des Diktiermikrofons 2 die Korrektur-Betriebsart der Spracherkennungseinrichtung aktiviert.
  • Bei aktivierter Korrektur-Betriebsart kann der Benutzer durch Betätigen des Audiowiedergabe-Schalters 25 des Fußschalters 3 die in den Audio-Speichermitteln 37 gespeicherte Audioinformation AI mit dem Kopfhörer 34 oder dem Lautsprecher 32 akustisch wiedergeben, wobei synchron zu der wiedergegebenen Audioinformation AI die zu der Audioinformation AI erkannte Textinformation RTI mit dem Monitor 4 gekennzeichnet wird. Ein solches synchrones Editieren bzw. Korrigieren ist seit langem bekannt.
  • Bei einer ersten Art der Korrektur der erkannten Textinformation RTI durch den Benutzer korrigiert der Benutzer nur die falsch erkannten Wörter „organ" und „Mary" in die beiden ursprünglich gesprochenen Wörter „order" und „Harry" und es wird eine korrigierte Textinformation CTI in den Textverarbeitungsmitteln 48 erstellt und in den Korrigierter-Text-Speichermitteln 46 gespeichert. Diese nach dem ersten Korrekturschritt in den Korrigierter-Text-Speichermitteln 46 gespeicherte korrigierte Textinformation CTI wäre zur Anpassung der Sprachkoeffizienten-Information SKI besonders gut geeignet. Die bei einem weiteren Diktat des Benutzers gesprochenen Wörter „order" und „Harry" würden bei einem darauffolgenden Spracherkennungsvorgang mit der zuvor angepaßten Sprachkoeffizienten-Information SKI richtig erkannt werden.
  • Wie die Praxis zeigt, werden von Benutzern bei aktivierter Korrektur-Betriebsart auch andere Korrekturen gemäß einer zweiten Art der Korrektur durchgeführt. Gemäß dem ersten Anwendungsbeispiel wird angenommen, daß sich der Benutzer nunmehr erinnert, daß er ebenfalls drei Computer des Typs „Standard" bestellen möchte, weshalb der Benutzer die Wortfolge „and three computer Standard" mit der Tastatur 5 in die bereits korrigierte Textinformation CTI einfügt. Weiterhin kopiert der Benutzer einen Text A vor den Anfang der bereits korrigierten Textinformation CTI, der die Adresse des Briefes an seinen Bekannten „John" enthält. Schließlich kopiert der Benutzer einen Text B hinter der bereits korrigierten Textinformation CTI in die korrigierte Textinformation CTI hinein, die eine bei solchen Bestellungen übliche Fußnote über vereinbarte Prozentnachlässe beinhaltet.
  • Der Benutzer fügt dann Textteile in die erkannte Textinformation RTI ein, die mit der von dem Benutzer bei dem Diktat gesprochenen Sprachinformation keinen Zusammenhang haben. Solche Textteile dürfen nicht zur Anpassung der Phonemreferenz-Information PRI ausgewertet werden, da keine entsprechende Audioinformation AI in den Audio-Speichermitteln 37 gespeichert ist. Weiterhin ist es nicht gut, die Wortschatz-Information WI oder die Sprachmodell-Information SMI mit solchen Textteilen anzupassen, da der Text A und der Text B oft in korrigierten Textinformationen CTI des Benutzers enthalten sind, in Diktaten des Benutzers aber praktisch nie gesprochen werden.
  • Wenn die Wortschatz-Information WI und die Sprachmodell-Information SMI mit Textteilen trainiert werden würden, die keinen Zusammenhang mit der Sprachinformation aufweisen, dann hätte beispielsweise die Wortfolge des in dem Text A enthaltenen Straßennamen „Hell Road" der Adresse des Bekannten John eine hohe Auftrittswahrscheinlichkeit, da der Benutzer oft Briefe an John schreibt und die Adresse immer in die korrigierte Textinformation CTI hinein kopiert. Nun würde aber eine in einem Diktat gesprochene Wortfolge „Hello Rod" relativ leicht falsch erkannt werden, da die Wortfolge „Hello Rod" in den Sprachmodell-Speichermitteln 40 eine verglichen mit der Wortfolge „Hellroad" relativ niedrigere Auftrittswahrscheinlichkeit aufweisen würde, obwohl die Wortfolge „Hello Rod" in Diktaten des Benutzers relativ häufig vorkommt.
  • Nachdem der Benutzer alle von Ihm gewünschten Korrekturen durchgeführt hat und die korrigierte Textinformation CTI in den Korrigierte-Text-Speichermitteln 46 gespeichert wurde, betätigt der Benutzer eine Taste der Tastatur 15 des Diktiermikrofons 2, um die Anpassungs-Betriebsart der Spracherkennungseinrichtung zu aktivieren und die Sprachkoeffizienten-Information SKI der Spracherkennungseinrichtung anzupassen. Eine entsprechende Steuerinformation SI wird hieraufhin von dem Diktiermikrofon 2 über die USB-Anschlußmittel 23 an die Spracherkennungsmittel 42 abgegeben.
  • Bei in der Spracherkennungseinrichtung aktivierter Anpassungs-Betriebsart sind die Anpassungsmittel 50 zum Auslesen der in den Audio-Speichermitteln 37 gespeicherten Audioinformation AI sowie der in den Text-Speichermitteln 43 gespeicherten möglichen Textinformation PTI, erkannten Textinformation RTI und korrigierten Textinformation CTI ausgebildet. Weiterhin sind die Textvergleichsmittel 52 bei aktivierter Anpassungs-Betriebsart zum Erstellen der in 4 dargestellten Anpassungstabelle 53 ausgebildet, um einen Textteil der korrigierten Textinformation CTI zu ermitteln, der zur Anpassung der Sprachkoeffizienten-Information SKI geeignet ist.
  • Hierfür wird vorerst die erkannte Textinformation RTI und die korrigierte Textinformation CTI in die Anpassungstabelle 53 eingetragen, wobei falsch erkannte Wörter sowie korrigierte und eingefügte Wörter und Textteile mit der Schriftart „fett" dargestellt sind. Die Textvergleichsmittel 52 sind nunmehr zum Vergleichen der erkannten Textinformation RTI und der korrigierten Textinformation CTI und zum Kennzeichnen übereinstimmender Wörter durch graue Felder an der entsprechenden Stelle der Anpassungstabelle 53 ausgebildet. Der Textteil mit den Wörtern „three computer" der erkannten Textinformation RTI wird zwei Mal in der korrigierten Textinformation CTI gefunden.
  • Weiterhin sind die Textvergleichsmittel 52 beim Vergleichen der erkannten Textinformation RTI und der korrigierten Textinformation CTI zum Ermitteln eines Übereinstimmungsindikators CI für jeden Textteil ausgebildet. Hierbei ermitteln die Textvergleichsmittel 52, wie viele übereinstimmende durch ein graues Feld gekennzeichnete Wörter ein Textteil aufweist. Weiterhin ermitteln die Textvergleichsmittel 52 Strafpunkte für jeden Textteil, wobei für jede Einfügung, Löschung oder Ersetzung eines Wörters in der korrigierten Textinformation CTI ein Strafpunkt vergeben wird. Aus der Anzahl der übereinstimmenden Wörter und der Strafpunkte eines Textteils wird der Übereinstimmungsindikator CI des Textteils ermittelt.
  • In den Textvergleichsmitteln 52 ist ein Mindestwert MW für den Übereinstimmungsindikator CI festgelegt, der unterschritten wird, wenn für einen Textteil mehr als drei Strafpunkte für Korrekturen benachbarter Wörter der korrigierten Textinformation CTI vergeben werden. Für die Anpassung der Sprachkoeffizienten-Information SKI werden nur Textteile verwendet, deren Übereinstimmungsindikator CI den Mindestwert MW überschreitet.
  • Die Textvergleichsmittel 52 werten die Anpassungstabelle 53 aus und erkennen, daß sämtliche Wörter von Text A und von Text B in der korrigierten Textinformation CTI eingefügt wurden, weshalb die Textvergleichsmittel 52 für den Text A und den Text B eine mit der Anzahl der Wörter des Textes A und des Textes B übereinstimmende Anzahl an Strafpunkten vergeben. Die Textvergleichsmittel 52 geben daher einen Übereinstimmungsindikator CI für den Text A und den Text B an die Anpassungsmittel 50 ab, der kleiner als der Mindestwert MW ist. Dies bietet den Vorteil, daß ein Textteil der korrigierten Textinformation CTI, der überhaupt keinen Zusammenhang mit der Sprachinformation aufweist, für die Anpassung der Sprachkoeffizienten-Information SKI nicht verwendet wird.
  • Gemäß der Anpassungstabelle 53 verbleiben nun Textteile entlang eines Pfades P und eines Pfades P2 der korrigierten Textinformation CTI, die für eine Anpassung der Sprachkoeffizienten-Information SKI verwendet werden könnten.
  • Der Pfad P1 enthält einen ersten Textteil „Dear John I herewith", dem von den Textvergleichsmitteln 52 keine Strafpunkte zugeordnet werden und dessen Übereinstimmungsindikator daher den Mindestwert MW überschreitet. Der Pfad P1 enthält nach dem ersten Textteil einen zweiten Textteil „order three computer Quality and", dem fünf Strafpunkte (1) bis (5) für die Einfügung der Wörter „order three computer Quality" und die Ersetzung des Wortes „organ" durch das Wort „and" zugeordnet werden und dessen Übereinstimmungsindikator daher den Mindestwert MW unterschreitet. Der Pfad P1 enthält nach dem zweiten Textteil einen dritten Textteil „three computer Standard for my office Harry", dem nur ein Strafpunkt (6) für die Einfügung des Wortes „Standard" zugeordnet wird und dessen Übereinstimmungsindikator CI daher den Mindestwert MW überschreitet. Der Pfad P1 enthält daher den ersten und den dritten Textteil, die prinzipiell für eine Anpassung der Sprachkoeffizienten-Information SKI geeignet sind.
  • Der Pfad P2 enthält einen vierten Textteil „Dear John I herewith order three computer Quality", dem von den Textvergleichsmitteln 52 nur ein Strafpunkt (1) für die Ersetzung des Wortes „organ" durch das Wort „order" zugeordnet wird und dessen Übereinstimmungsindikator CI daher den Mindestwert MW überschreitet. Der Pfad P2 enthält nach dem vierten Textteil einen fünften Textteil „and three computer Standard", dem vier Strafpunkte (2) bis (5) für die Einfügung dieser Wörter zugeordnet werden und dessen Ü bereinstimmungsindikator daher den Mindestwert MW unterschreitet. Der Pfad P2 enthält nach dem fünften Textteil einen sechsten Textteil „for my office Harry", dem ein Strafpunkt (6) für die Ersetzung des Wortes „Mary" durch das Wort „Harry" zugeordnet wird und dessen Übereinstimmungsindikator CI den Mindestwert MW überschreitet. Der Pfad P2 enthält daher den vierten und den sechsten Textteil, die prinzipiell für eine Anpassung der Sprachkoeffizienten-Information SKI geeignet sind.
  • Die Textvergleichsmittel 52 sind zum Ermitteln der Textteile des Pfades P1 oder P2 ausgebildet, die den größten Summen-Übereinstimmungsindikator SCI aufweisen. Hierfür ermitteln die Textvergleichsmittel 52, daß neun Wörter des Pfades P1 und zehn Wörter des Pfades P2 der korrigierten Textinformation CTI vollkommen mit den Wörtern der erkannten Textinformation RTI übereinstimmen und in der Anpassungstabelle 53 als graues Feld gekennzeichnet sind. Weiterhin werden von den Textvergleichsmitteln 52 die Strafpunkte jedes Pfades addiert, wobei für den Pfad P1 sieben Strafpunkte und für den Pfad P2 sechs Strafpunkte ermittelt werden.
  • Schließlich ermitteln die Textvergleichsmittel 52, daß die Textinformationen des Pfades P2 mit zehn übereinstimmenden Wörtern und nur sechs Strafpunkten eine größere Summen-Übereinstimmung mit der erkannten Textinformation RTI aufweisen und geben einen entsprechend hohen Summen-Übereinstimmungsindikator SCI für die Textteile des Pfades P2 an die Anpassungsmittel 50 ab.
  • Dies bietet den Vorteil, daß für die Anpassung der Sprachkoeffizienten-Information SKI gemäß einer ersten Art der Korrektur korrigierte Wörter – wie beispielsweise „order" und „Harry" – zur Anpassung verwendet werden und gemäß der zweiten Art der Korrektur korrigierte Textteile – wie beispielsweise „and three computer Standard", die mit der Sprachinformation keinen Zusammenhang aufweisen – nicht zur Anpassung verwendet werden. Hierdurch wird die Sprachkoeffizienten-Information SKI besonders rasch und gut an Eigenarten der Aussprache eines Benutzers und typische Formulierungen eines Benutzers angepaßt, womit eine besonders gute Erkennungsrate der Spracherkennungseinrichtung erzielt wird.
  • Die Anpassungsmittel 50 sind bei in der Spracherkennungseinrichtung aktivierter Anpassungs-Betriebsart nach dem Erhalt des Summen-Übereinstimmungsindikators SCI von den Textvergleichsmitteln 52 zum Auslesen der Textteile des Pfades P2 der korrigierten Textinformation CTI aus den Korrigierter-Text-Speichermitteln 46 und zum Auswerten dieser Textteile ausgebildet.
  • Zur Anpassung der Wortschatz-Information WI an die Häufigkeitszählerwerte, von denen jeder einem Wort des vierten und des sechsten Textteils „Dear", „John", „I", ..., „Harry" der Wortfolge P2 in den Wortschatz-Speichermitteln 39 zugeordnet ist und zusammen mit dem jeweiligen Wort in den Wortschatz-Speichermiteln 39 gespeichert ist, kennzeichnet der Häufigkeitszähler die Auftrittswahrscheinlichkeit des jeweiligen Wortes in einem Diktat des Benutzers. Wenn ein Wort des zur Anpassung verwendeten Textteils erstmals von dem Benutzer diktiert wurde, dann wird es in den Wortschatz-Speichermitteln 39 gemeinsam mit dem Wert „1" eines Häufigkeitszählers gespeichert.
  • Zur Anpassung der in den Sprachmodell-Speichermitteln 40 gespeicherten Sprachmodell-Information SMI wird beispielsweise der der Wortfolge „I herewith order" zugeordnete, gespeicherte Häufigkeitszählerwert um den Wert „1" erhöht, um eine höhere Wahrscheinlichkeit des Auftretens einer solchen Formulierung in einem Diktat des Benutzers zu kennzeichnen.
  • Zur Anpassung der in den Phonemreferenz-Speichermitteln 41 gespeicherten Phonemreferenz-Information PRI werden nur solche Wörter des vierten und des sechsten Textteils der Wortfolge P2 gemeinsam mit der zugehörigen Audioinformation AI ausgewertet, die eine völlige Übereinstimmung mit einem Wort der erkannten Textinformation RTI aufweisen und in der Anpassungstabelle 53 durch ein graues Feld gekennzeichnet sind. Zusätzlich können auch noch Wörter der möglichen Textinformation PTI mit der zugehörigen Audioinformation AI ausgewertet werden. Hierfür prüfen die Anpassungsmittel 50 ob ein von dem Benutzer bei der ersten Art der Korrektur ersetztes Wort („order", „Harry") in den Möglicher-Text-Speichermitteln 44 für diesen Teil der Audioinformation AI gespeichert ist. Wenn ein solches Wort in den Möglicher-Text-Speichermitteln 44 gefunden wird, dann wird auch diese Wort mit der zugehörigen Audioinformation AI zur Anpassung der Phonemreferenz-Information PRI ausgewertet.
  • Eine diese Anpassungen enthaltende Anpassungsinformation NI wird anschließend von den Anpassungsmitteln 50 an die Sprachkoeffizienten-Speichermittel 38 zur Anpassung der Sprachkoeffizienten-Information SKI abgegeben. Ebenso wird von den Anpassungsmitteln 50 ein Trainingsindikator TI an die Transfermittel 54 abgegeben, der kennzeichnet, mit wie vielen Wörtern die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI bereits trainiert wurde. Dies bietet den Vorteil, daß anhand des Trainingsindikators TI unmittelbar ersichtlich ist, ob die Spracher kennungseinrichtung bereits gut an einen Benutzer angepaßt wurde und daher voraussichtlich eine gute Erkennungsrate für diesen Benutzer aufweisen wird.
  • Gemäß einem zweiten Anwendungsbeispiel wird angenommen, daß der Benutzer der durch den Computer 1 gebildeten Spracherkennungseinrichtung auch einen anderen Computer besitzt, der eine andere Spracherkennungseinrichtung bildet. Der Benutzer möchte verständlicherweise bei der anderen Spracherkennungseinrichtung eine gleich gute Erkennungsrate erzielen, wie er sie bei der durch den Computer 1 gebildeten Spracherkennungseinrichtung bereits erzielt, deren Sprachkoeffizienten-Information SKI er seit mehreren Monaten trainiert hat.
  • Hierfür betätigt der Benutzer eine Taste der Tastatur 5, woraufhin eine Transferinformation TRI von der Tastatur 5 an die Transfermittel 54 angegeben wird. Die Transfermittel 54 werden dann zum Auslesen der in den Sprachkoeffizienten-Speichermitteln 38 gespeicherten Sprachkoeffizienten-Information SKI verwendet. Weiterhin werden die Transfermittel 54 zum Speichern der ausgelesenen Sprachkoeffizienten-Information SKI und des Traniningsindikators TI der Sprachkoeffizienten-Information SKI auf einer in ein Diskettenlaufwerk des Computers 1 eingelegten Diskette 55 verwendet.
  • Dies bietet den Vorteil, daß eine in den Sprachkoeffizienten-Speichermittel 38 gespeicherte und bereits von dem Benutzer trainierte Sprachkoeffizienten-Information SKI aus dem Computer 1 exportiert werden kann. Weiterhin kann die Sprachkoeffizienten-Information SKI in den zweiten Computer des Benutzers importiert werden. Hierdurch kann ein Benutzer eine von ihm trainierte Sprachkoeffizienten-Information SKI bei beliebig vielen anderen Computern, die eine der in 1 dargestellten Spracherkennungseinrichtung entsprechende Spracherkennungseinrichtung bilden, weiter verwenden und so auch bei diesen Computern eine gute Erkennungsrate der Spracherkennungseinrichtung erhalten.
  • Vorteilhafterweise wird beim Exportieren der Sprachkoeffizienten-Information SKI der Trainingsindikator TI der Sprachkoeffizienten-Information SKI mit exportiert, womit bei einem Importieren der Sprachkoeffizienten-Information SKI von den Transfermitteln 54 vorerst prüfbar ist, ob die zu importierende Sprachkoeffizienten-Information SKI bereits besser trainiert ist als die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI. Die Transfermittel 54 importieren die Sprachkoeffizienten-Information SKI nur dann, wenn die Prüfung ergibt, daß die zu importierende Sprachkoeffizienten-Information SKI bereits besser trainiert ist als die in den Sprachkoeffizienten-Speichermitteln 38 gespeicherte Sprachkoeffizienten-Information SKI.
  • Gemäß einem dritten Anwendungsbeispiel wird angenommen, daß der Computer 1 einen mit dem Internet verbundenen Internet-Server bildet und mit einem Anschluß 56 des Computers 1 mit dem Internet verbunden ist. Weiterhin sei angenommen, daß der Benutzer eines weiteren Computers, der eine Diktiereinrichtung bildet, die in Hompage-Speichermitteln 57 des Computers 1 gespeicherte Textinformation einer Homepage des Internet-Servers abgefragt hat und diese Textinformation über den Anschluß 56 des Computers 1 an den weiteren Computer abgegeben wurde. Diese Textinformation der Hompage enthält Link-Informationen, mit denen weitere in den Hompage-Speichermitteln 57 gespeicherte Textinformationen abgefragt werden können, wie dies allgemein üblich ist. Die in 1 dargestellte Spracherkennungseinrichtung des Internet-Servers ermöglicht dem Benutzer des weiteren Computers ein Aktivieren einer in der Homepage dargestellten Link-Information durch eine mit dem weiteren Computer eingegebene Sprachinformation.
  • Gemäß dem dritten Anwendungsbeispiel wird weiterhin angenommen, daß der Benutzer die in der Hompage angegebene Link-Information „Hotels" aktivieren möchte. Hierfür betätigt der Benutzer eine Record-Taste eines Diktiermikrofons des weiteren Computers und spricht die Sprachinformation „Hotels" in das Mikrofon des Diktiermikrofons. Eine diese Sprachinformation enthaltende Audioinformation AI wird dem Computer 1 über den Anschluß 56 zugeführt und die Audioinformation AI wird in den Audio-Speichermitteln 37 gespeichert. Bei der hierdurch aktivierten Spracherkennungs-Betriebsart der Spracherkennungseinrichtung des Computers 1 wird das Wort „Hotels" von den Spracherkennungsmitteln 42 als erkannte Textinformation RTI erkannt und die dieser Link-Information zugeordnete Textinformation wird von den Hompage-Speichermitteln 57 über den Anschluß 56 an den weiteren Computer des Benutzers abgegeben.
  • Bei dem Computer 1 wird nun vorteilhafterweise vor der Aktivierung der Spracherkennungs-Betriebsart die von dem weiteren Computer exportierte und über das Internet an den Anschluß 56 abgegebene Sprachkoeffizienten-Information SKI mit den Transfermitteln 54 importiert. Hierdurch wird der durch den Computer 1 gebildete Internet-Server an den jeweiligen Benutzer angepaßt, weshalb eine besonders hohe Erkennungsrate erzielt wird.
  • Es kann erwähnt werden, daß die Sprachkoeffizienten-Information SKI eines Benutzers gemeinsam mit jeder an den Internet-Server übertragenen Audioinformation AI übertragen werden kann. Besonders vorteilhaft ist es jedoch, die Sprachkoeffizienten-Information SKI eines Benutzers nur bei einem ersten Abfragen der Hompage des Internet- Servers an den Internet-Server zu übertragen und die Sprachkoeffizienten-Information SKI in dem Internet-Server für diesen Benutzer zu speichern. Bei jedem weiteren Empfang einer Audioinformation AI von dem weiteren Computer dieses Benutzers kann der Internet-Server die bereits gespeicherte Sprachkoeffizienten-Information SKI für die Spracherkennung verwenden.
  • Es kann erwähnt werden, daß die Anpassungs-Betriebsart zum Anpassen der Sprachkoeffizienten-Information SKI auch automatisch nach dem Abspeichern einer korrigierten Textinformation CTI oder durch den Benutzer mit einer Taste der Tastatur 5 des Computers 1 aktiviert werden kann.
  • Es kann erwähnt werden, daß es auch andere als gemäß dem Ausführungsbeispiel beschriebene Möglichkeiten der Ermittlung eines Übereinstimmungsindikatorens eines Textteils oder eines Summen-Übereinstimmungsindikatorens von Textteilen eines Pfades gibt. Weiterhin ist die Festlegung, daß der Mindestwert MW unterschritten ist, wenn drei aufeinanderfolgende Strafpunkte vergeben werden, nur als Beispiel zu verstehen. Ebenso könnte eine eine bestimmte Anzahl an Strafpunkten in einer bestimmten Anzahl an Wörtern eines Textteils überschreitende Anzahl an Strafpunkten als ein Unterschreiten des Mindestwertes MW festgelegt werden.
  • Es kann erwähnt werden, daß es auch vorteilhaft sein kann, aus einem prinzipiell zur Anpassung der Sprachkoeffizienten-Information SKI geeigneten Textteil, dessen Ermittlung anhand des ersten Anwendungsbeispiels erläutert wurde, nur bestimmte Teile zur Anpassung der Sprachkoeffizienten-Information SKI zu verwenden. Hierbei können beispielsweise nur Wörter, denen von den Textvergleichsmitteln 52 ein Strafpunkt zugeordnet wurde, und diesen Wörtern benachbarte Wörter, die in der Anpassungstabelle 53 durch ein graues Feld gekennzeichnet sind, verwendet werden.
  • Dies bietet den Vorteil, daß bei dem Spracherkennungsvorgang falsch erkannte und von dem Benutzer korrigierte (ersetzte) Wörter („order", „Harry") sowie zu diesen Wörtern benachbarte Wörter zur Anpassung verwendet werden. Teile der korrigierten Textinformation CTI von prinzipiell zur Anpassung geeigneten Textteilen, die vollkommen mit der erkannten Textinformation RTI übereinstimmen, werden hierbei nicht zur Anpassung verwendet, da diese Teile eventuell von dem Benutzer gar nicht korrigiert wurden.
  • Es kann erwähnt werden, daß Eingabemittel einer in einer Hand haltbaren Eingabeeinrichtung auch zum Abgeben einer Steuerinformation an einen Computer ausge bildet sein können, um den Computer aus einer Power-Save-Betriebsart in eine Akiv-Betriebsart aufzuwecken.
  • Es kann erwähnt werden, daß eine mit einem Fuß betätigbare Eingabeeinrichtung auch ganz allgemein zur Aktivierung von Betriebszuständen in dem Computer verwendbar ist. Hierbei könnte der Computer einen Fernsehempfänger bilden und mit dem Fußschalter könnte beispielsweise ein Fernsehkanal ausgewählt werden, in dem eine Fernsehsendung empfangen wird, die mit dem Monitor wiedergegeben wird.
  • Es kann erwähnt werden, daß an eine mit einem Fuß betätigbare Eingabeeinrichtung auch ein Mikrofon oder ein Lautsprecher an den USB-Anschlußmitteln der Eingabeeinrichtung angeschlossen werden kann, wenn das Mikrofon oder der Lautsprecher ebenfalls USB-Anschlußmittel aufweist. In diesem Fall ist es nicht notwendig, daß die mit einem Fuß betätigbare Eingabeeinrichtung Audio-Verarbeitungsmittel aufweist, da Audio-Verarbeitungsmittel zum Abgeben eines analogen Audiosignals dann in dem Mikrofon und dem Lautsprecher vorgesehen sind.
  • Es kann erwähnt werden, daß eine digitale Datenbusverbindung auch durch eine Radio-Frequency-Funkverbindung, wie beispielsweise entsprechend der Bluetooth-Spezifikation (Bluetooth Special Interest Group, Mai 1998), gebildet sein kann. Dies bietet den Vorteil, daß keine Kabelverbindung zwischen der Eingabeeinrichtung und einem Computer mehr notwendig ist.
  • Es kann erwähnt werden, daß an den zweiten Anschluß 33 des Fußschalters 3 auch ein Lautsprecher angeschlossen werden kann.

Claims (10)

  1. Spracherkennungseinrichtung (1) mit: Empfangsmitteln (36) zum Empfangen einer von einem Sprecher gesprochenen Sprachinformation (AI), Sprachkoeffizienten-Speichermitteln (38) zum Speichern einer Sprachkoeffizienten-Information (SKI), Spracherkennungsmitteln (42), die durch Auswertung der Sprachinformation (AI) und der Sprachkoeffizienten-Information (SKI) zum Erkennen einer der empfangenen Sprachinformation (AI) entsprechenden Textinformation (RTI) ausgebildet sind, Transfermitteln (54), die ein Importieren einer Sprachkoeffizienten-Information (SKI) und ein Speichern der importierten Sprachkoeffizienten-Information (SKI) in den Sprachkoeffizienten-Speichermitteln (38) sowie ein Exportieren der in den Sprachkoeffizienten-Speichermitteln (38) gespeicherten Sprachkoeffizienten-Information (SKI) ermöglichen, wobei die Sprachkoeffizienten-Information (SKI) Wortschatz-Information (WI), Sprachmodell-Information (SMI) und Phonemreferenz-Information (PRI) beinhaltet und wobei die Wortschatz-Information (WI) sämtliche von der Spracherkennungseinrichtung (1) erkennbaren Wörter enthält, die Sprachmodell-Information (SMI) Wahrscheinlichkeiten für die Abfolge der Wörter der Wortschatz-Information in einer Sprachinformation enthält und die Phonemreferenz-Information (PRI) Informationen darüber enthält, wie ein Phonem von einem Sprecher ausgesprochen wird, und Trainingsmitteln (51) zum Trainieren der gespeicherten Sprachkoeffizienten-Information (SKI) durch Auswerten zumindest einer Textinformation (CTI, PTI, RTI, TTI) dadurch gekennzeichnet, dass die Trainingsmittel (51) zum Erzeugen eines Trainingsindikators (TI) ausgebildet sind, der Information darüber enthält, wie oft und in wie vielen Wörtern die in den Sprachkoeffizienten-Speichermitteln (38) gespeicherte Sprachkoeffizienten-Information (SKI) bereits an einen Benutzer angepaßt worden ist.
  2. Spracherkennungseinrichtung (1) nach Anspruch 1, dadurch gekennzeichnet, daß die Trainingsmittel (51) Korrekturmittel (49) zum Korrigieren der erkannten Textin formation (RTI) und zum Abgeben einer korrigierten Textinformation (CTI) und Anpassungsmittel (50) zum Anpassen der gespeicherten Sprachkoeffizienten-Information (SKI) durch Auswerten von zumindest der korrigierten Textinformation (CTI) enthalten.
  3. Spracherkennungseinrichtung (1) nach Anspruch 1, dadurch gekennzeichnet, daß die Transfermittel (54) bei einem Exportieren der in den Sprachkoeffizienten-Speichermitteln (38) gespeicherten Sprachkoeffizienten-Information (SKI) zusätzlich zum Exportieren des Trainingsindikators (TI) der exportierten Sprachkoeffizienten-Information (SKI) ausgebildet sind.
  4. Spracherkennungseinrichtung (1) nach Anspruch 1, dadurch gekennzeichnet, daß die Transfermittel (54) bei einem Importieren einer Sprachkoeffizienten-Information (SKI) zum Vergleichen eines importierten Trainingsindikators (TI) und eines von den Trainingsmitteln (51) erzeugten Trainingsindikators (TI) ausgebildet sind, und daß nur dann, wenn der Vergleich der Trainingsindikatoren (TI) ergibt, daß die importierte Sprachkoeffizienten-Information (SKI) zu einem größeren Ausmaß trainiert wurde als die gespeicherte Sprachkoeffizienten-Information (SKI), die Transfermittel (54) die importierte Sprachkoeffizienten-Information (SKI) in den Sprachkoeffizienten-Speichermitteln (38) speichern können.
  5. Spracherkennungseinrichtung (1) nach Anspruch 1, dadurch gekennzeichnet, daß die Transfermittel (54) an ein Computernetz (56) anschließbar sind.
  6. Spracherkennungsverfahren zum Erkennen einer einer Sprachinformation (AI) entsprechenden Textinformation (RTI), wobei das Verfahren die folgenden Schritte umfaßt: Empfangen einer Sprachinformation (AI), Auswerten der empfangenen Sprachinformation (AI) und einer gespeicherten Sprachkoeffizienten-Information (SKI) und Abgeben einer erkannten Textinformation (RTI), wobei das Verfahren weiterhin umfaßt: Importieren und Speichern einer Sprachkoeffizienten-Information (SKI), wobei die Sprachkoeffizienten-Information (SKI) Wortschatz-Information (WI), Sprachmodell-Information (SMI) und Phonemreferenz-Information (PRI) und wobei die Wortschatz-Information (WI) sämtliche erkennbaren Wörter enthält, die Sprachmodell-Information (SMI) Wahrscheinlichkeiten für die Abfolge der Wörter der Wortschatz-Information (WI) in einer Sprachinformation enthält und die Phonemreferenz-Information (PRI) Informationen darüber enthält, wie ein Phonem von einem Sprecher ausgesprochen wird, Trainieren der gespeicherten Sprachkoeffizienten-Information (SKI) durch Auswerten zumindest einer Textinformation (CTI, PTI, RTI, TTI) und Exportieren der gespeicherten Sprachkoeffizienten-Information (SKI), dadurch gekennzeichnet, dass ein Trainingsindikator (TI) erzeugt wird, der Information darüber enthält, wie oft und in wie vielen Wörtern die Sprachkoeffizienten-Information (SKI) bereits an einen Benutzer angepaßt worden ist.
  7. Spracherkennungsverfahren nach Anspruch 6, dadurch gekennzeichnet, daß das Trainieren der gespeicherten Sprachkoeffizienten-Information (SKI) sowohl ein Korrigieren der erkannten Textinformation (RTI) und Abgeben einer korrigierten Textinformation (CTI) als auch ein Anpassen der gespeicherten Sprachkoeffizienten-Information (SKI) durch Auswerten von zumindest der korrigierten Textinformation (CTI) beinhaltet.
  8. Spracherkennungsverfahren nach Anspruch 6, dadurch gekennzeichnet, daß der erzeugte Trainingsindikator (TI) gemeinsam mit der gespeicherten Sprachkoeffizienten-Information (SKI) exportiert wird.
  9. Spracherkennungsverfahren nach Anspruch 6, dadurch gekennzeichnet, daß bei einem Importieren einer Sprachkoeffizienten-Information (SKI) der importierte Trainingsindikator (TI) und der erzeugte Trainingsindikator (TI) der gespeicherten Sprachkoeffizienten-Information (SKI) verglichen werden und daß nur dann, wenn der Vergleich der Trainingsindikatoren (TI) ergibt, daß die importierte Sprachkoeffizienten-Information (SKI) zu einem größeren Ausmaß trainiert wurde als die gespeicherte Sprachkoeffizienten-Information (SKI), die importierte Sprachkoeffizienten-Information (SKI) gespeichert wird,
  10. Spracherkennungsverfahren nach Anspruch 6, dadurch gekennzeichnet, daß eine Sprachkoeffizienten-Information (SKI) von einem Computernetz (56) importiert und gespeichert werden kann.
DE60022976T 1999-07-08 2000-07-07 Spracherkennungseinrichtung mit transfermitteln Expired - Lifetime DE60022976T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99890231 1999-07-08
EP99890231 1999-07-08
PCT/EP2000/006443 WO2001004875A1 (en) 1999-07-08 2000-07-07 Speech recognition device with transfer means

Publications (2)

Publication Number Publication Date
DE60022976D1 DE60022976D1 (de) 2005-11-10
DE60022976T2 true DE60022976T2 (de) 2006-07-06

Family

ID=8243995

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60022976T Expired - Lifetime DE60022976T2 (de) 1999-07-08 2000-07-07 Spracherkennungseinrichtung mit transfermitteln

Country Status (6)

Country Link
US (1) US6868379B1 (de)
EP (1) EP1112566B1 (de)
JP (1) JP4659311B2 (de)
AT (1) ATE306116T1 (de)
DE (1) DE60022976T2 (de)
WO (1) WO2001004875A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689416B1 (en) 1999-09-29 2010-03-30 Poirier Darrell A System for transferring personalize matter from one computer to another
CN1204489C (zh) * 2002-04-03 2005-06-01 英华达(南京)科技有限公司 可同步播放相关联的语音及文字的方法
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
JP5014449B2 (ja) * 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
US9053708B2 (en) * 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
KR102405547B1 (ko) * 2020-09-15 2022-06-07 주식회사 퀄슨 딥러닝 기반의 발음 평가 시스템

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6191700A (ja) * 1984-10-11 1986-05-09 株式会社日立製作所 音声入力装置
JPS6287993A (ja) * 1985-10-14 1987-04-22 松下電器産業株式会社 音声認識装置
WO1990000298A1 (en) * 1988-06-30 1990-01-11 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
AT390685B (de) 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
JPH04282699A (ja) * 1991-03-12 1992-10-07 Ricoh Co Ltd 音声認識システム
US5390278A (en) * 1991-10-08 1995-02-14 Bell Canada Phoneme based speech recognition
JPH0695683A (ja) * 1992-09-10 1994-04-08 Fujitsu Ltd 音声認識装置
JP3725566B2 (ja) * 1992-12-28 2005-12-14 株式会社東芝 音声認識インターフェース
JP2833995B2 (ja) * 1994-05-23 1998-12-09 日本電気ロボットエンジニアリング株式会社 大語彙音声認識装置
JP2768274B2 (ja) * 1994-09-08 1998-06-25 日本電気株式会社 音声認識装置
US5684924A (en) * 1995-05-19 1997-11-04 Kurzweil Applied Intelligence, Inc. User adaptable speech recognition system
JPH098893A (ja) * 1995-06-19 1997-01-10 Nippon Telegr & Teleph Corp <Ntt> 音声認識コードレス電話機
MX9800434A (es) * 1995-07-27 1998-04-30 British Telecomm Evaluacion de calidad de señal.
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5806030A (en) * 1996-05-06 1998-09-08 Matsushita Electric Ind Co Ltd Low complexity, high accuracy clustering method for speech recognizer
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
JPH1152983A (ja) * 1997-08-07 1999-02-26 Hitachi Eng & Services Co Ltd 音声認識装置
DE69736014T2 (de) * 1997-10-20 2006-11-23 Computer Motion, Inc., Goleta Verteiltes allzweck-steuerungssystem für operationssäle
EP1110204B1 (de) * 1999-07-08 2005-06-01 Koninklijke Philips Electronics N.V. Anpassung eines spracherkenners an korrigierte texte

Also Published As

Publication number Publication date
JP2003504675A (ja) 2003-02-04
ATE306116T1 (de) 2005-10-15
JP4659311B2 (ja) 2011-03-30
EP1112566B1 (de) 2005-10-05
WO2001004875A1 (en) 2001-01-18
DE60022976D1 (de) 2005-11-10
EP1112566A1 (de) 2001-07-04
US6868379B1 (en) 2005-03-15

Similar Documents

Publication Publication Date Title
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE3910467C2 (de) Verfahren und Vorrichtung zur Erzeugung von Berichten
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60020504T2 (de) Anpassung eines spracherkenners an korrigierte texte
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE60128816T2 (de) Spracherkennungsverfahren mit ersetzungsbefehl
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
AT390685B (de) System zur textverarbeitung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE60209518T2 (de) Korrekturvorrichtung, die Teile eines erkannten Texts kennzeichnet
DE60313706T2 (de) Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium
DE3416238A1 (de) Extremschmalband-uebertragungssystem
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
EP1264301B1 (de) Verfahren zur erkennung von sprachäusserungen nicht-muttersprachlicher sprecher in einem sprachverarbeitungssystem
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
DE60022976T2 (de) Spracherkennungseinrichtung mit transfermitteln
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE60008893T2 (de) Sprachgesteuertes tragbares Endgerät
EP0981129A2 (de) Verfahren und Anordnung zum Durchführen einer Datenbankabfrage
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
EP1081683A1 (de) Verfahren un dAnordnung zur Spracherkennung
EP1590797B1 (de) Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
DE60022269T2 (de) Sprachbasiertes Manipulationsverfahren und -gerät
DE102006056286A1 (de) Verfahren zur Wiedergabe von Textinformationen durch Sprache in einem Fahrzeug

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS AUSTRIA GMBH, WIEN, AT

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN