DE19654549C2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Spracherkennung

Info

Publication number
DE19654549C2
DE19654549C2 DE19654549A DE19654549A DE19654549C2 DE 19654549 C2 DE19654549 C2 DE 19654549C2 DE 19654549 A DE19654549 A DE 19654549A DE 19654549 A DE19654549 A DE 19654549A DE 19654549 C2 DE19654549 C2 DE 19654549C2
Authority
DE
Germany
Prior art keywords
acoustic
models
speech
series
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE19654549A
Other languages
English (en)
Other versions
DE19654549A1 (de
Inventor
Makoto Nakamura
Naomi Inoue
Fumihiro Yato
Seiichi Yamamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
Kokusai Denshin Denwa KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kokusai Denshin Denwa KK filed Critical Kokusai Denshin Denwa KK
Publication of DE19654549A1 publication Critical patent/DE19654549A1/de
Application granted granted Critical
Publication of DE19654549C2 publication Critical patent/DE19654549C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

Spracherkennungstechniken dienen zum Analysieren des Inhalts von gesprochenen Sätzen, genauer gesagt zum Verstehen, was eine Person sagt. Hinsichtlich der Spracherkennung laufen verschiedene Forschungsvorha­ ben seit ca. 1950. In jüngerer Zeit wurden die Erkennungsmöglichkeiten durch die Entwicklung von Techniken wie dem Markov-Modell mit verbor­ gener Information, dem Cepstrum- und dem Δ-Cepstrum-Verfahren deutlich verbessert.
Bei herkömmlichen Spracherkennungsverfahren, wie sie aus DE 41 30 632 A1 und DE 37 11 348 A1 bekannt sind, werden statistische Wahrscheinlichkeiten akustischer Reihen vom Anfang bis zum Ende be­ rechnet. Beim Berechnen der Wahrscheinlichkeit des letzten akustischen Modells wird der Satz mit der größten Wahrscheinlichkeit ausgewählt. Dann wird der erfaßte Satz mit der größten Wahrscheinlichkeit als Erken­ nungsergebnis ausgegeben.
Das heißt, daß bei der herkömmlichen Spracherkennung der Anfang und das Ende der eingegebenen Sprachtöne abhängig von der Stärke (Ton­ pegel) der eingegebenen Sprachtöne erfaßt werden. Statistische Wahr­ scheinlichkeiten werden mittels der Länge der erfaßten Sprache berechnet, um denjenigen Satz auszuwählen, für den die angesammelte statistische Wahrscheinlichkeit am höchsten ist. Dann wird der ausgewählte Satz als Erkennungsergebnis ausgegeben.
Wenn unter den obigen Bedingungen das Ende der erfaßten Tonsi­ gnale unklar oder redundant oder der Tonpegel am Ende der erkannten Sprachsignale unzureichend ist, verringert sich die Genauigkeit der Erken­ nung. Ferner wird, solange nicht das Ende der eingegebenen Sprachsignale nach dem Sprechen eines Worts oder eines Satzes, wofür eine Erkennung ausgeführt werden soll, erkannt wird, die Auswahl/Erkennung fortgesetzt, bis das Ende der eingegebenen Sprachsignale erkannt wird. Daher wird sehr viel Zeit zur Erkennung aufgewandt.
Wie oben beschrieben, ist bei der herkömmlichen Spracherkennung die Erkennungsgeschwindigkeit relativ langsam und die Genauigkeit der Erkennung relativ niedrig.
Der Erfindung liegt die Aufgabe zugrunde, die Menge erforderlicher Berechnungen bei der Spracherkennung zu verringern und die Erken­ nungsperiode zu verkürzen, ohne die Erkennungsgenauigkeit zu beein­ trächtigen.
Die erfindungsgemäße Lösung dieser Aufgabe ist in den Ansprüchen 1 und 10 angegeben. Danach erfolgt die Spracherkennung unter Verwen­ dung von Akustikmodellen, wobei statistische Wahrscheinlichkeiten der er­ faßten Sprachtonsignale berechnet werden und das Erkennungsergebnis durch ein Sprachmodell ausgedrückt wird.
Vorzugsweise ist in einem Sprachmodellregister ein Grammatikprüf­ element vorgesehen, das syntaktische und semantische Beschränkungen speichert, um ein Wort auszuschließen, wenn es im Grammatikprüfelement nicht registriert ist. Ferner schließt das Grammatikprüfelement eine Wort­ folge aus, wenn sie sich beim Vergleich mit syntaktischen und semantischen Beschränkungen als syntaktisch oder semantisch falsch herausstellt. Die verwendeten Sprachmodelle beschreiben vom Benutzer in die Spracher­ kennungsvorrichtung eingegebene Satzsysteme. Die Akustikmodelle wer­ den von der Spracherkennungsvorrichtung vorab mit einer Reihe von Aku­ stikparametern usw. gelernt.
Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der Zeichnungen näher erläutert; darin zeigt
Fig. 1 ein Blockdiagramm einer Spracherkennungsvorrichtung;
Fig. 2 ein Beispiel von Sprachmodellen, wie sie bei der Spracherkennungs­ vorrichtung verwendet werden; und
Fig. 3 ein Flußdiagramm für Erkennungsvorgänge bei der Spracherken­ nungsvorrichtung.
Die Spracherkennungsvorrichtung nach Fig. 1 umfaßt ein Akustik­ analyseelement 1, einen Erkennungsprozeßabschnitt 2, ein Akustikmodell­ register 3 und ein Sprachmodellregister 4 mit Grammatikprüfelement 5.
Das Akustikanalyseelement 1 empfängt Sprachtonsignale A und ana­ lysiert dieselben akustisch durch Beurteilen der Zeitreihe akustischer Pa­ rameter der Sprachtonsignale A, wie durch das Cepstrum- und/oder das Δ- Cepstrum-Verfahren. Dann werden umgewandelte Daten an den Erken­ nungsprozeßabschnitt 2 ausgegeben.
Cepstrum-Werte werden durch umgekehrte Fourier-Transformation eines logarithmischen Spektrums erhalten. Ein Cepstrum-Wert steht in line­ ar-transformierter Beziehung zum logarithmischen Spektrum, das der menschlichen Hörcharakteristik ähnlich ist. Unter Verwendung des Cep­ strum-Wertes kann die Spracherkennungsvorrichtung Sprachtonsignale entsprechend dem simulierten menschlichen Gehörsinn beurteilen. Koeffi­ zienten höherer Ordnung des Cepstrum-Wertes bedeuten einen Detailauf­ bau eines Spektrums und Koeffizienten niedrigerer Ordnung des Cepstrum- Wertes bedeuten die Einhüllende des Spektrums. Durch Auswählen geeig­ neter Ordnungen kann dafür gesorgt werden, daß eine glatte Einhüllende erscheint, und zwar unter Verwendung einer relativ kleinen Anzahl akusti­ scher Parameter.
Der Δ-Cepstrum-Wert bedeutet die dynamische Charakteristik eines Spektrums. Der Δ-Cepstrum-Wert ist die erste Ordnung (erster Differential­ koeffizient) eines Polynoms, in das die Zeitreihe der Cepstrum-Werte im Be­ reich von innerhalb 50 ms bis 100 ms entwickelt wird.
Der Erkennungsprozeßabschnitt 2 empfängt vom Akustikanalyseele­ ment 1 ausgegebene Daten und berechnet die statistische Wahrscheinlich­ keit einer Reihe von Akustikmodellen B, wie sie im Akustikmodellregister 3 abgespeichert sind, und zwar aufgrund einer Beurteilung gemäß der Zeit­ reihe akustischer Parameter, wie aus den Sprachtonsignalen A transfor­ miert, und dann wählt er die Reihe von Akustikmodellen B mit der höchsten Wahrscheinlichkeit aus. Der Erkennungsprozeßabschnitt 2 beurteilt, ob die ausgewählte Reihe von Akustikmodellen B Teil eines einzigen Satzes (Sprachmodelle C) ist, wie im Sprachmodellregister 4 abgespeichert, wofür die Sprachmodelle C durch den Wortinhalt und die Grammatik des Gram­ matikprüfelements 5 beschränkt sind. D. h., daß dann, wenn ein neues Aku­ stikmodell zur aktuell ausgewählten Reihe von Akustikmodellen B hinzuge­ fügt wird und keinerlei Verzweigungsreihe aufgefunden werden kann, die mit der aktuellen Reihe von Akustikmodellen B verbindbar ist, eine derar­ tige ausgewählte Reihe von Akustikmodellen B als Teil des einzelnen, zu beurteilenden Satzes beurteilt wird. Obwohl der Erkennungsprozeß ein Zwischenprozeß ist, gibt der Erkennungsprozeßabschnitt 2 dann, wenn er beurteilt, daß der ausgewählte Satz der einzige Satz ist und während der mehreren aufeinanderfolgenden Rahmen die höchste Wahrscheinlichkeit beibehält, die ausgewählten Sprachmodelle C als Erkennungsergebnis E aus.
Von einem Benutzer gesprochene Sätze werden vorab gemäß syntak­ tischen und semantischen Beschränkungen durch eine Reihe von Akustik­ modellen B repräsentiert. Wenn ein Teil einer Akustikmodellreihe gemein­ sam in mehreren Sätzen vorliegt, ist der Teil der einen Akustikmodellreihe den mehreren Sätzen gemeinsam.
Akustikmodelle B werden dadurch im Akustikmodellregister 3 regi­ striert, daß Zeitreihen von Akustikparametern gelernt werden. Jedes Aku­ stikmodell B wird gemäß dem HMM-Verfahren oder dergleichen repräsen­ tiert.
Das HMM-Verfahren ist ein solches zum Repräsentieren einer spek­ tralen Zeitreihe von Tonelementen (z. B. Phonemen) und Wörtern in einem Stil von Ausgangssignalen aus Modellen zu stochastischen Zustandsüber­ gängen. Im allgemeinen wird ein Tonelement durch wenige Zustände (z. B. drei Zustände) repräsentiert. Jedes Tonelement und Wort zeichnet sich da­ durch aus, daß es Übergangswahrscheinlichkeiten zwischen Zuständen und Ausgangswahrscheinlichkeiten verschiedener Tonelemente und Wörter bei den Übergängen zwischen Zuständen repräsentiert. Gemäß dem HMM-Ver­ fahren kann eine Variation von Sprachtonspektren statistisch repräsentiert werden.
Das Grammatikprüfelement 5 schließt eine Reihe von Akustikmodel­ len B aus, die unter dem sprachlichen Gesichtspunkt weder syntaktisch noch semantisch verständlich sind. Das Grammatikprüfelement 5 steht in Einklang mit Sprachmodellen C auf Grundlage des vorliegenden zu erken­ nenden Wortes oder Satzes.
Das Grammatikprüfelement 5 verfügt über zwei Funktionen.
Die eine Funktion ist es, Wörter auszuschließen, die im Wörterbuch nicht gespeichert sind. Das Wörterbuch enthält Hauptwörter wie "Meer" und "Himmel", Adjektive wie "blau" und "glücklich" und Verben wie "sein" und "machen". Eine entsprechende Reihe von Akustikmodellen B wird im Ein­ trag jedes im Wörterbuch aufgeführten Worts beschrieben.
Die andere Funktion besteht darin, ein Akustikmodell B einzuschrän­ ken/auszuwählen, das auf Grundlage syntaktischer und semantischer Grün­ de nicht mit der folgenden Reihe von Akustikmodellen verbunden werden kann. So wird z. B. die Kombination der Wörter: "Dies ist ein blauer Him­ mel." nicht ausgeschlossen, da die Kombination syntaktisch korrekt ist. Da­ gegen wird die Kombination der Wörter "Dies ist blau ein Himmel." ausge­ schlossen, da diese Kombination syntaktisch falsch ist, obwohl alle Wörter im Wörterbuch aufgeführt sind.
Fig. 3 zeigt ein Flußdiagramm der erfindungsgemäßen Spracherken­ nungsvorrichtung.
Werden Sprachtonsignale A in das Akustikanalyseelement 1 eingege­ ben (Schritt S1), so werden sie in digitale Signale umgesetzt, und diese digi­ talen Signale werden in eine Zeitreihe von Akustikparametern wie den Cepstrum-Wert, den Δ-Cepstrum Wert, gemäß der Akustikanalyse umge­ setzt (Schritt S2).
Der Erkennungsprozeßabschnitt 2 berechnet die statistischen Wahr­ scheinlichkeiten repräsentativer Reihen von Akustikmodellen B unter Beur­ teilung der zeitlichen Reihe der Akustikparameter der eingegebenen Sprachtonsignale A (Schritt S3).
Der Erkennungsprozeßabschnitt 2 beurteilt, ob die Reihe der Akustik­ modelle B mit der höchsten Wahrscheinlichkeit Teil eines einzigen Satzes im Sprachmodellregister 4 ist, und zwar durch Vergleichen der Reihe der Akustikmodelle B und der Sprachmodelle C, wie durch das Grammatikprüf­ element 5 (Wörterbuch, Grammatik) beschränkt (Schritt S4).
Solange der Spracherkennungselement 2 beurteilt, daß die Ver­ gleichsreihe der Akustikmodelle B einen einzigen Satz darstellt, werden die statistischen Wahrscheinlichkeiten der Reihe von Akustikmodellen B, wie im Akustikmodellregister 3 repräsentiert, wiederholt in der Reihenfolge der Akustikparameter der eingegebenen Sprachtonsignale A berechnet (Rück­ kehr zum Schritt S3).
Wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß die verglichene Reihe von Akustikmodellen B ein Teil eines einzigen Satzes ist, hat die Ver­ gleichsreihe der Sprachmodelle C während der mehreren aufeinanderfol­ genden Rahmen (unten beschrieben) die höchste Wahrscheinlichkeit, und der Erkennungsprozeßabschnitt 2 gibt ein Erkennungsergebnis E aus (Schritt S5).
Nun wird unter Bezugnahme auf Fig. 1 die Funktion des Ausfüh­ rungsbeispiels der Erfindung beschrieben.
  • 1. Das Akustikanalyseelement 1 setzt die eingegebenen Sprachtonsigna­ le A für jede vorbestimmte Zeitperiode in Charakteristikvektoren um. Eine vorbestimmte Zeitperiode wird als Rahmen bezeichnet, und sie hat im allgemeinen eine Dauer von 1 bis 19 ms. Der Charakteristik­ vektor entspricht den Akustikparametern.
  • 2. Hinsichtlich einer Reihe von Charakteristikvektoren werden die stati­ stischen Wahrscheinlichkeiten von Akustikmodellen B berechnet. Die Akustikmodelle B sind Gesamtheiten von Wörtern oder Teilwortein­ heften, wie Phonemen. Diese Akustikmodelle B werden vorab unter Verwendung einer großen Anzahl gelernter Tonsignale gelernt. Um statistische Wahrscheinlichkeiten der Akustikmodelle B zu berech­ nen, wird das HMM-Verfahren verwendet.
  • 3. Ein folgendes Akustikmodell B, das mit einer Reihe von Akustikmo­ dellen B verbunden werden kann, wird durch das Grammatikprüfele­ ment 5 mit Wörterbuch und Grammatik beschränkt. Sprachmodelle C, wie sie den untersuchten Wörtern und Sätzen, wie sie zu erkennen sind, entsprechen, werden durch das Grammatikprüfelement 5 aufge­ zählt und kontrolliert. Wie es in Fig. 2 dargestellt ist, sieht das Sprachmodell C wie ein Baum aus.
  • 4. Der Erkennungsprozeßabschnitt 2 berechnet die statistische Wahr­ scheinlichkeit eines folgenden Akustikmodells B, wie für jeden Rah­ men durch ein Sprachmodell C angeführt. Der Erkennungsprozeß­ abschnitt 2 berechnet für den ersten Rahmen die statistischen Wahr­ scheinlichkeiten aller Akustikmodelle B. Nachfolgend werden die Sprachmodelle C, für die die statistischen Wahrscheinlichkeiten einen höheren Rang aufweisen (Position 1 bis Position N) kontinuierlich be­ rechnet, um ein Akustikmodell B zu erhalten, das mit der Reihe der aktuellen Akustikmodelle B verbunden werden kann.
  • 5. Wenn die Reihe der Akustikmodelle B mit der höchsten angesammel­ ten Wahrscheinlichkeit ein Teil eines einzigen Satzes im Sprachmo­ dell C während mehrerer aufeinanderfolgender Rahmen ist, wird der untersuchte Satz, der die Reihe der Akustikmodelle B enthält, als Er­ kennungsergebnis E bestimmt.
Gemäß dem Ausführungsbeispiel der Erfindung kann im Fall einer Anwendung auf "Ländername oder Städtename" und "Prädikat" die mittlere Erkennungszeit von 1,74 Sekunden auf 1,20 Sekunden um 30% verkürzt werden, ohne daß eine Beeinträchtigung der Erkennungsgenauigkeit vor­ liegt.
Als Beispiel wird der Fall der Erkennung von "Ländername" und "Prädikat" erläutert.
Für diesen Fall werden die folgenden Prädikate (i) und (ii) angenom­ men:
  • a) isn't it?
  • b) right?
Wenn Sprachtonsignale A "That's Australia, right?" eingegeben wer­ den, werden die folgenden Sätze in spitzen Klammern <1<, <2< und <3< als Kandidaten mit höherer Wahrscheinlichkeit durch Tonerkennung auf­ einanderfolgend ausgegeben:
  • 1. <1< Australia right,
  • 2. <2< Austria right, und
  • 3. <3< Austin right.
Fig. 2 zeigt Sprachmodelle C zu diesen Kandidaten. Betreffend den Ländernamen werden "Australia", wie tatsächlich gesprochen, und "Austria", für das die Sprechweise ähnlich zu "Australia" ist, als Kandidaten ausgege­ ben. Ferner wird als einer der Kandidaten auch "Austin", der Name einer Stadt in Texas, ausgegeben.
Eine Ermittlung, daß ein Sprachmodell C einem einzigen Wort/Satz entspricht, wird nicht immer in dem Moment gesprochen, in dem das Ende der eingegebenen Sprachtonsignale A erkannt wird, sondern es kann eine Beurteilung zu jedem beliebigen Moment erfolgen, bevor das Ende der ein­ gegebenen Sprachtonsignale erkannt wird.
Z. B. ist, wenn die statistischen Wahrscheinlichkeiten der Akustikmo­ delle B, "Aust [⊂:st]", berechnet werden, die statistische Wahrscheinlichkeit von "ra [rei]" für "Australia" höher als die von "ri [ri]" für "Austria". Wenn sich im Wörterbuch des Grammatikprüfelements 5 außer "Australia" keine anderen Wörter nach dem Berechnen der statistischen Wahrscheinlichkeit der Reihe der Akustikmodelle B zu "Austra" befinden, wird "Australia" als Erkennungsergebnis E ausgegeben, und die folgenden Berechnungen wer­ den weggelassen.
Wie oben beschrieben während der Berechnung der statistische Wahrscheinlichkeit mit einer Reihe von Akustikmodellen ein Erkennungs­ ergebnis ermittelt werden, wenn durch ein Grammatikprüfelement ausge­ wählte Sprachmodelle einen einzigen Satz anzeigen. Daher werden redun­ dante Berechnungen weggelassen. Die erforderliche Menge an Berechnun­ gen für den Erkennungsvorgang kann verringert werden, was die Erken­ nungszeit verkürzt, ohne die Erkennungsgenauigkeit zu beeinträchtigen. Die Mensch/Maschine-Schnittstelle läßt sich somit durch die erfindungsge­ mäße Spracherkennung verbessern.

Claims (11)

1. Spracherkennungsverfahren für eine Spracherkennungsvorrichtung mit einem Akustikmodellregister (3) zum Speichern von Reihen von vorge­ gebenen Akustikmodellen (B) und einem Sprachmodellregister (4) zum Speichern von vorgegebenen Sprachmodellen (C), umfassend die Verfah­ rensschritte:
Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern;
Berechnen statistischer Wahrscheinlichkeiten für die in dem Aku­ stikmodellregister (3) gespeicherten Reihen von Akustikmodellen (B) an­ hand der ermittelten Zeitreihen von Akustikparametern;
Auswählen der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlichkeit;
Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den im Sprachmodellregister (4) gespeicherten Sprachmodellen (C); und
Ausgeben eines Erkennungsergebnisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustik­ modellen (B) entspricht.
2. Verfahren nach Anspruch 1, wobei die empfangenen Sprachsignale (A) immer für eine vorbestimmte Zeitperiode in Zeitreihen von Akustik­ parametern umgewandelt werden und das Erkennungsergebnis (E) dann ausgegeben wird, wenn die ausgewählte Reihe von Akustikmodellen (B) für mehrere aufeinanderfolgende Zeitperioden einem einzigen Sprachmodell (C) entspricht.
3. Verfahren nach Anspruch 1 oder 2, wobei zum Umwandeln von emp­ fangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern das Cepstrum- und/oder das Δ-Cepstrum-Verfahren verwendet werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Reihen von vorgegebenen Akustikmodellen (B) Sätzen entsprechen, die vorher von einem Benutzer gesprochen worden sind.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Reihen von vorgegebenen Akustikmodellen (B) auf der Grundlage von Zeitreihen von Akustikparametern bestimmt werden.
6. Verfahren nach Anspruch 5, wobei jedes Akustikmodell (B) nach dem HMM-Verfahren bestimmt wird.
7. Verfahren nach einem der Ansprüche 4 bis 6, wobei sich die Akustik­ modelle (B) aus Wörtern oder Teilworteinheiten wie Phonemen zusammen­ setzen.
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die vorgegebenen Sprachmodelle (C) Sätzen entsprechen, für die angenommen wird, daß sie von einem Benutzer gesprochen werden würden.
9. Verfahren nach einem der Ansprüche 1 bis 8, wobei der Vergleich der ausgewählten Reihe von Akustikmodellen (B) mit den gespeicherten Sprachmodellen (C) auf der Grundlage syntaktischer und/oder semantischer Gesichtspunkte erfolgt.
10. Spracherkennungsvorrichtung mit
einem Akustikanalyseelement (1) zum Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern,
einem Akustikmodellregister (3) zum Speichern von Reihen von vor­ gegebenen Akustikmodellen (B),
einem Sprachmodellregister (4) zum Speichern von vorgegebenen Sprachmodellen (C) und
einem mit dem Akustikanalyseelement (1), dem Akustikmodellregi­ ster (3) und dem Sprachmodellregister (4) verbundenen Erkennungspro­ zeßabschnitt (2) zum Berechnen statistischer Wahrscheinlichkeiten für die in dem Akustikmodellregister (3) gespeicherten Reihen von Akustikmodel­ len (B) anhand der ermittelten Zeitreihen von Akustikparametern, Auswäh­ len der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlich­ keit, Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den gespeicherten Sprachmodellen (C) und Ausgeben eines Erkennungsergeb­ nisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustikmodellen (B) entspricht.
11. Vorrichtung nach Anspruch 10, wobei das Sprachmodellregister (4) ein Grammatikprüfelement (5) aufweist, um die ausgewählte Reihe von Akustikmodellen (B) unter syntaktischen und/oder semantischen Gesichts­ punkten mit den Sprachmodellen (C) zu vergleichen.
DE19654549A 1995-12-27 1996-12-27 Verfahren und Vorrichtung zur Spracherkennung Expired - Fee Related DE19654549C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP34016395A JP3535292B2 (ja) 1995-12-27 1995-12-27 音声認識システム

Publications (2)

Publication Number Publication Date
DE19654549A1 DE19654549A1 (de) 1997-07-03
DE19654549C2 true DE19654549C2 (de) 2000-08-10

Family

ID=18334338

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19654549A Expired - Fee Related DE19654549C2 (de) 1995-12-27 1996-12-27 Verfahren und Vorrichtung zur Spracherkennung

Country Status (3)

Country Link
US (1) US5875425A (de)
JP (1) JP3535292B2 (de)
DE (1) DE19654549C2 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
US6404925B1 (en) * 1999-03-11 2002-06-11 Fuji Xerox Co., Ltd. Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
JP4465564B2 (ja) * 2000-02-28 2010-05-19 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
WO2001080795A1 (en) * 2000-04-20 2001-11-01 Cochlear Limited Transcutaneous power optimization circuit for cochlear implant
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
WO2004077404A1 (en) * 2003-02-21 2004-09-10 Voice Signal Technologies, Inc. Method of producing alternate utterance hypotheses using auxilia ry information on close competitors
WO2005027093A1 (en) * 2003-09-11 2005-03-24 Voice Signal Technologies, Inc. Generation of an alternative pronunciation
JP4486897B2 (ja) * 2005-01-20 2010-06-23 株式会社豊田中央研究所 運転行動認識装置
US20070183995A1 (en) * 2006-02-09 2007-08-09 Conopco, Inc., D/B/A Unilever Compounds useful as agonists of A2A adenosine receptors, cosmetic compositions with A2A agonists and a method for using the same
US8036896B2 (en) * 2006-04-18 2011-10-11 Nuance Communications, Inc. System, server and method for distributed literacy and language skill instruction
JP4518141B2 (ja) 2007-12-17 2010-08-04 日本電気株式会社 画像照合方法及び画像照合装置並びに画像照合プログラム
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5613036A (en) * 1992-12-31 1997-03-18 Apple Computer, Inc. Dynamic categories for a speech recognition system
CA2126380C (en) * 1993-07-22 1998-07-07 Wu Chou Minimum error rate training of combined string models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3711348A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen kontinuierlich gesprochener woerter
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal

Also Published As

Publication number Publication date
US5875425A (en) 1999-02-23
JP3535292B2 (ja) 2004-06-07
JPH09179581A (ja) 1997-07-11
DE19654549A1 (de) 1997-07-03

Similar Documents

Publication Publication Date Title
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE69226796T2 (de) Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung
DE69514382T2 (de) Spracherkennung
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE60026637T2 (de) Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69705830T2 (de) Sprachverarbeitung
DE3236834C2 (de) Verfahren und Gerät zur Sprachanalyse
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE69823954T2 (de) Quellen-normalisierendes Training zur Sprachmodellierung
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE68924134T2 (de) Spracherkennungssystem.
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE10111056B4 (de) Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69321656T2 (de) Verfahren zur Spracherkennung
DE69427717T2 (de) Sprachdialogsystem
WO1998011534A1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee