DE19654549C2 - Verfahren und Vorrichtung zur Spracherkennung - Google Patents
Verfahren und Vorrichtung zur SpracherkennungInfo
- Publication number
- DE19654549C2 DE19654549C2 DE19654549A DE19654549A DE19654549C2 DE 19654549 C2 DE19654549 C2 DE 19654549C2 DE 19654549 A DE19654549 A DE 19654549A DE 19654549 A DE19654549 A DE 19654549A DE 19654549 C2 DE19654549 C2 DE 19654549C2
- Authority
- DE
- Germany
- Prior art keywords
- acoustic
- models
- speech
- series
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000001514 detection method Methods 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Spracherkennungstechniken dienen zum Analysieren des Inhalts von
gesprochenen Sätzen, genauer gesagt zum Verstehen, was eine Person sagt.
Hinsichtlich der Spracherkennung laufen verschiedene Forschungsvorha
ben seit ca. 1950. In jüngerer Zeit wurden die Erkennungsmöglichkeiten
durch die Entwicklung von Techniken wie dem Markov-Modell mit verbor
gener Information, dem Cepstrum- und dem Δ-Cepstrum-Verfahren deutlich
verbessert.
Bei herkömmlichen Spracherkennungsverfahren, wie sie aus
DE 41 30 632 A1 und DE 37 11 348 A1 bekannt sind, werden statistische
Wahrscheinlichkeiten akustischer Reihen vom Anfang bis zum Ende be
rechnet. Beim Berechnen der Wahrscheinlichkeit des letzten akustischen
Modells wird der Satz mit der größten Wahrscheinlichkeit ausgewählt.
Dann wird der erfaßte Satz mit der größten Wahrscheinlichkeit als Erken
nungsergebnis ausgegeben.
Das heißt, daß bei der herkömmlichen Spracherkennung der Anfang
und das Ende der eingegebenen Sprachtöne abhängig von der Stärke (Ton
pegel) der eingegebenen Sprachtöne erfaßt werden. Statistische Wahr
scheinlichkeiten werden mittels der Länge der erfaßten Sprache berechnet,
um denjenigen Satz auszuwählen, für den die angesammelte statistische
Wahrscheinlichkeit am höchsten ist. Dann wird der ausgewählte Satz als
Erkennungsergebnis ausgegeben.
Wenn unter den obigen Bedingungen das Ende der erfaßten Tonsi
gnale unklar oder redundant oder der Tonpegel am Ende der erkannten
Sprachsignale unzureichend ist, verringert sich die Genauigkeit der Erken
nung. Ferner wird, solange nicht das Ende der eingegebenen Sprachsignale
nach dem Sprechen eines Worts oder eines Satzes, wofür eine Erkennung
ausgeführt werden soll, erkannt wird, die Auswahl/Erkennung fortgesetzt,
bis das Ende der eingegebenen Sprachsignale erkannt wird. Daher wird
sehr viel Zeit zur Erkennung aufgewandt.
Wie oben beschrieben, ist bei der herkömmlichen Spracherkennung
die Erkennungsgeschwindigkeit relativ langsam und die Genauigkeit der
Erkennung relativ niedrig.
Der Erfindung liegt die Aufgabe zugrunde, die Menge erforderlicher
Berechnungen bei der Spracherkennung zu verringern und die Erken
nungsperiode zu verkürzen, ohne die Erkennungsgenauigkeit zu beein
trächtigen.
Die erfindungsgemäße Lösung dieser Aufgabe ist in den Ansprüchen
1 und 10 angegeben. Danach erfolgt die Spracherkennung unter Verwen
dung von Akustikmodellen, wobei statistische Wahrscheinlichkeiten der er
faßten Sprachtonsignale berechnet werden und das Erkennungsergebnis
durch ein Sprachmodell ausgedrückt wird.
Vorzugsweise ist in einem Sprachmodellregister ein Grammatikprüf
element vorgesehen, das syntaktische und semantische Beschränkungen
speichert, um ein Wort auszuschließen, wenn es im Grammatikprüfelement
nicht registriert ist. Ferner schließt das Grammatikprüfelement eine Wort
folge aus, wenn sie sich beim Vergleich mit syntaktischen und semantischen
Beschränkungen als syntaktisch oder semantisch falsch herausstellt. Die
verwendeten Sprachmodelle beschreiben vom Benutzer in die Spracher
kennungsvorrichtung eingegebene Satzsysteme. Die Akustikmodelle wer
den von der Spracherkennungsvorrichtung vorab mit einer Reihe von Aku
stikparametern usw. gelernt.
Ein Ausführungsbeispiel der Erfindung wird nachstehend anhand der
Zeichnungen näher erläutert; darin zeigt
Fig. 1 ein Blockdiagramm einer Spracherkennungsvorrichtung;
Fig. 2 ein Beispiel von Sprachmodellen, wie sie bei der Spracherkennungs
vorrichtung verwendet werden; und
Fig. 3 ein Flußdiagramm für Erkennungsvorgänge bei der Spracherken
nungsvorrichtung.
Die Spracherkennungsvorrichtung nach Fig. 1 umfaßt ein Akustik
analyseelement 1, einen Erkennungsprozeßabschnitt 2, ein Akustikmodell
register 3 und ein Sprachmodellregister 4 mit Grammatikprüfelement 5.
Das Akustikanalyseelement 1 empfängt Sprachtonsignale A und ana
lysiert dieselben akustisch durch Beurteilen der Zeitreihe akustischer Pa
rameter der Sprachtonsignale A, wie durch das Cepstrum- und/oder das Δ-
Cepstrum-Verfahren. Dann werden umgewandelte Daten an den Erken
nungsprozeßabschnitt 2 ausgegeben.
Cepstrum-Werte werden durch umgekehrte Fourier-Transformation
eines logarithmischen Spektrums erhalten. Ein Cepstrum-Wert steht in line
ar-transformierter Beziehung zum logarithmischen Spektrum, das der
menschlichen Hörcharakteristik ähnlich ist. Unter Verwendung des Cep
strum-Wertes kann die Spracherkennungsvorrichtung Sprachtonsignale
entsprechend dem simulierten menschlichen Gehörsinn beurteilen. Koeffi
zienten höherer Ordnung des Cepstrum-Wertes bedeuten einen Detailauf
bau eines Spektrums und Koeffizienten niedrigerer Ordnung des Cepstrum-
Wertes bedeuten die Einhüllende des Spektrums. Durch Auswählen geeig
neter Ordnungen kann dafür gesorgt werden, daß eine glatte Einhüllende
erscheint, und zwar unter Verwendung einer relativ kleinen Anzahl akusti
scher Parameter.
Der Δ-Cepstrum-Wert bedeutet die dynamische Charakteristik eines
Spektrums. Der Δ-Cepstrum-Wert ist die erste Ordnung (erster Differential
koeffizient) eines Polynoms, in das die Zeitreihe der Cepstrum-Werte im Be
reich von innerhalb 50 ms bis 100 ms entwickelt wird.
Der Erkennungsprozeßabschnitt 2 empfängt vom Akustikanalyseele
ment 1 ausgegebene Daten und berechnet die statistische Wahrscheinlich
keit einer Reihe von Akustikmodellen B, wie sie im Akustikmodellregister 3
abgespeichert sind, und zwar aufgrund einer Beurteilung gemäß der Zeit
reihe akustischer Parameter, wie aus den Sprachtonsignalen A transfor
miert, und dann wählt er die Reihe von Akustikmodellen B mit der höchsten
Wahrscheinlichkeit aus. Der Erkennungsprozeßabschnitt 2 beurteilt, ob die
ausgewählte Reihe von Akustikmodellen B Teil eines einzigen Satzes
(Sprachmodelle C) ist, wie im Sprachmodellregister 4 abgespeichert, wofür
die Sprachmodelle C durch den Wortinhalt und die Grammatik des Gram
matikprüfelements 5 beschränkt sind. D. h., daß dann, wenn ein neues Aku
stikmodell zur aktuell ausgewählten Reihe von Akustikmodellen B hinzuge
fügt wird und keinerlei Verzweigungsreihe aufgefunden werden kann, die
mit der aktuellen Reihe von Akustikmodellen B verbindbar ist, eine derar
tige ausgewählte Reihe von Akustikmodellen B als Teil des einzelnen, zu
beurteilenden Satzes beurteilt wird. Obwohl der Erkennungsprozeß ein
Zwischenprozeß ist, gibt der Erkennungsprozeßabschnitt 2 dann, wenn er
beurteilt, daß der ausgewählte Satz der einzige Satz ist und während der
mehreren aufeinanderfolgenden Rahmen die höchste Wahrscheinlichkeit
beibehält, die ausgewählten Sprachmodelle C als Erkennungsergebnis E
aus.
Von einem Benutzer gesprochene Sätze werden vorab gemäß syntak
tischen und semantischen Beschränkungen durch eine Reihe von Akustik
modellen B repräsentiert. Wenn ein Teil einer Akustikmodellreihe gemein
sam in mehreren Sätzen vorliegt, ist der Teil der einen Akustikmodellreihe
den mehreren Sätzen gemeinsam.
Akustikmodelle B werden dadurch im Akustikmodellregister 3 regi
striert, daß Zeitreihen von Akustikparametern gelernt werden. Jedes Aku
stikmodell B wird gemäß dem HMM-Verfahren oder dergleichen repräsen
tiert.
Das HMM-Verfahren ist ein solches zum Repräsentieren einer spek
tralen Zeitreihe von Tonelementen (z. B. Phonemen) und Wörtern in einem
Stil von Ausgangssignalen aus Modellen zu stochastischen Zustandsüber
gängen. Im allgemeinen wird ein Tonelement durch wenige Zustände (z. B.
drei Zustände) repräsentiert. Jedes Tonelement und Wort zeichnet sich da
durch aus, daß es Übergangswahrscheinlichkeiten zwischen Zuständen und
Ausgangswahrscheinlichkeiten verschiedener Tonelemente und Wörter bei
den Übergängen zwischen Zuständen repräsentiert. Gemäß dem HMM-Ver
fahren kann eine Variation von Sprachtonspektren statistisch repräsentiert
werden.
Das Grammatikprüfelement 5 schließt eine Reihe von Akustikmodel
len B aus, die unter dem sprachlichen Gesichtspunkt weder syntaktisch
noch semantisch verständlich sind. Das Grammatikprüfelement 5 steht in
Einklang mit Sprachmodellen C auf Grundlage des vorliegenden zu erken
nenden Wortes oder Satzes.
Das Grammatikprüfelement 5 verfügt über zwei Funktionen.
Die eine Funktion ist es, Wörter auszuschließen, die im Wörterbuch
nicht gespeichert sind. Das Wörterbuch enthält Hauptwörter wie "Meer" und
"Himmel", Adjektive wie "blau" und "glücklich" und Verben wie "sein" und
"machen". Eine entsprechende Reihe von Akustikmodellen B wird im Ein
trag jedes im Wörterbuch aufgeführten Worts beschrieben.
Die andere Funktion besteht darin, ein Akustikmodell B einzuschrän
ken/auszuwählen, das auf Grundlage syntaktischer und semantischer Grün
de nicht mit der folgenden Reihe von Akustikmodellen verbunden werden
kann. So wird z. B. die Kombination der Wörter: "Dies ist ein blauer Him
mel." nicht ausgeschlossen, da die Kombination syntaktisch korrekt ist. Da
gegen wird die Kombination der Wörter "Dies ist blau ein Himmel." ausge
schlossen, da diese Kombination syntaktisch falsch ist, obwohl alle Wörter
im Wörterbuch aufgeführt sind.
Fig. 3 zeigt ein Flußdiagramm der erfindungsgemäßen Spracherken
nungsvorrichtung.
Werden Sprachtonsignale A in das Akustikanalyseelement 1 eingege
ben (Schritt S1), so werden sie in digitale Signale umgesetzt, und diese digi
talen Signale werden in eine Zeitreihe von Akustikparametern wie den
Cepstrum-Wert, den Δ-Cepstrum Wert, gemäß der Akustikanalyse umge
setzt (Schritt S2).
Der Erkennungsprozeßabschnitt 2 berechnet die statistischen Wahr
scheinlichkeiten repräsentativer Reihen von Akustikmodellen B unter Beur
teilung der zeitlichen Reihe der Akustikparameter der eingegebenen
Sprachtonsignale A (Schritt S3).
Der Erkennungsprozeßabschnitt 2 beurteilt, ob die Reihe der Akustik
modelle B mit der höchsten Wahrscheinlichkeit Teil eines einzigen Satzes
im Sprachmodellregister 4 ist, und zwar durch Vergleichen der Reihe der
Akustikmodelle B und der Sprachmodelle C, wie durch das Grammatikprüf
element 5 (Wörterbuch, Grammatik) beschränkt (Schritt S4).
Solange der Spracherkennungselement 2 beurteilt, daß die Ver
gleichsreihe der Akustikmodelle B einen einzigen Satz darstellt, werden die
statistischen Wahrscheinlichkeiten der Reihe von Akustikmodellen B, wie
im Akustikmodellregister 3 repräsentiert, wiederholt in der Reihenfolge der
Akustikparameter der eingegebenen Sprachtonsignale A berechnet (Rück
kehr zum Schritt S3).
Wenn der Erkennungsprozeßabschnitt 2 beurteilt, daß die verglichene
Reihe von Akustikmodellen B ein Teil eines einzigen Satzes ist, hat die Ver
gleichsreihe der Sprachmodelle C während der mehreren aufeinanderfol
genden Rahmen (unten beschrieben) die höchste Wahrscheinlichkeit, und
der Erkennungsprozeßabschnitt 2 gibt ein Erkennungsergebnis E aus
(Schritt S5).
Nun wird unter Bezugnahme auf Fig. 1 die Funktion des Ausfüh
rungsbeispiels der Erfindung beschrieben.
- 1. Das Akustikanalyseelement 1 setzt die eingegebenen Sprachtonsigna le A für jede vorbestimmte Zeitperiode in Charakteristikvektoren um. Eine vorbestimmte Zeitperiode wird als Rahmen bezeichnet, und sie hat im allgemeinen eine Dauer von 1 bis 19 ms. Der Charakteristik vektor entspricht den Akustikparametern.
- 2. Hinsichtlich einer Reihe von Charakteristikvektoren werden die stati stischen Wahrscheinlichkeiten von Akustikmodellen B berechnet. Die Akustikmodelle B sind Gesamtheiten von Wörtern oder Teilwortein heften, wie Phonemen. Diese Akustikmodelle B werden vorab unter Verwendung einer großen Anzahl gelernter Tonsignale gelernt. Um statistische Wahrscheinlichkeiten der Akustikmodelle B zu berech nen, wird das HMM-Verfahren verwendet.
- 3. Ein folgendes Akustikmodell B, das mit einer Reihe von Akustikmo dellen B verbunden werden kann, wird durch das Grammatikprüfele ment 5 mit Wörterbuch und Grammatik beschränkt. Sprachmodelle C, wie sie den untersuchten Wörtern und Sätzen, wie sie zu erkennen sind, entsprechen, werden durch das Grammatikprüfelement 5 aufge zählt und kontrolliert. Wie es in Fig. 2 dargestellt ist, sieht das Sprachmodell C wie ein Baum aus.
- 4. Der Erkennungsprozeßabschnitt 2 berechnet die statistische Wahr scheinlichkeit eines folgenden Akustikmodells B, wie für jeden Rah men durch ein Sprachmodell C angeführt. Der Erkennungsprozeß abschnitt 2 berechnet für den ersten Rahmen die statistischen Wahr scheinlichkeiten aller Akustikmodelle B. Nachfolgend werden die Sprachmodelle C, für die die statistischen Wahrscheinlichkeiten einen höheren Rang aufweisen (Position 1 bis Position N) kontinuierlich be rechnet, um ein Akustikmodell B zu erhalten, das mit der Reihe der aktuellen Akustikmodelle B verbunden werden kann.
- 5. Wenn die Reihe der Akustikmodelle B mit der höchsten angesammel ten Wahrscheinlichkeit ein Teil eines einzigen Satzes im Sprachmo dell C während mehrerer aufeinanderfolgender Rahmen ist, wird der untersuchte Satz, der die Reihe der Akustikmodelle B enthält, als Er kennungsergebnis E bestimmt.
Gemäß dem Ausführungsbeispiel der Erfindung kann im Fall einer
Anwendung auf "Ländername oder Städtename" und "Prädikat" die mittlere
Erkennungszeit von 1,74 Sekunden auf 1,20 Sekunden um 30% verkürzt
werden, ohne daß eine Beeinträchtigung der Erkennungsgenauigkeit vor
liegt.
Als Beispiel wird der Fall der Erkennung von "Ländername" und
"Prädikat" erläutert.
Für diesen Fall werden die folgenden Prädikate (i) und (ii) angenom
men:
- a) isn't it?
- b) right?
Wenn Sprachtonsignale A "That's Australia, right?" eingegeben wer
den, werden die folgenden Sätze in spitzen Klammern <1<, <2< und <3<
als Kandidaten mit höherer Wahrscheinlichkeit durch Tonerkennung auf
einanderfolgend ausgegeben:
- 1. <1< Australia right,
- 2. <2< Austria right, und
- 3. <3< Austin right.
Fig. 2 zeigt Sprachmodelle C zu diesen Kandidaten. Betreffend den
Ländernamen werden "Australia", wie tatsächlich gesprochen, und "Austria",
für das die Sprechweise ähnlich zu "Australia" ist, als Kandidaten ausgege
ben. Ferner wird als einer der Kandidaten auch "Austin", der Name einer
Stadt in Texas, ausgegeben.
Eine Ermittlung, daß ein Sprachmodell C einem einzigen Wort/Satz
entspricht, wird nicht immer in dem Moment gesprochen, in dem das Ende
der eingegebenen Sprachtonsignale A erkannt wird, sondern es kann eine
Beurteilung zu jedem beliebigen Moment erfolgen, bevor das Ende der ein
gegebenen Sprachtonsignale erkannt wird.
Z. B. ist, wenn die statistischen Wahrscheinlichkeiten der Akustikmo
delle B, "Aust [⊂:st]", berechnet werden, die statistische Wahrscheinlichkeit
von "ra [rei]" für "Australia" höher als die von "ri [ri]" für "Austria". Wenn
sich im Wörterbuch des Grammatikprüfelements 5 außer "Australia" keine
anderen Wörter nach dem Berechnen der statistischen Wahrscheinlichkeit
der Reihe der Akustikmodelle B zu "Austra" befinden, wird "Australia" als
Erkennungsergebnis E ausgegeben, und die folgenden Berechnungen wer
den weggelassen.
Wie oben beschrieben während der Berechnung der statistische
Wahrscheinlichkeit mit einer Reihe von Akustikmodellen ein Erkennungs
ergebnis ermittelt werden, wenn durch ein Grammatikprüfelement ausge
wählte Sprachmodelle einen einzigen Satz anzeigen. Daher werden redun
dante Berechnungen weggelassen. Die erforderliche Menge an Berechnun
gen für den Erkennungsvorgang kann verringert werden, was die Erken
nungszeit verkürzt, ohne die Erkennungsgenauigkeit zu beeinträchtigen.
Die Mensch/Maschine-Schnittstelle läßt sich somit durch die erfindungsge
mäße Spracherkennung verbessern.
Claims (11)
1. Spracherkennungsverfahren für eine Spracherkennungsvorrichtung
mit einem Akustikmodellregister (3) zum Speichern von Reihen von vorge
gebenen Akustikmodellen (B) und einem Sprachmodellregister (4) zum
Speichern von vorgegebenen Sprachmodellen (C), umfassend die Verfah
rensschritte:
Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern;
Berechnen statistischer Wahrscheinlichkeiten für die in dem Aku stikmodellregister (3) gespeicherten Reihen von Akustikmodellen (B) an hand der ermittelten Zeitreihen von Akustikparametern;
Auswählen der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlichkeit;
Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den im Sprachmodellregister (4) gespeicherten Sprachmodellen (C); und
Ausgeben eines Erkennungsergebnisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustik modellen (B) entspricht.
Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern;
Berechnen statistischer Wahrscheinlichkeiten für die in dem Aku stikmodellregister (3) gespeicherten Reihen von Akustikmodellen (B) an hand der ermittelten Zeitreihen von Akustikparametern;
Auswählen der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlichkeit;
Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den im Sprachmodellregister (4) gespeicherten Sprachmodellen (C); und
Ausgeben eines Erkennungsergebnisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustik modellen (B) entspricht.
2. Verfahren nach Anspruch 1, wobei die empfangenen Sprachsignale
(A) immer für eine vorbestimmte Zeitperiode in Zeitreihen von Akustik
parametern umgewandelt werden und das Erkennungsergebnis (E) dann
ausgegeben wird, wenn die ausgewählte Reihe von Akustikmodellen (B) für
mehrere aufeinanderfolgende Zeitperioden einem einzigen Sprachmodell
(C) entspricht.
3. Verfahren nach Anspruch 1 oder 2, wobei zum Umwandeln von emp
fangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern das
Cepstrum- und/oder das Δ-Cepstrum-Verfahren verwendet werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Reihen von
vorgegebenen Akustikmodellen (B) Sätzen entsprechen, die vorher von
einem Benutzer gesprochen worden sind.
5. Verfahren nach einem der Ansprüche 1 bis 4, wobei die Reihen von
vorgegebenen Akustikmodellen (B) auf der Grundlage von Zeitreihen von
Akustikparametern bestimmt werden.
6. Verfahren nach Anspruch 5, wobei jedes Akustikmodell (B) nach dem
HMM-Verfahren bestimmt wird.
7. Verfahren nach einem der Ansprüche 4 bis 6, wobei sich die Akustik
modelle (B) aus Wörtern oder Teilworteinheiten wie Phonemen zusammen
setzen.
8. Verfahren nach einem der Ansprüche 1 bis 7, wobei die vorgegebenen
Sprachmodelle (C) Sätzen entsprechen, für die angenommen wird, daß sie
von einem Benutzer gesprochen werden würden.
9. Verfahren nach einem der Ansprüche 1 bis 8, wobei der Vergleich der
ausgewählten Reihe von Akustikmodellen (B) mit den gespeicherten
Sprachmodellen (C) auf der Grundlage syntaktischer und/oder semantischer
Gesichtspunkte erfolgt.
10. Spracherkennungsvorrichtung mit
einem Akustikanalyseelement (1) zum Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern,
einem Akustikmodellregister (3) zum Speichern von Reihen von vor gegebenen Akustikmodellen (B),
einem Sprachmodellregister (4) zum Speichern von vorgegebenen Sprachmodellen (C) und
einem mit dem Akustikanalyseelement (1), dem Akustikmodellregi ster (3) und dem Sprachmodellregister (4) verbundenen Erkennungspro zeßabschnitt (2) zum Berechnen statistischer Wahrscheinlichkeiten für die in dem Akustikmodellregister (3) gespeicherten Reihen von Akustikmodel len (B) anhand der ermittelten Zeitreihen von Akustikparametern, Auswäh len der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlich keit, Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den gespeicherten Sprachmodellen (C) und Ausgeben eines Erkennungsergeb nisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustikmodellen (B) entspricht.
einem Akustikanalyseelement (1) zum Umwandeln von empfangenen Sprachsignalen (A) in Zeitreihen von Akustikparametern,
einem Akustikmodellregister (3) zum Speichern von Reihen von vor gegebenen Akustikmodellen (B),
einem Sprachmodellregister (4) zum Speichern von vorgegebenen Sprachmodellen (C) und
einem mit dem Akustikanalyseelement (1), dem Akustikmodellregi ster (3) und dem Sprachmodellregister (4) verbundenen Erkennungspro zeßabschnitt (2) zum Berechnen statistischer Wahrscheinlichkeiten für die in dem Akustikmodellregister (3) gespeicherten Reihen von Akustikmodel len (B) anhand der ermittelten Zeitreihen von Akustikparametern, Auswäh len der Reihe von Akustikmodellen (B) mit der höchsten Wahrscheinlich keit, Vergleichen der ausgewählten Reihe von Akustikmodellen (B) mit den gespeicherten Sprachmodellen (C) und Ausgeben eines Erkennungsergeb nisses (E), wenn nur noch eines der gespeicherten Sprachmodelle (C) der ausgewählten Reihe von Akustikmodellen (B) entspricht.
11. Vorrichtung nach Anspruch 10, wobei das Sprachmodellregister (4)
ein Grammatikprüfelement (5) aufweist, um die ausgewählte Reihe von
Akustikmodellen (B) unter syntaktischen und/oder semantischen Gesichts
punkten mit den Sprachmodellen (C) zu vergleichen.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP34016395A JP3535292B2 (ja) | 1995-12-27 | 1995-12-27 | 音声認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19654549A1 DE19654549A1 (de) | 1997-07-03 |
DE19654549C2 true DE19654549C2 (de) | 2000-08-10 |
Family
ID=18334338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19654549A Expired - Fee Related DE19654549C2 (de) | 1995-12-27 | 1996-12-27 | Verfahren und Vorrichtung zur Spracherkennung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5875425A (de) |
JP (1) | JP3535292B2 (de) |
DE (1) | DE19654549C2 (de) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956675A (en) * | 1997-07-31 | 1999-09-21 | Lucent Technologies Inc. | Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection |
US6404925B1 (en) * | 1999-03-11 | 2002-06-11 | Fuji Xerox Co., Ltd. | Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition |
JP4465564B2 (ja) * | 2000-02-28 | 2010-05-19 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに記録媒体 |
WO2001080795A1 (en) * | 2000-04-20 | 2001-11-01 | Cochlear Limited | Transcutaneous power optimization circuit for cochlear implant |
JP3782943B2 (ja) * | 2001-02-20 | 2006-06-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 |
WO2004077404A1 (en) * | 2003-02-21 | 2004-09-10 | Voice Signal Technologies, Inc. | Method of producing alternate utterance hypotheses using auxilia ry information on close competitors |
WO2005027093A1 (en) * | 2003-09-11 | 2005-03-24 | Voice Signal Technologies, Inc. | Generation of an alternative pronunciation |
JP4486897B2 (ja) * | 2005-01-20 | 2010-06-23 | 株式会社豊田中央研究所 | 運転行動認識装置 |
US20070183995A1 (en) * | 2006-02-09 | 2007-08-09 | Conopco, Inc., D/B/A Unilever | Compounds useful as agonists of A2A adenosine receptors, cosmetic compositions with A2A agonists and a method for using the same |
US8036896B2 (en) * | 2006-04-18 | 2011-10-11 | Nuance Communications, Inc. | System, server and method for distributed literacy and language skill instruction |
JP4518141B2 (ja) | 2007-12-17 | 2010-08-04 | 日本電気株式会社 | 画像照合方法及び画像照合装置並びに画像照合プログラム |
WO2018084305A1 (ja) * | 2016-11-07 | 2018-05-11 | ヤマハ株式会社 | 音声合成方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58178396A (ja) * | 1982-04-12 | 1983-10-19 | 株式会社日立製作所 | 音声認識用標準パタ−ン登録方式 |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US4805219A (en) * | 1987-04-03 | 1989-02-14 | Dragon Systems, Inc. | Method for speech recognition |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5613036A (en) * | 1992-12-31 | 1997-03-18 | Apple Computer, Inc. | Dynamic categories for a speech recognition system |
CA2126380C (en) * | 1993-07-22 | 1998-07-07 | Wu Chou | Minimum error rate training of combined string models |
-
1995
- 1995-12-27 JP JP34016395A patent/JP3535292B2/ja not_active Expired - Lifetime
-
1996
- 1996-12-23 US US08/772,987 patent/US5875425A/en not_active Expired - Fee Related
- 1996-12-27 DE DE19654549A patent/DE19654549C2/de not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3711348A1 (de) * | 1987-04-03 | 1988-10-20 | Philips Patentverwaltung | Verfahren zum erkennen kontinuierlich gesprochener woerter |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
Also Published As
Publication number | Publication date |
---|---|
US5875425A (en) | 1999-02-23 |
JP3535292B2 (ja) | 2004-06-07 |
JPH09179581A (ja) | 1997-07-11 |
DE19654549A1 (de) | 1997-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69226796T2 (de) | Zeitliche Dekorrelationsverfahren zur störsicheren Sprechererkennung | |
DE69514382T2 (de) | Spracherkennung | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69327188T2 (de) | Einrichtung für automatische Spracherkennung | |
DE60026637T2 (de) | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE69725106T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE3236834C2 (de) | Verfahren und Gerät zur Sprachanalyse | |
DE69625950T2 (de) | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem | |
DE69823954T2 (de) | Quellen-normalisierendes Training zur Sprachmodellierung | |
DE60115738T2 (de) | Sprachmodelle für die Spracherkennung | |
DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE10111056B4 (de) | Verfahren und Vorrichtungen zur Identifikation einer Nicht-Zielsprache in einem Spracherkennungssystem | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
DE69427717T2 (de) | Sprachdialogsystem | |
WO1998011534A1 (de) | Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |