DE69032282T2 - System zur Spracherkennung - Google Patents
System zur SpracherkennungInfo
- Publication number
- DE69032282T2 DE69032282T2 DE69032282T DE69032282T DE69032282T2 DE 69032282 T2 DE69032282 T2 DE 69032282T2 DE 69032282 T DE69032282 T DE 69032282T DE 69032282 T DE69032282 T DE 69032282T DE 69032282 T2 DE69032282 T2 DE 69032282T2
- Authority
- DE
- Germany
- Prior art keywords
- word
- speech
- dictionary
- similarity
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012795 verification Methods 0.000 claims description 65
- 238000001514 detection method Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 19
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Document Processing Apparatus (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, das eine durch einen Bediener eingegebene Sprache sofort erkennen und analysieren kann.
- In jüngster Zeit werden Spracherkennungssysteme weithin auf dem Gebiet der Fabrikautomatisierung zum automatischen Klassifizieren verschiedener Gegenstände genutzt. Wenn ein Bediener den Namen eines Gegenstandes und dessen Bestimmung liest, erkennt bei der Fabrikautomatisierung das Spracherkennungssystem die Sprache, und der Gegenstand wird gemäß der Bestimmung auf einem Förderband klassifiziert. Ferner werden automatisch der Name, der Preis, die Bestimmung und dergleichen des Gegenstandes gestützt auf obige Erkennung auf ein gedruckt.
- Im allgemeinen hat das Spracherkennungssystem zumindest ein Wörterbuch (engl. word dictionary) als Speichermittel, das verschiedene Wörter speichert. Kurz gesagt wird, wenn die Sprache des Bedieners in das Spracherkennungssystem eingegeben wird, in dem Wörterbuch nach einem der Sprache entsprechenden Wort sequentiell gesucht. Wenn in dem Wörterbuch ein der Sprache entsprechendes Wort gefunden wird, wird das Wort auf einer CRT angezeigt und auf das Etikett gedruckt.
- In diesem Fall ist es notwendig, in dem Wörterbuch so viele Wörter wie möglich zu speichern, um einen genauen Treffer sicherzustellen.
- Infolge struktureller Beschränkungen des Speichermittels gibt es jedoch in dem Wörterbuch eine Beschränkung der Kapazität (Anzahl von Wörtern oder Vokabular, das gespeichert werden soll). Je größer die Kapazität wird, desto länger wird im Gegenteil die Zeit, die notwendig ist, um nach dem ent sprechenden Wort zu suchen.
- Die Aufgabe der vorliegenden Erfindung besteht darin, ein Spracherkennungssystem zu schaffen, das eine Hochgeschwindigkeitssuche nach einem entsprechenden Wort ermöglicht.
- Gemäb der vorliegenden Erfindung wird ein Spracherkennungssystem geschaffen, das enthält: ein Mikrophon zum Umwandeln einer Sprache in ein elektrisches Sprachsignal mit einem Sprachton-Teil und einem Nicht-Sprach-Teil; eine akustische Verarbeitungseinheit zum Detektieren einer Leistung und eines Spektrums des elektrischen Sprachsignals gemäß einem vorbestimmten Abtastzeitintervall und Ausgeben von Leistung-Zeitreihendaten und Spektrum-Zeitreihendaten bei dem vorbestimmten Abtastzeitintervall, auf die im folgenden als Merkmal- Zeitreihendaten verwiesen wird; eine Sprachabschnitt-Detektionseinheit zum Empfangen der Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit, Detektieren eines Startpunktes und eines Endpunktes des Sprachton-Teils und Ausgeben eines Ende-Entscheidungssignals, wenn das Ende des Sprachton-Teils entschieden ist; ein Wörterbuch zum Speichern von Wortkennsätzen oder Wortetiketten (engl. word labels), den Wortetiketten entsprechenden Wortnummern und Wortschablonen, die durch die den Wortetiketten entsprechenden Merkmal- Zeitreihendaten gebildet werden, welche Wortetiketten gemäß einer Verwendungshäufigkeit oder -frequenz des Wortes ge.ordnet sind; eine Verifikationseinheit zum Empfangen der Merkmal-Zeitreihendaten der zu verifizierenden Sprache, Verifizieren der Merkmal-Zeitreihendaten mit der in dem Wörterbuch gespeicherten Wortschablone und Berechnen eines Grads einer Ähnlichkeit zwischen der Sprache und der Wortschablone; eine Sortiereinheit zum Sortieren der in der Verifikationseinheit berechneten Daten gemäß dem Grad einer Ähnlichkeit, welche Daten in der Reihenfolge des höheren Ähnlichkeitsgrades sortiert sind; eine Auswahleinheit zum Auswählen eines oder mehrerer Wörter mit einem höheren Grad einer Ähnlichkeit aus den in der Sortiereinheit sortierten Wörtern und Ausgeben dieser Wörter an eine Anzeigeeinheit, worin das Auswahlmittel die Wörter mit einem höheren Ähnlichkeitsgrad an das Anzeigemittel ausgibt, wenn das Entscheidungssignal von dem Sprachabschnitt-Detektionsmittel erzeugt wird, selbst wenn die Prüf oder Verifikationsoperation in dem Verifikationsmittel im Gange ist;
- ein Wortfrequenz-Wörterbuch (engl. word frequency dictionary) zum Speichern von Wortetiketten, jedem Wortetikett entsprechenden Wortnummern, durch die jedem Wortetikett entsprechenden Merkmal-Zeitreihendaten gebildeten Wortschablonen und Frequenzdaten, die an jedes Wortetikett angefügt sind; und eine Wörterbuch-Sortiereinheit, die zwischen dem Wörterbuch und dem Wortfrequenz-Wörterbuch vorgesehen ist, zum Sortieren der Wortetiketten des Frequenz-Wörterbuchs in der Reihenfolge einer höheren Frequenz und Ausgeben sortierter Wörter an das Wörterbuch.
- In den Zeichnungen ist:
- Fig. 1 ein schematisches Blockdiagramm eines herkömmlichen Spracherkennungs systems;
- Fig. 2 eine graphische Darstellung zum Erläutern eines Sprachtons und Nicht-Sprachtons;
- Fig. 3 eine Darstellung zum Erläutern von Sprachverarbeitungsschritten in einer Sprachabschnitt-Detektionseinheit;
- Fig. 4 eine Darstellung zum Erläutern des Inhalts eines Wörterbuchs in der herkömmlichen Technik;
- Fig. 5 ein Signalzeitdiagramm für jedes der Signale in dem Fall eines kleinen Vokabulars;
- Fig. 6 ein Signalzeitdiagramm für jedes der Signale in dem Fall eines großen Vokabulars in einer herkömmlichen Technik;
- Fig. 7 ein schematisches Blockdiagramm eines Spracherken nungssystems gemäß der vorliegenden Erfindung;
- Fig. 8 ein Signalzeitdiagramm für jedes der Signale entsprechend der vorliegenden Erfindung;
- Fig. 9 eine Darstellung zum Erläutern des Inhalts eines Frequenz-Wörterbuchs gemäß der vorliegenden Erfindung;
- Fig. 10 eine Darstellung zum Erläutern einer Ausgabe der Wörterbuch-Sortiereinheit gemäß der vorliegenden Erfindung;
- Fig. 11 eine Darstellung zum Erläutern des Inhalts eines Wörterbuchs gemäß der vorliegenden Erfindung;
- Fig. 12 ein Flußdiagramm zum Erläutern einer Spracheinga beoperation gemäß der vorliegenden Erfindung;
- Fig. 13 ein Flußdiagramm zum Erläutern einer Verifikationsoperation gemäß der vorliegenden Erfindung; und
- Fig. 14 ein Flußdiagramm zum Erläutern einer Anzeigeoperation gemäß der vorliegenden Erfindung.
- Bevor die bevorzugten Ausführungsformen beschrieben werden, wird ein herkömmliches Spracherkennungssystem erläutert.
- Figur 1 ist ein schematisches Blockdiagramm eines herkömmlichen Spracherkennungssystems. In Fig. 1 bezeichnet Bezugsziffer 1 ein Mikrophon, 2 eine akustische Verarbeitungseinheit, 3 eine Sprachabschnitt-Detektionseinheit&sub1; 4 einen Parameterpuffer, 5 eine Verifikationseinheit, 6 ein Wörterbuch, 7 eine Sortiereinheit, 8 einen Zwischenspeicher, 9 einen Pufferspeicher zum Speichern resultierender Daten, 10 eine Auswahleinheit, 11 eine Entscheidungseinheit, 12 einen Auswahlschalter und 13 eine CRT.
- Das Mikrophon 1 wandelt eine Sprache in ein elektrisches Sprachsignal um. Im allgemeinen wird die Sprache durch einen Sprachton-Teil und einen Nicht-Sprachton-Teil (engl. non voice sound portion) gebildet.
- Die akustische Verarbeitungseinheit 2 detektiert eine Leistung (Energie einer Sprache) und ein Spektrum des elektrischen Sprachsignals gemäß einem Abtastzeitintervall von mehreren Millisekunden bis mehreren zehn Millisekunden. Die akustische Verarbeitungseinheit 2 wandelt das elektrische Sprachsignal in Merkmal-Zeitreihendaten um, die in einem Wörterbuch als eine Schablone gespeichert werden sollen. Als ein Verfahren einer Spektrumsanalyse gibt es mehrere bekannte Verfahren, z.B. ein eine Analogfilterbank verwendendes Verfahren, ein eine Digitalfilterbank verwendendes Verfahren und ein FFT (Fast Fourier-Transformation) verwendendes Verfahren, in der herkömmlichen Technik. Die akustische Verarbeitungseinheit 2 gibt Leistung-Zeitreihendaten (oberer seitlicher Pfeil) und Spektrum-Zeitreihendaten (unterer seitlicher Pfeil) aus.
- Die Sprachabschnitt-Detektionseinheit 3 empfängt die Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit 2 und einen Leistung-Schwellenpegel Pth und einen Zeit- Schwellenpegel Lth von einer (nicht dargestellten) externen Einheit. Die Sprachabschnitt-Detektionseinheit 3 detektiert einen Startpunkt und einen Endpunkt des Sprachtons. Weil jedoch der Endpunkt des Sprachtons in einem ersten Schritt nicht entschieden werden kann, wird ein "Kandidaten-Endpunkt" eingerichtet, und die Sprachabschnitt-Detektionseinheit 3 detektiert den tatsächlichen Endpunkt, "Endpunkt-Entscheidung" genannt, in einem Endschritt.
- Der Parameterpuffer 4 speichert vorübergehend die Spektrum-Zeitreihendaten von der akustischen Verarbeitungseinheit
- Die Verifikationseinheit 5 empfängt den Startpunkt und den Kandidaten-Endpunkt des Sprachtons von der Sprachabschnitt-Detektionseinheit 3. Sie empfängt auch den Sprachton- Teil der Spektrum-Zeitreihendaten von dem Parameterpuffer 4. Ferner führt die Verifikationseinheit 5 eine Berechnung eines Grads einer Ahnlichkeit (oder eines Abstands oder einer Wahrscheinlichkeit) zwischen den Spektrum-Zeitreihendaten der Sprache und der in dem Wörterbuch 6 gespeicherten Wortschablone aus. Im allgemeinen wird der Grad einer Ähnlichkeit (oder eine Distanz oder Wahrscheinlichkeit) für jede Wortschablone unter Verwendung eines DP-Vergleichsverfahrens sequentiell berechnet. Demgemäß wird die Verifikationsoperation durch die Detektion des Kandidaten-Endpunktes begonnen und durch die Löschung des Kandidaten-Endpunktes gestoppt. A1 bezeichnet ein Endpunktkandidatur-Detektionssignal, A2 ein Ende-Kandidatur-Löschsignal und A3 ein Ende-Entscheidungssignal.
- Das Wörterbuch 6 speichert Wortnummern, Wortetiketten und Wortschablonen (Merkmal-Zeitreihendaten), wie in Fig. 4 gezeigt ist.
- Die Sortiereinheit 7 empfängt die Wortnummer und den Grad einer Ähnlichkeit von der Verifikationseinheit 5, und die Wörter werden gemäß dem Grad einer Ähnlichkeit sortiert. Das heißt, ein Wort mit einem höheren Ähnlichkeitsgrad wird bei dem oberen Teil einer Ähnlichkeitstabelle eingeordnet. Die Ordnung oder Reihenfolge des Grads einer Ähnlichkeit ist in dem Zwischenspeicher 8 gespeichert.
- Der Pufferspeicher 9 speichert die resultierenden Sortierdaten nach einer Verifikation.
- Die Auswahleinheit 10 empfängt ein Wortetikett entsprechend der Wortnummer des oberen Wortkandidaten (z.B. eines der Wörter, die vom 1. bis zum 20. eingeordnet sind) in dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13. Die Auswahleinheit 10 empfängt auch das Wortetikett entsprechend der Wortnummer des nächsten Wortkandidaten (z.B. eines der Wörter, das vom 20. bis zum 40. eingeordnet ist) in dem Wörterbuch 6 und überträgt dieses Wort zur Anzeige 13.
- Die Entscheidungseinheit 11 berechnet eine UND-Logik zwischen einem Verifikationsabschlußsignal und einem Ende-Entscheidungssignal und sendet die resultierenden Daten an die Auswahleinheit 10.
- Der Kandidatenauswahlschalter 12 wird von dem Bediener verwendet. Der Bediener drückt diesen Schalter 12, wenn das entsprechende Wort auf der Anzeige 13 nicht enthalten ist. Figur 2 ist eine graphische Darstellung zum Erläutern eines Sprachtons und Nicht-Sprachtons. Die Ordinate Pi bezeichnet die Sprachleistung, und die Abszisse "i" bezeichnet die Zeit. Das Symbol Pth bezeichnet die Schwellenleistung der Sprache, und das Symbol Lth bezeichnet den Zeit-Schwellenpegel des Nicht-Sprachtons. Ferner bezeichnet P1 den Startpunkt des Sprachtons, P2 und P4 bezeichnen die Endpunktkandidaten des Sprachtons, P3 bezeichnet einen Anstiegs- oder führenden Punkt (engl. leading pomt), und P5 bezeichnet einen Ende-Entscheidungspunkt. Ferner bezeichnet S0 den Zustand eines Nicht-Sprachtons, S1 bezeichnet den Zustand des Sprachtons, und S2 bezeichnet den Zustand der Ende-Entscheidung. Ferner bezeichnen i1 bis i5 noch Grenzlinien jedes Zustands. Eine Sprache über dem Leistung-Schwellenpegel Pth wird ein Sprachton genannt, und eine Sprache unter dem Leistung- Schwellenpegel Pth wird ein Nicht-Sprachton genannt.
- Figur 3 ist eine Darstellung zum Erläutern der Sprachverarbeitungsschritte in der Sprachabschnitt-Detektionseinheit. Wie in der Zeichnung dargestellt ist, nimmt die Sprachabschnitt-Detektionseinheit 3 drei Zustände ein, d.h. den Nicht-Sprachton-Zustand S0, den Sprachton-Zustand S1 und den Ende-Entscheidung-Zustand S2.
- In dem Zustand S0 wird die Sprachleistung Pi überprüft, um zu bestimmen, ob sie den Schwellenpegel Pth übersteigt oder nicht. Wenn die Sprachleistung Pi den Schwellenpegel Pth übersteigt, wechselt der Zustand S0 zu dem Zustand S1. Der Startpunkt P1 entspricht dem Start des Zustands S1. Der Wert des Startpunktes P1 wird in einem (nicht dargestellten) Register "st" gehalten.
- In dem Zustand S1 wird die Sprachleistung Pi überprüft, um zu bestimmen, ob sie niedriger als der Schwellenpegel Pth ist oder nicht. Wenn die Sprachleistung Pi niedriger als der Schwellenpegel Pth ist, wechselt der Zustand S1 zu dem Zustand S2. Der Kandidatenendpunkt P2 entspricht dem Ende des Zustands S1. Der Wert des Kandidatenendpunkts P2 wird in einem (nicht dargestellten) Register "etmp" gehalten.
- In dem Zustand S2 werden zwei Zustände überprüft. Eine Überprüfung besteht darin, zu bestimmen, ob die Sprachleistung Pi den Schwellenpegel Pth übersteigt oder nicht, und die andere Überprüfung besteht darin, zu bestimmen, ob die Differenz zwischen der Zeit (i) und der in dem Register "etmp" gehaltenen Zeit die Zeitschwelle Lth (z.B. 0,3 s) überschreitet.
- In dem erstgenannten Fall wird der Zustand von dem Zustand S2 zu dem Zustand S1 zu dem Zeitpunkt geändert, wenn die Sprachleistung Pi den Schwellenpegel Pth übersteigt. In dem letztgenannten Fall wird der Zustand von dem Zustand S2 zu dem Zustand S1 zu dem Zeitpunkt geändert, wenn die Diffe renz zwischen der Zeit (i) und der in dem Register "etmp" gehaltenen Zeit die Zeitschwelle Lth übersteigt. Dieser Zeitpunkt (der Punkt P5) entspricht dem Ende-Entscheidungspunkt.
- Die Sprachabschnitt-Detektionseinheit 3 gibt das Endpunktkandidatur-Detektionssignal A1 an die Verifikationsein heit 5 aus, wenn der Zustand von dem Zustand S1 zu dem Zustand S2 geändert wird. Die Sprachabschnitt-Detektionseinheit 3 gibt ferner das Endpunktkandidatur-Löschsignal A2 an die Verifikationseinheit 5 aus, wenn der Zustand von dem Zustand S2 zu dem Zustand S1 geändert wird, und gibt das Ende-Ent scheidungssignal A3 an die Entscheidungseinheit 11 aus, wenn der Zustand von dem Zustand S2 zu dem Zustand 50 geändert wird.
- Figur 4 ist eine Darstellung zum Erläutern des Inhalts des Wörterbuchs in der herkömmlichen Technik. Die Wortetiketten (z.B. Aichi, Aornori, Akita, ---, Osaka, ---, Tokyo) sind in alphabetischer Reihenfolge angeordnet. Eine Wortnummer 1, 2, --- ist an jedes Wortetikett angefügt. Ferner sind die Merkmal-Zeitreihendaten (Wortschablone) zu dem entsprechenden Wortetikett vorgesehen. In diesem Fall entspricht die Zahl von Wörtern dem in dem Wörterbuch 6 gespeicherten Vokabular. Figur 5 ist ein Signalzeitdiagrarnm für jedes der Signale für einen Fall, wenn ein kleines Vokabular in dem Wörterbuch gespeichert ist. In Fig. 5 bezeichnet Al das Endpunktkandidatur-Detektionssignal, A2 bezeichnet das Endpunktkandidatur- Löschsignal, A3 bezeichnet das Ende-Entscheidungssignal, A4 bezeichnet das Verifikationssignal, A5 bezeichnet das Sortiersignal, A6 bezeichnet ein Anzeigesignal, und A7 bezeichnet ein Kandidatur-Auswahlschaltersignal. Wenn der Startpunkt P1 des Sprachabschnitts in der Sprachabsschnitt-Detektionseinheit 3 detektiert wird, wird das Ende-Entscheidungssignal A3 der unmittelbar vorhergehenden Sprache gelöscht (a).
- Wenn der Endpunktkandidat P2 in der Einheit 3 detektiert wird, wird als nächstes das Endpunktkandidatur-Detektionssignal A1 von der Sprachabschnitt-Detektionseinheit 3 erzeugt und an die Verifikationseinheit 5 gesendet (b). Ferner wird die Verifikationsoperation in der Verif ikationseinheit 5 gestartet (c), und die Sortiereinheit 7 wird aktiviert (d). Weil die Zahl von in dem Wörterbuch gespeicherten Wörtern sehr gering ist (kleines Vokabular), ist in diesem Beispiel die Verifikationszeit für das entsprechende Wort ebenfalls sehr kurz (e).
- Wenn in der Sprachabschnitt-Detektionseinheit 3 wieder ein Sprachton detektiert wird, wird als nächstes das Endpunktkandidatur-Löschsignal A2 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (f). Wenn das Endpunktkandidatur- Detektionssignal A2 wieder erzeugt ist (g), wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 7 wird wieder aktiviert (i). Die Verifikationsoperation wird nach einer kurzen Zeit gestoppt (j).
- Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidaten (P4) an wird das Ende-Entscheidungssignal A3 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (k), und das Ergebnis der Verifikation wird automatisch auf der CRT angezeigt (1). Wenn dieses Ergebnis der Verifikation falsch ist, wird ein nächster Wortkandidat auf der CRT durch Verwenden des Kandidatenauswahlschalters angezeigt (m), der von dem Bediener betätigt wird.
- Figur 6 ist ein Signalzeitdiagramm für jedes der Signale im Fall eines großen Vokabulars. Es gibt kein Problem wie im Fall des kleinen Vokabulars in Fig. 5, aber es gibt einige Probleme im Fall des großen Vokabulars, wie unten erklärt wird.
- In Fig. 6 sind die Schritte von (a) bis (d) die gleichen wie diejenigen von Fig. 5. Wenn das Endpunktkandidatur-Löschsignal A2 von der Sprachabschnitt-Detektionseinheit 3 erzeugt wird (f), obwohl die Verifikationsoperation im Gange ist, weil die zu verifizierenden Wörter groß sind, wird die Venfikationsoperation vorübergehend gestoppt (n), und die Sortieroperation wird ebenfalls gestoppt (o), wonach die Verifikationsoperation wieder gestartet wird (h) und die Sortiereinheit 7 wieder aktiviert wird (i)
- Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidatenpunktes (P4) an wird das Ende-Entscheidungssignal A3 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (k). Weil die Verifikationsoperation im Gange ist (h), wird jedoch das Ergebnis der Verifikation auf der CRT nicht angezeigt, bis die Verifikationsoperation abgeschlossen ist (p).
- Das Ergebnis der Verifikation wird dann auf der CRT automatisch angezeigt (1), und, wenn dieses Ergebnis der Verifikation falsch ist, wird auf der CRT ein nächstes Kandidatenwort durch Verwenden des Kandidatenauswahlschalters angezeigt (m).
- Wie oben erläutert wurde, ist bei dem großen Vokabular eine lange Zeit von der Erzeugung des Ende-Entscheidungssignals (k) bis zur Anzeige des Ergebnisses der Verifikation (i) notwendig, weil eine längere Zeit zum Suchen nach dem entsprechenden Wort in dem Wörterbuch benötigt wird. Demgemäß wird die Verifikationsgeschwindigkeit langsam, so daß der Durchsatz des Spracherkennungssystems ebenfalls langsam wird.
- Figur 7 ist ein schematisches Blockdiagramm eines Spracherkennungssystems gemäß der vorliegenden Erfindung. Wie in Fig. 7 dargestellt ist, sind der Zwischenspeicher 8 und die Entscheidungseinheit 11, die in Fig. 1 gezeigt sind, entfernt, und der Pufferspeicher 9 in Fig. 1 ist durch einen Zwischenspeicher 15 ersetzt. Die Sortiereinheit 7 von Fig. 1 ist durch eine neue Sortiereinheit 14 ersetzt. Ferner ist ein zweites Wörterbuch 16 zum Speichern von Wörtern gemäß ihrer Verwendungsfrequenz (im folgenden ein Wortfrequenz-Wörterbuch) vorgesehen. Ferner ist auch noch eine Wörterbuch- Sortiereinheit 17 zwischen dem Wörterbuch 6 und dem Wortfrequenz-Wörterbuch 16 vorgesehen.
- In Fig. 7 hat jede Komponente die folgende Funktion. Das Mikrophon 1 wandelt eine Sprache in ein elektrisches Sprachsignal um, das durch den Sprachton-Teil und den Nicht- Sprachton-Teil gebildet wird.
- Die akustische Verarbeitungseinheit 2 detektiert die Leistung und das Spektrum des elektrischen Sprachsiguals gemäß dem Abtastzeitintervall von mehreren Millisekunden bis mehrere zehn Millisekunden. Ferner wandelt die akustische Verarbeitungseinheit 2 das elektrische Sprachsignal in die Merkmal-Zeitreihendaten um. Die beiden Ausgaben der akustischen Verarbeitungseinheit 2 bezeichnen die Leistung-Zeitreihendaten und die Spektrum-Zeitreihendaten.
- Die Sprachabschnitt-Detektionseinheit 3 empfängt die Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit 2. Sie empfängt auch den Leistung-Schwellenpegel Pth und den Zeit-Schwellenpegel Lth. Die Sprachabschnitt-Detektionseinheit 3 detektiert den Startpunkt und den Endpunkt des Sprachtons und den Ende-Entscheidungspunkt im Endschritt. Der Parameterpuffer 4 speichert vorübergehend die Spektrum-Zeitreihendaten von der akustischen Verarbeitungseinheit
- Die Verifikationseinheit 5 empfängt den Startpunkt und den Endpunktkandidaten des Sprachtons von der Sprachabschnitt-Detektionseinheit 3. Sie empfängt auch den Sprachton- Teil der Spektrum-Zeitreihendaten von dem Pararneterpuffer 4 und führt eine Berechnung des Grads einer Ähnlichkeit (oder einer Distanz oder Wahrscheinlichkeit) zwischen den Spektrum- Zeitreihendaten und dem in dem Wörterbuch 6 gespeicherten Wort aus. Im allgemeinen wird der Grad einer Ahnlichkeit (oder eine Distanz oder Wahrscheinlichkeit) für jede Wortschablone sequentiell berechnet, indem vorwiegend das DP-Vergleichsverfahren verwendet wird, und die resultierenden Daten werden an die Sortiereinheit 14 ausgegeben. Demgemäß wird die Verifikationsoperation durch die Detektion des Endpunktkandidaten gestartet und durch die Löschung des Endpunktkandidaten gestoppt.
- Das Wörterbuch 6 speichert Wortnurnmern, Wortetiketten und Wortschablonen (Merkmal-Zeitreihendaten), wie in Fig. 11 gezeigt ist. In diesem Fall sind die Wörter gemäß der Verwendungsfrequenz des Wortes wie im folgenden erläutert geordnet. Die Sortiereinheit 14 empfängt die Wortnummer und den Grad einer Ähnlichkeit von der Verifikationseinheit 5, und das Wort wird gemäß dem Minlichkeitsgrad sortiert. Das heißt, Wörter mit einem größeren Ähnlichkeitsgrad werden bei dem oberen Teil der Ähnlichkeitsgrad-Tabelle eingeordnet. Der Zwischenspeicher 15 speichert die resultierenden Daten der Sortierung nach der Verifikation.
- Die Auswahleinheit 10 empfängt das Wortleseetikett entsprechend der Wortnummer des oberen Wortkandidaten von dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13, wenn das Ende-Entscheidungssignal von der Sprachabschnitt-Detektionseinheit 3 detektiert wird. Die Auswahleinheit 10 liest ferner das Wortetikett entsprechend der Wortnummer des nächsten Wortkandidaten von dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13, wenn der Kandidatenauswahlschalter gedrückt wird.
- Der Kandidatenauswahlschalter 12 wird von dem Bediener verwendet. Der Bediener drückt diesen Schalter 12, wenn das entsprechende Wort auf der Anzeige 13 nach einer Verifikation nicht enthalten ist.
- Das Wortfrequenz-Wörterbuch 16 speichert Wörter gemäß ihrer Verwendungsfrequenz wie in Fig. 9 gezeigt ist.
- Die Wörterbuch-Sortiereinheit 17 ist zwischen dem Wörterbuch 6 und dem Wortfrequenz-Wörterbuch 16 vorgesehen, und Wörter werden in der Reihenfolge der Verwendungsfrequenz der Wörter sortiert, wie in Fig. 10 dargestellt ist.
- Figur 8 ist ein Signalzeitdiagramm für jedes der Signale gemäß der vorliegenden Erfindung. Wie in Fig. 5 gezeigt ist, bezeichnet A1 das Endpunktkandidatur-Detektionssignal, A2 bezeichnet das Endpunktkandidatur-Löschsignal, A3 bezeichnet das Ende-Entscheidungssignal, A4 bezeichnet das Verifikationssignal, AS bezeichnet das Sortiersignal, A6 bezeichnet das Anzeigesignal, und A7 bezeichnet das Kandidatenauswahischalter-Signal.
- Wenn der Startpunkt des Wortabschnitts in der Wortabschnitt-Detektionseinheit 3 detektiert wird, wird das Ende- Entscheidungssignal A3 der vorhergehenden Sprache sofort gelöscht (a).
- Wenn der Endpunktkandidat P2 in der Sprachabschnitt- Detektionseinheit 3 detektiert wird, wird als nächstes das Endpunktkandidatur-Detektionssignal Al von der Sprachabschnitt-Detektionseinheit 3 erzeugt und an die Verifikationseinheit 5 gesendet (b). Die Verifikationsoperation wird ferner in der Verifikationseinheit 5 gestartet (c), und die Sortiereinheit 7 wird aktiviert (d). Weil die Zahl von in dem Wörterbuch 6 gespeicherten Wörtern sehr groß ist (großes Vokabular), ist in diesem Beispiel die Verifikationszeit für das Wort sehr lang, so daß die Verifikationsoperation zwischenzeitlich gestoppt wird, wenn der Punkt P3 in der vorliegenden Erfindung detektiert wird (n).
- Wenn das Endpunktkandidatur-Detektionssignal Al wieder erzeugt wird (g), wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 14 wird wieder aktiviert (i).
- Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidaten (P4) an wird das Ende-Entscheidungssignal A3 von der Einheit 3 erzeugt (k), und das Ergebnis der Verifikation wird auf der CRT automatisch angezeigt (q), obwohl die Verifikationsoperation im Gange und noch nicht abgeschlossen ist, wie unten erläutert wird. Wenn das Ergebnis der Verifikation falsch ist, wird ein nächster Wortkandidat durch den Bediener auf der CRT angezeigt, indem der Kandidatenauswahlschalter verwendet wird (m). Wie oben erläutert wurde, wird die Verifikationsoperation gelöscht (n), weil die Zahl von zu verifizierenden Wörtern groß ist, und die Sortieroperation wird ebenfalls gelöscht (o), und danach wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 14 wird wieder aktiviert (i).
- Obwohl die Verifikationsoperation im Gange ist (h), wird in der vorliegenden Erfindung das Zwischenergebnis der Verifikation auf der CRT angezeigt (q). Wenn das Ergebnis der Verifikation falsch ist, wird auf der CRT durch Verwenden des Kandidatenauswahlschalters ein nächster Wortkandidat angezeigt (m).
- Wie oben erläutert wurde, ist trotz des großen Vokabulars keine lange Zeit von der Erzeugung des Ende-Entscheidungssignais (k) bis zur Anzeige des Ergebnisses der Verifikation (q) notwendig, weil das Zwischenergebnis auf der CRT angezeigt wird. Demgemäß ist keine längere Zeit notwendig, um die resultierenden Daten der Erkennung anzuzeigen. Demgemäß wird die Antwortgeschwindigkeit der Erkennung erheblich schneller, so daß der Durchsatz des Spracherkennungssystems trotz des großen Vokabulars erheblich zunehmen kann.
- In der vorliegenden Erfindung sind die Wörter gemäß der Verwendungsfrequenz des Wortes in dem Wörterbuch 6 gestützt auf die Daten von dem Wortfrequenz-Wörterbuch 16 und der Sortiereinheit 17 geordnet. Es ist demgemäß möglich, einfach nach dem entsprechenden zu verifizierenden Wort zu suchen, weil die Wörter mit höherer Frequenz in dem ersten Schritt gesucht werden (q), und nur wenn das entsprechende Wort in dem ersten Schritt (q) nicht gefunden wird, wird das Wort in dem nächsten Schritt gesucht (m).
- Figur 9 ist eine Darstellung zum Erläutern des Inhalts des Wortfrequenz-Wörterbuchs gemäß der vorliegenden Erfindung. Wie in der Zeichnung dargestellt ist, ist die Frequenz an jedes Wortetikett angefügt. Zum Beispiel ist das Wort mit dem höchsten Frequenzgrad 100 "Tokyo", und das nächste ist "Osaka".
- Figur 10 ist eine Darstellung zum Erläutern der Ausgabe der Wörterbuch-Sortiereinheit gemäß der vorliegenden Erfindung. Die Sortiereinheit 17 in Fig. 7 empfängt die Frequenzdaten des Wortes von dem Wortfrequenz-Wörterbuch 16, sortiert das Wort gemäß der Frequenzordnung und gibt die Frequenzdaten an das Wörterbuch 6 aus.
- Figur 11 ist eine Darstellung zum Erläutern des Inhalts des Wörterbuchs gemäß der vorliegenden Erfindung. Wie in der Zeichnung dargestellt ist, sind die Wörter gemäß der Verwendungsfrequenz des Wortes gespeichert. Demgemäß ist es möglich, einfach nach dem entsprechenden zu verifizierenden Wort zu suchen, weil die Wörter mit höherer Frequenz in dem ersten Schritt (g) gesucht werden.
- Figur 12 ist ein Flußdiagramm zum Erklären einer Spracheingabeoperatian gemäß der vorliegenden Erfindung.
- Die eingegebene Sprache wird in Rahmenfolgen (engl. frame trains) mit einem Intervall von mehreren Millisekunden bis mehrere zehn Millisekunden geteilt, und ein Rahmen wird zum Analysieren der Sprache verwendet (Schritt 1). Als nächstes wird das Spektrum der Sprache durch Verwenden der FFT (Fast Fourier-Transformation) analysiert, und die Leistung (Energie) der Sprache wird für einen Rahmen berechnet (Schritt 2). Diese Schritte werden in der akustischen Verarbeitungseinheit 2 ausgeführt. Das Spektrum und die Leistung werden in dem Pararneterpuffer 4 gespeichert (Schritt 3).
- Als nächstes wird der Sprachabschnitt in der Sprachabschnitt-Detektionseinheit 3 detektiert (Schritt 4). Jedes Detektionssignal, d.h. der Startpunkt, die Endpunktkandidatur, die Ende-Entscheidung und die Endpunktkandidatur-Löschung werden von der Sprachabschnitt-Detektionseinheit 3 in diesem Schritt ausgegeben. Als nächstes wird in diesem Schritt (5) überprüft, ob der Startpunkt detektiert ist oder nicht. Wenn in Schritt 5 "Ja" bestimmt wird, wird überprüft, ob die Anzeigeoperation im Gange ist oder nicht (Schritt 6). Wenn in Schritt 6 "Ja" bestimmt wird, wird die Anzeigeoperation gestoppt (Schritt 7). Wenn in Schritt 5 "Nein" bestimmt wird, wird überprüft, ob die Endpunktkandidatur detektiert ist oder nicht (Schritt 8). Wenn in Schritt 8 "Ja" bestimmt wird, werden der Startpunkt und die Endpunktkandidatur zu der Verifikationseinheit 5 übertragen (Schritt 9), und die Verifikationsoperation wird gestartet (Schritt 10).
- Wenn in Schritt 8 "Nein" bestimmt wird, wird überprüft, ob das Ende entschieden ist oder nicht (Schritt 11). Wenn in Schritt 11 "Ja" bestimmt wird, wird die Anzeigeoperation gestartet (Schritt 12). Wenn in Schritt 11 "Nein" bestimmt wird, wird geprüft, ob die Endpunktkandidatur gelöscht ist oder nicht (Schritt 13). Wenn in Schritt 13 "Ja" bestimmt wird, wird die Verifikationsoperation gestoppt (Schritt 14). Wenn in Schritt 13 "Nein" bestimmt wird, wird die Verarbeitungsoperation zu dem Schritt 1 zurückgeführt.
- Figur 13 ist ein Flußdiagramm zum Erläutern der Verifikationsoperation gemäß der vorliegenden Erfindung. In der Verifikationseinheit 5 werden der Startpunkt und der Endpunktkandidat, die durch den Schritt 9 von Fig. 12 erhalten wurden, in die Verifikationseinheit eingegeben (Schritt 15). Als nächstes wird ein Eingabernuster von dem Parameterpuffer 4 gelesen. Das Eingabemuster entspricht dem Sprachton zwischen der Startpunkt und der Endpunktkandidatur (Schritt 16). Als nächstes wird der Zwischenspeicher 15 zum Sortieren von Wörtern gemäß dem Grad einer Ähnlichkeit zwischen dem Eingabemuster und der in dem Wörterbuch gespeicherten Wortschablone initialisiert (Schritt 17).
- Als nächstes wird die Wortschablone in der Reihenfolge von dem Wörterbuch 6 gelesen (Schritt 18). In der vorliegenden Erfindung sind, wie oben erläutert wurde, die Wortschablonen gemäß der höheren Frequenz in dem Wörterbuch 6 geordnet. Als nächstes wird das Eingabemuster mit der Wortschablone durch Verwenden des CP-Vergleichens verifiziert, um den Grad einer Ähnlichkeit zwischen dem Eingabemuster und der Wortschablone zu erhalten (Schritt 19). Das Wort wird durch die Sortiereinheit 14 gemäß dem Ahnlichkeitsgrad sortiert und in dem Zwischenspeicher gespeichert (Schritt 20). Schließlich wird überprüft, ob alle Wortschablonen verifiziert sind oder nicht (Schritt 21).
- Figur 14 ist ein Flußdiagramm zum Erläutern der Anzeigeoperation gemäß der vorliegenden Erfindung. Der erste Wortkandidat (das der eingegebenen Sprache nach einer Verifikation ähnlichste Wort) wird von dem Zwischenspeicher 15 gelesen (Schritt 22), und dieses Wort wird auf der CRT automatisch angezeigt (Schritt 23). Als nächstes wird überprüft, ob der Kandidatenauswahlschalter 15 eingeschaltet wird oder nicht (Schritt 24). Wenn in Schritt 24 "Nein" bestimmt wird, ist der Schalter eingeschaltet. Wenn in Schritt 24 "Ja" bestimmt wird, wird von dem Zwischenspeicher 15 ein nächstes Kandidatenwort (d.h. ein nächst-ähnliches Wort) gelesen (Schritt 25). Als nächstes wird überprüft, ob das Wort in dem Schritt 25 schon angezeigt ist oder nicht (Schritt 26). Wenn in Schritt 26 "Ja" bestimmt wird, wird von dem Zwischenspeicher ein nächstes Kandidatenwort gelesen (Schritt 27). Wenn in Schritt 26 "Nein" bestimmt wird, wird dieses Kandidatenwort auf der CRT angezeigt (Schritt 28).
Claims (4)
1. Ein Spracherkennungssystem mit:
einem Mikrophon (1) zum Umwandeln einer Sprache in ein
elektrisches Sprachsignal mit einem Sprachton-Teil und einem
Nicht-Sprach-Teil;
einem akustischen Verarbeitungsmittel (2) zum Detektieren
einer Leistung und eines Spektrums des elektrischen
Sprachsignals gemäß einem vorbestimmten Abtastzeitintervall und
Ausgeben von Leistung-Zeitreihendaten und
Spektrurn-Zeitreihendaten bei dem vorbestimmten Abtastzeitintervall, um Merkmal-
Zeitreihendaten zu erzeugen;
einem Sprachabschnitt-Detektionsmittel (3) zum Empfangen
der Leistung-Zeitreihendaten von dem akustischen
Verarbeitungsmittel, Detektieren eines Startpunktes und eines
Endpunktes des Sprachton-Teils und Ausgeben eines
Ende-Entscheidungssignals, wenn das Ende des Sprachton-Teils entschieden
ist;
einem Wörterbuch (6) zum Speichern von Wortetiketten, den
Wortetiketten entsprechenden Wortnummern und Wortschablonen,
die durch die den Wortetiketten entsprechenden
Merkmal-Zeitreihendaten gebildet werden, welche Wortetiketten gemäß einer
Verwendungsfrequenz der Wörter geordnet sind;
einem Verifikationsmittel (5) zum Empfangen der Merkmal-
Zeitreihendaten der zu verifizierenden Sprache, Verifizieren
der Merkmal-Zeitreihendaten mit der in dem Wörterbuch
gespeicherten Wortschablone und Berechnen eines Grads einer
Älinlichkeit zwischen der Sprache und der Wortschablone;
einer Sortiereinrichtung (14) zum Sortieren von in dem
Verifikationsrnittel berechneten Daten gemäß dem
Ähnlichkeitsgrad, welche Daten in der Reihenfolge des höheren
Ähnlichkeitsgrades sortiert sind;
einem Auswahlmittel (10) zum Auswählen eines oder
mehrerer Wörter mit einem höheren Grad einer Ähnlichkeit aus den
in dem Sortiermittel sortierten Wörtern und Ausgeben dieser
Wörter an ein Anzeigemittel (13), worin das Auswahlmittel die
Wörter mit einem höheren Ähnlichkeitsgrad an das
Anzeigemittel ausgibt, wenn das Entscheidungssignal (A3) von dem
Sprachabschnitt-Detektionsmittel erzeugt wird, selbst wenn
die Verifikationsoperation in dem Verifikationsrnittel im
Gange ist;
einem Wortfrequenz-Wörterbuch (16) zum Speichern von
Wortetiketten, jedem Wortetikett entsprechenden Wortnummern,
durch die jedem Wortetikett entsprechenden
Merkmal-Zeitreihendaten gebildeten Wortschablonen und an jedes Wortetikett
angefügten Frequenzdaten; und
einem Wörterbuch-Sortiermittel (17), das zwischen dem
Wörterbuch und dem Wortfrequenz-Wörterbuch vorgesehen ist,
zum Sortieren der Wortetiketten des Wortfrequenz-Wörterbuchs
in der Reihenfolge einer höheren Frequenz und Ausgeben
sortierter Wörter an das Wörterbuch.
2. Ein Spracherkennungssystem nach Anspruch 1 ferner mit
einem durch einen Bediener betätigten
Kandidatenauswahlschalter, wodurch ein Wort mit einem nächsthöheren
Ähnlichkeitsgrad auf dem Anzeigernittel angezeigt wird, indem der
Kandidatenauswahlschalter eingeschaltet wird, wenn ein Wort
entsprechend der eingegebenen Sprache in der ersten Anzeige nicht
gefunden wird.
3. Ein Spracherkennungssystem nach Anspruch 1 oder 2,
worin der Grad einer Ähnlichkeit gleich einer Distanz
zwischen der Sprache und der Wortschablone ist, wobei eine
kleinere Distanz dem höheren Ähnlichkeitsgrad entspricht.
4. Ein Spracherkennungssystem nach einem der
vorhergehenden Ansprüche, worin der Grad einer Ähnlichkeit die
Wahrscheinlichkeit eines Treffers in der Verifikationsoperation
bestimmt, wobei eine höhere Wahrscheinlichkeit einem höheren
Ähnlichkeitsgrad entspricht.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1316991A JP3045510B2 (ja) | 1989-12-06 | 1989-12-06 | 音声認識処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69032282D1 DE69032282D1 (de) | 1998-06-04 |
DE69032282T2 true DE69032282T2 (de) | 1998-08-20 |
Family
ID=18083200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69032282T Expired - Lifetime DE69032282T2 (de) | 1989-12-06 | 1990-12-04 | System zur Spracherkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US5257314A (de) |
EP (1) | EP0431890B1 (de) |
JP (1) | JP3045510B2 (de) |
DE (1) | DE69032282T2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10207895A1 (de) * | 2002-02-23 | 2003-09-18 | Harman Becker Automotive Sys | Verfahren zur Spracherkennung und Spracherkennungssystem |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2253296B (en) * | 1991-02-28 | 1995-05-24 | Toshiba Kk | Pattern recognition apparatus |
WO1995020215A1 (en) * | 1994-01-21 | 1995-07-27 | Kurzweil Applied Intelligence, Inc. | Text generation from spoken input |
CA2143980A1 (en) * | 1994-04-06 | 1995-10-07 | Raziel Haimi-Cohen | User display in speech recognition system |
US6903723B1 (en) | 1995-03-27 | 2005-06-07 | Donald K. Forest | Data entry method and apparatus |
US6160536A (en) * | 1995-03-27 | 2000-12-12 | Forest; Donald K. | Dwell time indication method and apparatus |
US5999895A (en) * | 1995-07-24 | 1999-12-07 | Forest; Donald K. | Sound operated menu method and apparatus |
US6005549A (en) * | 1995-07-24 | 1999-12-21 | Forest; Donald K. | User interface method and apparatus |
US5917891A (en) * | 1996-10-07 | 1999-06-29 | Northern Telecom, Limited | Voice-dialing system using adaptive model of calling behavior |
US6167117A (en) * | 1996-10-07 | 2000-12-26 | Nortel Networks Limited | Voice-dialing system using model of calling behavior |
US5905789A (en) * | 1996-10-07 | 1999-05-18 | Northern Telecom Limited | Call-forwarding system using adaptive model of user behavior |
US5912949A (en) * | 1996-11-05 | 1999-06-15 | Northern Telecom Limited | Voice-dialing system using both spoken names and initials in recognition |
US6208713B1 (en) | 1996-12-05 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory |
US6167376A (en) * | 1998-12-21 | 2000-12-26 | Ditzik; Richard Joseph | Computer system with integrated telephony, handwriting and speech recognition functions |
US6385581B1 (en) | 1999-05-05 | 2002-05-07 | Stanley W. Stephenson | System and method of providing emotive background sound to text |
US6885990B1 (en) | 1999-05-31 | 2005-04-26 | Nippon Telegraph And Telephone Company | Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress |
JP3530109B2 (ja) * | 1999-05-31 | 2004-05-24 | 日本電信電話株式会社 | 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体 |
US8065155B1 (en) | 1999-06-10 | 2011-11-22 | Gazdzinski Robert F | Adaptive advertising apparatus and methods |
JP3715469B2 (ja) * | 1999-06-30 | 2005-11-09 | パイオニア株式会社 | 音声操作装置 |
US7529668B2 (en) * | 2004-08-03 | 2009-05-05 | Sony Corporation | System and method for implementing a refined dictionary for speech recognition |
US8965763B1 (en) | 2012-02-02 | 2015-02-24 | Google Inc. | Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training |
US8543398B1 (en) | 2012-02-29 | 2013-09-24 | Google Inc. | Training an automatic speech recognition system using compressed word frequencies |
US8374865B1 (en) | 2012-04-26 | 2013-02-12 | Google Inc. | Sampling training data for an automatic speech recognition system based on a benchmark classification distribution |
US8571859B1 (en) | 2012-05-31 | 2013-10-29 | Google Inc. | Multi-stage speaker adaptation |
US8805684B1 (en) | 2012-05-31 | 2014-08-12 | Google Inc. | Distributed speaker adaptation |
US8554559B1 (en) | 2012-07-13 | 2013-10-08 | Google Inc. | Localized speech recognition with offload |
US9123333B2 (en) | 2012-09-12 | 2015-09-01 | Google Inc. | Minimum bayesian risk methods for automatic speech recognition |
US9607613B2 (en) | 2014-04-23 | 2017-03-28 | Google Inc. | Speech endpointing based on word comparisons |
US9484022B2 (en) | 2014-05-23 | 2016-11-01 | Google Inc. | Training multiple neural networks with different accuracy |
US12050557B2 (en) * | 2017-05-19 | 2024-07-30 | Takashi Suzuki | Computerized systems and methods of data compression |
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58105295A (ja) * | 1981-12-18 | 1983-06-23 | 株式会社日立製作所 | 音声標準パタン作成方法 |
JPS58178396A (ja) * | 1982-04-12 | 1983-10-19 | 株式会社日立製作所 | 音声認識用標準パタ−ン登録方式 |
FR2554623B1 (fr) * | 1983-11-08 | 1986-08-14 | Texas Instruments France | Procede d'analyse de la parole independant du locuteur |
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPH06105394B2 (ja) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | 音声認識方式 |
EP0266423B1 (de) * | 1986-04-16 | 1994-03-09 | Ricoh Company, Ltd | Verfahren zum sprachmustervergleich in einer spracherkennungseinrichtung |
JP2815579B2 (ja) * | 1987-03-10 | 1998-10-27 | 富士通株式会社 | 音声認識における単語候補削減装置 |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
DE3879028T2 (de) * | 1987-07-16 | 1993-06-24 | Fujitsu Ltd | Spracherkennungseinrichtung. |
-
1989
- 1989-12-06 JP JP1316991A patent/JP3045510B2/ja not_active Expired - Lifetime
-
1990
- 1990-12-04 DE DE69032282T patent/DE69032282T2/de not_active Expired - Lifetime
- 1990-12-04 EP EP90313149A patent/EP0431890B1/de not_active Expired - Lifetime
- 1990-12-05 US US07/622,598 patent/US5257314A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10207895A1 (de) * | 2002-02-23 | 2003-09-18 | Harman Becker Automotive Sys | Verfahren zur Spracherkennung und Spracherkennungssystem |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
Also Published As
Publication number | Publication date |
---|---|
JP3045510B2 (ja) | 2000-05-29 |
EP0431890A3 (en) | 1992-10-28 |
JPH03177899A (ja) | 1991-08-01 |
EP0431890A2 (de) | 1991-06-12 |
EP0431890B1 (de) | 1998-04-29 |
US5257314A (en) | 1993-10-26 |
DE69032282D1 (de) | 1998-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69032282T2 (de) | System zur Spracherkennung | |
DE69225173T2 (de) | Spracherkennungsgerät | |
DE2953262C2 (de) | ||
DE69421911T2 (de) | Spracherkennung mit pausedetektion | |
DE69420888T2 (de) | Interaktives Rechnersystem, das gesprochene Befehle erkennt | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE69427717T2 (de) | Sprachdialogsystem | |
DE69607913T2 (de) | Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle | |
DE102008017993A1 (de) | Sprachsuchvorrichtung | |
DE1547032A1 (de) | Einrichtung zum Identifizieren einer Person | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2708569A1 (de) | System zur identitaetspruefung einer person | |
DE60310687T2 (de) | Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung | |
DE1808895A1 (de) | Einrichtung zur Zeichenerkennung | |
DE69519229T2 (de) | Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten | |
DE1524375A1 (de) | Verfahren und Einrichtung zur Zeichenerkennung | |
DE3879028T2 (de) | Spracherkennungseinrichtung. | |
DE3103805A1 (de) | Datenerfassungssystem | |
DE68914032T2 (de) | Spracherkennungssystem. | |
DE69326900T2 (de) | Spracherkennungssystem | |
DE3853702T2 (de) | Spracherkennung. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8328 | Change in the person/name/address of the agent |
Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE |