DE69032282T2 - System zur Spracherkennung - Google Patents

System zur Spracherkennung

Info

Publication number
DE69032282T2
DE69032282T2 DE69032282T DE69032282T DE69032282T2 DE 69032282 T2 DE69032282 T2 DE 69032282T2 DE 69032282 T DE69032282 T DE 69032282T DE 69032282 T DE69032282 T DE 69032282T DE 69032282 T2 DE69032282 T2 DE 69032282T2
Authority
DE
Germany
Prior art keywords
word
speech
dictionary
similarity
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69032282T
Other languages
English (en)
Other versions
DE69032282D1 (de
Inventor
Shinta Kimura
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Application granted granted Critical
Publication of DE69032282D1 publication Critical patent/DE69032282D1/de
Publication of DE69032282T2 publication Critical patent/DE69032282T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Spracherkennungssystem, das eine durch einen Bediener eingegebene Sprache sofort erkennen und analysieren kann.
  • In jüngster Zeit werden Spracherkennungssysteme weithin auf dem Gebiet der Fabrikautomatisierung zum automatischen Klassifizieren verschiedener Gegenstände genutzt. Wenn ein Bediener den Namen eines Gegenstandes und dessen Bestimmung liest, erkennt bei der Fabrikautomatisierung das Spracherkennungssystem die Sprache, und der Gegenstand wird gemäß der Bestimmung auf einem Förderband klassifiziert. Ferner werden automatisch der Name, der Preis, die Bestimmung und dergleichen des Gegenstandes gestützt auf obige Erkennung auf ein gedruckt.
  • Im allgemeinen hat das Spracherkennungssystem zumindest ein Wörterbuch (engl. word dictionary) als Speichermittel, das verschiedene Wörter speichert. Kurz gesagt wird, wenn die Sprache des Bedieners in das Spracherkennungssystem eingegeben wird, in dem Wörterbuch nach einem der Sprache entsprechenden Wort sequentiell gesucht. Wenn in dem Wörterbuch ein der Sprache entsprechendes Wort gefunden wird, wird das Wort auf einer CRT angezeigt und auf das Etikett gedruckt.
  • In diesem Fall ist es notwendig, in dem Wörterbuch so viele Wörter wie möglich zu speichern, um einen genauen Treffer sicherzustellen.
  • Infolge struktureller Beschränkungen des Speichermittels gibt es jedoch in dem Wörterbuch eine Beschränkung der Kapazität (Anzahl von Wörtern oder Vokabular, das gespeichert werden soll). Je größer die Kapazität wird, desto länger wird im Gegenteil die Zeit, die notwendig ist, um nach dem ent sprechenden Wort zu suchen.
  • Die Aufgabe der vorliegenden Erfindung besteht darin, ein Spracherkennungssystem zu schaffen, das eine Hochgeschwindigkeitssuche nach einem entsprechenden Wort ermöglicht.
  • Gemäb der vorliegenden Erfindung wird ein Spracherkennungssystem geschaffen, das enthält: ein Mikrophon zum Umwandeln einer Sprache in ein elektrisches Sprachsignal mit einem Sprachton-Teil und einem Nicht-Sprach-Teil; eine akustische Verarbeitungseinheit zum Detektieren einer Leistung und eines Spektrums des elektrischen Sprachsignals gemäß einem vorbestimmten Abtastzeitintervall und Ausgeben von Leistung-Zeitreihendaten und Spektrum-Zeitreihendaten bei dem vorbestimmten Abtastzeitintervall, auf die im folgenden als Merkmal- Zeitreihendaten verwiesen wird; eine Sprachabschnitt-Detektionseinheit zum Empfangen der Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit, Detektieren eines Startpunktes und eines Endpunktes des Sprachton-Teils und Ausgeben eines Ende-Entscheidungssignals, wenn das Ende des Sprachton-Teils entschieden ist; ein Wörterbuch zum Speichern von Wortkennsätzen oder Wortetiketten (engl. word labels), den Wortetiketten entsprechenden Wortnummern und Wortschablonen, die durch die den Wortetiketten entsprechenden Merkmal- Zeitreihendaten gebildet werden, welche Wortetiketten gemäß einer Verwendungshäufigkeit oder -frequenz des Wortes ge.ordnet sind; eine Verifikationseinheit zum Empfangen der Merkmal-Zeitreihendaten der zu verifizierenden Sprache, Verifizieren der Merkmal-Zeitreihendaten mit der in dem Wörterbuch gespeicherten Wortschablone und Berechnen eines Grads einer Ähnlichkeit zwischen der Sprache und der Wortschablone; eine Sortiereinheit zum Sortieren der in der Verifikationseinheit berechneten Daten gemäß dem Grad einer Ähnlichkeit, welche Daten in der Reihenfolge des höheren Ähnlichkeitsgrades sortiert sind; eine Auswahleinheit zum Auswählen eines oder mehrerer Wörter mit einem höheren Grad einer Ähnlichkeit aus den in der Sortiereinheit sortierten Wörtern und Ausgeben dieser Wörter an eine Anzeigeeinheit, worin das Auswahlmittel die Wörter mit einem höheren Ähnlichkeitsgrad an das Anzeigemittel ausgibt, wenn das Entscheidungssignal von dem Sprachabschnitt-Detektionsmittel erzeugt wird, selbst wenn die Prüf oder Verifikationsoperation in dem Verifikationsmittel im Gange ist;
  • ein Wortfrequenz-Wörterbuch (engl. word frequency dictionary) zum Speichern von Wortetiketten, jedem Wortetikett entsprechenden Wortnummern, durch die jedem Wortetikett entsprechenden Merkmal-Zeitreihendaten gebildeten Wortschablonen und Frequenzdaten, die an jedes Wortetikett angefügt sind; und eine Wörterbuch-Sortiereinheit, die zwischen dem Wörterbuch und dem Wortfrequenz-Wörterbuch vorgesehen ist, zum Sortieren der Wortetiketten des Frequenz-Wörterbuchs in der Reihenfolge einer höheren Frequenz und Ausgeben sortierter Wörter an das Wörterbuch.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • In den Zeichnungen ist:
  • Fig. 1 ein schematisches Blockdiagramm eines herkömmlichen Spracherkennungs systems;
  • Fig. 2 eine graphische Darstellung zum Erläutern eines Sprachtons und Nicht-Sprachtons;
  • Fig. 3 eine Darstellung zum Erläutern von Sprachverarbeitungsschritten in einer Sprachabschnitt-Detektionseinheit;
  • Fig. 4 eine Darstellung zum Erläutern des Inhalts eines Wörterbuchs in der herkömmlichen Technik;
  • Fig. 5 ein Signalzeitdiagramm für jedes der Signale in dem Fall eines kleinen Vokabulars;
  • Fig. 6 ein Signalzeitdiagramm für jedes der Signale in dem Fall eines großen Vokabulars in einer herkömmlichen Technik;
  • Fig. 7 ein schematisches Blockdiagramm eines Spracherken nungssystems gemäß der vorliegenden Erfindung;
  • Fig. 8 ein Signalzeitdiagramm für jedes der Signale entsprechend der vorliegenden Erfindung;
  • Fig. 9 eine Darstellung zum Erläutern des Inhalts eines Frequenz-Wörterbuchs gemäß der vorliegenden Erfindung;
  • Fig. 10 eine Darstellung zum Erläutern einer Ausgabe der Wörterbuch-Sortiereinheit gemäß der vorliegenden Erfindung;
  • Fig. 11 eine Darstellung zum Erläutern des Inhalts eines Wörterbuchs gemäß der vorliegenden Erfindung;
  • Fig. 12 ein Flußdiagramm zum Erläutern einer Spracheinga beoperation gemäß der vorliegenden Erfindung;
  • Fig. 13 ein Flußdiagramm zum Erläutern einer Verifikationsoperation gemäß der vorliegenden Erfindung; und
  • Fig. 14 ein Flußdiagramm zum Erläutern einer Anzeigeoperation gemäß der vorliegenden Erfindung.
  • Bevor die bevorzugten Ausführungsformen beschrieben werden, wird ein herkömmliches Spracherkennungssystem erläutert.
  • Figur 1 ist ein schematisches Blockdiagramm eines herkömmlichen Spracherkennungssystems. In Fig. 1 bezeichnet Bezugsziffer 1 ein Mikrophon, 2 eine akustische Verarbeitungseinheit, 3 eine Sprachabschnitt-Detektionseinheit&sub1; 4 einen Parameterpuffer, 5 eine Verifikationseinheit, 6 ein Wörterbuch, 7 eine Sortiereinheit, 8 einen Zwischenspeicher, 9 einen Pufferspeicher zum Speichern resultierender Daten, 10 eine Auswahleinheit, 11 eine Entscheidungseinheit, 12 einen Auswahlschalter und 13 eine CRT.
  • Das Mikrophon 1 wandelt eine Sprache in ein elektrisches Sprachsignal um. Im allgemeinen wird die Sprache durch einen Sprachton-Teil und einen Nicht-Sprachton-Teil (engl. non voice sound portion) gebildet.
  • Die akustische Verarbeitungseinheit 2 detektiert eine Leistung (Energie einer Sprache) und ein Spektrum des elektrischen Sprachsignals gemäß einem Abtastzeitintervall von mehreren Millisekunden bis mehreren zehn Millisekunden. Die akustische Verarbeitungseinheit 2 wandelt das elektrische Sprachsignal in Merkmal-Zeitreihendaten um, die in einem Wörterbuch als eine Schablone gespeichert werden sollen. Als ein Verfahren einer Spektrumsanalyse gibt es mehrere bekannte Verfahren, z.B. ein eine Analogfilterbank verwendendes Verfahren, ein eine Digitalfilterbank verwendendes Verfahren und ein FFT (Fast Fourier-Transformation) verwendendes Verfahren, in der herkömmlichen Technik. Die akustische Verarbeitungseinheit 2 gibt Leistung-Zeitreihendaten (oberer seitlicher Pfeil) und Spektrum-Zeitreihendaten (unterer seitlicher Pfeil) aus.
  • Die Sprachabschnitt-Detektionseinheit 3 empfängt die Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit 2 und einen Leistung-Schwellenpegel Pth und einen Zeit- Schwellenpegel Lth von einer (nicht dargestellten) externen Einheit. Die Sprachabschnitt-Detektionseinheit 3 detektiert einen Startpunkt und einen Endpunkt des Sprachtons. Weil jedoch der Endpunkt des Sprachtons in einem ersten Schritt nicht entschieden werden kann, wird ein "Kandidaten-Endpunkt" eingerichtet, und die Sprachabschnitt-Detektionseinheit 3 detektiert den tatsächlichen Endpunkt, "Endpunkt-Entscheidung" genannt, in einem Endschritt.
  • Der Parameterpuffer 4 speichert vorübergehend die Spektrum-Zeitreihendaten von der akustischen Verarbeitungseinheit
  • Die Verifikationseinheit 5 empfängt den Startpunkt und den Kandidaten-Endpunkt des Sprachtons von der Sprachabschnitt-Detektionseinheit 3. Sie empfängt auch den Sprachton- Teil der Spektrum-Zeitreihendaten von dem Parameterpuffer 4. Ferner führt die Verifikationseinheit 5 eine Berechnung eines Grads einer Ahnlichkeit (oder eines Abstands oder einer Wahrscheinlichkeit) zwischen den Spektrum-Zeitreihendaten der Sprache und der in dem Wörterbuch 6 gespeicherten Wortschablone aus. Im allgemeinen wird der Grad einer Ähnlichkeit (oder eine Distanz oder Wahrscheinlichkeit) für jede Wortschablone unter Verwendung eines DP-Vergleichsverfahrens sequentiell berechnet. Demgemäß wird die Verifikationsoperation durch die Detektion des Kandidaten-Endpunktes begonnen und durch die Löschung des Kandidaten-Endpunktes gestoppt. A1 bezeichnet ein Endpunktkandidatur-Detektionssignal, A2 ein Ende-Kandidatur-Löschsignal und A3 ein Ende-Entscheidungssignal.
  • Das Wörterbuch 6 speichert Wortnummern, Wortetiketten und Wortschablonen (Merkmal-Zeitreihendaten), wie in Fig. 4 gezeigt ist.
  • Die Sortiereinheit 7 empfängt die Wortnummer und den Grad einer Ähnlichkeit von der Verifikationseinheit 5, und die Wörter werden gemäß dem Grad einer Ähnlichkeit sortiert. Das heißt, ein Wort mit einem höheren Ähnlichkeitsgrad wird bei dem oberen Teil einer Ähnlichkeitstabelle eingeordnet. Die Ordnung oder Reihenfolge des Grads einer Ähnlichkeit ist in dem Zwischenspeicher 8 gespeichert.
  • Der Pufferspeicher 9 speichert die resultierenden Sortierdaten nach einer Verifikation.
  • Die Auswahleinheit 10 empfängt ein Wortetikett entsprechend der Wortnummer des oberen Wortkandidaten (z.B. eines der Wörter, die vom 1. bis zum 20. eingeordnet sind) in dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13. Die Auswahleinheit 10 empfängt auch das Wortetikett entsprechend der Wortnummer des nächsten Wortkandidaten (z.B. eines der Wörter, das vom 20. bis zum 40. eingeordnet ist) in dem Wörterbuch 6 und überträgt dieses Wort zur Anzeige 13.
  • Die Entscheidungseinheit 11 berechnet eine UND-Logik zwischen einem Verifikationsabschlußsignal und einem Ende-Entscheidungssignal und sendet die resultierenden Daten an die Auswahleinheit 10.
  • Der Kandidatenauswahlschalter 12 wird von dem Bediener verwendet. Der Bediener drückt diesen Schalter 12, wenn das entsprechende Wort auf der Anzeige 13 nicht enthalten ist. Figur 2 ist eine graphische Darstellung zum Erläutern eines Sprachtons und Nicht-Sprachtons. Die Ordinate Pi bezeichnet die Sprachleistung, und die Abszisse "i" bezeichnet die Zeit. Das Symbol Pth bezeichnet die Schwellenleistung der Sprache, und das Symbol Lth bezeichnet den Zeit-Schwellenpegel des Nicht-Sprachtons. Ferner bezeichnet P1 den Startpunkt des Sprachtons, P2 und P4 bezeichnen die Endpunktkandidaten des Sprachtons, P3 bezeichnet einen Anstiegs- oder führenden Punkt (engl. leading pomt), und P5 bezeichnet einen Ende-Entscheidungspunkt. Ferner bezeichnet S0 den Zustand eines Nicht-Sprachtons, S1 bezeichnet den Zustand des Sprachtons, und S2 bezeichnet den Zustand der Ende-Entscheidung. Ferner bezeichnen i1 bis i5 noch Grenzlinien jedes Zustands. Eine Sprache über dem Leistung-Schwellenpegel Pth wird ein Sprachton genannt, und eine Sprache unter dem Leistung- Schwellenpegel Pth wird ein Nicht-Sprachton genannt.
  • Figur 3 ist eine Darstellung zum Erläutern der Sprachverarbeitungsschritte in der Sprachabschnitt-Detektionseinheit. Wie in der Zeichnung dargestellt ist, nimmt die Sprachabschnitt-Detektionseinheit 3 drei Zustände ein, d.h. den Nicht-Sprachton-Zustand S0, den Sprachton-Zustand S1 und den Ende-Entscheidung-Zustand S2.
  • In dem Zustand S0 wird die Sprachleistung Pi überprüft, um zu bestimmen, ob sie den Schwellenpegel Pth übersteigt oder nicht. Wenn die Sprachleistung Pi den Schwellenpegel Pth übersteigt, wechselt der Zustand S0 zu dem Zustand S1. Der Startpunkt P1 entspricht dem Start des Zustands S1. Der Wert des Startpunktes P1 wird in einem (nicht dargestellten) Register "st" gehalten.
  • In dem Zustand S1 wird die Sprachleistung Pi überprüft, um zu bestimmen, ob sie niedriger als der Schwellenpegel Pth ist oder nicht. Wenn die Sprachleistung Pi niedriger als der Schwellenpegel Pth ist, wechselt der Zustand S1 zu dem Zustand S2. Der Kandidatenendpunkt P2 entspricht dem Ende des Zustands S1. Der Wert des Kandidatenendpunkts P2 wird in einem (nicht dargestellten) Register "etmp" gehalten.
  • In dem Zustand S2 werden zwei Zustände überprüft. Eine Überprüfung besteht darin, zu bestimmen, ob die Sprachleistung Pi den Schwellenpegel Pth übersteigt oder nicht, und die andere Überprüfung besteht darin, zu bestimmen, ob die Differenz zwischen der Zeit (i) und der in dem Register "etmp" gehaltenen Zeit die Zeitschwelle Lth (z.B. 0,3 s) überschreitet.
  • In dem erstgenannten Fall wird der Zustand von dem Zustand S2 zu dem Zustand S1 zu dem Zeitpunkt geändert, wenn die Sprachleistung Pi den Schwellenpegel Pth übersteigt. In dem letztgenannten Fall wird der Zustand von dem Zustand S2 zu dem Zustand S1 zu dem Zeitpunkt geändert, wenn die Diffe renz zwischen der Zeit (i) und der in dem Register "etmp" gehaltenen Zeit die Zeitschwelle Lth übersteigt. Dieser Zeitpunkt (der Punkt P5) entspricht dem Ende-Entscheidungspunkt.
  • Die Sprachabschnitt-Detektionseinheit 3 gibt das Endpunktkandidatur-Detektionssignal A1 an die Verifikationsein heit 5 aus, wenn der Zustand von dem Zustand S1 zu dem Zustand S2 geändert wird. Die Sprachabschnitt-Detektionseinheit 3 gibt ferner das Endpunktkandidatur-Löschsignal A2 an die Verifikationseinheit 5 aus, wenn der Zustand von dem Zustand S2 zu dem Zustand S1 geändert wird, und gibt das Ende-Ent scheidungssignal A3 an die Entscheidungseinheit 11 aus, wenn der Zustand von dem Zustand S2 zu dem Zustand 50 geändert wird.
  • Figur 4 ist eine Darstellung zum Erläutern des Inhalts des Wörterbuchs in der herkömmlichen Technik. Die Wortetiketten (z.B. Aichi, Aornori, Akita, ---, Osaka, ---, Tokyo) sind in alphabetischer Reihenfolge angeordnet. Eine Wortnummer 1, 2, --- ist an jedes Wortetikett angefügt. Ferner sind die Merkmal-Zeitreihendaten (Wortschablone) zu dem entsprechenden Wortetikett vorgesehen. In diesem Fall entspricht die Zahl von Wörtern dem in dem Wörterbuch 6 gespeicherten Vokabular. Figur 5 ist ein Signalzeitdiagrarnm für jedes der Signale für einen Fall, wenn ein kleines Vokabular in dem Wörterbuch gespeichert ist. In Fig. 5 bezeichnet Al das Endpunktkandidatur-Detektionssignal, A2 bezeichnet das Endpunktkandidatur- Löschsignal, A3 bezeichnet das Ende-Entscheidungssignal, A4 bezeichnet das Verifikationssignal, A5 bezeichnet das Sortiersignal, A6 bezeichnet ein Anzeigesignal, und A7 bezeichnet ein Kandidatur-Auswahlschaltersignal. Wenn der Startpunkt P1 des Sprachabschnitts in der Sprachabsschnitt-Detektionseinheit 3 detektiert wird, wird das Ende-Entscheidungssignal A3 der unmittelbar vorhergehenden Sprache gelöscht (a).
  • Wenn der Endpunktkandidat P2 in der Einheit 3 detektiert wird, wird als nächstes das Endpunktkandidatur-Detektionssignal A1 von der Sprachabschnitt-Detektionseinheit 3 erzeugt und an die Verifikationseinheit 5 gesendet (b). Ferner wird die Verifikationsoperation in der Verif ikationseinheit 5 gestartet (c), und die Sortiereinheit 7 wird aktiviert (d). Weil die Zahl von in dem Wörterbuch gespeicherten Wörtern sehr gering ist (kleines Vokabular), ist in diesem Beispiel die Verifikationszeit für das entsprechende Wort ebenfalls sehr kurz (e).
  • Wenn in der Sprachabschnitt-Detektionseinheit 3 wieder ein Sprachton detektiert wird, wird als nächstes das Endpunktkandidatur-Löschsignal A2 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (f). Wenn das Endpunktkandidatur- Detektionssignal A2 wieder erzeugt ist (g), wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 7 wird wieder aktiviert (i). Die Verifikationsoperation wird nach einer kurzen Zeit gestoppt (j).
  • Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidaten (P4) an wird das Ende-Entscheidungssignal A3 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (k), und das Ergebnis der Verifikation wird automatisch auf der CRT angezeigt (1). Wenn dieses Ergebnis der Verifikation falsch ist, wird ein nächster Wortkandidat auf der CRT durch Verwenden des Kandidatenauswahlschalters angezeigt (m), der von dem Bediener betätigt wird.
  • Figur 6 ist ein Signalzeitdiagramm für jedes der Signale im Fall eines großen Vokabulars. Es gibt kein Problem wie im Fall des kleinen Vokabulars in Fig. 5, aber es gibt einige Probleme im Fall des großen Vokabulars, wie unten erklärt wird.
  • In Fig. 6 sind die Schritte von (a) bis (d) die gleichen wie diejenigen von Fig. 5. Wenn das Endpunktkandidatur-Löschsignal A2 von der Sprachabschnitt-Detektionseinheit 3 erzeugt wird (f), obwohl die Verifikationsoperation im Gange ist, weil die zu verifizierenden Wörter groß sind, wird die Venfikationsoperation vorübergehend gestoppt (n), und die Sortieroperation wird ebenfalls gestoppt (o), wonach die Verifikationsoperation wieder gestartet wird (h) und die Sortiereinheit 7 wieder aktiviert wird (i)
  • Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidatenpunktes (P4) an wird das Ende-Entscheidungssignal A3 von der Sprachabschnitt-Detektionseinheit 3 erzeugt (k). Weil die Verifikationsoperation im Gange ist (h), wird jedoch das Ergebnis der Verifikation auf der CRT nicht angezeigt, bis die Verifikationsoperation abgeschlossen ist (p).
  • Das Ergebnis der Verifikation wird dann auf der CRT automatisch angezeigt (1), und, wenn dieses Ergebnis der Verifikation falsch ist, wird auf der CRT ein nächstes Kandidatenwort durch Verwenden des Kandidatenauswahlschalters angezeigt (m).
  • Wie oben erläutert wurde, ist bei dem großen Vokabular eine lange Zeit von der Erzeugung des Ende-Entscheidungssignals (k) bis zur Anzeige des Ergebnisses der Verifikation (i) notwendig, weil eine längere Zeit zum Suchen nach dem entsprechenden Wort in dem Wörterbuch benötigt wird. Demgemäß wird die Verifikationsgeschwindigkeit langsam, so daß der Durchsatz des Spracherkennungssystems ebenfalls langsam wird.
  • Figur 7 ist ein schematisches Blockdiagramm eines Spracherkennungssystems gemäß der vorliegenden Erfindung. Wie in Fig. 7 dargestellt ist, sind der Zwischenspeicher 8 und die Entscheidungseinheit 11, die in Fig. 1 gezeigt sind, entfernt, und der Pufferspeicher 9 in Fig. 1 ist durch einen Zwischenspeicher 15 ersetzt. Die Sortiereinheit 7 von Fig. 1 ist durch eine neue Sortiereinheit 14 ersetzt. Ferner ist ein zweites Wörterbuch 16 zum Speichern von Wörtern gemäß ihrer Verwendungsfrequenz (im folgenden ein Wortfrequenz-Wörterbuch) vorgesehen. Ferner ist auch noch eine Wörterbuch- Sortiereinheit 17 zwischen dem Wörterbuch 6 und dem Wortfrequenz-Wörterbuch 16 vorgesehen.
  • In Fig. 7 hat jede Komponente die folgende Funktion. Das Mikrophon 1 wandelt eine Sprache in ein elektrisches Sprachsignal um, das durch den Sprachton-Teil und den Nicht- Sprachton-Teil gebildet wird.
  • Die akustische Verarbeitungseinheit 2 detektiert die Leistung und das Spektrum des elektrischen Sprachsiguals gemäß dem Abtastzeitintervall von mehreren Millisekunden bis mehrere zehn Millisekunden. Ferner wandelt die akustische Verarbeitungseinheit 2 das elektrische Sprachsignal in die Merkmal-Zeitreihendaten um. Die beiden Ausgaben der akustischen Verarbeitungseinheit 2 bezeichnen die Leistung-Zeitreihendaten und die Spektrum-Zeitreihendaten.
  • Die Sprachabschnitt-Detektionseinheit 3 empfängt die Leistung-Zeitreihendaten von der akustischen Verarbeitungseinheit 2. Sie empfängt auch den Leistung-Schwellenpegel Pth und den Zeit-Schwellenpegel Lth. Die Sprachabschnitt-Detektionseinheit 3 detektiert den Startpunkt und den Endpunkt des Sprachtons und den Ende-Entscheidungspunkt im Endschritt. Der Parameterpuffer 4 speichert vorübergehend die Spektrum-Zeitreihendaten von der akustischen Verarbeitungseinheit
  • Die Verifikationseinheit 5 empfängt den Startpunkt und den Endpunktkandidaten des Sprachtons von der Sprachabschnitt-Detektionseinheit 3. Sie empfängt auch den Sprachton- Teil der Spektrum-Zeitreihendaten von dem Pararneterpuffer 4 und führt eine Berechnung des Grads einer Ähnlichkeit (oder einer Distanz oder Wahrscheinlichkeit) zwischen den Spektrum- Zeitreihendaten und dem in dem Wörterbuch 6 gespeicherten Wort aus. Im allgemeinen wird der Grad einer Ahnlichkeit (oder eine Distanz oder Wahrscheinlichkeit) für jede Wortschablone sequentiell berechnet, indem vorwiegend das DP-Vergleichsverfahren verwendet wird, und die resultierenden Daten werden an die Sortiereinheit 14 ausgegeben. Demgemäß wird die Verifikationsoperation durch die Detektion des Endpunktkandidaten gestartet und durch die Löschung des Endpunktkandidaten gestoppt.
  • Das Wörterbuch 6 speichert Wortnurnmern, Wortetiketten und Wortschablonen (Merkmal-Zeitreihendaten), wie in Fig. 11 gezeigt ist. In diesem Fall sind die Wörter gemäß der Verwendungsfrequenz des Wortes wie im folgenden erläutert geordnet. Die Sortiereinheit 14 empfängt die Wortnummer und den Grad einer Ähnlichkeit von der Verifikationseinheit 5, und das Wort wird gemäß dem Minlichkeitsgrad sortiert. Das heißt, Wörter mit einem größeren Ähnlichkeitsgrad werden bei dem oberen Teil der Ähnlichkeitsgrad-Tabelle eingeordnet. Der Zwischenspeicher 15 speichert die resultierenden Daten der Sortierung nach der Verifikation.
  • Die Auswahleinheit 10 empfängt das Wortleseetikett entsprechend der Wortnummer des oberen Wortkandidaten von dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13, wenn das Ende-Entscheidungssignal von der Sprachabschnitt-Detektionseinheit 3 detektiert wird. Die Auswahleinheit 10 liest ferner das Wortetikett entsprechend der Wortnummer des nächsten Wortkandidaten von dem Wörterbuch 6 und überträgt dieses Wort zu der Anzeigeeinheit 13, wenn der Kandidatenauswahlschalter gedrückt wird.
  • Der Kandidatenauswahlschalter 12 wird von dem Bediener verwendet. Der Bediener drückt diesen Schalter 12, wenn das entsprechende Wort auf der Anzeige 13 nach einer Verifikation nicht enthalten ist.
  • Das Wortfrequenz-Wörterbuch 16 speichert Wörter gemäß ihrer Verwendungsfrequenz wie in Fig. 9 gezeigt ist.
  • Die Wörterbuch-Sortiereinheit 17 ist zwischen dem Wörterbuch 6 und dem Wortfrequenz-Wörterbuch 16 vorgesehen, und Wörter werden in der Reihenfolge der Verwendungsfrequenz der Wörter sortiert, wie in Fig. 10 dargestellt ist.
  • Figur 8 ist ein Signalzeitdiagramm für jedes der Signale gemäß der vorliegenden Erfindung. Wie in Fig. 5 gezeigt ist, bezeichnet A1 das Endpunktkandidatur-Detektionssignal, A2 bezeichnet das Endpunktkandidatur-Löschsignal, A3 bezeichnet das Ende-Entscheidungssignal, A4 bezeichnet das Verifikationssignal, AS bezeichnet das Sortiersignal, A6 bezeichnet das Anzeigesignal, und A7 bezeichnet das Kandidatenauswahischalter-Signal.
  • Wenn der Startpunkt des Wortabschnitts in der Wortabschnitt-Detektionseinheit 3 detektiert wird, wird das Ende- Entscheidungssignal A3 der vorhergehenden Sprache sofort gelöscht (a).
  • Wenn der Endpunktkandidat P2 in der Sprachabschnitt- Detektionseinheit 3 detektiert wird, wird als nächstes das Endpunktkandidatur-Detektionssignal Al von der Sprachabschnitt-Detektionseinheit 3 erzeugt und an die Verifikationseinheit 5 gesendet (b). Die Verifikationsoperation wird ferner in der Verifikationseinheit 5 gestartet (c), und die Sortiereinheit 7 wird aktiviert (d). Weil die Zahl von in dem Wörterbuch 6 gespeicherten Wörtern sehr groß ist (großes Vokabular), ist in diesem Beispiel die Verifikationszeit für das Wort sehr lang, so daß die Verifikationsoperation zwischenzeitlich gestoppt wird, wenn der Punkt P3 in der vorliegenden Erfindung detektiert wird (n).
  • Wenn das Endpunktkandidatur-Detektionssignal Al wieder erzeugt wird (g), wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 14 wird wieder aktiviert (i).
  • Nach einem Verlauf von 0,3 Sekunden von der Detektion des zweiten Endpunktkandidaten (P4) an wird das Ende-Entscheidungssignal A3 von der Einheit 3 erzeugt (k), und das Ergebnis der Verifikation wird auf der CRT automatisch angezeigt (q), obwohl die Verifikationsoperation im Gange und noch nicht abgeschlossen ist, wie unten erläutert wird. Wenn das Ergebnis der Verifikation falsch ist, wird ein nächster Wortkandidat durch den Bediener auf der CRT angezeigt, indem der Kandidatenauswahlschalter verwendet wird (m). Wie oben erläutert wurde, wird die Verifikationsoperation gelöscht (n), weil die Zahl von zu verifizierenden Wörtern groß ist, und die Sortieroperation wird ebenfalls gelöscht (o), und danach wird die Verifikationsoperation wieder gestartet (h), und die Sortiereinheit 14 wird wieder aktiviert (i).
  • Obwohl die Verifikationsoperation im Gange ist (h), wird in der vorliegenden Erfindung das Zwischenergebnis der Verifikation auf der CRT angezeigt (q). Wenn das Ergebnis der Verifikation falsch ist, wird auf der CRT durch Verwenden des Kandidatenauswahlschalters ein nächster Wortkandidat angezeigt (m).
  • Wie oben erläutert wurde, ist trotz des großen Vokabulars keine lange Zeit von der Erzeugung des Ende-Entscheidungssignais (k) bis zur Anzeige des Ergebnisses der Verifikation (q) notwendig, weil das Zwischenergebnis auf der CRT angezeigt wird. Demgemäß ist keine längere Zeit notwendig, um die resultierenden Daten der Erkennung anzuzeigen. Demgemäß wird die Antwortgeschwindigkeit der Erkennung erheblich schneller, so daß der Durchsatz des Spracherkennungssystems trotz des großen Vokabulars erheblich zunehmen kann.
  • In der vorliegenden Erfindung sind die Wörter gemäß der Verwendungsfrequenz des Wortes in dem Wörterbuch 6 gestützt auf die Daten von dem Wortfrequenz-Wörterbuch 16 und der Sortiereinheit 17 geordnet. Es ist demgemäß möglich, einfach nach dem entsprechenden zu verifizierenden Wort zu suchen, weil die Wörter mit höherer Frequenz in dem ersten Schritt gesucht werden (q), und nur wenn das entsprechende Wort in dem ersten Schritt (q) nicht gefunden wird, wird das Wort in dem nächsten Schritt gesucht (m).
  • Figur 9 ist eine Darstellung zum Erläutern des Inhalts des Wortfrequenz-Wörterbuchs gemäß der vorliegenden Erfindung. Wie in der Zeichnung dargestellt ist, ist die Frequenz an jedes Wortetikett angefügt. Zum Beispiel ist das Wort mit dem höchsten Frequenzgrad 100 "Tokyo", und das nächste ist "Osaka".
  • Figur 10 ist eine Darstellung zum Erläutern der Ausgabe der Wörterbuch-Sortiereinheit gemäß der vorliegenden Erfindung. Die Sortiereinheit 17 in Fig. 7 empfängt die Frequenzdaten des Wortes von dem Wortfrequenz-Wörterbuch 16, sortiert das Wort gemäß der Frequenzordnung und gibt die Frequenzdaten an das Wörterbuch 6 aus.
  • Figur 11 ist eine Darstellung zum Erläutern des Inhalts des Wörterbuchs gemäß der vorliegenden Erfindung. Wie in der Zeichnung dargestellt ist, sind die Wörter gemäß der Verwendungsfrequenz des Wortes gespeichert. Demgemäß ist es möglich, einfach nach dem entsprechenden zu verifizierenden Wort zu suchen, weil die Wörter mit höherer Frequenz in dem ersten Schritt (g) gesucht werden.
  • Figur 12 ist ein Flußdiagramm zum Erklären einer Spracheingabeoperatian gemäß der vorliegenden Erfindung.
  • Die eingegebene Sprache wird in Rahmenfolgen (engl. frame trains) mit einem Intervall von mehreren Millisekunden bis mehrere zehn Millisekunden geteilt, und ein Rahmen wird zum Analysieren der Sprache verwendet (Schritt 1). Als nächstes wird das Spektrum der Sprache durch Verwenden der FFT (Fast Fourier-Transformation) analysiert, und die Leistung (Energie) der Sprache wird für einen Rahmen berechnet (Schritt 2). Diese Schritte werden in der akustischen Verarbeitungseinheit 2 ausgeführt. Das Spektrum und die Leistung werden in dem Pararneterpuffer 4 gespeichert (Schritt 3).
  • Als nächstes wird der Sprachabschnitt in der Sprachabschnitt-Detektionseinheit 3 detektiert (Schritt 4). Jedes Detektionssignal, d.h. der Startpunkt, die Endpunktkandidatur, die Ende-Entscheidung und die Endpunktkandidatur-Löschung werden von der Sprachabschnitt-Detektionseinheit 3 in diesem Schritt ausgegeben. Als nächstes wird in diesem Schritt (5) überprüft, ob der Startpunkt detektiert ist oder nicht. Wenn in Schritt 5 "Ja" bestimmt wird, wird überprüft, ob die Anzeigeoperation im Gange ist oder nicht (Schritt 6). Wenn in Schritt 6 "Ja" bestimmt wird, wird die Anzeigeoperation gestoppt (Schritt 7). Wenn in Schritt 5 "Nein" bestimmt wird, wird überprüft, ob die Endpunktkandidatur detektiert ist oder nicht (Schritt 8). Wenn in Schritt 8 "Ja" bestimmt wird, werden der Startpunkt und die Endpunktkandidatur zu der Verifikationseinheit 5 übertragen (Schritt 9), und die Verifikationsoperation wird gestartet (Schritt 10).
  • Wenn in Schritt 8 "Nein" bestimmt wird, wird überprüft, ob das Ende entschieden ist oder nicht (Schritt 11). Wenn in Schritt 11 "Ja" bestimmt wird, wird die Anzeigeoperation gestartet (Schritt 12). Wenn in Schritt 11 "Nein" bestimmt wird, wird geprüft, ob die Endpunktkandidatur gelöscht ist oder nicht (Schritt 13). Wenn in Schritt 13 "Ja" bestimmt wird, wird die Verifikationsoperation gestoppt (Schritt 14). Wenn in Schritt 13 "Nein" bestimmt wird, wird die Verarbeitungsoperation zu dem Schritt 1 zurückgeführt.
  • Figur 13 ist ein Flußdiagramm zum Erläutern der Verifikationsoperation gemäß der vorliegenden Erfindung. In der Verifikationseinheit 5 werden der Startpunkt und der Endpunktkandidat, die durch den Schritt 9 von Fig. 12 erhalten wurden, in die Verifikationseinheit eingegeben (Schritt 15). Als nächstes wird ein Eingabernuster von dem Parameterpuffer 4 gelesen. Das Eingabemuster entspricht dem Sprachton zwischen der Startpunkt und der Endpunktkandidatur (Schritt 16). Als nächstes wird der Zwischenspeicher 15 zum Sortieren von Wörtern gemäß dem Grad einer Ähnlichkeit zwischen dem Eingabemuster und der in dem Wörterbuch gespeicherten Wortschablone initialisiert (Schritt 17).
  • Als nächstes wird die Wortschablone in der Reihenfolge von dem Wörterbuch 6 gelesen (Schritt 18). In der vorliegenden Erfindung sind, wie oben erläutert wurde, die Wortschablonen gemäß der höheren Frequenz in dem Wörterbuch 6 geordnet. Als nächstes wird das Eingabemuster mit der Wortschablone durch Verwenden des CP-Vergleichens verifiziert, um den Grad einer Ähnlichkeit zwischen dem Eingabemuster und der Wortschablone zu erhalten (Schritt 19). Das Wort wird durch die Sortiereinheit 14 gemäß dem Ahnlichkeitsgrad sortiert und in dem Zwischenspeicher gespeichert (Schritt 20). Schließlich wird überprüft, ob alle Wortschablonen verifiziert sind oder nicht (Schritt 21).
  • Figur 14 ist ein Flußdiagramm zum Erläutern der Anzeigeoperation gemäß der vorliegenden Erfindung. Der erste Wortkandidat (das der eingegebenen Sprache nach einer Verifikation ähnlichste Wort) wird von dem Zwischenspeicher 15 gelesen (Schritt 22), und dieses Wort wird auf der CRT automatisch angezeigt (Schritt 23). Als nächstes wird überprüft, ob der Kandidatenauswahlschalter 15 eingeschaltet wird oder nicht (Schritt 24). Wenn in Schritt 24 "Nein" bestimmt wird, ist der Schalter eingeschaltet. Wenn in Schritt 24 "Ja" bestimmt wird, wird von dem Zwischenspeicher 15 ein nächstes Kandidatenwort (d.h. ein nächst-ähnliches Wort) gelesen (Schritt 25). Als nächstes wird überprüft, ob das Wort in dem Schritt 25 schon angezeigt ist oder nicht (Schritt 26). Wenn in Schritt 26 "Ja" bestimmt wird, wird von dem Zwischenspeicher ein nächstes Kandidatenwort gelesen (Schritt 27). Wenn in Schritt 26 "Nein" bestimmt wird, wird dieses Kandidatenwort auf der CRT angezeigt (Schritt 28).

Claims (4)

1. Ein Spracherkennungssystem mit:
einem Mikrophon (1) zum Umwandeln einer Sprache in ein elektrisches Sprachsignal mit einem Sprachton-Teil und einem Nicht-Sprach-Teil;
einem akustischen Verarbeitungsmittel (2) zum Detektieren einer Leistung und eines Spektrums des elektrischen Sprachsignals gemäß einem vorbestimmten Abtastzeitintervall und Ausgeben von Leistung-Zeitreihendaten und Spektrurn-Zeitreihendaten bei dem vorbestimmten Abtastzeitintervall, um Merkmal- Zeitreihendaten zu erzeugen;
einem Sprachabschnitt-Detektionsmittel (3) zum Empfangen der Leistung-Zeitreihendaten von dem akustischen Verarbeitungsmittel, Detektieren eines Startpunktes und eines Endpunktes des Sprachton-Teils und Ausgeben eines Ende-Entscheidungssignals, wenn das Ende des Sprachton-Teils entschieden ist;
einem Wörterbuch (6) zum Speichern von Wortetiketten, den Wortetiketten entsprechenden Wortnummern und Wortschablonen, die durch die den Wortetiketten entsprechenden Merkmal-Zeitreihendaten gebildet werden, welche Wortetiketten gemäß einer Verwendungsfrequenz der Wörter geordnet sind;
einem Verifikationsmittel (5) zum Empfangen der Merkmal- Zeitreihendaten der zu verifizierenden Sprache, Verifizieren der Merkmal-Zeitreihendaten mit der in dem Wörterbuch gespeicherten Wortschablone und Berechnen eines Grads einer Älinlichkeit zwischen der Sprache und der Wortschablone;
einer Sortiereinrichtung (14) zum Sortieren von in dem Verifikationsrnittel berechneten Daten gemäß dem Ähnlichkeitsgrad, welche Daten in der Reihenfolge des höheren Ähnlichkeitsgrades sortiert sind;
einem Auswahlmittel (10) zum Auswählen eines oder mehrerer Wörter mit einem höheren Grad einer Ähnlichkeit aus den in dem Sortiermittel sortierten Wörtern und Ausgeben dieser Wörter an ein Anzeigemittel (13), worin das Auswahlmittel die Wörter mit einem höheren Ähnlichkeitsgrad an das Anzeigemittel ausgibt, wenn das Entscheidungssignal (A3) von dem Sprachabschnitt-Detektionsmittel erzeugt wird, selbst wenn die Verifikationsoperation in dem Verifikationsrnittel im Gange ist;
einem Wortfrequenz-Wörterbuch (16) zum Speichern von Wortetiketten, jedem Wortetikett entsprechenden Wortnummern, durch die jedem Wortetikett entsprechenden Merkmal-Zeitreihendaten gebildeten Wortschablonen und an jedes Wortetikett angefügten Frequenzdaten; und
einem Wörterbuch-Sortiermittel (17), das zwischen dem Wörterbuch und dem Wortfrequenz-Wörterbuch vorgesehen ist, zum Sortieren der Wortetiketten des Wortfrequenz-Wörterbuchs in der Reihenfolge einer höheren Frequenz und Ausgeben sortierter Wörter an das Wörterbuch.
2. Ein Spracherkennungssystem nach Anspruch 1 ferner mit einem durch einen Bediener betätigten Kandidatenauswahlschalter, wodurch ein Wort mit einem nächsthöheren Ähnlichkeitsgrad auf dem Anzeigernittel angezeigt wird, indem der Kandidatenauswahlschalter eingeschaltet wird, wenn ein Wort entsprechend der eingegebenen Sprache in der ersten Anzeige nicht gefunden wird.
3. Ein Spracherkennungssystem nach Anspruch 1 oder 2, worin der Grad einer Ähnlichkeit gleich einer Distanz zwischen der Sprache und der Wortschablone ist, wobei eine kleinere Distanz dem höheren Ähnlichkeitsgrad entspricht.
4. Ein Spracherkennungssystem nach einem der vorhergehenden Ansprüche, worin der Grad einer Ähnlichkeit die Wahrscheinlichkeit eines Treffers in der Verifikationsoperation bestimmt, wobei eine höhere Wahrscheinlichkeit einem höheren Ähnlichkeitsgrad entspricht.
DE69032282T 1989-12-06 1990-12-04 System zur Spracherkennung Expired - Lifetime DE69032282T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1316991A JP3045510B2 (ja) 1989-12-06 1989-12-06 音声認識処理装置

Publications (2)

Publication Number Publication Date
DE69032282D1 DE69032282D1 (de) 1998-06-04
DE69032282T2 true DE69032282T2 (de) 1998-08-20

Family

ID=18083200

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69032282T Expired - Lifetime DE69032282T2 (de) 1989-12-06 1990-12-04 System zur Spracherkennung

Country Status (4)

Country Link
US (1) US5257314A (de)
EP (1) EP0431890B1 (de)
JP (1) JP3045510B2 (de)
DE (1) DE69032282T2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207895A1 (de) * 2002-02-23 2003-09-18 Harman Becker Automotive Sys Verfahren zur Spracherkennung und Spracherkennungssystem

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2253296B (en) * 1991-02-28 1995-05-24 Toshiba Kk Pattern recognition apparatus
WO1995020215A1 (en) * 1994-01-21 1995-07-27 Kurzweil Applied Intelligence, Inc. Text generation from spoken input
CA2143980A1 (en) * 1994-04-06 1995-10-07 Raziel Haimi-Cohen User display in speech recognition system
US6903723B1 (en) 1995-03-27 2005-06-07 Donald K. Forest Data entry method and apparatus
US6160536A (en) * 1995-03-27 2000-12-12 Forest; Donald K. Dwell time indication method and apparatus
US5999895A (en) * 1995-07-24 1999-12-07 Forest; Donald K. Sound operated menu method and apparatus
US6005549A (en) * 1995-07-24 1999-12-21 Forest; Donald K. User interface method and apparatus
US5917891A (en) * 1996-10-07 1999-06-29 Northern Telecom, Limited Voice-dialing system using adaptive model of calling behavior
US6167117A (en) * 1996-10-07 2000-12-26 Nortel Networks Limited Voice-dialing system using model of calling behavior
US5905789A (en) * 1996-10-07 1999-05-18 Northern Telecom Limited Call-forwarding system using adaptive model of user behavior
US5912949A (en) * 1996-11-05 1999-06-15 Northern Telecom Limited Voice-dialing system using both spoken names and initials in recognition
US6208713B1 (en) 1996-12-05 2001-03-27 Nortel Networks Limited Method and apparatus for locating a desired record in a plurality of records in an input recognizing telephone directory
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
US6385581B1 (en) 1999-05-05 2002-05-07 Stanley W. Stephenson System and method of providing emotive background sound to text
US6885990B1 (en) 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress
JP3530109B2 (ja) * 1999-05-31 2004-05-24 日本電信電話株式会社 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
US8065155B1 (en) 1999-06-10 2011-11-22 Gazdzinski Robert F Adaptive advertising apparatus and methods
JP3715469B2 (ja) * 1999-06-30 2005-11-09 パイオニア株式会社 音声操作装置
US7529668B2 (en) * 2004-08-03 2009-05-05 Sony Corporation System and method for implementing a refined dictionary for speech recognition
US8965763B1 (en) 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
US9484022B2 (en) 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US12050557B2 (en) * 2017-05-19 2024-07-30 Takashi Suzuki Computerized systems and methods of data compression
CN110827799B (zh) * 2019-11-21 2022-06-10 百度在线网络技术(北京)有限公司 用于处理语音信号的方法、装置、设备和介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58105295A (ja) * 1981-12-18 1983-06-23 株式会社日立製作所 音声標準パタン作成方法
JPS58178396A (ja) * 1982-04-12 1983-10-19 株式会社日立製作所 音声認識用標準パタ−ン登録方式
FR2554623B1 (fr) * 1983-11-08 1986-08-14 Texas Instruments France Procede d'analyse de la parole independant du locuteur
JPH0792673B2 (ja) * 1984-10-02 1995-10-09 株式会社東芝 認識用辞書学習方法
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
EP0266423B1 (de) * 1986-04-16 1994-03-09 Ricoh Company, Ltd Verfahren zum sprachmustervergleich in einer spracherkennungseinrichtung
JP2815579B2 (ja) * 1987-03-10 1998-10-27 富士通株式会社 音声認識における単語候補削減装置
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
DE3879028T2 (de) * 1987-07-16 1993-06-24 Fujitsu Ltd Spracherkennungseinrichtung.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10207895A1 (de) * 2002-02-23 2003-09-18 Harman Becker Automotive Sys Verfahren zur Spracherkennung und Spracherkennungssystem
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem

Also Published As

Publication number Publication date
JP3045510B2 (ja) 2000-05-29
EP0431890A3 (en) 1992-10-28
JPH03177899A (ja) 1991-08-01
EP0431890A2 (de) 1991-06-12
EP0431890B1 (de) 1998-04-29
US5257314A (en) 1993-10-26
DE69032282D1 (de) 1998-06-04

Similar Documents

Publication Publication Date Title
DE69032282T2 (de) System zur Spracherkennung
DE69225173T2 (de) Spracherkennungsgerät
DE2953262C2 (de)
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE69420888T2 (de) Interaktives Rechnersystem, das gesprochene Befehle erkennt
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE68924134T2 (de) Spracherkennungssystem.
DE69427717T2 (de) Sprachdialogsystem
DE69607913T2 (de) Verfahren und vorrichtung zur spracherkennung auf der basis neuer wortmodelle
DE102008017993A1 (de) Sprachsuchvorrichtung
DE1547032A1 (de) Einrichtung zum Identifizieren einer Person
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2708569A1 (de) System zur identitaetspruefung einer person
DE60310687T2 (de) Verfahren zur beschleunigung der durchführung von spracherkennung mit neuralen netzwerken, sowie entsprechende vorrichtung
DE1808895A1 (de) Einrichtung zur Zeichenerkennung
DE69519229T2 (de) Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten
DE1524375A1 (de) Verfahren und Einrichtung zur Zeichenerkennung
DE3879028T2 (de) Spracherkennungseinrichtung.
DE3103805A1 (de) Datenerfassungssystem
DE68914032T2 (de) Spracherkennungssystem.
DE69326900T2 (de) Spracherkennungssystem
DE3853702T2 (de) Spracherkennung.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: SEEGER SEEGER LINDNER PARTNERSCHAFT PATENTANWAELTE