DE69031284T2 - Verfahren und Einrichtung zur Spracherkennung - Google Patents
Verfahren und Einrichtung zur SpracherkennungInfo
- Publication number
- DE69031284T2 DE69031284T2 DE69031284T DE69031284T DE69031284T2 DE 69031284 T2 DE69031284 T2 DE 69031284T2 DE 69031284 T DE69031284 T DE 69031284T DE 69031284 T DE69031284 T DE 69031284T DE 69031284 T2 DE69031284 T2 DE 69031284T2
- Authority
- DE
- Germany
- Prior art keywords
- recognition
- segment
- phonemes
- words
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000012545 processing Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/12—Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
Description
- Die Erfindung betrifft ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung, die eine Erkennung der Sprache eines nicht spezifizierten Sprechers durch Bezug auf ein Wortverzeichnis durchführt, bei den Phoneme von Wörtern angegeben sind.
- In letzter Zeit wurden Techniken, die Phoneme oder Silben als eine Einheit verwenden, für eine Sprachverarbeitungsvorrichtung untersucht. Diese Techniken hängen von nachstehend beschriebenen Gründen ab.
- Bei einer auf ein großes Vokabular ausgerichteten Spracherkennungsvorrichtung ist eine große Speicherkapazität zum Speichern von Standardmustern für jedes Wort erforderlich. Zusätzlich ist es aufwendig, diese Worte zu registrieren, wobei es schwierig wird, neue Worte anzufügen. Demgegenüber können mit einem Verfahren, das Phoneme und dergleichen als eine Basiseinheit zur Erkennung verwendet, da die in Roman- Zeichen (romanji) oder japanischen Silben (kana) geschriebenen Worte in einem Verzeichnis gespeichert werden können, die vorstehenden Probleme beseitigt werden.
- Jedoch ist die Spracherkennung nicht einfach, da Probleme bei der Variation des Phonemspektrums bei der Sprache, Kombinationen von Intonationen bzw. Tonfällen sowie schwierig zu erkennende Phoneme wie Verschlußlaute auftreten. Außerdem beeinflußt ein individueller Unterschied ebenfalls die Erkennung, wenn nicht spezifizierte Sprecher berücksichtigt werden sollen, was die Erkennung noch schwieriger macht.
- Deshalb wurden die nachstehend beschriebenen Techniken zur Lösung dieser Probleme untersucht.
- (1) Lernen von Vokalen
- (2) Statistisches Unterscheidungsverfahren
- (3) Verstecktes Markov-Modell (hidden Markov model)
- (4) Mehrschablonenverfahren (multi-template method)
- Jedoch ist die Spracherkennung auf der Grundlage eines einheitlichen Verfahrens schwierig, da im Japanischen jedes Phonem sich von jeden anderen bei dem Auftreten von Phonemen in Phonemgruppen unterscheidet.
- Beispielsweise sind, obwohl Vokale durch die relative Position des Formants gekennzeichnet sind, Halbvokale, Verschlußlaute und dergleichen durch eine Änderung im Zeitspektrum gekennzeichnet. Außerdem treten, obwohl die Änderungen im Spektrum für jeden Halbvokal und Verschlußlaut kennzeichnend sind, Unterschiede dahingehend auf, daß das Spektrum sich re- lativ langsam bei den Halbvokalen ändert. Demgegenüber verän dert sich das Spektrum bei den Verschlußlauten in einer kurzen Zeit schnell.
- Bei der Erkennung dieser unterschiedlich gekennzeichneten Phoneme gibt es den Mangel, daß eine hohe Erkennungsrate nicht erhalten werden kann, da alle Phoneme gleichförmig unter Verwendung eines der vorstehend beschriebenen Verfahren der herkömmlichen Vorrichtung erkannt werden. Beispielsweise kann die Erfassung der Segmenteigenschaften, die auf die Erkennung kontinuierlicher Sprache abzielt (Kosaka et al., Japanese Acoustics Society, Voice Section, S85-53, Dezember 1985) als ein dem vorstehend erwähnten Verfahren (2) zugeordnetes Verfahren erwähnt werden. Jedoch ist, obwohl die Erkennungsrate für Verschlußlaute und dergleichen hoch ist, da dieses Verfahren zur Übereinstimmung mit den Veränderungen im Zeitspektrum ausgelegt ist, dieses Verfahren nicht zur Erkennung der Phoneme wie Halbvokale geeignet, deren Spektrum sich langsam verändert und deren Zeitstruktur sich verändert, da es nicht die Veränderung des Spektrums bezüglich der Zeit bewältigen kann.
- Zusätzlich gibt es Systeme, die eine Phonemerkennung bei jeder grob eingeordneten Gruppe durch voneinander unterschiedliche Verfahren nach einer groben Segmentierung durchführen, wie ein am MIT-Lincoln-Insitute entwickeltes System (vergl. Yasunaga Niimi, Speech Recognition, Seiten 81 bis 87, Kyoritsu Buildung, Oktober 1979). Jedoch gibt es den Nachteil, daß die Segmentierung bei einem derartigen System stark auftritt und die Erkennungsrate stark von der Qualität der Segmentierung abhängt.
- Die Erfindung ist auf das vorstehend beschriebene Problem gerichtet. Insbesondere liegt der Erfindung die Aufgabe zugrunde, ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung zu schaffen, die die Schwierigkeit bei der Erkennung eines nicht spezifizierten Sprechers beseitigen und eine hohe Erkennungsgenauigkeit aufweisen.
- Die in der "ICASSP 86 IEEE-IECEJ-ASJ International Conference on Acoustics, Speech, and Signal processing" veröffentlichte Druckschrift "Top-down controlled and optimal syllabletemplate chaining algorithm for large vocabulary speech recognition" von S. Kabasawa et al. offenbart einen Algorithmus zur Spracherkennung. Jedoch berücksichtigt diese Druckschrift nicht die Schritte der Segmentierung von eingegebenen Sprachdaten, der Einordnung jedes Segments der eingegebenen Sprache und der darauffolgenden Auswahl eines geeigneten Erkennungsverfahrens für jedes eingeordnete Seument.
- Dementsprechend wird gemäß einem ersten Aspekt der Erfindung ein Spracherkennungsverfahren wie in Patentanspruch 1 dargelegt geschaffen.
- Gemäß einem zweiten Aspekt der Erfindung wird eine wie in Patentanspruch 4 dargelegte Spracherkennungsvorrichtung geschaffen.
- Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegende Zeichnung näher beschrieben. Es zeigen:
- Fig. 1A und 1B Flußdiagramme, die einen erfindungsgemäßen Spracherkennungs-Verarbeitungsvorgang darstellen, und
- Fig. 2 ein Blockschaltbild einer Spracherkennungsvorrichtung gemäß einem ersten Ausführungsbeispiel der Erfindung.
- Nachstehend ist ein Ausführungsbeispiel der Erfindung unter Bezug auf die beiliegende Zeichnung ausführlich beschrieben.
- Fig. 1A und 1B zeigen Flußdiagramme, die ausführlich die Funktionsweise dieser Vorrichtung darstellen. Diese Figuren zeigen Verarbeitungsschritte, nachdem ein Wort ausgesprochen und analysiert wurde. Der Silbennasal /N/ ist gemäß diesem Ausführungsbeispiel bei den Vokalen eingeschlossen.
- Zunächst wird bei einem Schritt S1 ein Sprachblock in mehrere Phonemgruppen unter Verwendung aller Parameterzeitfolgen der eingegebenen Worte eingeordnet. Die Anzahl der Phonemgruppen, in die unterteilt wird, hängt davon ab, wie viele nachstehend beschriebene Erkennungssystemarten für Phoneme vorbereitet sind. Gemäß diesen Ausführungsbeispiel wird ein Sprachblock in drei Arten von Klassen unterteilt, daß heißt, Vokal, Halbvokal und andere.
- Da die Klassifizierung in dem Dokument "Speech Recognition" (Yasunaga Niime, Seiten 81 bis 87, Kyoritsu Publishing, Oktober 1979) usw. beschrieben ist, entfällt in dieser Beschreibung deren Erläuterung.
- Darauffolgend wird bei einem Schritt fr ein Zeiger (Pointer) initialisiert (in diesen Fall werden die Sprachdaten bei fr=1 eingegeben), der den Rahmen der eingegebenen Sprache darstellt (gemäß diesem Ausführungsbeispiel wird er mit "0" gelöscht). Bei einem Schritt S3 wird der Rahmenzeiger fr erhöht, wobei die nächsten Daten eingegeben werden. Bei einem Schritt S4 wird beurteilt, ob der Sprachblock beendet wird oder nicht, wobei, wenn der Sprachdatensatz beendet wird, die Verarbeitung zu einen Schritt S12 und andernfalls zu einem Schritt S5 voranschreitet.
- Bei dem Schritt S5 wird das Phonem unter Bezug auf die Ergebnisse der durch die Verarbeitung bei dem Schritt S1 erhaltene grobe Segmentierung beurteilt. Gemäß diesem Ausführungsbeispiel werden Phoneme in drei Arten eingeordnet, Vokale, Halbvokale und andere, wobei die Verarbeitung entlang einem Schritt S6, einem Schritt S8 und einem Schritt S10 entsprechend den Ergebnissen voranschreitet. Bei den Schritten S6, S8 und S10 werden jeweils die Vokale, die Halbvokale und die anderen Phoneme erkannt. Wenn die Erkennung beendet wird, wird der als Ergebnis ausgegebene Wert in einem Bereich von "0" bis "1" bei jedem der Schritte S7, S9 und S10 normalisiert.
- Außerdem wird gemäß diesem Ausführungsbeispiel ein neurales Netz verwendet, das die Koeffizienten jedes Sprechers zur Erkennung der Vokale bei dem Schritt 6 gelernt hat. Da dieses Verfahren zur Vorbereitung und Erkennung dieses neutralen Netzes in dem Dokument "Speech Recognition By A Statistical Modell" (Seiichi Nakagawa, Seiten 156 bis 177, Society for Elektronix Informaiton Communication, Juli 1988) beschrieben ist, ist dieses Verfahren in dieser Beschreibung nicht beschrieben.
- Eine (nachstehend "DP" bezeichnete) dynamische Programmierung unter Verwendung eines statistischen Distanzindexes wird bei dem Schritt S8 zur Erkennung der Halbvokale verwendet. Dieses Verfahren ist in einer Arbeit ("Word Speech Recognistion by DP Matching Using Mahalanobis Distance", Journal of Electro- Communication, Januar 1983, Band J-66-A, nr. 1, Seiten 64 bis 70) ausführlich unter der Bezeichnung Mahalanobis-DP beschrieben. Obwohl diese Arbeit das Worterkennungsverfahren beschreibt, wird dieses Verfahren gemäß diesem Ausführungsbeispiel unter Verwendung der Anfänge und der Enden der durch die Segementierung bei dem Schritt S1 erhaltenen Halbvokale als Anfänge und Ende der dynamischen Programmierung DP angewendet.
- Bei der Erkennung der anderen Phoneme bei dem Schritt S10 wird das Ldentifizierungsverfahren entsprechend der Bayesschen Entscheidung (Bayesian decision) der Veränderung von Mustern eines Spektrums über die Zeit verwendet. Dieses Verfahren ist ausführlich in den "Society Data" ("Detection of the Characteristics of Segment Aiming at the Recognition of Continuous Speech", Japanese Acoustics Society, Voice Section, S85-53, Dezember 1985) beschrieben.
- Bei den Erkennungsverarbeitungen für die Vokale bei dem Schritt S6 und anderen Phonemen bei dem Schritt S10 haben sich die ausgegebenen Ergebnisse in einem Bereich von "0" bis "1" einander angeglichen. In diesem Fall ist die Wahrscheinlichkeit, daß das Phonem von der durch diesen Schritt zu bestimmenden Art ist, um so höher, je größer das Ausgangssignal ist. Demgegenüber ist bei den Erkennungsverfahren für die Halbvokale bei den Schritt S8 die Wahrscheinlichkeit, daß das Phonem von der durch diesen Schritt zu bestimmenden Art ist, um so größer, je kleiner das ausgegebene Ergebnis ist, da eine Mahalanobis-Distanz zum Zeitpunkt der Erkennung verwendet wird. Die Ausgangswerte nähern sich bei einem Bereich größer "0" an. Zur Normalisierung bei dem Schritt S9 wird zunächst der maximale Wert des Ausgangssignal zu "0" gemacht, indem der Ausgangswert mit einem Minuszeichen versehen wird. Darauffolgend wird ein Schwellwert th (< 0) eingestellt, wobei Ausgangswerte, die kleiner oder gleich th sind, mit th ersetzt werden, damit der Bereich des Wertes von th bis "0" eingestellt wird. Zusätzlich wird eine lineare Transformation derart durchgeführt, daß die Ausgangswerte th T "0" und "0" T 1 werden, wobei die erhaltenen Ergebnisse als normalisiertes Ausgangssignal verwendet werden.
- Die vorstehend beschriebene Verarbeitung wird bei jedem Schritt wiederholt, bis der Sprachblock abgeschlossen ist und die Verarbeitung zu dem Schritt S12 voranschreitet, bei dem sie beendet wird.
- Bei dem Schritt S12 wird die vorbereitende Auswahl von Worten auf der Grundlage der groben Segmentierung bei dem Schritt S1 ausgeführt. Genauer gesagt besteht die Verarbeitung darin, daß lediglich Worte, die mit den Reihen der drei durch die Segnentierung erhaltenen Segmentarten übereinstimmen, aus dem Wortverzeichnis ausgewählt werden. Die bei dem Schritt S12 ausgewählten Worte in dem Wortverzeichnis werden nacheinander bei dem Schritt S13 ausgelesen, wobei bei einem Schritt S14 beurteilt wird, ob alle ausgewählten Worte verglichen sind oder nicht. Falls der Vorgang nicht beendet ist, wird entsprechend der dynamischen Programmierung DP eine Bewertungsberechnung durchgeführt. Diese dynamische Programmierung vergleicht direkt die Reihe der Phonemstandardmuster entsprechend der aus den Wortverzeichnis erhaltenen Reihe von Phonemsymbolen mit der Parameterzeitfolge der eingegebenen Sprache. Die Bewertung d(i, j) bei dem Rahmen j und der Phonemklasse Ci wird unter Verwendung der jeweils bei den Schritten S7, S8 und S11 unverändert erhaltenen Werte berechnet. Die Gleichungen bei dieser dynamischen Programmierung sind wie nachstehend:
- [wobei es sich bei A um das Verzeichnis, bei X um ein eingegebenes Wort, bei g(i, j) um eine gesammelte Bewertung bei (i,j) und bei I sowie J um Maximalwerte von i und j handelt.]
- Wenn das Verzeichnis entsprechend der Beurteilung bei dem Schritt S14 beendet ist, schreitet die Verarbeitung zu dem Schritt S16 voran. Das Wort, dem die maximale Bewertung gegeben wird, wird aus den verglichenen Worten ausgewählt und als Erkennungsergebnis der eingegebenen Sprache verwendet. Dieses Erkennungsergebnis wird bei einen Schritt S17 ausgegeben.
- Fig. 2 zeigt ein Blockschaltbild, daß den festverdrahteten Aufbau bzw. den Hardware-Aufbau dieser Vorrichtung darstellt. Wie in dieser Darstellung gezeigt, wird die in ein Mikrophon 18 eingegebene Sprache durch eine Bandpaßfiltergruppe bei einer Analysiereinheit 19 analysiert und in ein Kurzzeitspektrum umgewandelt. Eine Zentraleinheit (CPU) 20 steuert den in Fig. 1 gezeigten Verarbeitungsablauf, wobei dieses Programm in einem ersten Festspeicher (ROM1) 21 gespeichert ist. Ein zweiter Festspeicher(ROM2) 22 wird als Wortverzeichnis verwendet. Ein Speicher mit wahlfreiem Zugriff (RAM) 23 wird zum Speichern der Phonem-Muster verwendet und speichert die aus einer Disketteneinrichtung 24 oder dem Festspeicher 22 gesendeten Daten. Die Phonem-Muster werden in dem Speicher mit wahlfreiem Zugriff gespeichert, damit das Phonem-Muster beim Lernen der Vokale auf eine spezifische Person angewendet werden kann. In diesem Fall werden die Inhalte in dem Speicher mit wahlfreiem Zugriff erneut geschrieben und das Vokalmuster registriert.
- Gemäß diesem Ausführungsbeispiel wird ebenfalls das Verfahren betrachtet, das verschiedene Parameter entsprechend den Phonengruppen verwendet, obwohl als ein Beispiel das denselben Parameter verwendende Erkennungsverfahren beschrieben worden ist. In diesem Fall kann der Parameter nicht ausgewählt werden, da die Phonem-Art bei dem Schritt der groben Segmentierung nicht bestimmt werden kann Jedoch wird die Phonem-Art bei der Verarbeitung bei dem in Fig. 1A gezeigten Schritt S5 bestimmt, nachdem die eingegebene Sprache erneut durch ein anderes Verfahren analysiert ist.
- In einem derartigen Fall wird ein Bandpaßfilter bei dem Schritt S10 ähnlich verwendet, wobei ein Parameter der LPC- Art , dessen Spitzenwert gut ausgedrückt ist, bei den Schritten S6 und S8 verwendet wird.
- Gemäß diesem Ausführungsbeispiel wird die Analyse durch Programme bzw. Software durchgeführt, da verschiedene Parameter verwendet werden. Folglich kann der Aufbau der festverdrahteten Schaltung bzw. der Hardware vereinfacht werden. Deshalb ist die in Fig. 2 gezeigte Analysiereinheit 19 zur Analysierung der eingegebenen Sprache nicht erforderlich, führt aber eine Analog-Digitalwandlung durch und begrenzt sie lediglich auf die tieferen Frequenzen.
- Obwohl die Erfindung vorstehend unter Bezug auf das bevorzugte Ausführungsbeispiel beschrieben worden ist, ist die Erfindung nicht auf das vorstehend beschriebene Ausführungsbeispiel beschränkt, wobei verschiedene Abänderungen innerhalb des Schutzbereichs der beiliegenden Patentansprüche möglich sind.
- Wie vorstehend beschrieben kann erfindungsgemäß die Spracherkennung mit hoher Genauigkeit durchgeführt werden, da die verschiedenen Parameter und Erkennungsverfahren entsprechend der Art der Phoneme verwendet werden, wobei eine dynamische Programmierung zur Positionierung der Phonem-Muster entsprechend der eingegebenen Sprache nach einer groben Segmentierung angewendet wird. Außerdem kann eine gegenüber nicht spezifizierten Sprechern beständige Spracherkennung durch Lernen der Phoneme wie Vokale durchgeführt werden, bei denen individuelle Unterschiede stark hervortreten.
Claims (6)
1. Spracherkennungsverfahren mit den Schritten
Eingeben von Sprachdaten in eine
Spracherkennungsvorrichtung (19, 20) und Durchführen eines
Segnentierungsvorgangs an den eingegebenen Sprachdaten derart, daß jedes
Segment ein Phonem aufweist,
Klassifizieren (S5) jedes derart erzeugten Segments in
Abhängigkeit von dessen Phonem,
Auswählen eines bei jedem Segment anzuwendenden
geeigneten Erkennungsverfahrens aus einer Vielzahl von
Erkennungsverfahren im Ansprechen auf die Klassifizierung des Segments
(S5),
Erkennen (S6, S8, S10) jedes Segments unter Verwendung
des für das Segment ausgewählten Erkennungsverfahrens und
Spezifizieren eines Erkennungsergebnisses und eines
Ähnlichkeitswerts jedes durch den Erkennungsschritt erhaltenen
Erkennungsergebnisses,
gekennzeichnet durch
Umwandeln des durch jedes Erkennungsverfahren erhaltenen
Ähnlichkeitswerts in einen Einheitsbereichswert und
Verwenden der Einheitsbereichswerte bei einem
dynamischen Programmiervorgang zur Erzeugung einer
Erkennungsausgabe.
2. Verfahren nach Anspruch 1,
gekennzeichnet durch
Auswählen von Worten aus einem Wortverzeichnis, die in
dem Wortverzeichnis gespeichert sind, deren Phoneme
klassifiziert worden sind, und
Anpassen der aus den eingegebenen Sprachdaten erhaltenen
normalisierten Werte an die ausgewählten Worte.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet, daß
die Erkennungsverfahren die Erkennung eines Vokals, die
Erkennung eines Konsonanten und die Erkennung anderer Phoneme
aufweisen.
4. Spracherkennungsvorrichtung mit
einer Einrichtung (19) zur Durchführung eines
Segmentierungsvorgangs an eingegebenen Sprachdaten derart, daß jedes
Segment ein Phonem aufweist,
einer Vielzahl von Einrichtungen (19, 20, 21) zur
Zuweisung verschiedener Klassifizierungen an aus dem
Segementierungsvorgang hergeleiteten Segmenten in Abhängigkeit von den
Phonemen der Segmente,
einer Vielzahl von Erkennungseinrichtungen (20, 23, 21)
jeweils zur Ausführung einer unterschiedlichen
Erkennungsverarbeitung an einem Segment,
einer Einrichtung zur Übertragung jedes Segments zu
einer ausgewählten Erkennungseinrichtung entsprechend der
Klassifizierung des Segments, um einen Ahnlichkeitswert für das
Segment zu erzeugen,
gekennzeichnet durch
eine Einrichtung zur Normalisierung der aus den
Erkennungseinrichtungen ausgegebenen Ahnlichkeitswerte zu
Einheitsbereichswerten, und
eine dynamische Programmiereinrichtung zur Verarbeitung
der normalisierten Werte und zur Erzeugung einer
Erkennungsausgabe.
5. Vorrichtung nach Anspruch 4,
gekennzeichnet durch
ein Wortverzeichnis (22) in dem Worte gespeichert sind, deren
Phoneme klassifiziert worden sind, und
eine Einrichtung (20) zur Auswahl der Worte aus dem
Wortverzeichnis und zum Anpassen der normalisierten
Erkennungsergebnisse an die ausgewählten Worte.
6. Vorrichtung nach Anspruch 4 oder 5,
dadurch gekennzeichnet, daß
die Erkennungseinrichtung eine Einrichtung zur Erkennung von
Vokalen, eine Einrichtung zur Erkennung von Konsonanten und
eine Einrichtung zu Erkennung anderer Phoneme aufweist.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1013098A JPH02195400A (ja) | 1989-01-24 | 1989-01-24 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69031284D1 DE69031284D1 (de) | 1997-09-25 |
DE69031284T2 true DE69031284T2 (de) | 1998-01-08 |
Family
ID=11823676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69031284T Expired - Fee Related DE69031284T2 (de) | 1989-01-24 | 1990-01-23 | Verfahren und Einrichtung zur Spracherkennung |
Country Status (4)
Country | Link |
---|---|
US (1) | US5893058A (de) |
EP (1) | EP0380297B1 (de) |
JP (1) | JPH02195400A (de) |
DE (1) | DE69031284T2 (de) |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2107317A1 (en) * | 1992-10-30 | 1994-05-01 | Rajendra Prasad Mikkilineni | Speech recognition system |
ES2078834B1 (es) * | 1992-10-30 | 1997-04-16 | Alcatel Standard Electrica | Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas. |
EP0838073B1 (de) * | 1995-05-26 | 2002-07-24 | Speechworks International, Inc. | Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz |
JP3584458B2 (ja) * | 1997-10-31 | 2004-11-04 | ソニー株式会社 | パターン認識装置およびパターン認識方法 |
JPH11184491A (ja) * | 1997-12-18 | 1999-07-09 | Ricoh Co Ltd | 音声認識装置 |
US6148284A (en) * | 1998-02-23 | 2000-11-14 | At&T Corporation | Method and apparatus for automatic speech recognition using Markov processes on curves |
JP3075250B2 (ja) * | 1998-03-04 | 2000-08-14 | 日本電気株式会社 | 話者認識方法及び装置 |
CN1256700C (zh) * | 1998-06-23 | 2006-05-17 | 英泰利克斯公司 | 基于n元组或随机存取存储器的神经网络分类系统和方法 |
DE19834321A1 (de) * | 1998-07-30 | 2000-02-03 | Alcatel Sa | Verfahren, Endgerät, Knoten, Programmodul und Bedienoberfläche zur Ermittlung von für eine Kommunikationsbeziehung erforderlichen Merkmalen |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
US6223319B1 (en) * | 1998-08-20 | 2001-04-24 | General Electric Company | Turbo code decoder with controlled probability estimate feedback |
EP1863013B1 (de) * | 1998-10-09 | 2013-01-02 | Sony Corporation | Normalisierung von Vektor-Codebuch Daten zwecks audio-visueller Spracherkennung |
KR100277694B1 (ko) * | 1998-11-11 | 2001-01-15 | 정선종 | 음성인식시스템에서의 발음사전 자동생성 방법 |
US6321200B1 (en) * | 1999-07-02 | 2001-11-20 | Mitsubish Electric Research Laboratories, Inc | Method for extracting features from a mixture of signals |
US6374216B1 (en) * | 1999-09-27 | 2002-04-16 | International Business Machines Corporation | Penalized maximum likelihood estimation methods, the baum welch algorithm and diagonal balancing of symmetric matrices for the training of acoustic models in speech recognition |
JP2001117579A (ja) * | 1999-10-21 | 2001-04-27 | Casio Comput Co Ltd | 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体 |
EP1232495A2 (de) * | 1999-10-28 | 2002-08-21 | AT&T Corp. | Neuralen netzwerken für detektion von phonetischen merkmalen |
AU1767200A (en) * | 1999-12-23 | 2001-07-09 | Intel Architecture Development Shanghai Co., Ltd. | A global approach for segmenting characters into words |
US7318032B1 (en) * | 2000-06-13 | 2008-01-08 | International Business Machines Corporation | Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique |
JP3342864B2 (ja) * | 2000-09-13 | 2002-11-11 | 株式会社エントロピーソフトウェア研究所 | 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法 |
JP2002099916A (ja) * | 2000-09-25 | 2002-04-05 | Olympus Optical Co Ltd | パターン分類方法及びその装置、コンピュータにより読み取り可能な記憶媒体 |
CA2433999A1 (en) * | 2000-11-30 | 2002-06-06 | Yang Ming Pok | Neural cortex |
US7113637B2 (en) * | 2001-08-24 | 2006-09-26 | Industrial Technology Research Institute | Apparatus and methods for pattern recognition based on transform aggregation |
JP3673507B2 (ja) * | 2002-05-16 | 2005-07-20 | 独立行政法人科学技術振興機構 | 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム |
US7356466B2 (en) * | 2002-06-28 | 2008-04-08 | Samsung Electronics Co., Ltd. | Method and apparatus for performing observation probability calculations |
JP4178319B2 (ja) * | 2002-09-13 | 2008-11-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声処理におけるフェーズ・アライメント |
US7617104B2 (en) * | 2003-01-21 | 2009-11-10 | Microsoft Corporation | Method of speech recognition using hidden trajectory Hidden Markov Models |
TWI226600B (en) * | 2003-03-12 | 2005-01-11 | Leadtek Research Inc | Nasal detection method and device thereof |
JP4194433B2 (ja) * | 2003-07-07 | 2008-12-10 | キヤノン株式会社 | 尤度算出装置および方法 |
US7650282B1 (en) * | 2003-07-23 | 2010-01-19 | Nexidia Inc. | Word spotting score normalization |
US7664642B2 (en) * | 2004-03-17 | 2010-02-16 | University Of Maryland | System and method for automatic speech recognition from phonetic features and acoustic landmarks |
JP2006105943A (ja) * | 2004-10-08 | 2006-04-20 | Omron Corp | 知識作成装置及びパラメータ探索方法並びにプログラム製品 |
US7627537B2 (en) * | 2004-10-28 | 2009-12-01 | Intel Corporation | Score result reuse for Bayesian network structure learning |
US7870081B2 (en) * | 2004-12-31 | 2011-01-11 | Intel Corporation | Parallelization of bayesian network structure learning |
US8694317B2 (en) * | 2005-02-05 | 2014-04-08 | Aurix Limited | Methods and apparatus relating to searching of spoken audio data |
TWI277947B (en) * | 2005-09-14 | 2007-04-01 | Delta Electronics Inc | Interactive speech correcting method |
WO2007046267A1 (ja) * | 2005-10-20 | 2007-04-26 | Nec Corporation | 音声判別システム、音声判別方法及び音声判別用プログラム |
KR100717393B1 (ko) * | 2006-02-09 | 2007-05-11 | 삼성전자주식회사 | 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치 |
US20070239444A1 (en) * | 2006-03-29 | 2007-10-11 | Motorola, Inc. | Voice signal perturbation for speech recognition |
WO2007143109A2 (en) * | 2006-06-02 | 2007-12-13 | Telcordia Technologies, Inc. | Concept based cross media indexing and retrieval of speech documents |
US7447723B2 (en) * | 2006-11-28 | 2008-11-04 | International Business Machine Corporation | Method for fast relevance discovery in time series |
US20080243503A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Minimum divergence based discriminative training for pattern recognition |
DE102007030209A1 (de) * | 2007-06-27 | 2009-01-08 | Siemens Audiologische Technik Gmbh | Glättungsverfahren |
WO2009107411A1 (ja) * | 2008-02-28 | 2009-09-03 | 日本電気株式会社 | 音声認識装置、音声認識方法、及び、音声認識プログラムが記録された記録媒体 |
US8160866B2 (en) * | 2008-04-18 | 2012-04-17 | Tze Fen Li | Speech recognition method for both english and chinese |
ATE449400T1 (de) * | 2008-09-03 | 2009-12-15 | Svox Ag | Sprachsynthese mit dynamischen einschränkungen |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US10311865B2 (en) * | 2013-10-14 | 2019-06-04 | The Penn State Research Foundation | System and method for automated speech recognition |
US10115394B2 (en) | 2014-07-08 | 2018-10-30 | Mitsubishi Electric Corporation | Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
JP6509694B2 (ja) * | 2015-09-15 | 2019-05-08 | 株式会社東芝 | 学習装置、音声検出装置、学習方法およびプログラム |
US10366158B2 (en) * | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10522169B2 (en) * | 2016-09-23 | 2019-12-31 | Trustees Of The California State University | Classification of teaching based upon sound amplitude |
JP6618884B2 (ja) * | 2016-11-17 | 2019-12-11 | 株式会社東芝 | 認識装置、認識方法およびプログラム |
KR102017244B1 (ko) * | 2017-02-27 | 2019-10-21 | 한국전자통신연구원 | 자연어 인식 성능 개선 방법 및 장치 |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
SG10201809737UA (en) * | 2018-11-01 | 2020-06-29 | Rakuten Inc | Information processing device, information processing method, and program |
JP7192492B2 (ja) * | 2018-12-27 | 2022-12-20 | 富士通株式会社 | 学習装置、学習方法および学習プログラム |
CN112599118B (zh) * | 2020-12-30 | 2024-02-13 | 中国科学技术大学 | 语音识别方法、装置、电子设备和存储介质 |
US11699430B2 (en) * | 2021-04-30 | 2023-07-11 | International Business Machines Corporation | Using speech to text data in training text to speech models |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS4912778B1 (de) * | 1969-11-05 | 1974-03-27 | ||
JPS58105295A (ja) * | 1981-12-18 | 1983-06-23 | 株式会社日立製作所 | 音声標準パタン作成方法 |
US4509186A (en) * | 1981-12-31 | 1985-04-02 | Matsushita Electric Works, Ltd. | Method and apparatus for speech message recognition |
JPS58130396A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
JPS5972496A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 単音識別装置 |
US4817159A (en) * | 1983-06-02 | 1989-03-28 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
JPS59226400A (ja) * | 1983-06-07 | 1984-12-19 | 松下電器産業株式会社 | 音声認識装置 |
US4852181A (en) * | 1985-09-26 | 1989-07-25 | Oki Electric Industry Co., Ltd. | Speech recognition for recognizing the catagory of an input speech pattern |
US4856067A (en) * | 1986-08-21 | 1989-08-08 | Oki Electric Industry Co., Ltd. | Speech recognition system wherein the consonantal characteristics of input utterances are extracted |
US4852170A (en) * | 1986-12-18 | 1989-07-25 | R & D Associates | Real time computer speech recognition system |
-
1989
- 1989-01-24 JP JP1013098A patent/JPH02195400A/ja active Pending
-
1990
- 1990-01-23 DE DE69031284T patent/DE69031284T2/de not_active Expired - Fee Related
- 1990-01-23 EP EP90300693A patent/EP0380297B1/de not_active Expired - Lifetime
-
1994
- 1994-11-14 US US08/340,468 patent/US5893058A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0380297A3 (de) | 1991-03-27 |
EP0380297B1 (de) | 1997-08-20 |
DE69031284D1 (de) | 1997-09-25 |
EP0380297A2 (de) | 1990-08-01 |
US5893058A (en) | 1999-04-06 |
JPH02195400A (ja) | 1990-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69031284T2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69131689T2 (de) | Gleichzeitige sprecherunabhängige sprachererkennung und sprecherverifikation über einen fernsprechnetz | |
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
EP0821346B1 (de) | Verfahren zur Sprecherverifikation durch einen Rechner anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals | |
DE69421911T2 (de) | Spracherkennung mit pausedetektion | |
DE602006000090T2 (de) | Konfidenzmaß für ein Sprachdialogsystem | |
DE102008017993B4 (de) | Sprachsuchvorrichtung | |
DE69519297T2 (de) | Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE69619442T2 (de) | Verifizierung einer Sprachäusserung für die Erkennung einer Folge von Wörtern mittels wortbezogenem Training zur Minimierung des Verifizierungsfehlers | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE20004416U1 (de) | Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme | |
DE60034772T2 (de) | Zurückweisungsverfahren in der spracherkennung | |
DE10119284A1 (de) | Verfahren und System zum Training von jeweils genau einer Realisierungsvariante eines Inventarmusters zugeordneten Parametern eines Mustererkennungssystems | |
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
DE68914032T2 (de) | Spracherkennungssystem. | |
DE4322372A1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69026474T2 (de) | System zur Spracherkennung | |
EP0965088B1 (de) | Sichere identifikation mit vorauswahl und rückweisungsklasse | |
EP0817167B1 (de) | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens | |
DE102007042971A1 (de) | Spracherkennungsverfahren und Spracherkennungsvorrichtung | |
DE69621674T2 (de) | Trainingssystem für Referenzmuster und dieses Trainingssystem benutzendes Spracherkennungssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |