DE69127961T2 - Verfahren zur Spracherkennung - Google Patents
Verfahren zur SpracherkennungInfo
- Publication number
- DE69127961T2 DE69127961T2 DE69127961T DE69127961T DE69127961T2 DE 69127961 T2 DE69127961 T2 DE 69127961T2 DE 69127961 T DE69127961 T DE 69127961T DE 69127961 T DE69127961 T DE 69127961T DE 69127961 T2 DE69127961 T2 DE 69127961T2
- Authority
- DE
- Germany
- Prior art keywords
- similarities
- similarity
- vectors
- speech
- input language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 83
- 239000013598 vector Substances 0.000 claims description 597
- 238000012545 processing Methods 0.000 claims description 135
- 239000012634 fragment Substances 0.000 claims description 119
- 230000002123 temporal effect Effects 0.000 claims description 90
- 230000006870 function Effects 0.000 claims description 41
- 230000008859 change Effects 0.000 claims description 19
- 230000005540 biological transmission Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims 2
- 238000004364 calculation method Methods 0.000 description 94
- 238000010606 normalization Methods 0.000 description 28
- 238000010586 diagram Methods 0.000 description 27
- 238000000605 extraction Methods 0.000 description 19
- 238000013461 design Methods 0.000 description 15
- 230000007704 transition Effects 0.000 description 15
- 238000002474 experimental method Methods 0.000 description 13
- 238000012935 Averaging Methods 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 7
- 238000012360 testing method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
- Die Erfindung bezieht sich auf ein Verfahren zur Erkennung von von einem unbestimmten Sprecher erzeugter Sprache.
- Einige Verfahren zur Spracherkennung verwenden eine Wortabhör- und bzw. -entdeckungstechnik. T.Kimura et al veröffentlichten "A Telephone Speech Recognition System Using Word Spotting Technique Based on Statistical Measure", Proc. of ICASSP, Dallas, Seiten 1175-1178, 1987. S. Hiraoka et al veröffentlichten "A Small Vocabulary Speech Recognizer for Unspecified Speaker Using Word-Spotting Technique", The Japanese Society of Electronics, Information and Communications, SP88-18, 1988.
- Gemäß der Veröffentlichung von S. Hiraoka et al, wurde ein sprecherunabhängiges Spracherkennungsverfahren entwickelt, das relativ immun gegen Rauschen ist. Das Erkennungsverfahren mit der Bezeichnung CLM (Continuous Linear Compression/Expansion Matching (fortwährender linearer Kompression/Ausdehungsvergleich bzw. -anpassung)) verwendet eine Wortabhör- bzw. -technik. Die Wortabhörtechnik wird mittels eines neuen Zeitnormierungsalgorithmus auf der Grundlage eines linearen Zeitverzerrungsmustervergleichsverfahrens durchgeführt. Eine Worterkennung wurde unter Verwendung einer Zehnzahlen- Datenbasis von 240 Personen durchgeführt, die über eine Telephonleitung gesammelt wurden. Die sich ergebende Worterkennungsquote betrug 96,4%. Bei der praktischen Anwendung betrug die Erkennungsquote 95,9%.
- Bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al wird unbekannte eingegebene Sprache mit vorbestimmten Standardmustern voreingestellter Worte (Erkennungsobjekt-Worte) verglichen, um ein Spracherkennungsergebnis auszudatenübertragungsblocken. Die Standardmuster werden auf der Grundlage von Daten von von vielen Sprechern gesprochenen Erkennungsobjekt- Worten erzeugt. Während der Erzeugung der Standardmuster werden Signale von gesprochenen Worten veranschaulicht und aus den veranschaulichten Signalen werden Sprachintervalle extrahiert. Signalkomponenten in den Sprachintervallen werden statistisch verarbeitet, um die Standardmuster zu Datenübertragungsblocken.
- Bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al wird ein Wortwörterbuch für einen unbestimmten Sprecher, das Standardmuster von Erkennungsobjekt-Worten enthält, durch Verwendung von von vielen, beispielsweise 330 Sprechern, erhaltenen Sprachdaten. Insbesondere erzeugen die Sprecher japanische Worte, die Zahlen von 1 bis 10 darstellen, und die erzeugten japanischen Worte werden in Sprachdaten umgewandelt. Die Sprachdaten werden in spektralen Signalverläufen veranschaulicht und Sprachintervalle werden mit Beobachtung unter Verwendung menschlicher Augen extrahiert. Jedes Sprachintervall wird in Einheitsanalyse-Zeitmaße aufgeteilt. Merkmalsparameter (linerare Vorhersage-Koeffizienten LPC Cepstrum-Koeffizienten) der Sprachdaten werden für jedes Einheitsanalyse-Zeitmaß abgeleitet. Die Merkmalsparameter für die jeweiligen Einheitsanalyse-Zeitmaße werden in einer zeitlichen Abfolge angeordnet. Die Intervalle der durch zeitliche Abfolgen von Herkmalsparametern dargestellten Sprachdaten werden auf ein voreingestelltes Sparchzeitmaß, das sich von Wort zu Wort verändert, komprimiert oder expandiert. Die Absolutwerte der sich ergebenden Sprachdaten werden zur Erzeugung eines Standardmusters jedes Erkennungsobjekt-Worts verwendet.
- Die herkömmliche Spracherkennung gemäß S. Hiraoka et al besitzt die folgenden Probleme. Erstens waren viele verschiedene Sprecher erforderlich, um ein zuverlässiges Wortwörterbuch zu erzeugen, das Standardmuster von Erkennungsobjekt-Worten enthält. Zweitens war es mühsam, Erkennungsobjekt-Worte zu verändern.
- Es ist eine Aufgabe der Erfindung, ein verbessertes Verfahren zur Spracherkennung auszuDatenübertragungsblocken.
- Ein erster Gesichtspunkt der Erfindung erzeugt ein Verfahren zur Spracherkennung, das die Schritte Erzeugen von "m" Merkmalsparametern für jeden Datenübertragungsblock aus der Bezugssprache, die von zumindest einem Sprecher gesprochen wurde und Erkennungsobjekt-Worte darstellt, wobei "m" einen voreingestellten Integerwert bezeichnet, vorher Erzeugen von "n" Typen von Standardmustern auf der Grundlage von Sprachdaten einer Vielzahl von Sprechern, wobei "n" einen voreingestellten Integerwert bezeichnet, Ausführen eines Vergleichs zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster, und Erzeugen eines Vektors mit "n" Bezugsähnlichkeiten zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster für jedes Datenübertragungsblock, Erzeugen von zeitlichen Abfolgen der Bezugsähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcke, wobei die Bezugsähnlichkeitsvektorabfolgen jeweils den Erkennungsobjekt-Worten entsprechen, vorher Registrieren der Bezugähnlichkeitsvektorabfolgen als Wörterbuchähnlichkeitsvektorabfolgen, Analysieren der zu erkennenden Eingabesprache und Erzeugen von "m" Merkmalsparametern aus der Eingabesprache, Ausführen eines Vergleichs zwischen den Merkmalsparametern der Eingabesprache und den Standardmustern und Erzeugen eines Vektors von "n" Eingabesprachähnlichkeiten zwischen den Merkmalsparametern der Eingabesprache und der Standardmuster für jeden Datenübertragungsblock, Erzeugen einer zeitlichen Abfolge der Eingabesprachähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcke und Vergleichen der Eingabesprachähnlichkeitsvektorabfolge mit den Wörterbuchähnlichkeitsvektorabfolgen zur Erkennung der Eingabesprache.
- Eine zweiter Gesichtspunkt der Erfindung bildet ein Verfahren zur Spracherkennung aus, das die Schritte vorher Einstellen eines Satzes von Worten unter Berücksichtigung von phonetischen Umgebungen, zumindest einen Sprecher den Wortsatz sprechen lassen und Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock, vorher Erzeugen von "n" Typen von Standardmustern aus den von vielen Sprechern erzeugten Sprachdaten, Ausführen eines Vergleichs zwischen den Merkmalsparametern und jedem der Standardmuster zum Erhalten eines Vektors von "n" Ähnlichkeiten für jeden Datenübertragungsblock, Extrahieren von Sprachfragmenten aus dem zeitlichen Abfolgemuster und Registrieren der Sprachfragmente als ein Sprachfragmentwörterbuch, Erzeugen einer Verbindungsabfolge der Sprachfragmente oder eines zeitlichen Abfolgemusters von Ähnlichkeitsvektoren für jedes der Spracherkennungsobjekt-Worte, wobei das zeitliche Abfolgemuster der Ähnlichkeitsvektoren durch Kombinieren der Sprachfragmente in dem Sprachfragmentwörterbuch erzeugt wird, Speichern der Verbindungsabfolge der Sprachfragmente oder des zeitlichen Abfolgemusters der Ähnlichkeitsvektoren in einem Erkennungsobjektwörterbuch für jedes der Erkennungsobjekt-Worte, Analysieren der Eingabesprache zum Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock, Ausführen eines Vergleichs zwischen den Eingabesprachmerkmalsparametern und jedem der Standardmuster zum Erhalten einer zeitlichen Abfolge von Vektoren von "n" Ähnlichkeiten und Vergleichen der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die in jeweiligen Punkten des Erkennungsobjekt-Wörterbuchs registriert sind, um die Eingabesprache zu erkennen, oder Vergleichen der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die entsprechend der Verbindungsabfolgen der Sprachfragmente erzeugt werden, um die Eingabesprache zu erkennen.
- Es zeigen:
- Fig. 1 ein Blockschaltbild eines Spracherkennungssystems, das ein Verfahren gemäß einem ersten erfindungsgemäßen Ausführungsbeispiel ausführt,
- Fig. 2 eine Darstellung, die den Ablauf von Funktionen in dem ersten Ausführungsbeispiel zeigt,
- Fig. 3 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlichkeiten in dem ersten Ausführungsbeispiel zeigt,
- Fig. 4 eine Darstellung, die die zeitliche Beziehung zwischen einer ersten Sprache und einer zweiten Sprache, die von einem ersten bzw. einem zweiten Sprecher erzeugt werden, zeigt,
- Fig. 5 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem dritten erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 6 eine Darstellung, die Ähnlichkeiten von jeweiligen Datenübertragungsblöcken und eine gerade Linie entsprechend einem Ähnlichkeitsregressionskoeffizienten eines Datenübertragungsblocks in dem dritten Ausführungsbeispiel zeigt,
- Fig. 7 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem vierten erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 8 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlichkeiten in dem vierten Ausführungsbeispiel zeigt,
- Fig. 9 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlickeiten, die der Ähnlichkeitsvektorabfolge gemäß Fig. 8 entspricht, zeigt,
- Fig. 10 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem sechsten erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 11 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem siebenten erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 12 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem achten erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 13 ist ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "asahi" und Konsonanten-Vokal- und Vokal-Konsonant-Fragmente der Sprache im achten Ausführungsbeispiel zeigt,
- Fig. 14 ist ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "sake" und eine Konsonant- Vokal- und Vokal-Konsonant-Fragmente der Sprache im achten Ausführungsbeispiel zeigt,
- Fig. 15 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem neunten erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 16 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem zehnten erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 17 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "asahi" und Konsonant-Vokal- und Vokal- Konsonant-Fragmente der Sprache in dem zehnten Ausführungsbeispiel zeigt,
- Fig. 18 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "sake" und Konsonanten-Vokal- und Vokal-Konsonant-Fragmente der Sprache in dem zehnten Ausführungsbeispiel zeigt,
- Fig. 19 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "paaku" und Konsonant-Vokal- und Vokal- Konsonant-Fragmente der Sprache im zehnten Ausführungsbeispiel zeigt,
- Fig. 20 ist eine Darstellung, die die zeitliche Beziehung zwischen einem ersten Sprachfragment und einem zweiten Sprachfragment, die von einem ersten bzw. einem zweiten Sprecher erzeugt wurden, zeigt,
- Fig. 21 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungssystem gemäß einem elften erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 22 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsystem gemäß einem zwölften erfindungsgemäßen Ausführungsbeispiel zeigt,
- Fig. 23 eine Darstellung, die dynamische Programmierungs(DP)-Pfade in dem zwölften Ausführungsbeispiel zeigt,
- Fig. 24 eine Darstellung, die dynamische Programmierungs(DP)-Pfade in dem zwölften Ausführungsbeispiel zeigt,
- Fig. 25 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem dreizehnten Ausführungsbeispiel zeigt,
- Fig. 26 eine Darstellung, die eine Veränderung in einem Mischverhältnis in dem dreizehnten Ausführungsbeispiel zeigt, und
- Fig. 27 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem vierzehnten erfindungsgemäßen Ausführungsbeispiel zeigt.
- Fig. 1 zeigt ein Spracherkennungssystem, das ein Spracherkennungsverfahren gemäß einem ersten erfindungsgemäßen Ausführungsbeispiel ausführt. Wie in Fig. 1 gezeigt, enthält das Spracherkennungssystem eine Meßwandlereinrichtung 91 und einen Systemhauptteil 92. Der Systemhauptteil 92 enthält einen Mikrocomputer, eine Digitalsignalverarbeitungseinrichtung oder eine ähnliche Einrichtung, die eine Kombination einer Zentraleinheit (CPU) 93, einer Nur-Lese-Speichereinrichtung (ROM) 94, einer Schreib/Lese-Speichereinrichtung (RAM) 95 und eines Eingabe/Ausgabe (I/O)-Abschnitts 96 besitzt.
- Die von einem Sprecher erzeugte Sprache wird mittels der Meßwandlereinrichtung 91 in ein entsprechendes elektrisches Sprachsignal umgewandelt. Das Sprachsignal wird in den Systemhauptteil 92 eingegeben, wobei es durch den Systemhauptteil 92 einer Spracherkennungsverarbeitung unterzogen wird. Der Systemhauptteil 92 gibt ein Signal aus, das das Ergebnis der Erkennung der Eingabesprache bzw. eingegebenen Sprache darstellt.
- Insbesondere wird das Sprachsignal von der Meßwandlereinrichtung 91 zu dem Eingabe/Ausgabe-Abschnitt 96 des Systemhauptteils 92 übertragen. Der Eingabe/Ausgabe-Abschnitt 96 enthält eine Analog/Digital-Wandlereinrichtung, die das Sprachsignal digitalisiert. Das sich ergebende digitale Sprachsignal wird in dem Systemhauptteil 92 verarbeitet. Das Signal, das das Ergebnis der Erkennung der Eingabesprache darstellt, wird von dem Eingabe/Ausgabe-Abschnitt 96 ausgegeben.
- Der Systemhauptteil 92 funktioniert entsprechend einem in der Nur-Lese-Speichereinrichtung 94 gespeicherten Programm. Das Programm ist derart entworfen, daß es die Spracherkennungsverarbeitung beim Eingabesprachsignal ausführt.
- Auf dem Gebiet von Erfindungen, die sich auf Spracherkennungssysteme beziehen, ist es eine allgemeine Praxis, die Inhalte der Erfindungen zum einfachen Verständnis der Erfindungen unter Bezugnahme auf Diagramme des Ablaufs von Funktionen zu erklären. Es ist zu beachten, daß derartige Funktionsflußdiagramme die Hardwarestrukturen nicht direkt zeigen. Fig. 2 ist ein Funktionsflußdiagramm des Spracherkennungssystems.
- Wie in Fig. 2 gezeigt, enthält das Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, eine Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6 und einen Erkennungsabschnitt 7.
- Eine Eingabesprachsignal wird in Zeitsegmente unterteilt, die als Datenübertragungsblöcke bezeichnet werden, die eine vorbestimmte Periode besitzen, beispielsweise 10 ms. Das Eingabesprachsignal wird Datenübertragungsblock für Datenübertragungsblock verarbeitet. Der Sprachanalyseabschnitt 1 empfängt das Eingabesprachsignal, analysiert das Eingabesprachsignal und leitet für jeden Datenübertragungsblock lineare Vorhersagekoeffizienten (LPC) ab. Der Merkmalsparameterextraktionsabschnitt 2, der dem Sprachanalyseabschnitt 1 folgt, berechnet Merkmalsparameter und insbesondere lineare Vorhersagekoeffizienten-Cepstrum-Koeffizienten c&sub0;, c&sub1;, c&sub2;, ..., c&sub8; aus den linearen Vorhersagekoeffizienten. Die linearen Vorhersagekoeffizienten-Cepstrum-Koeffizienten werden von dem Mermalsparameterextraktionsabschnitt 2 zu dem Ähnlichkeitsberechnungsabschnitt 3 zugeführt.
- Der Standardmusterspeicherabschnitt 4 speichert Standardmuster von 20 verschiedenen Phonemen. Die Phonemstandardmuster werden von dem Standardmusterspeicherabschnitt 4 zu dem Ähnlichkeitsberechnungsabschnitt 3 zugeführt. Die Phonemstandardmuster werden auf der Grundlage von von einer Vielzahl von Sprechern erzeugten Sprachdaten vorbestimmt. Die Phonemstandardmuster sind von den Standardmustern bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al sehr verschieden. Insbesondere beziehen sich die Phonemstandardmuster auf voreingestellte Phoneme, die im allgemeinen unabhängig von Erkennungsobjekt- Worten sind, wohingegen die Standardmuster bei der herkömmlichen Spracherkennung jeweils Erkennungsobjekt-Worten entsprechen. In dem Fall, in dem Erkennungsobjekt-Worte verändert werden, ist es unnötig, die Phonemstandardmuster zu verändern, aber die Standardmuster bei der herkömmlichen Spracherkennung müssen verändert werden. Die Phonemstandardmuster werden auf der Grundlage von von einer großen Anzahl von Sprechern erhaltenen Sprachdaten erzeugt. Bei der herkömmlichen Spracherkennung ist auch eine große Anzahl von Sprechern notwendig, um zuverlässige Standardmuster zu erzeugen.
- Die 20 verschiedenen Phoneme sind /a/, /o/, /u/, /l/, /e/, /j/, /w/, /m/, /n/, /η/, /b/, /d/, /r/, /z/, /h/, /s/, /c/, /p/, /t/ und /k/. Die Phonemstandardmuster werden durch sichtbar machen bzw. veranschaulichen von Sprachsignalen, die die jeweiligen Phoneme darstellen, erzeugt, wobei die Merkmalsteile der jeweiligen Phoneme durch Beobachtung unter Verwendung der Augen (die Merkmalsteile der jeweiligen Phoneme sind gleich den zeitlichen Positionen oder Datenübertragungsblökken, die die Merkmale der Phoneme gut darstellen) und unter Verwendung zeitlicher Muster von Merkmalsparametern von Datenübertragungsblöcken, die an den Merkmalsbildern bzw. Merkmalsdatenübertragungsblöcken zentriert sind, genau erfaßt.
- Insbesondere werden im Hinblick auf jedes der Phoneme zeitliche Muster jeweils aus einer Vielzahl von Teilen von Sprachdaten extrahiert. Jedes zeitliche Muster verwendet eine Merkmalsparameterabfolge x, die aus einer linearen oder eindimensionalen Anordnung von linearen Vorhersagekoeffizienten(LPC)-Cepstrum-Koeffizienten c&sub0;, c&sub1;, c&sub2;, ..., c&sub8; in 12 Datenübertragungsblöcken mit 8 Datenübertragungsblöcken vorhergehend einem Merkmalsdatenübertragungsblock, dem Merkmalsdatenübertragungsblock und 3 Datenübertragungsblöcken folgend dem Merkmalsdatenübertragungsblock besteht. Die Merkmalsparameterabfolge x wird wie folgt ausgedrückt.
- wobei jede Hochstellung eine Datenübertragungsblockordnungszahl und somit ci(k) den i-ten linearen Vorhersagekoeffizienten (LPC)-Cepstrum-Koeffizienten in dem k-ten Datenübertragungsblock bezeichnet. Berechnungen werden von einem Vektor µ von Mittelwerten der jeweiligen Elemente der extrahierten Merkmalsparameterabfolgen und einer Kovarianzmatrix Σ zwischen den Elementen gegeben. Der Mittelwertvektor µ und die Kovarianzmatrix Σ Datenübertragungsblocken ein Standardmuster des bezüglichen Phonems. Der Mittelwertvektor µ wird wie folgt ausgedrückt.
- Auf diesem Weg verwendet jedes Phonemstandardmuster Merkmalsparameter in einer Vielzahl von Datenübertragungsblöcken. Somit wird das Phonemstandardmuster unter Berücksichtigung von Zeitbereichsveränderungen der Merkmalsparameter erzeugt.
- Der Ähnlichkeitsberechnungsabschnitt 3 berechnet die Ähnlichkeiten zwischen den Merkmalsparametern (die linearen Vorhersagekoeffizienten (LPC)-Cepstrum-Koeffizienten) der Eingabesprache und die Standardmuster der 20 Phoneme für jeden Datenübertragungsblock. Die Berechnung der Ähnlichkeiten wird nachfolgend genau beschrieben. Maharanobis's Abstand dp für die Berechnung der Ähnlichkeit zwischen der Eingabesprachmerkmalsparameterabfolge x und dem Standardmuster µp eines Phonems "p" wird wie folgt ausgedrückt.
- wobei die Hochstellung "t" einen transponierten Vektor bezeichnet. Wenn die Kovarianzmatrizen Σp allen Phonemen gemeinsam sind, wird Gleichung (3) wie folgt vereinfacht.
- wobei Σ die gemeinsame Kovarianzmatrix bezeichnet. Die Gleichungen (4) werden bei der Ähnlichkeitsberechnung verwendet. In den Gleichungen (4) stellen ap und bp das Standardmuster des Phonems "p" dar.
- Der Parameterabfolgeerzeugungsabschnitt 5 empfängt aufeinanderfolgend die Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Ähnlichkeitsvektorabfolge (die als die Eingabespracheähnlichkeitsvektorabfolge bezeichnet wird) wird dem Erkennungsabschnitt 7 zugeführt.
- Fig. 3 zeigt ein Beispiel für die Ähnlichkeitsvektorabfolge, die im Hinblick auf die Eingabesprache, die ein japanisches Wort "akai" darstellt, erhalten wird. In Fig. 3 entspricht die Abszisse einer Zeitrichtung und die Ordinate bezeichnet die an jeweiligen Zeitsegmenten (Datenübertragungsblöcken) erhaltenen Ähnlichkeiten. Im Hinblick auf das Standardmuster des Phonems /a/ wird der Vergleich zwischen der Eingabesprache und dem Standardmuster jedesmal durchgeführt, wenn die Eingabesprache um einen Datenübertragungsblock verschoben wird und somit wird eine Abfolge von Ähnlichkeiten erhalten. Im in Fig. 3 gezeigten Beispiel ist die erhaltene Ähnlichkeitsabfolge "40, 46, 68, 74, 60, ..., 10, 14, 16". Eine derartige Ähnlichkeitsabfolge wird für jedes der anderen 19 Phoneme auf eine ähnliche Weise erhalten. In Fig. 3 wird ein Ähnlichkeitsvektor durch den schraffierten Bereich bezeichnet.
- Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen enthält, die jeweils den Erkennungsobjekt-Worten entsprechen. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6 dem Erkennungsabschnitt 7 zugeführt. Jede Bezugsähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format der Eingabesprachähnlichkeitsvektorabfolge gemäß Fig. 30. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt.
- Der Erkennungsabschnitt 7 führt den Vergleich zwischen der Eingabesprachähnlichkeitsvektorabfolge und der Bezugsähnlichkeitsvektorabfolge durch und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils den Erkennungsobjekt-Worten.Der Erkennungsabschnitt 7 wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programierungs(DP)-Vergleichstechnik, die sich auf die folgende Rekursionsformel bezieht.
- wobei max den Operator zur Auswahl des Maximums von Elementen folgend auf das Operatorzeichen, l(i,j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge mit einer Länge von I Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsähnlichkeitsvektorabfolge mit einer Länge von J Datenübertragungsblöcken und g(i, j) die akkumulative Ähnlichkeit in Bezug auf den i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge und den j-ten Datenübertragungsblock der Bezugsähnlichkeitsvektorabfolge bezeichnet.
- Das Abstandsmaß der Abstandsfunktion l(i,j) kann das euklidische Abstandsmaß, das gewichtete euklidische Abstandsmaß, das Korrelationskosinusabstandsmaß oder andere verwenden. In dem Fall, in dem der Korrelationskosinusabstand verwendet wird, wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
- l(i,j) = (a b)/( a b ) ...(6)
- wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1,a2,...,a20), und "b" eine Wörterbuchähnlichkeitsvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als b=(b1,b2,...,b20), bezeichnet.
- Die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher aufeinanderfolgend Ausdrücke bzw. Worte, d.h. Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache (die Ausdrücke bzw. Worte) werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jedes Teil der Eingabesprache durch die Abschnitte 1-5 gemäß Fig. 2 auf eine ähnliche Weise verarbeitet, wie die Weise der Verarbeitung von Eingabesprache während der aktuellen Spracherkennungsverarbeitung. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 die Ähnlichkeitsvektorabfolge aus, die in Bezug zu dem verarbeiteten Teil der Eingabesprache steht, die einem der Erkennungsobjekt-Worte entspricht. Die ausgegebene Ähnlichkeitsvektorabfolge wird in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als eine Bezugsähnlichkeitsvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort registriert. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch die Ähnlichkeitsvektorabfolgen aus, die sich auf die anderen Teile der Eingabesprache beziehen, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen. Die ausgegebenen Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als Bezugsähnlichkeitsvektorabfolgen entsprechend den jeweils verbleibenden Erkennungsobjekt-Worten registriert.
- Es wurden unter Verwendung von Sprachdaten, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Wörter darstellten, Experimente durchgeführt. Die vorhergehende Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die Sprachdaten, die von einem der 20 Sprecher erzeugt wurden und die 212 verschiedenen Wörter darstellten, in das Spracherkennungssystem eingegeben und in dem Sprachverarbeitungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen entsprechend den jeweils 212 verschiedenen Wörtern auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die durch die anderen 19 Sprecher erzeugten und die 212 verschiedenen Wörter für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterzogen. Es wurden mit einer Quote von 88,7% gute Erkennungsergebnisse erhalten.
- Ein zweites Ausführungsbeispiel der Erfindung ist ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 abgesehen von Entwurf sveränderungen, die nachfolgend angezeigt werden. Bezugsähnlichkeitsvektorabfolgen, d.h. Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von zwei Sprechern "1" und "2" während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt. Während der vorhergehenden Verarbeitung erzeugen der erste Sprecher "1" und der zweite Sprecher "2" aufeinanderfolgend Teile von Sprache, die ein erstes voreingestelltes Wort (ein ersten Erkennungsobjekt-Wort) darstellen. Der Teil der durch den ersten Sprecher "1" erzeugten Sprache und der Teil der durch den zweiten Sprecher "2" erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Der Teil der Sprache vom ersten Sprecher "1" und der Teil der Sprache vom zweiten Sprecher "2" werden unter Verwendung einer dynamischen Programmierungs-Vergleichstechnik in ihrer Zeitdauer abgeglichen&sub0; Beispielsweise ist, wie in Fig. 4 gezeigt, die Zeitdauer des durch den ersten Sprecher erzeugten japanischen Worts "akai" verschieden von der Zeitdauer desselben durch den zweiten Sprecher "2" erzeugten japanischen Worts. Der Zeitdauerabgleich ermöglicht, daß die Zeitdauern der Phoneme /a/, /k/, /a/ und /i/ des ersten Sprechers "1" bzw. die Zeitdauern derselben Phoneme des zweiten Sprechers "2" übereinstimmen. Ein Parameterabfolgeerzeugungsabschnitt 5 (siehe Fig 2) erzeugt einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Beziehung zur Sprache des ersten Sprechers "1". Zusätzlich erzeugt der Parameterabfolgeerzeugungsabschnitt 5 einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Beziehung zu der Sprache des zweiten Sprechers "2". Für jedes Paar von entsprechenden Datenübertragungsblöcken der Sprache des ersten Sprechers "1" und der Sprache des zweiten Sprechers "2", werden ein Ähnlichkeitsvektor in Bezug auf den ersten Sprecher "1" und ein Ähnlichkeitsvektor in Bezug auf den zweiten Sprecher "2" in einen Mittelwert-Ähnlichkeitsvektor gemittelt. Beispielsweise im Fall, in dem der i-te Datenübertragungsblock der Sprache des ersten Sprechers "1" dem j-ten Datenübertragungsblock der Sprache des zweiten Sprechers "2" entspricht, wie in Fig. 4 gezeigt, erzeugt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks der Sprache des ersten Sprechers "1" als "c=(c1, c2, ..., c20)" und der Ähnlichkeitsvektor der Sprache des zweiten Sprechers "2" als "e=(e1, e2, ..., e20)" dargestellt ist, die Mittelwertberechnung den Mittelwert-Ähnlichkeitsvektor, der gegeben ist als "f=((c1+e1)/2, (c2+e2)/2, ..., (c20+e20)/2)". Die Mittelwert- Ähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcken bilden eine Mittelwert-Ähnlichkeitsvektorabfolge in Bezug auf das erste vorliegende Wort (das erste Erkennungsobjekt-Wort). Die Mittelwert-Ähnlichkeitsvektorabfolge in Bezug auf das erste Erkennungsobjekt-Wort wird in einem Wörterbuch in einem Wörterbuchspeicherabschnitt 6 (siehe Fig. 2) als eine Bezugsähnlichkeitsvektorabfolge verzeichnet bzw. registriert. Ähnliche Verarbeitungen werden für jedes der anderen Erkennungsobjekt-Worte ausgeführt. Somit gibt der Parameterabfolgeerzeugungsabschnitt 5 auch Mittelwert-Ähnlichkeitsvektorabfolgen entsprechend jeweils den anderen Erkennungsobjekt-Worten aus. Diese ausgegebenen Mittelwert-Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils den anderen Erkennungsobjekt-Worten verzeichnet bzw. registriert.
- Es wurden Versuche ähnlich den Versuchen in dem Ausführungsbeispiel gemäß den Figen. 1-3 durchgeführt. Entsprechend den Versuchen wurden in dem zweiten Ausführungsbeispiel gute Erkennungsergebnisse mit einer Quote von 93,4 % erhalten.
- Es ist zu beachten, daß Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von drei oder mehr Sprechern erzeugten Sprachdaten erzeugt werden können. In diesem Fall wird eine Mittelwertberechnung ähnlich der vorstehend erwähnten Mittelwertberechnung wiederholt ausgeführt.
- Es ist zu beachten, daß viele Sätze von Bezugsähnlichkeitsvektorabfolgen verwendet werden können. In diesem Fall wird ein Satz von Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von jedem von zwei oder mehr verschiedenen Sprechern erzeugten Sprachdaten erzeugt. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 93,2 % gute Erkennungsergebnisse erhalten.
- Fig. 5 bezieht sich auf ein drittes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachstehend angezeigten Entwurfsveränderungen.
- Wie in Fig. 5 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, eine Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, eine Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A und einen Regressionskoeffizientberechnungsabschnitt 8. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
- Der Regressionskoeffizientberechnungsabschnitt 8 empfängt aufeinanderfolgend Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3. Der Regressionskoeffizientberechnungsabschnitt 8 berechnet Regressionskoeffizienten, die zeitlichen Veränderungen der Ähnlichkeiten entsprechen. Die Gesamtanzahl der Regressionskoeffizienten ist pro Ähnlichkeitsabfolge gleich "n". Insbesondere stimmt ein Regressionskoeffizient eines vorliegenden Datenübertragungsblocks mit der Steigung einer geraden Linie einer Näherung nach der Methode der kleinsten Quadrate im Hinblick auf die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock vorhergehenden Datenübertragungsblökken, die Ähnlichkeit des vorliegenden Datenübertragungsblocks und die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock folgenden Datenübertragungsblöcken überein.
- Wie im Ausführungsbeispiel gemäß den Figen. 1-3 berechnet der Ähnlichkeitsberechnungsabschnitt 3 die Ähnlichkeit zwischen den Eingabesprachparametern und jeden Phonemstandardmuster zu jeden Zeitpunkt, zu dem die Eingabesprache um ein Datenübertragungsblock verschoben wird. Als ein Ergebnis davon wird eine zeitliche Abfolge der Ähnlichkeiten für jedes Phonemstandardmuster erhalten. Fig. 6 zeigt ein Beispiel für eine Ähnlichkeitsabfolge, bei der die Abszisse einen Datenübertragungsblock (eine Datenübertragungsblockordnungszahl) und die Ordinate die Größe der Ähnlichkeit bezeichnet. Wie in Fig. 6 gezeigt, wird eine angenommene gerade Linie im Hinblick auf die Ähnlichkeiten eines (i-2)-ten Datenübertragungsblocks bis zu einem (i+2)-ten Datenübertragungsblock durch den Regressionskoeffizientberechnungsabschnitt 8 auf der Grundlage einer Näherung nach der Methode der kleinsten Quadrate bestimmt und die Steigung der geraden Linie wird als die Zeitbereichsveränderung (der Regressionskoeffizient) des i-ten Datenübertragungsblocks eingestellt. Insbesondere wird der Regressionskoeffizient "a" unter Bezugnahme auf die folgenden Gleichung berechnet.
- wobei ai die Ähnlichkeit eines i-ten Datenübertragungsblocks bezeichnet.
- Der Parameterabfolgeerzeugungsabschnitt 5A empfängt aufeinanderfolgend die Regressionskoeffizienten von dem Regressionskoeffizientberechnungsabschnitt 8 und ordnet die Regressionskoeffizienten in einer zeitlichen Abfolge von Vektoren der Regressionskoeffizienten an. Zusätzlich empfängt der Parameterabfolgeerzeugungsabschnitt 5A aufeinanderfolgend die Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Regressionskoeffizientenvektorabfolge und die Ähnlichkeitsvektorabfolge (bezeichnet als die Eingabesprachähnlichkeitsvektorabfolge) werden dem Erkennungsabschnitt 7A zugeführt.
- Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils Erkennungsobjekt-Worten und auch Bezugsregressionskoeffizientvektorabfolgen entsprechend jeweils den Erkennungsobjekt- Worten enthält. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) und die Bezugsregressionskoeffzientenvektorabfolgen (auch als die Wörterbuchregressionskoeffzientvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6A zu dem Erkennungsabschnitt 7A zugeführt. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen und die Bezugsregressionskoeffizientvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wurde, erzeugten Sprachdaten bestimmt.
- Der Erkennungsabschnitt 7A führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabsprachregressionskoeffzientvektorabfolge und Sätzen der Bzugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen durch und berechnet die Vergleichsbzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7A wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das dem höchsten Vergleichs- bzw. Übereinstimmungswert entsprechende Erkennungsobjekt-Wort. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs-Vergleichstechnik wie in dem Ausführungsbeispiel gemäß den Figen. 1-3. In dem Fall, in dem ein Korrelationskosinusabstand während der Vergleichsberechnung als ein Maß verwendet wird, wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
- l(i,j) = w (a b/( a b )) + (l-w)(cd/( c d )) (8)
- wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientvektor in einem i-ten Datenübertragungsblock, das ausgedrückt wird als c=(c1, c2, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als d=(d1, d2, ..., d20), und "w" ein Gewicht, das mit einem vorbestimmten Mischverhältnis des Ähnlichkeitsteil und des Regressionskoeffiziententeils übereinstimmt, bezeichnet. Bevorzugterweise bewegt sich das Mischverhältnis im Bereich von 0,4 bis 0,6.
- Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientvektorabfolgen (die Wörterbuchregressionskoeffizientvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile von erzeugter Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache durch die Abschnitte 1-4, 5A und 8 gemäß Fig. 5 auf eine Weise ähnlich der Verarbeitungsweise von Eingabesprache während der aktuellen Spracherkennungsverarbeitung verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnitt 5A einen Satz der Ählichkeitsvektorabfolge und der Regressionskoeffizientvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, die einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6A als eine Bzugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgegebenen Regressionskoeffizientvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6A als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientvektorabfolgen entsprechend den jeweiligen verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
- Unter Verwendung von von 20 Sprechern erzeugten und 212 verschiedene Worte für jeden Sprecher darstellenden Sprachdaten wurden Versuche durchgeführt. Die vorhergehende Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und 212 verschiedene Worte darstellenden Sprachdaten in das Spracherkennungssystem eingeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientvektorabfolgen entsprechend den jeweils 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worte für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterworfen. Mit einer Quote von 91,8% wurden gute Erkennungsergebnisse erhalten.
- Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientvektorabfolgen (Wörterbuchregressionskoeffzientvektorabfolgen) können über eine Mittelberechnung auf der Grundlage von wie im zweiten Ausführungsbeispiel von zwei Sprechern erzeugten Sprachdaten bestimmt werden. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 95,9% gute Erkennungsergebnisse erhalten.
- Fig. 7 bezieht sich auf ein viertes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachfolgend angezeigten Entwurfsveränderungen.
- Wie in Fig. 7 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalayseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5B, einen Wörterbuchspeicherabschnitt 6B, einen Erkennungsabschnitt 7B und einer Ähnlichkeitsanpaßabschnitt 9. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
- Der Ähnlichkeitsanpaßabschnitt 9 empfängt aufeinanderfolgend Ähnlichkeiten, die jeweils 20 Erkennungsobjekt-Worten entsprechen, von dem Ähnlichkeitsberechnungsabschnitt 3 für jeden Datenübertragungsblock, und ordnet die Ähnlichkeiten in einer Vektorform neu an. In jedem Ähnlichkeitsvektor werden die Ähnlichkeiten entsprechend der Größe angeordnet. Die Ähnlichkeiten in jedem Ähnlichkeitsvektor werden einer Verstärkungsverarbeitung unterzogen, so daß der Ähnlichkeitsvektor in einen zweiten Ähnlichkeitsvektor umgewandelt wird. Während der Verstärkungsverarbeitung werden die erstgrößte Ähnlichkeit bis zur k-größten Ähnlichkeit linear jeweils in 1 bis 0 umgewandelt. Somit wird die erstgrößte Ähnlichkeit in 1 umgewandelt und die k-größte Ähnlichkeit wird in 0 umgewandelt. Die zweitgrößte Ähnlichkeit bis zur (k-1)-größten Ähnlichkeit werden linear in Werte zwischen 1 und 0 umgewandelt. Die (k+1)-größte Ähnlichkeit bis zur kleinsten Ähnlichkeit werden auf 0 gesetzt. Insbesondere werden die Komponenten F(ai) eines zweiten Ähnlichkeitsvektors (i=1, 2, ..., 20) wie folgt ausgedrückt.
- F(ai) = (1/(M-Mk))ai - Mk/(M-Mk) (für die erst- bis k-größte Komponente)
- F(ai) = 0 (für die (k+1)-größte bis zur kleinsten Komponente) ...(9)
- wobei ai eine i-te Komponente des Original-Ähnlichkeitsvektors und M die größte der Ähnlichkeiten und Mk die k-größte Ähnlichkeit bezeichnen. Auf diesem Wert werden größere Ähnlichkeiten in jedem Originalähnlichkeitsvektor relativ zu den verbleibenden Ähnlichkeiten gemäß den Verstärkungsfunktionen (9) verstärkt. Da die Werte M und Mk von dem Datenübertragungsblock abhängen, hängt ein zweiter Ähnlichkeitsvektor von einem Datenübertragungsblock ab. Die Maximalkomponente (Max) und die Minimalkomponente (Min) sind jeweils in jedem zweiten Ähnlichkeitsvektor entsprechend einem Datenübertragungsblock gleich 1 und 0. Somit werden zweite Ähnlichkeitsvektoren Datenübertragungsblock für Datenübertragungsblock normiert. Im allgemeinen neigen Originalähnlichkeiten, da Phonemstandardmuster in dem Standardmusterspeicherabschnitt 4 aus zeitlichen Mustern der Merkmalsparameter in und rund um einen Merkmalsdatenübertragungsblock erzeugt werden, dazu, in einem Teil der Eingabesprache, der einem Übergang zwischen Phonemen entspricht, klein zu sein. Die vorstehend erwähnte Normierung verhindert eine Unterschätzung eines Merkmals in der Beziehung zwischen Ähnlichkeiten, die durch kleine Originalähnlichkeiten in einem Eingabsprachteil entsprechend einem Übergang zwischen Phonemen verursacht würden.
- Der Parameterabfolgeerzeugungsabschnitt 5B empfängt aufeinanderfolgend die zweiten Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die empfangenen Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten neu an. Die Ähnlichkeitsvektorabfolge (als die Eingabesprachähnlichkeitsvektorabfolge bezeichnet) wird dem Erkennungsabschnitt 7B zugeführt.
- Fig. 8 zeigt ein Beispiel für die Ähnlichkeitsvektorabfolge, die im Hinblick auf ein japanisches Wort "akai" darstellende Eingabesprache erhalten wird. In Fig. 8 entspricht die Abszisse einer Zeitrichtung und die Ordinate bezeichnet die bei jeweiligen Zeitsegmenten (Datenübertragungsblöcken) erhaltenen Ähnlichkeiten. Im Hinblick auf das Standardmuster des Phonems /a/ wird der Vergleich zwischen der Eingabesprache und dem Standardmuster jedesmal ausgeführt, wenn die Eingabesprache um einen Datenübertragungsblock verschoben wird, und somit wird eine Abfolge der Ähnlichkeiten erhalten. In dem in Fig. 8 gezeigten Beispiel lautet die erhaltene Ähnlichkeitsabfolge "1.0, 1.0, 1.0, 1.0, 1.0, 0.0, ..., 0.3, 0.2, 0.3". Eine derartige Ähnlichkeitsabfolge wird für jedes der anderen 19 Phoneme auf eine ähnliche Weise erhalten. In Fig. 8 wird ein Ähnlichkeitsvektor durch den schraffierten Bereich bezeichnet. Zur Verdeutlichung der Verstärkungsverarbeitung und der Normierungsverarbeitungen durch den Ähnlichkeitsanpaßabschnitt 9, zeigt Fig. 9 eine Ähnlichkeitsvektorabfolge, die der Ähnlichkeitsvektorabfolge gemäß Fig. 8 entspricht und ohne den Verstärkungsvorgang und den Normierungsvorgang erhalten wird.
- Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen enthält, die jeweils Erkennungsobjekt-Worten entsprechen. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6A zum Erkennungsabschnitt 7A zugeführt. Jede Bezugsähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format der Eingabesprachähnlichkeitsvektorabfolge gemäß Fig. 8. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor eine aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt.
- Der Erkennungsabschnitt 7A führt den Vergleich zwischen der Eingabesprachähnlichkeitsvektorabfolge und den Bezugsähnlichkeitsvektorabfolgen aus und berechnet die Vergleichswerte für die Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten. Der Erkennungsabschnitt 7A wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs (DP)-Vergleichstechnik, die sich auf die folgende periodische Formel bezieht.
- wobei max den Operator zur Auswahl des Maximums der Mitglieder folgend auf das Operatorzeichen, l(i,j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge mit einer Länge von I Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsähnlichkeitsvektorabfolge mit einer Länge von J Datenübertragungsblöcken, und g(i,j) die akkumulative Ähnlichkeit in Bezug auf den i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge und den j-ten Datenübertragungsblock der Bezugsähnlichkeitsvektorabfolge bezeichnet.
- Das Abstandmaß der Abstandsfunktion l(i,j) kann das euklidische Abstandsmaß, das gewichtete euklidische Abstandsmaß, das Korrelationskosinusabstandsmaß oder andere verwenden. Im Fall der Verwendung des euklidischen Abstands wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
- l(i,j) = (a1 - b1)² + (a2 - b2)² + ... + (a20 - b20)² (11)
- wobei a1, a2, ..., a20 Komponenten eines Eingabesprachähnlichkeitsvektors "a" in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, ..., a20), und b1, b2, b20 Komponenten eines Wörterbuchähnlichkeitsvektors "b" in einem j-ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), bezeichnet.
- Die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt- Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-4, 5B und 9 gemäß Fig. 7 auf eine der Weise der Verarbeitung der Eingabesprache während der aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnjtt 5B die Ähnlichkeitsvektorabfolge bezüglich des verarbeiteten Teils der Eingabesprache aus, der einem der Erkennungsobjekt-Worte entspricht. Die ausgegebene Ähnlichkeitsvektorabfolge wird in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als eine Bezugsähnlichkeitsvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet. Der Parameterabfolgeerzeugungsabschnitt 5B gibt auch die Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
- Unter Verwendung von Sprachdaten, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten, Versuche durchgeführt. Die vorhergehende Verarbeitung wurde ausgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und die 212 verschiedenen Worte darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worten für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterzogen. Mit einer Quote von 88,5% wurden gute Erkennungsergebnisse erhalten.
- Ein fünftes erfindungsgemäßes Ausführungsbeispiel ist ähnlich dem Ausführungsbeispiel gemäß den Figen. 7-8, abgesehen von den nachstehend angezeigten Entwurfsveränderungen. Bezugsähnlichkeitsvektorabfolgen, d.h. Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von zwei Sprechern "1" und "2" während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugen der erste Sprecher "1" und der zweite Sprecher "2" aufeinanderfolgend Teile von Sprachen, die ein erste voreingestelltes Wort (ein erstes Erkennungsobjekt-Wort) darstellen. Der Teil der vom ersten Sprecher "1" erzeugten Sprache und der Teil der vom zweiten Sprecher "2" erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Der Teil der Sprache vom ersten Sprecher "1" und der Teil der Sprache vom zweiten Sprecher "2" werden unter Verwendung einer dynamischen Programmierungs-Vergleichstechnik auf eine Periode abgeglichen&sub0; Beispielsweise unterscheidet sich, wie in Fig. 4 gezeigt, die Periode des durch den ersten Sprecher "1" erzeugten japanischen Worts "akai" von der Periode desselben durch den zweiten Sprecher 2" erzeugten japanischen Worts. Der Periodenabgleich ermöglicht, daß die Perioden der Phoneme /a/, /k/, /a/ und /i/ vom ersten Sprecher "1" jeweils mit den Perioden derselben Phoneme vom zweiten Sprecher "2" übereinstimmen. Ein Parameterabfolgeerzeugungsabschnitt 5B (siehe Fig. 7) erzeugt einen Ähnlichkeitsvektor für denselben Datenübertragungsblock in Bezug auf die Sprache vom ersten Sprecher "1". Zusätzlich erzeugt der Parameterabfolgeerzeugungsabschnitt 5B einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Bezug auf die Sprache vom zweiten Sprecher "2". Für jedes Paar von entsprechenden Datenübertragungsblöcken der Sprache vom ersten Sprecher "1" und der Sprache vom zweiten Sprecher "2" werden ein Ähnlichkeitsvektor in Bezug auf den ersten Sprecher "1" und ein Ähnlichkeitsvektor in Bezug auf den zweiten Sprecher "2" in einen Mittelwertähnlichkeitsvektor gemittelt. Beispielsweise im Fall, in dem der i-te Datenübertragungsblock der Sprache vom ersten Sprecher "1" dem j-ten Datenübertragungsblock der Sprache vom zweiten Sprecher "2" entspricht, wie in Fig. 4 gezeigt, erzeugt, wenn der Ähnlichkeitsvektor des i- ten Datenübertragungsblocks der Sprache vom ersten Sprecher "1" als "c=(c1,c2, ..., c20) " dargestellt ist und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks der Sprache vom zweiten Sprecher "2" als "e=(e1,e2, e20)" dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der als "f=((c1+e1)/2, (c2+e2)/2, ..., (C20+e20)/2)" gegeben ist. Die Mittelwertähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken bilden eine Mittelwertähnlichkeitsvektorabfolge in Bezug auf das erste voreingestellte Wort (das erste Erkennungsobjekt-Wort). Die Mittelwertähnlichkeitsvektorabfolge in Bezug auf das ersten Erkennungsobjekt-Wort wird in einem Wörterbuch in einem Wörterbuchspeicherabschnitt 6B (siehe Fig. 7) als eine Bezugsähnlichkeitsvektorabfolge verzeichnet bzw. registriert. Ähnliche Verarbeitungen werden für jedes der anderen Erkennungsobjekt-Worte ausgeführt. Somit gibt der Parameterabfolgeerzeugungsabschnitt 5B auch Mittelwertähnlichkeitsvektorabfolgen jeweils entsprechend den anderen Erkennungsobjekt-Worten aus. Diese ausgegebenen Mittelwertähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den anderen Erkennungsobjekt-Worten verzeichnet bzw. registriert werden.
- Versuche ähnlich den Versuchen im Ausführungsbeispiel gemäß den Figen. 7-8 wurden ausgeführt. Entsprechend den Versuchen wurden in diesem Ausführungsbeispiel unter Bedingungen, bei denen Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) auf der Grundlage von von einem männlichen Sprecher und einem weiblichen Sprecher erzeugten Sprachdaten bestimmt, mit einer Quote von 93,4% gute Erkennungsergebnisse erhalten.
- Es ist zu beachten, daß Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von drei oder mehr Sprechern erzeugten Sprachdaten erzeugt werden können. In diesem Fall wird wiederholt eine Mittelwertberechnung ähnlich der vorstehend erwähnten Mittelwertberechnung ausgeführt.
- Es ist zu beachten, daß mehrere Sätze von Bezugsähnlichkeitsvektorabfolgen verwendet werden können. In diesem Fall wird ein Satz von Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von jedem von zwei oder mehr verschiedenen Sprechern erzeugten Sprachdaten erzeugt. In diesem Fall wurden mit einer Quote von 93,2% entsprechend den Versuchen gute Erkennungsergebnisse erhalten.
- Fig. 10 bezieht sich auf ein sechstes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachstehend angezeigten Entwurfsveränderungen.
- Wie in Fig. 10 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsvektorberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6C, einen Erkennungsabschnitt 7C, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12 und einen Regressionskoeffizientnormierungsabschnitt 13. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
- Der Ähnlichkeitsverstärkungsabschnitt 10 empfängt aufeinanderfolgend 20 Ähnlichkeiten, die jeweils 20 Erkennungsobjekt- Worten entsprechen, vom dem Ähnlichkeitsberechnungsabschnitt 3 für jeden Datenübertragungsblock und ordnet die Ähnlichkeiten in einer Vektorform neu an. Die Ähnlichkeiten in jedem Ähnlichkeitsvektor werden einer exponentiellen Verstärkungsverarbeitung unterzogen, so daß der Ähnlichkeitsvektor in einen zweiten Ähnlichkeitsvektor umgewandelt wird. Während der Verstärkungsverarbeitung werden die Komponenten G(ai) eines zweiten Ähnlichkeitsvektors (i=1, 2, ..., 20) wie folgt ausgedrückt.
- G(ai) = exp(αai + β) (12)
- wobei ai eine i-te Komponente des Origninalähnlichkeitsvektors und "α" und "β" vorbestimmte, allen Phonemen und allen Datenübertragungsblöcken gemeinsame konstante Werte bezeichnet. Auf diesem Weg werden größere Ähnlichkeiten in jedem Originalähnlichkeitsvektor bezüglich kleineren Ähnlichkeiten gemäß der Exponentialverstärkungsfunktion (12) verstärkt.
- Der Ähnlichkeitsnormierungsabschnitt 11 empfängt aufeinanderfolgend zwei Ähnlichkeitsvektoren von dem Ähnlichkeitsverstärkungsabschnitt 10. Jeder zweite Ähnlichkeitsvektor a' wird nun ausgedrückt als a'=(a1', a2', ..., ai', ..., a20'). Der Ähnlichkeitsnormierungsabschnitt 11 normiert jeden zweiten Ähnlichkeitsvektor ai unter Bezugnahme auf die folgenden Gleichungen in einen dritten Ähnlichkeitsvektor a".
- a" = (a&sub1;'/Q, a&sub2;'/Q, ..., a&sub2;&sub0;'/Q)
- Der Absolutwert jedes dritten Ähnlichkeitsvektors a" ist gleich 1.
- Im allgemeinen neigen Originalähnlichkeiten, da Phonemstandardmuster in dem Standardmusterspeicherabschnitt 4 aus zeitlichen Mustern von Merkmalsparametern in und rund um einen Merkmalsdatenübertragungsblock erzeugt werden, dazu, in einem Teil der Eingabesprache, die einem Übergang zwischen Phomenen entspricht, klein zu sein. Die Verstärkungsverarbeitung und die Normierungsverarbeitung durch die Einrichtungen 10 und 11 verhindern eine Unterschätzung eines Merkmals in der Beziehung zwischen Ähnlichkeiten, die durch kleine Originalähnlichkeiten in einem Eingabsprachteil entsprechend einem Übergang zwischen Phonemen verursacht wurden.
- Der Regressionskoeffizientberechnungsabschnitt 12 empfängt aufeinanderfolgend drei Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3. Der Regressionskoeffizientberechnungsabschnitt 12 berechnet Regressionskoeffizienten auf eine dem Berechnungsweg der Regressionskoeffizienten durch den Regressionskoeffizientberechnungsabschnitt 8 im Ausführungsbeispiel gemäß den Figen. 5 und 6 ähnliche Weise. Die berechneten Regressionskoeffizienten entsprechen zeitlichen Veränderungen der Ähnlichkeiten. Die Gesamtanzahl der Regressionskoeffizienten ist pro Ähnlichkeitsabfolge gleich "n". Insbesondere stimmt ein Regressionskoeffizient eines vorliegenden Datenübertragungsblocks mit der Steigung von einer nach der Methode der kleinsten Quadrate angenäherten geraden Linie im Hinblick auf die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock vorhergehenden Datenübertragungsblöcken, der Ähnlichkeit des vorliegenden Datenübertragungsblocks und den Ähnlichkeiten von zwei dem vorliegenden Rahmen folgenden Datenübertragungsblöcken überein.
- Der Regressionskoeffizientnormierungsabschnitt 13 empfängt aufeinanderfolgend 20 Regressionskoeffizienten, die jeweils den 20 Erkennungsobjekt-Worten entsprechen, von dem Regressionskoeffizientberechnungsabschnitt 12 für jeden Datenübertragungsblock und ordnet die Regressionskoeffizienten in einer Vektorform neu an. Zusätzlich normiert der Ähnlichkeitsnormierungsabschnitt 11 jeden Regressionskoeffizientenvektor in einen zweiten Regressionskoeffizientenvektor mit einem Absolutwert von 1.
- Der Parameterabfolgeerzeugungsabschnitt 5C empfängt aufeinanderfolgend die zweiten Regressionskoeffizienten von dem Regressionskoeffizientnormierungsabschnitt 13 und orndet die empfangenen Regressionskoeffizienten in einer zeitlichen Abfolge von Vektoren der Regressionskoeffizienten an. Zusätzlich empfängt der Parameterabfolgeerzeugungsabschnitt 5C aufeinanderfolgend die dritten Ähnlichkeiten von dem Ähnlichkeitsnormierungsabschnitt 11 und ordnet die empfangenen Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Regressionskoeffizientvektorabfolge (auch als die Eingabesprachregressionskoeffizientenvektorabfolge bezeichnet) und die Ähnlichkeitsvektorabfolge (auch als die Eingabesprachähnlichkeitsvektorabfolge bezeichnet) werden dem Erkennungsabschnitt 7C zugeführt.
- Der Wörterbuchspeicherabschnitt 6C speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten und auch Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den Erkennungsobjekt- Worten enthält. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) und die Bezugsregressionskoeffizientenvektorabfolgen (auch als die Wörterbuchregressionskoeffizientenvektorabfolgen bezeichnet) werden vom Wörterbuchspeicherabschnitt 6C dem Erkennungsabschnitt 7C zugeführt. Wie nachstehend erläutert wird, werden die Bezugsähnlichkeitsvektorabfolgen und die Bezugsregressionskoeffizientenvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Sprachverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt.
- Der Erkennungsabschnitt 7C führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientenvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen aus und berechnet die Vergleichswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7C wählt den höchsten der berechneten Vergleichswerte aus und entscheidet das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichswert als ein Erkennungsergebnis. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs-Vergleichstechnik wie im Ausführungsbeispiel gemäß den Figen. 1-3. Im Fall, in dem ein Korrelationskosinusabstand als ein Maß während der Vergleichsberechnung verwendet wird, wird die Abstandsfunktion l(i, j) wie folgt ausgedrückt.
- l(i, j) = w (a b)/( a b ) + (1-w)(cd)/( C d ) ...(14)
- wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientenvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als c=(c1, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientenvektor in einem j-ten Datenübertragungsblock, das ausgedrückt wird als d=(d1, d2, ..., d20), und "w" eine Gewichtung, die mit einem vorbestimmten Mischungsverhältnis des Ähnlichkeitsteils und der Regressionskoeffiziententeils übereinstimmt, bezeichnet. Bevorzugterweise ist das Mischugnsverhältnis in dem Bereich von 0,4 bis 0,6. Da ein Eingabesprachähnlichkeitsvektor "a", ein Wörterbuchähnlichkeitsvektor "b", ein Eingabesprachregressionskoeffizientenvektor "c" und ein Wörterbuchregressionskoeffizientenvektor "d" normiert sind, sind die Absolutwerte a , b , c und d gleich 1. Somit wird Gleichung (14) in die folgende Gleichung vereinfacht.
- l(i, j) = wa b + (1-w)c d ...(15)
- Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jedes Teil der Eingabesprache mittels der Abschnitte 1-4, 5C und 10-13 gemäß Fig. 10 auf eine der Verarbeitung von Eingabesprache während der aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnitt 5C einen Satz der Ähnlichkeitsvektorabfolge und der Regressionskoeffizientenvektorabfolge bezüglich des verarbeiteten Teils der Eingabesprache, der einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientenvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6C als eine Bezugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientenvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5C gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientenvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgebenen Regressionskoeffizientenvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6C als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
- Es wurden unter Verwendung von von 20 Sprechern erzeugten und 212 verschiedene Worte für jeden Sprecher darstellenden Sprachdaten Versuche durchgeführt. Die vorhergehenden Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und die 212 verschiedenen Worte darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worte für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Sprachverarbeitung unterzogen. Es wurden mit einer Quote von 91,6% gute Erkennungsergebnisse erhalten.
- Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können über eine Mittelwertberechnung auf der Grundlage von von einem männlichen Sprecher und einem weiblichen Sprecher erzeugten Spachdaten, wie im zweiten Ausführungsbeispiel, bestimmt werden. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 95,9% gute Erkennungsergebnisse erhalten.
- Fig. 11 bezieht sich auf ein siebentes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 10 ist, abgesehen davon, daß ein Regressionskoeffizientenberechnungsabschnitt 12A anstelle des Regressionskoeffizientberechnungsabschnitts 12 (siehe Fig. 10) verwendet wird.
- Im Ausführungsbeispiel gemäß Fig. 11 empfängt der Regressionskoeffizientberechnungsabschnitt 12A direkt Ähnlichkeiten von einem Ähnlichkeitsverstärkungsabschnitt 10 und berechnet Regressionskoeffizienten von den empfangenen Ähnlichkeiten.
- Fig. 12 bezieht sich auf ein achtes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen).
- Wie in Fig. 12 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6, einen Erkennungsabschnitt 7, einen Sprachfragmentspeicherabschnitt 21 und einer Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22.
- Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, enthält. Die Wörterbuchähnlichkeitsvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracher kennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-5 gemäß Fig. 12 auf eine der Verarbeitungsweise der Eingabesprache während einer aktuellen Sprach- Verarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format gemäß Fig. 3. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Teile, die jedes einem Sprachfragment einer Abfolge von einem Konsonanten und einem Vokal entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen bezeichnet. Im Hinblick auf jedes Konsonant-Vokal(CV)-Muster wird ein Teil zwischen einem Datenübertragungsblock entsprechend einem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Vokal-Konsonant(CV)-Muster wird ein Teil zwischen einem Datenübertragungsblock entsprechend der Mitte einer Vokals bis zu einem Datenübertragungsblock entsprechend dem Ende des Vokals (der Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocket die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da die Informationen über einen Übergang von einem Konsonanten zu einem Vokal wirksam verwendet werden, größer sein. Die Konsonant-Vokal(CV)-Muster und die Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert. Die Trennung von Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern werden weiter beschrieben. In dem Fall eines japanischen Worts "asahi", wie in Fig. 13 gezeigt, entsprechend die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern /a/, /as/, /sa/, /ah/, /hi/ und /i/. Im Fall eines japanischen Worts "sake", wie in Fig. 14 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster /sa/, /ak/, /ke/ und /e/.
- Der Wörterbuchähnlichkeitsvektorerzeugungsabschnitt 22 wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22 sammelt die notwendigen Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster vom Sprachfragmentspeicherabschnitt 21 ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Beispielsweise werden bei der Erzeugung einer Wörterbuchähnlichkeitsvektorabfolge entsprechend einem japanischen Wort "akai" die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster entsprechend /a/, /ak/, /ka/, /ai/ und /i/ vom Sprachfragmentspeicherabschnitt 21 gesammelt und die gesammelten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in der Wörterbuchähnlichkeitsvektorabfolge kombiniert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22 speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
- Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage der Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert- Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert.
- Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann ein verstecktes Markov-Modell (WO( (hidden Markov- Modell)) Verfahren anstelle eines dynamische Programmierungsverfahrens verwendet. In diesem Fall wird ein Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov- Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov- Modelle werden zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann andere Abstandmaße, wie beispielsweise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß oder ein Lernvektorquantisierungs (LQV) abstandsmaß verwenden.
- Sprachfragmente können weiterhin andere Arten, wie beispielsweise einen Typ in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
- Der Wörterbuchspeicherabschnitt 6 kann Abfolgen von einer Verbindung der Sprachfragmente anstelle der Bezugsähnlichkeitsvektorabfolgen speichern. In diesem Fall werden Bezugsähnlich keitsvektorabfolgen entsprechend den Verbindungsabfolgen während der Berechnung der Ähnlichkeiten in Bezug auf die Eingabesprache erzeugt.
- Fig. 15 bezieht sich auf ein neuntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungbeispiel gemäß den Figen. 5 und 6 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen).
- Wie in Fig. 15 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, einen Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A, einen Regressionskoeffizientenberechnungsabschnitt 8, einen Sprachfragmentspeicherabschnitt 21A und einer Wörterbuchvektorabfolgeerzeugungsabschnitt 22A.
- Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) enthält. Die Wörterbuchähnlichkeitsvektorabfolgen und die Wörterbuchregressionskoeffizientenvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Sprachverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Wörtern darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-4, 5A und 8 gemäß Fig. 15 auf eine der Verarbeitungsweise der Eingabesprache während einer aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Zusätzlich gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Regressionskoeffizientenvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Regressionskoeffizientenvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus.
- Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonanten und einer Vokals entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits-Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Ähnlichkeits Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend dem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Ähnlichkeits-Vokal-Konsonant(CV)-Muster wurde der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend dem Ende des Vokals (Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bildet die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da Informationen eines Übergangs von einem Konsonanten zu einem Vokal wirksam verwendet werden, höher sein. Die Ähnlichkeits-Konsonant-Vokal(CV)-Muster und die Ähnlichkeits-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
- Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonaten und eines Vokals entsprechen, werden von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Regressionskoeffizienten Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonaten entsprechen, von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Regressionskoeffizienten Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Regressionskoeffizienten Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend dem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Regressionskoeffizienten Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend dem Ende des Vokals (dem Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bildet die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal wirksam verwendet werden, höher sein. Die Regressionskoeffizienten-Konsonant-Vokal(CV)-Muster und die Regressionskoeffizienten-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
- Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A sammelt notwendige Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster von dem Sprachfragmentspeicherabschnitt 21A ansprechend auf die Informationen über die Erkennungsobjekt-Worte und kombiniert die Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgenerzeugungsabschnitt 22A speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6. Zusätzlich sammelt der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A notwendige Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster von dem Sprachfragmentspeicherabschnitt 21A ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgenerzeugungsabschnitt 22A speichert die Wörterbuchregressionskoeffizientenvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
- Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage von Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert- Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und die Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)- werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
- Eine Vergleichsverarbeitung vom Erkennungsabschnitt 7A kann ein verstecktes Markov-Modell(HMM) Verfahren anstelle eines dynamischen Programmierungsverfahrens verwenden. In diesem Fall wird ein Lernen hinsichtlich getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern durchgeführt und es werden versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) erzeugt. Die versteckten Markov-Modelle (HMM) werden zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7A kann andere Abstandsmaße, wie beispielsweise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß oder ein Lernvektorquantisierungs (LQV) abstandsmaß verwenden.
- Sprachfragmente können weiterhin andere Typen, wie beispielsweise Typen in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
- Fig. 16 bezieht sich auf ein zehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen). Wie in Fig. 16 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6, eine Erkennungsabschnitt 7, einen Sprachfragmentspeicherabschitt 21B und einer Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B.
- Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, enthält. Die Wörterbuchähnlichkeitsvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellt. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels der Abschnitte 1-5 gemäß Fig. 16 auf eine der Verarbeitungsweise von Eingabesprache während einer aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, die einem der Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format gemäß Fig. 3. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Teile, die jeder einem Sprachfragment einer Abfolge von einem Konsonanten und einem Vokal entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals bis zu einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocken die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Entsprechend diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote guter Erkennungsergebnisse höher sein. Die Konsonant-Vokal(CV)-Muster und die Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert. Der Trennung der Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster wird weiter beschrieben. Im, Fall eines japanischen Worts "asahi", wie in Fig. 17 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vo&submin; kal-Konsonant(CV)-Muster /a/, /as/, /sa/, /ah/9 /hi/ und /i/. Im Fall eines japanischen Worts "sake", wie in Fig. 18 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vo&submin; kal-Konsonant(CV)-Muster /sa/, /ak/, /ke/ und /e/. Im Fall eines japanischen Worts "paaku", wie in Fig. 19 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster /pa/, /aa/, /ak/, /ku/ und /u/. Wie in Fig. 19 gezeigt, werden in einigen Fällen Vokal-Vokal(VV)-Muster wie /aa/ auch getrennt.
- Im Hinblick auf ein von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes verschiedenes Sprachfragment wird das entsprechende Konsonant-Vokal(CV)- oder Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Im Fall, in dem im Hinblick auf den vorstehend erwähnten Wortsatz zwei ähnliche Sprachfragmente vorhanden sind, wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich in Übereinstimmungs zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paaku" getrennt. Die ähnlichen Sprachfragmente unterscheiden sind in der Zeitdauer-Periode. Demgemäß wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich auf eine in Fig. 20 gezeigte Weise in Übereinstimmung gebracht bzw. abgeglichen. Der Mittelwert der Ähnlichkeiten in jedem Paar von zeitlich angepaßten Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten mittleren bzw. Mittelwert-Ähnlichkeiten wird in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Beispielsweise wird in dem Fall, in dem der i-te Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/, wie in Fig. 20 gezeigt, entspricht, erzeugt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als "m=(m1, m2, ..., m20)" und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(n1, n2, n20", dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der gegeben ist als "f=((m1+n1)/2, (m2+n2)/2, ..., (m20+n20)/2)". Im Fall, in dem im Hinblick auf den vorstehend erwähnten Wortsatz drei oder mehr ähnliche Sprachfragmente vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertähnlichkeitsvektor zu erzeugen, der in dem Sprachfragmentspeicherabschnitt 21B gespeichert wird.
- Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B wird über Erkennungsobjekt-Worte informiert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B sammelt ansprechend auf die Informationen über die Erkennungsobjekt- Worte notwendige Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21B und kombiniert die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Beispielsweise werden bei der Erzeugung einer Wörterbuchähnlichkeitsvektorabfolge entsprechend einem japanischen Wort "akai" die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster ensprechend /a/, /ak/, /ka/, /ai/ und /i/ aus dem Sprachfragmentspeicherabschnitt 21B geholt und die geholten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in der Wörterbuchähnlichkeitsvektorabfolge kombiniert. Der Wörterbuchähnlichkeitsabfolgeerzeugungsabschnitt 22B speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
- Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage der Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann ein verstecktes Markov-Modell(HMM)-Verfahrens anstelle eines dynamischen Programmierungs(DP)-Verfährens verwenden In diesem Fall wird Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov-Modelle (HMM) sind zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann andere Abstandsmaße, wie beispiels weise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß, ein Lernvektorquantisierungs (LQV) abstandsmaß, verwenden.
- Sprachfragmente können weiterhin andere Arten enthalten, wie beispielsweise eine auf eine Abfolge von einem Vokal, einem Konsonanten und einem Vokal bezogene Art enthalten.
- Fig. 21 bezieht sich auf ein elftes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 5 und 6 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen).
- Wie in Fig. 21 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, einen Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A, einen Regressionskoeffizientenberechnungsabschnitt 8, einen Sprachfragmentspeicherabschnitt 21C und einer Wörterbuchvektorabfolgeerzeugungsabschnitt 22C.
- Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) enthält. Die Wörterbuchähnlichkeitsvektorabfolgen und die Wörterbuchregressionskoeffizientenvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Während der vorhergehenden Verabreitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels der Abschnitte 1-4, 5A und 8 gemäß Fig. 21 auf eine der Verarbeitung einer eingegebenen Sprache während einer aktuellen Spacherkennungs- Verarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5A eine in Beziehung zum verarbeiteten Teil der eingegebenen Sprache, der einem der Worte entspricht, stehende Ähnlichkeitsvektorabfolge aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Ähnlichkeitsvektorabfolgen in Beziehung zu den anderen Teilen der eingegebenen Sprache, die jeweils den verbleibenden Worten entsprechen, aus. Zusätzlich gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Regressionskoeffizientenvektorabfolge in Beziehung zu dem verarbeiteten Teil der eingegebenen Sprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Regressionskoeffizientenvektorabfolgen in Beziehung zu den anderen Teilen der eingegebenen Sprache, die jeweils den verbleibenden Worten entsprechen, aus.
- Teile, die jedes einem Sprachfragment einer Abfolge eines Konsonanten und eines Vokals entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits-Vokal-Konsonant(CV)-Muster. Im vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Ähnlichkeits Konsonant-Vokal(CV)-Muster werden der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Ähnlichkeits-Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocken die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Gemäß diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote von guten Erkennungsergebnissen höher werden. Die Ähnlichkeits-Konsonant-Vokal(CV)-Muster und die Ähnlichkeits Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
- Im Hinblick auf ein Sprachfragement verschieden von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes wird das entsprechende Ähnlichkeits-Konsonant-Vokal(CV)- oder Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicher abschnitt 21C gespeichert. In dem Fall, in dem zwei ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird zwischen den zwei ähnlichen Sprachfragmenten ein dynamischer Programmierungs-Vergleich durchgeführt, um sie zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paaku" getrennt. Die ähnlichen Sprachfragmente unterscheiden sich in der Zeitdauer. Demgemäß wird zwischen den zwei ähnlichen Sprachfragmenten ein dynamischer Programmierungs- Vergleich ausgeführt, um sie auf eine in Fig. 20 gezeigte Weise zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Der Mittelwert der Ähnlichkeiten in jedem Paar von zeitlich in Übereinstimmung gebrachten bzw. abgeglichenen Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten Mittelwertähnlichkeiten wird in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Beispielsweise erzeugt in dem Fall, in dem der i-te Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/ entspricht, wie in Fig. 20 gezeigt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als "m=(m1, m2, ..., m20)" und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(nl, n2, .4., n20)" dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der gegeben ist als "f=(((m1+n1)/2, (m2+n2)/2, ..., (m20+n20)/2)". In dem Fall, in dem drei oder mehr Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertähnlichkeitsvektor zu bilden, der in dem Sprachfragmentspeicherabschnitt 21C gespeichert wird.
- Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonanten und eines Vokals entsprechen, werden von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile bilden jeweils Regressionskoeffizienten Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile bilden jeweils Regressionskoeffizienten Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Regressionskoeffizienten Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Regressionskoeffizienten Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bilden die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Gemäß diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote von guten Erkennungsergebnissen höher werden. Die Regressionskoeffizienten-Konsonant-Vokal(CV)-Muster und die Regressionskoeffizienten-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
- Im Hinblick auf ein Sprachfragment verschieden von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes werden die entsprechenden Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Im Fall, in dem zwei ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paake" getrennt. Die ähnlichen Sprachfragmente unterscheiden sich in der Zeitdauerperiode. Demgemäß wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich auf eine Weise, wie in Fig. 20 gezeigt, in übereinstimmung zu bringen bzw. abzugleichen. Der Mittelwert der Regressionskoeffizienten in jedem Paar von zeitlich in Übereinstimmung gebrachten bzw. abgeglichenen Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten Mittelwertregressionskoeffizienten wird in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Beispielsweise erzeugt in dem Fall, in dem der i-ten Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/ anspricht, wie in Fig. 20 gezeigt, wenn der Regressionskoeffizient des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als - "m=(m1, m2, ..., m20)" und der Regressionskoeffizientenvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(n1, n2, ..., n20)" dargestellt ist, die Mittelwertberechnung den Mittelwertregressionskoeffizientenvektor, der gegeben ist als "f=((m1+n1)/2, (m2+n2)/2, (m20+n20)/2)". In dem Fall, in dem drei oder mehr ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertregressionskoeffizientenvektor zu bilden, der in dem Sprachfragmentspeicherabschnitt 21C gespeichert wird.
- Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C sammelt notwendige Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21C ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6. Zusätzlich sammelt der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C notwendige Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21C ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C speichert die Wörterbuchregressionskoeffizientenvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
- Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage von Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und die Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
- Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7A kann ein verstecktes Markov-Modell(HMM)-Verfahren anstelle eines dynamischen Programmierungs(DP)verfahrens verwenden. In diesem Fall wird Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov-Modelle (HMM) werden verbunden, um Vergleichsbezüge zu erzeugen. Die Anpaßverarbeitung durch den Erkennungsabschnitt 7A kann andere Abstandsmaße, wie beispielsweiseein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzwerkabstandsmaß oder ein Lernvektorquantisierungs (LVQ) abstandsmaß, verwenden.
- Sprachfragmente können weiterhin andere Arten, wie beispielsweise eine Art in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
- Versuche wurden wie folgt durchgeführt. Während einer vorhergehenden Verarbeitung erzeugten zwei Sprecher 530 Worte, die unter Berücksichtigung von phonetischen Umgebungen gewählt wurden. Ähnlichkeitsvektor-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)- Muster wurden aus den Wortdaten erzeugt. Die vorhergehende Verarbeitung wurde gefolgt von der aktuellen Spracherkennungsverarbeitung. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. Mit einer Quote von 94,3% wurden gute Erkennungsergebnisse erhalten.
- Fig. 22 bezieht sich auf ein zwölftes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 10 ist, abgesehen von den hier angezeigten Entwurfsveränderungen.
- Wie in Fig. 22 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, eine Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6D, eine Erkennungsabschnitt 7D, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13 und einen dynamischen Programmierungs-Gewichtsberechnungsabschnitt 31. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12 und der Regressionskoeffizientnormierungsabschnitt 13 sind ähnlich denen gemäß Fig. 10. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Abschnitte bzw. Einrichtungen 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf eine der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 10 ähnliche Weise.
- Der Wörterbuchspeicherabschnitt 6D speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten enthält, die Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den Erkennungsobjekt- Worten enthalten und auch dynamische Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; enthält. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizienten vektorabfolgen) und die dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; von dem Wörterbuchspeicherabschnitt 6D zum Erkennungsabschnitt 7D zugeführt. Wie später erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientenvektorabfolgen und die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor der aktuellen Spracherkennungsbearbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt.
- Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7D eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7D führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen aus und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7D verwendet die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; bei dem Vergleich, so daß der Vergleich von den dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; abhängt. Der Erkennungsabschnitt 7D wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichsbzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs-Vergleichstechnik, die sich auf die folgende Rekursionsformel bezieht.
- wobei max den Operator zur Auswahl des Maximums von Mitgliedem folgend dem Operatorzeichen, l(i, j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachvektorabfolge mit einer Länge von 1 Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsvektorabfolge mit einer Länge von J Datenübertragungsblöcken, und g(i, j) die akkumulative Ähnlichkeit in Bezug auf den i- ten Datenübertragungsblock der Eingabesprachvektorabfolge und den j-ten Datenübertragungsblock der Bezugsvektorabfolge bezeichnet. Die durch die Gleichung (16) definierten Vergleichspfade sind, wie in Fig. 23 gezeigt, asymmetrisch.
- In dem Fall, in dem ein Korrelationskosinusabstand während der Vergleichsberechnung als ein Maß verwendet wird, wird die Abstandsfunktion l(i, j) wie folgt ausgedrückt.
- l(i, j) = w&sub0; (ab/( a b ) + (1-w&sub0;)c d/( c d ) ...(17)
- wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, ..., a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientenvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als c=(c1, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientenvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als d=(d1, d2, ..., d20), und "w&sub0;" eine Gewichtung, die mit einem vorbestimmten Mischungsverhält nis zwischen dem Ähnlichkeitsteil und dem Regressionskoeffiziententeil übereinstimmt, bezeichnet. Es ist bevorzugt, daß das Mischungsverhältnis w&sub0; im Bereich von 0,4 bis 0,6 ist. Da ein Eingabesprachähnlichkeitsvektor "a", ein Wörterbuchähnlichkeitsvektor "b", ein Eingabesprachregressionskoeffizientvektor "c" und ein Wörterbuchregressionskoeffizientvektor "d" normiert werden, sind die Absolutwerte a , b , c und d gleich 1.
- Somit wird Gleichung (17) in die folgende Gleichung vereinfacht.
- l(i, j) = w&sub0;a b + (1-w&sub0;)c d ...(18)
- Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils vorbestimmte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels des Abschnitte 1-4, 5C und 10- 13 gemäß Fig. 22 auf eine der Verarbeitung von eingegebener Sprache während der aktuellen Sprachverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5C einen Satz der Ähnlichkeitsvektorabfolge und der Regressionskoeffizientvektorabfolge in Bezug auf den verarbeiteten Teil der eingegebenen Sprache, der einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6D als eine Bezugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientenvektorabfolge entsprechend dem gegenwärtigen Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5C gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientvektorabfolgen in Bezug auf die anderen Teile der eingegebenen Sprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgegebenen Regressionskoeffizientenvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6D als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen entsprechend jeweils den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
- Die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; werden mittels des dynamischen Programmierungs- Gewichtungsberechnungsabschnitts 31 auf der Grundlage von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Da ein Ähnlichkeitsvektor für jeden Datenübertragungsblock normiert wird, besteht ein Vorteil darin, daß die relativen Beziehungen zwischen den Ähnlichkeiten an einem Übergang von einem Phonem zu einem Phonem mit einem Standardmuster ähnlich anderen Teilen gehandhabt werden können. Jedoch neigt es, da eine niedriges Ähnlichkeitsintervall eine niedrige Zuverlässigkeit besitzt, zu einer falschen Erkennung, wenn ein dynamischer Programmierungs-Vergleich mit gleichen Gewichtungen über die Gesamtheit des Eingabesprachintervalls durchgeführt wird. Die Phonemstandardmuster zur Berechnung der Ähnlichkeiten werden für die Vokalintervalle und die Konsonantenintervalle erzeugt. Daher neigen während eines ruhigen Intervalls die Ähnlichkeiten im Hinblick auf irgendwelche der Phonemstandardmuster dazu klein zu sein und durch Rauschen leicht beeinflußt zu werden. Somit hängen die Ähnlichkeiten sehr von Sprachbedingungen ab. Demgemäß werden in diesem Ausführungsbeispiel die Gewichtungen für die Vergleichs- bzw. Übereinstimmungswerte von großen Ähnlichkeitsintervallen größer eingestellt als die Gewichtungen für die Vergleichs- bzw. Übereinstimmungswerte von kleinen Ähnlichkeitsintervallen und dadurch kann die akkumulative Ähnlichkeit durch die Vergleichs- bzw. Übereinstimmungswerte von Intervallen mit niedriger Zuverlässigkeit weniger beeinflußt werden.
- Während der vorhergehenden Verarbeitung berechnet der dynamische Programmierungs-Gewichtunsberechnungsabschnitt 31 eine Mittelwertähnlichkeit "m" in jedem Datenübertragungsblock über die Gesamtheit des Wörterbuchsprachintervalls. Der dynamische Programmierungs-Gewichtungsberechnungsabschitt 31 empfängt einen Ähnlichkeitsvektor von dem Ähnlichkeitsberechnungsabschnitt 3. Der Ähnlichkeitsvektor aj der Wörterbuchsprache in dem j-ten Datenübertragungsblock wird nun wie folgt ausgedrückt.
- aj = (a1,j, a2,j, ..., a20,j) ...(19)
- Die Mittelwertähnlichkeit "m" des j-ten Datenübertragungsblocks wird unter Bezugnahme auf die folgende Gleichung berechnet.
- m = (a1,j + a2,j +... + a20,j)/20 ...(20)
- Die Gewichtungen w&sub1; und w&sub2; der dynamischen Programmierungspfade werden unter Verwendung von vorbestimmten Funktionen, wie beispielsweise linearen Funktionen oder Sigmoid- bzw. Σ- bzw. s- förmigen Funktionen, berechnet. Gemäß einem ersten Beispiel ist die Gewichtung w&sub1; des dynamischen Programmierungspfads durch die folgenden Gleichungen gegeben.
- w&sub1; = 1, wenn m≤S1
- w&sub1; = Am + B, wenn S1< m≤S2
- w&sub1; = 0,5, wenn m> S2 ...(21)
- wobei A=0,5/(S1-52) und B=(0,5 S1+S1)/(S1-S2) sind und S1 und S2 auf der Grundlage der statistischen Größe der Mittelwertähnlichkeit jedes Datenübertragungsblocks bestimmt werden. Die Gewichtung w&sub2; des dynamischen Programmierungspfads wird aus der Mittelwertähnlichkeit "m" der Wörterbuchsprache in dem (j- 1)-ten Datenübertragungsblock unter Bezugnahme auf Gleichungen ähnlich den Gleichungen (21) berechnet.
- Gemäß einem zweiten Beispiel ist die Gewichtung w&sub1; des dynamischen Programmierungspfads durch die folgenden Gleichungen gegeben.
- w&sub1;, = 1 wenn m≤S
- w&sub1; = 0,5, wenn m> S ...(22)
- wobei S einen Schwellenwert bezeichnet, der auf der Grundlage der statistischen Größe der Mittelwertähnlichkeit jedes Datenübertragungsblocks bestimmt wird. Die Gewichtung w&sub2; des dynamischen Programmierungspf ads wird aus der Mittelwertähnlichkeit "m" der Wörterbuchsprache in dem (j-1)-ten Datenübertragungsblock unter Bezugnahme auf Gleichungen ähnlich den Gleichungen (22) berechnet.
- Gemäß einem dritten Beispiel werden ruhige Intervalle unter Verwendung von Informationen über Phonembeginne und -Enden erfaßt, die in den Sprachdaten erhalten sind. Während der erfaßten ruhigen Intervalle werden die Gewichtungen w&sub1; und w&sub2; der dynamischen Programmierungspfade, wie in Fig. 24 gezeigt, klein eingestellt. Insbesondere wird, wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall übereinstimmt, die Gewichtung w&sub1; des dynamischen Programmierungspfads auf 0,5 eingestellt. Wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall nicht übereinstimmt, wird die Gewichtung w&sub1; des dynamischen Programmierungspfads auf 1,0 eingestellt. Wenn der (j-1)-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall nicht übereinstimmt, wird die Gewichtung w&sub2; des dynamischen Programmierungspfads auf 1,0 eingestellt.
- Während sowohl die Ähnlichkeit als auch die Zeitbereichsveränderung in der Ähnlichkeit in diesem Ausführungsbeispiel verwendet werden, kann es gut sein, die zeitliche Veränderung in der Ähnlichkeit wegzulassen, aber einen Ähnlichkeitsvektor zu verwenden, der durch eine Verstärkungsfunktion erhalten und für jeden Datenübertragungsblock normiert wird.
- Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorbfolgen (die Wörterbuchregressionkoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden die dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; auf der Grundlage der Mittelwertähnlichkeiten in Bezug auf einen der Sprecher bestimmt. Es ist bevorzugt, daß die Anzahl von männlichen Sprechern und die Anzahl von weiblichen sprechern zur Erzeugung derartiger Wörterbuchinformationen ungefähr gleich sind.
- Versuche wurden wie folgt durchgeführt. Die aktuelle Spracherkennungsverarbeitung wurde für die Sprachdaten durchgeführt, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers erzeugt wurden und die Gewichtungen der dynamischer Programierungspfade klein eingestellt wurden, wenn die Mittelwertähnlichkeit niedriger als der Schwellenwert war, wurden gute Erkennungsergebnisse mit einer Quote von 91,34% erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden, wurden mit einer Quote von 90,08% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade klein eingestellt wurden, wenn die Mittelwertähnlichkeit kleiner als der Schwellenwert war, wurden mit einer Quote von 93,88% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus dem Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichte der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden, wurden mit einer Quote von 93,83% gute Erkennungsergebnisse erhalten.
- Fig. 25 bezieht sich auf ein dreizehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 13 ist, abgesehen von im folgenden angezeigten Entwurfsveränderungen.
- Wie in Fig. 25 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6E, einen Erkennungsabschnitt 7E, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlickeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13 und einen Mischverhältnisberechnungsabschnitt 32. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschnitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12 und der Regressionskoeffizientnormierungsabschnitt 13 sind ähnlich denen gemäß Fig. 10. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Einrichtungen bzw. Abschnitte 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf einer der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 10 ähnliche Weise.
- Der Wörterbuchspeicherabschnitt 6E speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten, Bezugsregressionskoeffizientvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten und auch Daten einer Bezugsgewichtung w&sub0; enthält. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizientenvektorabfolgen) und die Bezugsgewichtung w&sub0; von dem Wörterbuchspeicherabschnitt 6E dem Erkennungsabschnitt 7E zugeführt. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientvektorabfolgen und die Bezugsgewichtung w&sub0; auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt.
- Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7E eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7E führt einen Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen aus und berechnet die Vergleichsbzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7E verwendet die Bezugsgewichtung w&sub0; bei dem Vergleich, so daß der Vergleich von der Bezugsgewichtung w&sub0; abhängt. Der Erkennungsabschnitt 7E wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs-- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs- Vergleichstechnik, die sich auf die vorstehend erwähnte Rekursionsformel (16) im Ausführungsbeispiel gemäß den Figen. 22-24 bezieht. In dem Fall, in dem ein Korrelationskosinusabstand als ein Maß während der Vergleichsberechnung verwendet wird, wird die Abstandsfunktion l(i, j) durch die vorstehend erwähnte Gleichung (18) im Ausführungsbeispiel gemäß Fig. 22-24 ausgedrückt, die Terme abhängig von der Bezugsgewichtung w&sub0; entsprechend einem vorbestimmten Mischverhältnis des Ähnlichkeitsteils und der Regressionskoeffiziententeils besitzt.
- Der Mischverhältnisberechnungsabschnitt 32 berechnet das Mischverhältnis w&sub0; aus dem von dem Regressionskoeffizientberechnungsabschnitt 12 ausgegebenen Regressionskoeffizientenvektor. Da ein Regressionskoeffizient die Mittelwertquote einer Zeitbereichsveränderung bei den Ähnlichkeiten darstellt, hängt das berechnete Mischverhältnis w&sub0; von der Mittelwertquote der Zeitbereichsveränderung bei den Ähnlichkeiten ab. Dieser Entwurf ist unter Berücksichtigung der folgenden Tatsachen angepaßt. Da ein Ähnlichkeitsvektor und ein Regressionskoeffizientvektor für jeden Datenübertragungsblock auf eine Größe von 1 normiert sind, gibt es einen Vorteil, daß die relativen Beziehungen der Ähnlichkeiten an einem Übergang von einem Phonem zu einem Phonem mit Phonemstandardmustern ähnlich anderen Teilen gehandhabt werden können. Wenn jedoch ein Regressionskoeffizientvektor bei einem konstanten Teil eines Vokals oder anderen, die kleine Absolutwerte der Regressionskoeffizienten bilden, auf eine Größe von 1 normiert wird, neigen die sich ergebenden Veränderungen dazu, groß zu sein, so daß ähnliche Beziehungen von Regressionskoeffizienten nicht immer in gleichen Vokalintervallen erhalten werden. Demgemäß werden in diesem Ausführungsbeispiel während der Berechnung der Zwischen-Datenübertragungsblockabstände bei der dynamischem Programmierungs-Vergleich die Abstände zwischen den Ähnlichkeitsvektoren in einem konstanten Teil eines Vokals unter Verwendung von Gewichtungen größer als die Gewichtungen zu den Abständen zwischen den Regressionskoeffizientenvektoren addiert.
- Während der vorhergehenden Verarbeitung berechnet der Mischverhältnisberechnungsabschnitt 32 eine Zeitbereichsveränderung "q" bei den Ähnlichkeiten für jeden Datenübertragungsblock über die Gesamtheit des Wörterbuchsprachintervalls. Der Mischverhältnisberechnungsabschnitt 32 empfängt eine Regressionskoeffizientenvektor von dem Regressionskoeffizientberechnungsabschnitt 12. Der Regressionskoeffizientenvektor cj der Wörterbuchsprache in dem j-ten Datenübertragungsblock wird nun wie folgt ausgedrückt.
- cj = (c1,j c2,j, ..., c20,j) ... (23)
- Der Mittelwertregressionskoeffizient "q" des j-ten Datenübertragungsblocks wird unter Bezugnahme auf die folgende Gleichung berechnet.
- q = (c1,j + c2,j + ... + c20,j)/20 ...(24)
- Das Mischverhältnis w&sub0; wird unter Verwendung vorbestimmter Funktionen, wie beispielsweise linearer Funktionen oder Sigmoid- bzw. Σ- bzw. s-förmiger Funktionen berechnet. Gemäß einem ersten Beispiel ist das Mischverhältnis w&sub0; durch die folgenden Gleichungen gegeben.
- w&sub0; = 0,8, wenn q≤K1
- w&sub0; wenn K1< q≤K2 ...(25)
- w&sub1; = 0,5, wenn q> K2 = Aq + B, ...(25)
- wobei A=0,3/(K1-K2) und B=(0,5-K1-0,8-K2)/(K1-K2) ist und K1 und K2 auf der Grundlage der statistischen Größe des Mittelwertregressionskoeffizienten jedes Datenübertragungsblocks bestimmt werden.
- Gemäß einem zweiten Beispiel ist das Mischverhältnis w&sub0; durch die folgenden Gleichungen gegeben.
- w&sub0; = 0.8, wenn q≤K
- w&sub0; = 0,5, wenn q> K
- wobei K einen Schwellenwert bezeichnet, der auf der Grundlage der statistischen Größe des Mittelwertregressionskoeffizienten jedes Datenübertragungsblocks bestimmt wird.
- Gemäß einem dritten Beispiel werden Intervalle der Wörterbuchsprache, die konstanten Teilen von Vokalen entsprechen, unter Verwendung von in den Sprachdaten enthaltenen Phonembeginnund -endinformationen erfaßt. Während der erfaßten konstanten Vokalintervalle wird das Mischverhältnis w&sub0; groß eingestellt. Insbesondere, wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einer erfaßten konstanten Vokalintervall übereinstimmt, wird das Mischverhaltnis w&sub0; auf 0,8 eingestellt. Wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten konstanten Vokalintervall nicht übereinstimmt, wird das Mischverhältnis w&sub0; auf 0,5 eingestellt. Es ist bevorzugt, daß ein erfaßtes konstantes Vokalintervall auf ein Intervall von vier oder weniger Datenübertragungsblöcken beginnend mit dem Datenübertragungsblock entsprechend einem Beginn oder Ende des Phonems /a/, /o/, /u/, /i/ oder /e( (siehe die schraffierten Bereiche in Fig. 26) beschränkt ist.
- Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen), die Bezugsregressionskoeffizientvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) und die Bezugsgewichtung (Mischungsverhältnis) w&sub0; können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden.
- Versuche wurden wie folgt durchgeführt. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen von den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis groß eingestellt wurde, wenn der Mittelwertabsolutwert der Regressionskoeffizienten kleiner als der Schwellenwert war, wurden mit einer Quote von 90,91% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen von den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis im konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 91,29% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus dem Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis groß eingestellt wurde, wenn der Mittelwertabsolutwert der Regressionskoeffizienten kleiner als der Schwellenwert war, wurden mit einer Quote von 93,56% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 93,78% gute Erkennungsergebnisse erhalten.
- Fig. 27 bezieht sich auf ein vierzehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen.. 22-24 ist, abgesehen von im folgenden angezeigten Entwurfsveränderungen.
- Wie in Fig. 27 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseanschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolge erzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6D, eine Erkennungsabschnitt 7D, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13, einen dynamischen Programmierungs-Gewichtungsberechnungsabschnitt 31 und einen Mischverhältnisberechnungsabschnitt 32. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschnitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12, der Regressionskoeffizientnormierungsabschnitt 13 und der dynamische Programmierungs- Gewichtungsberechnungsabschnitt 31 sind ähnlich denen gemäß Fig. 22. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Einrichtungen bzw. Abschnitte 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 22. Während einer vorhergehenden Verarbeitung, die der aktuellen Spracherkennungsverarbeitung vorhergeht, funktioniert der dynamische Programmierungs-Gewichtungsberechnungsabschnitt 31 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtung bzw. des entsprechenden Abschnitts gemäß Fig. 22.
- Der Mischverhältnisberechnungsabschnitt 32 ist ähnlich der entsprechenden Einrichtung bzw. dem entsprechenden Abschnitt gemäß Fig. 25. Während der vorhergehenden Verarbeitung funktioniert der Mischverhältnisberechnungsabschnitt 32 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtung bzw. des entsprechenden Abschnitts gemäß Fig. 25.
- Der Wörterbuchspeicherabschnitt 6F speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten, Bezugsregressionskoeffizientvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten, dynamische Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und auch ein Mischverhältnis (eine Bezugsgewichtung) w&sub0; enthält. Die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientvektorabfolgen, die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und das Mischverhältnis w&sub0; werden auf der Grundlage von von einem einzelnen Sprecher oder einer Vielzahl von Sprechern während einer vorhergehenden Verarbeitung, die vor der aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; werden mit dem Wörterbuch aus dem dynamischen Programmierungs- Gewichtungsberechnungsabschnitt 31 verzeichnet bzw. registriert. Das Mischverhältnis w&sub0; wird mit dem Wörterbuch aus dem Mischverhältnisberechnungsabschnitt 32 verzeichnet bzw. registriert. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch bezeichnet als die Wörterbuchähnlichkeitsvektorabfolgen), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizientenvektorabfolgen), die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und das Mischverhältnis w&sub0; von dem Wörterbuchspeicherabschnitt 6F dem Erkennungsabschnitt 7F zugeführt.
- Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7F eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7F führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientenvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7F verwendet die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; beim Vergleich wie im Ausführungsbeispiel gemäß den Figen. 22-24, so daß der Vergleich von den dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; abhängt. Zusätzlich verwendet der Erkennungsabschnitt 7F das Mischverhältnis w&sub0; bei dem Vergleich wie in den Ausführungsbeispielen gemäß den Figen. 25 und 26, so daß der Vergleich von dem Mischverhältnis w&sub0; abhängt. Der Erkennungsabschnitt 7F wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergenis als das Erkennungsobjekt-Wort entsrpechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs-Vergleichstechnik wie im Ausführungsbeispiel gemäß den Figen. 22-24 und im Ausführungsbeispiel gemäß den Figen. 25 und 26.
- Versuche wurden wie folgt ausgeführt. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichte der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 92,42% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 94,40% gute Erkennungsergebnisse erhalten.
Claims (31)
1. Verfahren zur Spracherkennung mit den Schritten:
Erzeugen von "m" Merkmalsparametern für jeden
Datenübertragungsblock einer Bezugssprache, die von zumindest einem
Sprecher gesprochen wird und Erkennungsobjekt-Worte
darstellt, wobei "m" einen voreingestellten Integerwert
bezeichnet,
vorhergehend Erzeugen von "n" Arten von Standardmustern auf
der Grundlage von Sprachdaten von einer Vielzahl von
Sprechern, wobei "n" einen voreingestellten Integerwert
bezeichnet,
Ausführen eines Vergleichs zwischen den Merkmalsparametern
der Bezugssprache und jedem der Standardmuster und Erzeugen
eines Vektors von "n" Bezugsähnlichkeiten zwischen den
Merkmalsparametern der Bezugssprache und jedem der
Standardmuster für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der
Bezugsähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken, wobei die
Bezugsähnlichkeitsvektorabfolgen jeweils den
Erkennungsobjekt-Worten entsprechen,
vorhergehend Verzeichnen der
Bezugsähnlichkeitsvektorabfolgen als Wörterbuchähnlichkeitsvektorabfolgen,
Analysieren von zu erkennender Eingabesprache und Erzeugen
von "m" Merkmalsparametern aus der Eingabesprache,
Ausführen eines Vergleichs zwischen den Merkmalsparametern
der Eingabesprache und den Standardmustern und Erzeugen
eines Vektors von "n" Eingabesprachähnlichkeiten zwischen den
Merkmalsparametern der Eingabesprache und den
Standardmustern für jeden Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der
Eingabesprachähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken und
Sammeln der Eingabesprachähnlichkeitsvektorabfolge mit den
Wörterbuchähnlichkeitsvektorabfolgen zum Erkennen der
eingegebenen Sprache.
2. Verfahren nach Anspruch 1, mit den Schritten
Berechnen von Zeitbereichsveränderungen bei den
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den Bezugsähnlichkeiten von
jeweiligen Datenübertragungsblöcken,
wobei die zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den Bezugsähnlichkeiten jeweils den
Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den
Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei
den Eingabesprachähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten von
jeweiligen Datenübertragungsblöcken und
Sammeln der zeitlichen Abfolge der Vektoren der
Zeitbreichsveränderungen bei den Eingabesprachähnlichkeiten mit
jeder der zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den Bezugsähnlichkeiten zur
Erkennung der eingegebenen Sprache.
3. Verfahren nach Anspruch 1, wobei
der Sammelschritt eine dynamische Programmierungs-
Vergleichstechnik verwendet.
4. Verfahren nach Anspruch 1, weiterhin mit dem Schritt
Verarbeiten der Bezugsähnlichkeiten und der
Eingabesprachähnlichkeiten mittels einer Funktion einer
Verstärkung von großen Mitgliedern der Ähnlichkeiten.
5. Verfahren nach Anspruch 1, weiterhin mit den Schritten
Verarbeiten der Bezugsähnlichkeiten mittels einer Funktion
einer Verstärkung von großen Mitgliedern der
Bezugsähnlichkeiten zur Umwandlung der Bezugsähnlichkeiten in zweite
Bezugsähnlichkeiten,
Verarbeiten der Eingabesprachähnlichkeiten mittels
derselben Funktion zum Umwandeln der Eingabesprachähnlichkeiten
in zweite Eingabesprachähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der
Grundlage der zweiten Bezugsähnlichkeiten,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den
zweiten Bezugsähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der
jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten
jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei
den zweiten Eingabesprachähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke und
Sammeln der zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten zum Erkennen der Eingabesprache.
6. Verfahren nach Anspruch, weiterhin mit den Schritten
Normieren jedes der Bezugsähnlichkeitsvektoren und
Normieren jedes der Eingabesprachähnlichkeitsvektoren,
wobei der Sammelschritt ein Berechnen eines Abstands
zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder
der Wörterbuchähnlichkeitsvektorabfolgen und ein Erkennen
der Eingabesprache ansprechend auf die berechneten Abstände
umfaßt.
7. Verfahren nach Anspruch 1, weiterhin mit den Schritten
Auswählen von "k" größeren Mitgliedern aus den
Bezugsähnlichkeiten und Einstellen von verbleibenden Mitgliedern der
Bezugsähnlichkeiten gleich einer k-größten
Bezugsähnlichkeit zum Umwandeln der Bezugsähnlichkeiten in zweite
Bezugsähnlichkeiten, wobei "k" einen voreingestellten Integer
wert bezeichnet,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der
Grundlage der zweiten Bezugsähnlichkeitsabfolgen,
Auswählen von "k" größeren Mitgliedern aus den eingegebenen
Ähnlichkeiten und Einstellen von verbleibenden Mitgliedern
der Eingabesprachähnlichkeiten gleich einer k-größten
eingegebenen Ähnlichkeit zum Umwandeln der eingegebenen
Ähnlichkeiten in zweiten Eingabesprachähnlichkeiten, und
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf
der Grundlage der zweiten Ähnlichkeiten der eingegebenen
Sprache,
wobei der Sammelschritt ein Berechnen eines euklidischen
Abstands zwischen der
Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen und
ein Erkennen der eingegebenen Sprache ansprechend auf die
berechneten euklidischen Abstände umfaßt.
8. Verfahren nach Anspruch 1, weiterhin mit dem Schritt
Verarbeiten der Bezugsähnlichkeiten und der
Eingabesprachähnlichkeiten mittels einer Exponentialfunktion zur
Verstärkung von großen Mitgliedern der Ähnlichkeiten,
wobei der Sammelschritt ein Berechnen eines
Korrelationsabstands zwischen der Eingabesprachähnlichkeitsvektorabfolge
und jeder der Wörterbuchähnlichkeitsvektorabfolgen und ein
Erkennen der Eingabesprache ansprechend auf die berechneten
Korrelationsabstände umfaßt.
9. Verfahren nach Anspruch 1, weiterhin mit den Schritten
Verstärken von großen Mitgliedern der Bezugsähnlichkeiten
zum Umwandeln der Bezugsähnlichkeiten in zweite
Bezugsähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der
Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren,
Verstärken von großen Mitgliedern der Ähnlichkeiten der
Eingabesprache zur Umwandlung der
Eingabesprachähnlichkeiten der Eingabesprache in zweite
Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf
der Grundlage der zweiten Eingabesprachähnlichkeiten und
Normieren jedes der Vektoren der Eingabesprache,
wobei der Sammelschritt eine dynamische Programmierungs-
Vergleichstechnik unter Verwendung einer Gewichtung und ein
Verändern der Gewichtung entsprechend einer Größe einer
mittleren Ähnlichkeit eines Datenübertragungsblocks zum
Einstellen der Gewichtung in einem Intervall entsprechend
einer niedrigen Mittlwert-Ähnlichkeit auf klein umfaßt.
10.Verfahren nach Anspruch 9, weiterhin mit den Schritten
Berechnen von Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den
zweiten Bezugsähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten von
jeweiligen Datenübertragungsblöcken,
wobei die zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten
jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei
den zweiten Eingabesprachähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke und
Sammeln der zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten zur Erkennung der Eingabesprache.
11.Verfahren nach Anspruch 1, wobei
der Sammelschritt ein Ausführen einer dynamischen
Programmierungs-Vergleichstechnik unter Verwendung einer Gewichtung
und ein Einstellen der Gewichtung in einem ruhigen
Intervall auf klein umfaßt.
12.Verfahren nach Anspruch 1, weiterhin mit den Schritten
Verstärken von großen Mitgliedern der Bezugsähnlichkeiten
zum Umwandeln der Bezugsähnlichkeiten in zweite
Bezugsähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der
Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren,
Verstärken von großen Mitgliedern der Ähnlichkeiten der
Eingabesprache zum Umwandeln der Ähnlichkeiten der
Eingabesprache in zweite Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf
der Grundlage der zweiten Eingabesprachähnlichkeiten,
Normieren jedes der Vektoren der Eingabesprache,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den
zweiten Bezugsähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der
jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten
jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei
der den zweiten Eingabesprachähnlichkeiten für jeden
Datenübertragungsblock und
Erzeugen einer zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei der Sammelschritt ein Ausführen einer dynamischen
Programmierungs-Vergleichstechnik, ein Berechnen eines
Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolgen der Vektoren
der Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten, ein Berechnen eines Abstands Ls zwischen der
Eingabesprachähnlichkeitsvektorabfolge und jeder der
Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer
gewichteten Addition L zwischen den Abständen Lk und Ls durch
Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p"
ein Gewicht entsprechend einem Mischverhältnis bezeichnet,
ein Verändern des Mischverhältnisses "p" entsprechend einer
Größe der mittleren Zeitbereichsveränderung bei den
Ähnlichkeiten in einem Datenübertragungsblock zum Einstellen
des Mischverhältnisses "p" in einem Intervall entsprechend
einer kleinen mittleren Zeitbereichsveränderung bei den
Ähnlichkeiten in einem Datenübertragungsblock auf groß und
ein Erkennen der eingegebenen Sprache ansprechend auf die
gewichtete Addition L umfaßt.
13.Verfahren nach Anspruch 1, weiterhin mit den Schritten
Verstärken von großen Mitgliedern der Bezugsähnlichkeiten
zum Umwandeln der Bezugsähnlichkeiten in zweite
Bezugsähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der
Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren,
Verstärken großer Mitglieder von Eingabesprachähnlichkeiten
zum Umwandeln der Eingabesprachähnlichkeiten in zweite
Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf
der Grundlage der zweiten Eingabesprachähnlichkeiten,
Normieren jedes der Vektoren der Eingabesprache,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsverändeurngen bei den
zweiten Bezugsähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der
jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten
jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten, und
Erzeugen einer zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei der Sammelschritt ein Ausführen einer dynamischen
Programmierungs-Vergleichstechnik, ein Berechnen eines
Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolge der Vektoren
der Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten, ein Berechnen eines Abstands Ls zwischen der
Eingabesprachähnlichkeitsvektorabfolge und jeder der
Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer
gewichteten Addition L zwischen den Abständen Lk und Ls unter
Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p"
ein Gewicht entsprechend einem Mischverhältnis bezeichnt,
ein Einstellen des Mischverhältnisses "p" auf einen ersten
Bezugswert in einem Intervall entsprechend einem konstanten
Teil eines Vokals, ein Einstellen des Mischverhältnisses "p"
auf einen zweiten Bezugswert in einem Intervall verschieden
von dem Intervall entsprechend dem konstanten Teil des
Vokals, wobei der zweite Bezugswert kleiner als der erste
Bezugswert ist, und ein Erkennen der eingegebenen Sprache
ansprechend auf die gewichtete Addition L umfaßt.
14.Verfahren nach Anspruch 1, weiterhin mit den Schritten
Verstärken von großen Mitgliedern der Bezugsähnlichkeiten
zum Umwandeln der Bezugsähnlichkeiten in zweite
Bezugsählichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der
Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren,
Verstärken großer Mitglieder von Eingabesprachähnlichkeiten
zum Umwandeln der Eingabesprachähnlichkeiten in zweite
Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf
der Grundlage der zweiten Eingabesprachähnlichkeiten,
Normieren jedes der Eingabesprachvektoren,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den
zweiten Bezugsähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der
jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten
jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten, und
Erzeugen eines Vektors der Zeitbereichsveränderungen bei
den zweiten Eingabesprachähnlichkeiten für jeden
Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke,
wobei der Sammelschritt ein Ausführen einer dynamischen
Programmierungs-Vergleichstechnik, ein Berechnen eines
Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den zweiten
Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolgen der Vektoren
der Zeitbereichsveränderungen bei den zweiten
Bezugsähnlichkeiten, ein Berechnen eines Abstands LS zwischen der
Eingabesprachähnlichkeitsvektorabfolge und jeder der
Wörterbuchähnlichkeitsvektorabfolgen,
ein Berechnen einer
gewichteten Addition L zwischen den Abständen Lk und Ls unter
Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p"
ein Gewicht entsprechend einem Mischverhältnis bezeichnet,
ein Verändern des Mischverhältnisses "p" entsprechend einer
Größe einer mittleren Zeitbereichsveränderung bei den
Ähnlichkeiten in einem Datenübertragungsblock zur Einstellung
des Mischverhältnisses "p" in einem Intervall entsprechend
einer kleinen mittleren Zeitbereichsveränderung bei den
Ähnlichkeiten in einem Datenübertragungsblock auf groß, ein
Ausführen einer dynamischen Programmierungs-
Vergleichstechnik unter Verwendung einer zweiten
Gewichtung, ein Einstellen der zweiten Gewichtung in einem
ruhigen Intervall auf klein und ein Erkennen der eingegebenen
Sprache ansprechend auf die gewichtete Addition L umfaßt.
15.Verfahren nach Anspruch 1, weiterhin mit den Schritten
Analysieren von Teilen von Bezugssprache, die von zumindest
zwei Sprechern gesprochen werden und gleiche
Erkennungsobjekt-Worte darstellen, um zeitliche Abfolgen von
Ähnlichkeitsvektoren zu erhalten,
Ausführen eines dynamischen Programmierungs-Vergleichs auf
die zeitlichen Abfolgen der Ähnlichkeitsvektoren zum
Vergleich von Zeitbasen zwischen den Sprechern,
Berechnen von Mittelwerten von jeweiligen Ähnlichkeiten
zwischen zeitlich in Übereinstimmung gebrachten
Datenübertragungsblöcken und
Bestimmen der Bezugsähnlichkeitsvektorabfolgen auf der
Grundlage der berechneten Mittelwerte.
16.Verfahren nach Anspruch 1, weiterhin mit den Schritten
Berechnen von Zeitbereichsveränderungen bei den
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den
Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei Bezugsähnlichkeiten der jeweiligen
Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den Bezugsähnlichkeiten jeweils den
Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den
Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei
den Eingabesprachähnlichkeiten für jeweilige
Datenübertragungsblöcke,
Sammeln der zeitlichen Abfolge der Vektoren der
Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten mit
jeder der zeitlichen Abfolgen der Vektoren der
Zeitbereichsveränderungen bei den Bezugsähnlichkeiten zur
Erkennung der Eingabesprache,
Analysieren von Teilen der Bezugssprache, die von zumindest
zwei Sprechern gesprochen werden und gleiche
Erkennungsobjekt-Worte darstellen, zum Erhalten von zeitlichen Abfolgen
von Ähnlichkeitsvektoren und zeitlichen Abfolgen von
Zeitbereichsähnlichkeitsveränderungen,
Ausführen eines dynamischen Programmierungs-Vergleichs auf
die zeitlichen Abfolgen der Ähnlichkeitsvektoren und die
zeitlichen Abfolgen der
Zeitbereichsähnlichkeitsveränderungen zum Vergleich der Zeitbasen zwischen den Sprechern,
Berechnen von Mittelwerten von jeweiligen Ähnlichkeiten
zwischen zeitlich angepaßten Datenübertragungsblockern und
Bestimmen der Bezugsähnlichkeitsvektorabfolgen und der
Bezugszeitbereichsähnlichkeitsveränderungsabfolgen auf der
Grundlage der berechneten Mittelwerte.
17.Verfahren nach Anspruch 1, weiterhin mit den Schritten
Analysieren von Teilen der Bezugssprache, die von zumindest
zwei Sprechern gesprochen wird und gleiche
Erkennungsobjekt-Worte darstellt, zum Erhalten von
Ähnlichkeitsvektoren, unter Verwendung der Ähnlichkeitsvektoren als
Mehrfachstandardmuster bei der Bestimmung der
Bezugsähnlichkeitsvektorabfolgen.
18.Verfahren nach Anspruch 2, weiterhin mit den Schritten
Analysieren von Teilen der Bezugssprache, die von zumindest
zwei Sprechern gesprochen wird und gleiche
Erkennungsobjekt-Worte darstellt, zum Erhalten von
Ähnlichkeitsvektorabfolgen
und
Zeitbereichsähnlichkeitsveränderungsvektorabfolgen, unter Verwendung der Ähnlichkeitsvektorabfolgen und
der Zeitbereichsähnlichkeitsveränderungsvektorabfolgen als
Mehrf achstandardmuster bei der Bestimmung des
Bezugsähnlichkeitsvektorabfolgen und der
Bezugszeitbereichsähnlichkeitsveränderungsvektorabfolgen.
19.Verfahren nach einem der Ansprüche 15-18, wobei
die Teile der Bezugssprache von einem männlichen und einem
weiblichen Sprecher gesprochen werden.
20.Verfahren zur Spracherkennung mit den Schritten:
vorhergehendes Einstellen eines Satzes von Worten unter
Berücksichtigung von phonetischen Umgebungen,
Sprechenlassen des Wortsatzes durch zumindest einen
Sprecher und Erhalten von "m" Merkmalsparametern für jeden
Datenübertragungsblock,
vorhergehendes Erzeugen von "n" Arten von Standardmustern
für von vielen Sprechern erzeugte Sprachdaten,
Ausführen eines Vergleichs zwischen den Merkmalsparametern
und jedem der Standardmuster zum Erhalten eines Vektors von
"n" Ähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen eines zeitlichen Abfolgemusters aus dem
Ähnlichkeitsvektor,
Extrahieren von Sprachfragmenten aus dem zeitlichen
Abfolgemuster und Verzeichnen der Sprachfragmente als ein
Sprachfragmentwörterbuch,
Erzeugen einer Verbindungsabfolge der Sprachfragmente oder
eines zeitlichen Abfolgemusters von Ähnlichkeitsvektoren
für jedes der Spracherkennungsobjekt-Worte, wobei das
zeitliche Abfolgemuster der Ähnlichkeitsvektoren durch
Kombinieren der Sprachfragnente in dem Sprachfragmentwörterbuch
erzeugt wird,
Speichern der Verbindungsabfolge der Sprachfragmente oder
des zeitlichen Abfolgemusters der Ähnlichkeitsvektoren in
einem Erkennungsobjektwörterbuch für jedes der
Erkennungsobjekt-Worte,
Analysieren einer eingegebenen Sprache zum Erhalten von "m"
Merkmalsparametern für jeden Datenübertragungsblock,
Ausführen eines Vergleichs zwischen den
Eingabesprachmerkmalsparametern und jedem der Standardmuster zum Erhalten
einer zeitlichen Abfolge von Vektoren von "n" Ähnlichkeiten
und
Sammeln der zeitlichen
Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der
Ähnlichkeiten, die an den jeweiligen Punkten des
Erkennungsobjektwörterbuchs verzeichnet sind, zum Erkennen der
Eingabesprache, oder Sammeln der zeitlichen Ähnlichkeitsvektorabfolge
der Eingabesprache mit jedem der zeitlichen Abfolgemuster
der Ähnlichkeiten, die gemäß den Verbindungsabfolgen der
Sprachfragmente zur Erkennung der eingegebenen Sprache
erzeugt werden.
21.Verfahren nach Anspruch 20, weiterhin mit den Schritten
Berechnen von "n" Zeitbereichsveränderungen bei den
Ähnlichkeiten im Hinblick auf jede der zeitlichen Abfolgen der "n"
Arten von Ähnlichkeiten für jeden Datenübertragungsblock
und
Erzeugen der zeitlichen Abf olgemuster aus einem Vektor der
"n" Zeitbereichsveränderungen bei den Ähnlichkeiten und
einem Vektor der "n" Ähnlichkeiten.
22.Verfahren nach Anspruch 20, wobei
die Sprachfragmente eine Abfolge eines Konsonanten und
eines Vokals und eine Kombination eines Vokals und eines
Konsonanten umfassen.
23.Verfahren nach Anspruch 20, wobei
jeder der Punkte der Erkennungsobjekt-Worte durch Verbinden
der zeitlichen Abfolgemuster der Zeitbereichsähnlichkeits-
veränderungsvektoren oder der als Sprachfragmente
extrahierten zeitlichen Abfolgemuster der Ähnlichkeitsvektoren
erzeugt wird und
ein dynamischer Programmierungs-Vergleich im Hinblick auf
die Eingabesprache zur Erkennung der Eingabesprache
durchgeführt wird.
24.Verfahren nach Anspruch 20, wobei
versteckte Markov-Modelle auf die zeitlichen Abfolgemuster
der Zeitbereichsähnlichkeitsveränderungsvektoren oder die
zeitlichen Abfolgemuster der Ähnlichkeitsvektoren, die als
Sprachfragmentmuster extrahiert werden, zur Erkennung der
Eingabesprache angelegt werden.
25.Verfahren nach Anspruch 20, wobei
zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte
sprechen, die zum Erhalten von zeitlichen Abfolgen von
Ähnlichkeitsvektoren analysiert werden,
Zeitbasen der Sprecher mittels eines dynamischen
Programmierungs-Vergleichs im Hinblick auf die zeitlichen
Abfolgemuster der Ähnlichkeitsvektoren verglichen werden,
Mittelwerte der Ähnlichkeiten zwischen zeitlich in
Übereinstimmung gebrachten Datenübertragungsblöcken berechnet
werden,
Sprachfragmente von einem zeitlichen Abfolgemuster der
Mittelwerte extrahiert werden und
die Sprachfragmente in dem Sprachfragmentwörterbuch
verzeichnet werden.
26.Verfahren nach Anspruch 21, wobei
Regressionskoeffizienten als Informationen über
Zeitbereichsveränderungen verwendet werden.
27.Verfahren nach Anspruch 2, wobei
zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte
sprechen, die zum Erhalten von zeitlichen Abfolgemustern
von Ähnlichkeitsvektoren und zeitlichen Abfolgemustern von
Regressionskoeffizientenvektoren analysiert werden,
Zeitbasen der Sprecher mittels eines dynamischen
Programmierungs-Vergleichs im Hinblick auf die zeitlichen
Abfolgemuster der Ähnlichkeitsvektoren und der zeitlichen
Abfolgemuster der Regressionskoeffizientenvektoren verglichen
werden,
Mittelwerte der Ähnlichkeiten und Mittelwerte von
Zeitbereichsveränderungen bei den Ähnlichkeiten zwischen zeitlich
in Übereinstimmung gebrachten Datenübertragungsblöcken
berechnet werden und
zeitliche Abfolgemuster der Mittelwerte in einem Wörterbuch
verzeichnet werden.
28.Verfahren nach Anspruch 21, wobei
zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte
sprechen, die zum Erhalten von zeitlichen Abfolgemustern
von Ähnlichkeitsvektoren und zeitlichen Abfolgemustern von
Regressionkoeffizientenvektoren analysiert werden,
Zeitbasen der Sprecher mittels eines dynamischen
Programmierungs-Vergleichs im Hinblick auf die zeitlichen
Abfolgemuster der Ähnlichkeitsvektoren und der zeitlichen
Abfolgemuster der Regressionskoeffizientenvektoren verglichen
werden,
Mittelwerte der Ähnlichkeiten und Mittelwerte von
Zeitbereichsveränderungen bei den Ähnlichkeiten zwischen zeitlich
in Übereinstimmung gebrachten Datenübertragungsblöcken
berechnet werden,
Sprachfragmente von einem zeitlichen Abfolgemuster der
Mittelwerte extrahiert werden und
die Sprachfragmente in dem Sprachfragmentwörterbuch
verzeichnet werden.
29.Verfahren nach Anspruch 20, wobei
eines von einem euklidischen Abstand, einem gewichteten
euklidischen Abstand und einem Korrelationskosinus als ein
Abstandsmaß für eine Berechnung eines Abstands zwischen dem
Ähnlichkeitsvektoren verwendet wird.
30.Verfahren nach Anspruch 20, wobei
die Standardmuster Phonemen entsprechen.
31.Verfahren nach Anspruch 20, wobei
eines von einem Bayesianischen Abstand, einen Maharanobis
Abstand, einem Maharanobis Abstand, bei dem
Kovarianzmatrizen der Standardmuster gemeinsam verwendet werden, einem
neuronalen Netzwerkabstand, einem versteckten Markov-
Modellabstand und ein Lernvektorquantisierungsabstand als
ein Abstandmaß im Hinblick auf einen Vergleich mit den
Standardmustern verwendet wird.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2404866A JP2692382B2 (ja) | 1990-12-21 | 1990-12-21 | 音声認識方法 |
JP747791 | 1991-01-25 | ||
JP3058796A JP2879989B2 (ja) | 1991-03-22 | 1991-03-22 | 音声認識方法 |
JP17090891A JP2574557B2 (ja) | 1991-07-11 | 1991-07-11 | 音声認識方法 |
JP3234388A JP2943445B2 (ja) | 1991-01-25 | 1991-09-13 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69127961D1 DE69127961D1 (de) | 1997-11-20 |
DE69127961T2 true DE69127961T2 (de) | 1998-03-05 |
Family
ID=27518826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69127961T Expired - Lifetime DE69127961T2 (de) | 1990-12-21 | 1991-12-19 | Verfahren zur Spracherkennung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5345536A (de) |
EP (1) | EP0492470B1 (de) |
DE (1) | DE69127961T2 (de) |
Families Citing this family (186)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2704348B1 (fr) * | 1993-04-23 | 1995-07-07 | Matra Communication | Procede de reconnaissance de parole a apprentissage. |
US5522011A (en) * | 1993-09-27 | 1996-05-28 | International Business Machines Corporation | Speech coding apparatus and method using classification rules |
US5704004A (en) * | 1993-12-01 | 1997-12-30 | Industrial Technology Research Institute | Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique |
EP0703566A1 (de) * | 1994-09-23 | 1996-03-27 | Aurelio Oskian | Vorrichtung zur Spracherkennung |
JP2738403B2 (ja) * | 1995-05-12 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5825977A (en) * | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US5657424A (en) * | 1995-10-31 | 1997-08-12 | Dictaphone Corporation | Isolated word recognition using decision tree classifiers and time-indexed feature vectors |
US5737716A (en) * | 1995-12-26 | 1998-04-07 | Motorola | Method and apparatus for encoding speech using neural network technology for speech classification |
US6038531A (en) * | 1997-01-30 | 2000-03-14 | Seiko Epson Corporation | Similar word discrimination method and its apparatus |
US6847717B1 (en) | 1997-05-27 | 2005-01-25 | Jbc Knowledge Ventures, L.P. | Method of accessing a dial-up service |
US9978373B2 (en) | 1997-05-27 | 2018-05-22 | Nuance Communications, Inc. | Method of accessing a dial-up service |
US6073095A (en) * | 1997-10-15 | 2000-06-06 | International Business Machines Corporation | Fast vocabulary independent method and apparatus for spotting words in speech |
US6230129B1 (en) | 1998-11-25 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Segment-based similarity method for low complexity speech recognizer |
WO2000054168A2 (en) * | 1999-03-05 | 2000-09-14 | Canon Kabushiki Kaisha | Database annotation and retrieval |
JP2001075964A (ja) * | 1999-08-31 | 2001-03-23 | Sony Corp | 情報処理装置および情報処理方法、並びに記録媒体 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7149695B1 (en) * | 2000-10-13 | 2006-12-12 | Apple Computer, Inc. | Method and apparatus for speech recognition using semantic inference and word agglomeration |
US6915259B2 (en) * | 2001-05-24 | 2005-07-05 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on linear separation of variability sources |
US6996527B2 (en) * | 2001-07-26 | 2006-02-07 | Matsushita Electric Industrial Co., Ltd. | Linear discriminant based sound class similarities with unit value normalization |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20040117181A1 (en) * | 2002-09-24 | 2004-06-17 | Keiko Morii | Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method |
US20050206721A1 (en) * | 2004-03-22 | 2005-09-22 | Dennis Bushmitch | Method and apparatus for disseminating information associated with an active conference participant to other conference participants |
US7606707B2 (en) * | 2005-09-06 | 2009-10-20 | Toshiba Tec Kabushiki Kaisha | Speaker recognition apparatus and speaker recognition method to eliminate a trade-off relationship between phonological resolving performance and speaker resolving performance |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US20090132237A1 (en) * | 2007-11-19 | 2009-05-21 | L N T S - Linguistech Solution Ltd | Orthogonal classification of words in multichannel speech recognizers |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8788256B2 (en) | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US9047867B2 (en) * | 2011-02-21 | 2015-06-02 | Adobe Systems Incorporated | Systems and methods for concurrent signal recognition |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US8843364B2 (en) | 2012-02-29 | 2014-09-23 | Adobe Systems Incorporated | Language informed source separation |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
CN113470640B (zh) | 2013-02-07 | 2022-04-26 | 苹果公司 | 数字助理的语音触发器 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR102014665B1 (ko) | 2013-03-15 | 2019-08-26 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200728A1 (en) | 2013-06-09 | 2014-12-18 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
JP6292911B2 (ja) * | 2014-02-07 | 2018-03-14 | キヤノン株式会社 | 画像処理方法、画像処理プログラムおよび画像処理装置 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
EP3480811A1 (de) | 2014-05-30 | 2019-05-08 | Apple Inc. | Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN112668632B (zh) * | 2020-12-25 | 2022-04-08 | 浙江大华技术股份有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5131043A (en) * | 1983-09-05 | 1992-07-14 | Matsushita Electric Industrial Co., Ltd. | Method of and apparatus for speech recognition wherein decisions are made based on phonemes |
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
US4885791A (en) * | 1985-10-18 | 1989-12-05 | Matsushita Electric Industrial Co., Ltd. | Apparatus for speech recognition |
JPH0760318B2 (ja) * | 1986-09-29 | 1995-06-28 | 株式会社東芝 | 連続音声認識方式 |
JPH01167898A (ja) * | 1987-12-04 | 1989-07-03 | Internatl Business Mach Corp <Ibm> | 音声認識装置 |
JPH0293597A (ja) * | 1988-09-30 | 1990-04-04 | Nippon I B M Kk | 音声認識装置 |
JPH0636156B2 (ja) * | 1989-03-13 | 1994-05-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声認識装置 |
JPH02272495A (ja) * | 1989-04-13 | 1990-11-07 | Toshiba Corp | 音声認識装置 |
-
1991
- 1991-12-17 US US07/808,692 patent/US5345536A/en not_active Expired - Lifetime
- 1991-12-19 DE DE69127961T patent/DE69127961T2/de not_active Expired - Lifetime
- 1991-12-19 EP EP91121856A patent/EP0492470B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0492470A3 (en) | 1993-05-12 |
EP0492470A2 (de) | 1992-07-01 |
US5345536A (en) | 1994-09-06 |
EP0492470B1 (de) | 1997-10-15 |
DE69127961D1 (de) | 1997-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE3876207T2 (de) | Spracherkennungssystem unter verwendung von markov-modellen. | |
DE69827586T2 (de) | Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69816177T2 (de) | Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE60020660T2 (de) | Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung | |
DE69030561T2 (de) | Spracherkennungseinrichtung | |
EP0987683B1 (de) | Spracherkennungsverfahren mit Konfidenzmassbewertung | |
DE69930961T2 (de) | Vorrichtung und verfahren zur sprachsegmentierung | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
EP0797185B1 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
EP1084490B1 (de) | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner | |
DE60004331T2 (de) | Sprecher-erkennung | |
DE10030105A1 (de) | Spracherkennungseinrichtung | |
DE60314128T2 (de) | Parametrische online-histogramm normierung zur rauschrobusten spracherkennung | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE2825186A1 (de) | Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale | |
DE69924596T2 (de) | Auswahl akustischer Modelle mittels Sprecherverifizierung | |
DE2825082A1 (de) | Verfahren zur spracherkennung | |
DE69813597T2 (de) | Mustererkennung, die mehrere referenzmodelle verwendet | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: PANASONIC CORP., KADOMA, OSAKA, JP |