DE69127961T2

DE69127961T2 - Verfahren zur Spracherkennung

Info

Publication number: DE69127961T2
Application number: DE69127961T
Authority: DE
Inventors: Shoji Hiraoka; Masakatsu Hoshimi; Maki Miyata; Katsuyuki Niyada
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp
Priority date: 1990-12-21
Filing date: 1991-12-19
Publication date: 1998-03-05
Anticipated expiration: 2011-12-20
Also published as: EP0492470A3; EP0492470A2; US5345536A; EP0492470B1; DE69127961D1

Description

Gebiet der Erfindung

Die Erfindung bezieht sich auf ein Verfahren zur Erkennung von von einem unbestimmten Sprecher erzeugter Sprache.

Beschreibung des Standes der Technik

Einige Verfahren zur Spracherkennung verwenden eine Wortabhör- und bzw. -entdeckungstechnik. T.Kimura et al veröffentlichten "A Telephone Speech Recognition System Using Word Spotting Technique Based on Statistical Measure", Proc. of ICASSP, Dallas, Seiten 1175-1178, 1987. S. Hiraoka et al veröffentlichten "A Small Vocabulary Speech Recognizer for Unspecified Speaker Using Word-Spotting Technique", The Japanese Society of Electronics, Information and Communications, SP88-18, 1988.
Gemäß der Veröffentlichung von S. Hiraoka et al, wurde ein sprecherunabhängiges Spracherkennungsverfahren entwickelt, das relativ immun gegen Rauschen ist. Das Erkennungsverfahren mit der Bezeichnung CLM (Continuous Linear Compression/Expansion Matching (fortwährender linearer Kompression/Ausdehungsvergleich bzw. -anpassung)) verwendet eine Wortabhör- bzw. -technik. Die Wortabhörtechnik wird mittels eines neuen Zeitnormierungsalgorithmus auf der Grundlage eines linearen Zeitverzerrungsmustervergleichsverfahrens durchgeführt. Eine Worterkennung wurde unter Verwendung einer Zehnzahlen- Datenbasis von 240 Personen durchgeführt, die über eine Telephonleitung gesammelt wurden. Die sich ergebende Worterkennungsquote betrug 96,4%. Bei der praktischen Anwendung betrug die Erkennungsquote 95,9%.
Bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al wird unbekannte eingegebene Sprache mit vorbestimmten Standardmustern voreingestellter Worte (Erkennungsobjekt-Worte) verglichen, um ein Spracherkennungsergebnis auszudatenübertragungsblocken. Die Standardmuster werden auf der Grundlage von Daten von von vielen Sprechern gesprochenen Erkennungsobjekt- Worten erzeugt. Während der Erzeugung der Standardmuster werden Signale von gesprochenen Worten veranschaulicht und aus den veranschaulichten Signalen werden Sprachintervalle extrahiert. Signalkomponenten in den Sprachintervallen werden statistisch verarbeitet, um die Standardmuster zu Datenübertragungsblocken.
Bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al wird ein Wortwörterbuch für einen unbestimmten Sprecher, das Standardmuster von Erkennungsobjekt-Worten enthält, durch Verwendung von von vielen, beispielsweise 330 Sprechern, erhaltenen Sprachdaten. Insbesondere erzeugen die Sprecher japanische Worte, die Zahlen von 1 bis 10 darstellen, und die erzeugten japanischen Worte werden in Sprachdaten umgewandelt. Die Sprachdaten werden in spektralen Signalverläufen veranschaulicht und Sprachintervalle werden mit Beobachtung unter Verwendung menschlicher Augen extrahiert. Jedes Sprachintervall wird in Einheitsanalyse-Zeitmaße aufgeteilt. Merkmalsparameter (linerare Vorhersage-Koeffizienten LPC Cepstrum-Koeffizienten) der Sprachdaten werden für jedes Einheitsanalyse-Zeitmaß abgeleitet. Die Merkmalsparameter für die jeweiligen Einheitsanalyse-Zeitmaße werden in einer zeitlichen Abfolge angeordnet. Die Intervalle der durch zeitliche Abfolgen von Herkmalsparametern dargestellten Sprachdaten werden auf ein voreingestelltes Sparchzeitmaß, das sich von Wort zu Wort verändert, komprimiert oder expandiert. Die Absolutwerte der sich ergebenden Sprachdaten werden zur Erzeugung eines Standardmusters jedes Erkennungsobjekt-Worts verwendet.
Die herkömmliche Spracherkennung gemäß S. Hiraoka et al besitzt die folgenden Probleme. Erstens waren viele verschiedene Sprecher erforderlich, um ein zuverlässiges Wortwörterbuch zu erzeugen, das Standardmuster von Erkennungsobjekt-Worten enthält. Zweitens war es mühsam, Erkennungsobjekt-Worte zu verändern.

Zusammenfassung der Erfindung

Es ist eine Aufgabe der Erfindung, ein verbessertes Verfahren zur Spracherkennung auszuDatenübertragungsblocken.
Ein erster Gesichtspunkt der Erfindung erzeugt ein Verfahren zur Spracherkennung, das die Schritte Erzeugen von "m" Merkmalsparametern für jeden Datenübertragungsblock aus der Bezugssprache, die von zumindest einem Sprecher gesprochen wurde und Erkennungsobjekt-Worte darstellt, wobei "m" einen voreingestellten Integerwert bezeichnet, vorher Erzeugen von "n" Typen von Standardmustern auf der Grundlage von Sprachdaten einer Vielzahl von Sprechern, wobei "n" einen voreingestellten Integerwert bezeichnet, Ausführen eines Vergleichs zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster, und Erzeugen eines Vektors mit "n" Bezugsähnlichkeiten zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster für jedes Datenübertragungsblock, Erzeugen von zeitlichen Abfolgen der Bezugsähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcke, wobei die Bezugsähnlichkeitsvektorabfolgen jeweils den Erkennungsobjekt-Worten entsprechen, vorher Registrieren der Bezugähnlichkeitsvektorabfolgen als Wörterbuchähnlichkeitsvektorabfolgen, Analysieren der zu erkennenden Eingabesprache und Erzeugen von "m" Merkmalsparametern aus der Eingabesprache, Ausführen eines Vergleichs zwischen den Merkmalsparametern der Eingabesprache und den Standardmustern und Erzeugen eines Vektors von "n" Eingabesprachähnlichkeiten zwischen den Merkmalsparametern der Eingabesprache und der Standardmuster für jeden Datenübertragungsblock, Erzeugen einer zeitlichen Abfolge der Eingabesprachähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcke und Vergleichen der Eingabesprachähnlichkeitsvektorabfolge mit den Wörterbuchähnlichkeitsvektorabfolgen zur Erkennung der Eingabesprache.
Eine zweiter Gesichtspunkt der Erfindung bildet ein Verfahren zur Spracherkennung aus, das die Schritte vorher Einstellen eines Satzes von Worten unter Berücksichtigung von phonetischen Umgebungen, zumindest einen Sprecher den Wortsatz sprechen lassen und Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock, vorher Erzeugen von "n" Typen von Standardmustern aus den von vielen Sprechern erzeugten Sprachdaten, Ausführen eines Vergleichs zwischen den Merkmalsparametern und jedem der Standardmuster zum Erhalten eines Vektors von "n" Ähnlichkeiten für jeden Datenübertragungsblock, Extrahieren von Sprachfragmenten aus dem zeitlichen Abfolgemuster und Registrieren der Sprachfragmente als ein Sprachfragmentwörterbuch, Erzeugen einer Verbindungsabfolge der Sprachfragmente oder eines zeitlichen Abfolgemusters von Ähnlichkeitsvektoren für jedes der Spracherkennungsobjekt-Worte, wobei das zeitliche Abfolgemuster der Ähnlichkeitsvektoren durch Kombinieren der Sprachfragmente in dem Sprachfragmentwörterbuch erzeugt wird, Speichern der Verbindungsabfolge der Sprachfragmente oder des zeitlichen Abfolgemusters der Ähnlichkeitsvektoren in einem Erkennungsobjektwörterbuch für jedes der Erkennungsobjekt-Worte, Analysieren der Eingabesprache zum Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock, Ausführen eines Vergleichs zwischen den Eingabesprachmerkmalsparametern und jedem der Standardmuster zum Erhalten einer zeitlichen Abfolge von Vektoren von "n" Ähnlichkeiten und Vergleichen der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die in jeweiligen Punkten des Erkennungsobjekt-Wörterbuchs registriert sind, um die Eingabesprache zu erkennen, oder Vergleichen der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die entsprechend der Verbindungsabfolgen der Sprachfragmente erzeugt werden, um die Eingabesprache zu erkennen.

Kurzbeschreibung der Zeichnung

Es zeigen:
Fig. 1 ein Blockschaltbild eines Spracherkennungssystems, das ein Verfahren gemäß einem ersten erfindungsgemäßen Ausführungsbeispiel ausführt,
Fig. 2 eine Darstellung, die den Ablauf von Funktionen in dem ersten Ausführungsbeispiel zeigt,
Fig. 3 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlichkeiten in dem ersten Ausführungsbeispiel zeigt,
Fig. 4 eine Darstellung, die die zeitliche Beziehung zwischen einer ersten Sprache und einer zweiten Sprache, die von einem ersten bzw. einem zweiten Sprecher erzeugt werden, zeigt,
Fig. 5 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem dritten erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 6 eine Darstellung, die Ähnlichkeiten von jeweiligen Datenübertragungsblöcken und eine gerade Linie entsprechend einem Ähnlichkeitsregressionskoeffizienten eines Datenübertragungsblocks in dem dritten Ausführungsbeispiel zeigt,
Fig. 7 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem vierten erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 8 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlichkeiten in dem vierten Ausführungsbeispiel zeigt,
Fig. 9 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlickeiten, die der Ähnlichkeitsvektorabfolge gemäß Fig. 8 entspricht, zeigt,
Fig. 10 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem sechsten erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 11 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem siebenten erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 12 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem achten erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 13 ist ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "asahi" und Konsonanten-Vokal- und Vokal-Konsonant-Fragmente der Sprache im achten Ausführungsbeispiel zeigt,
Fig. 14 ist ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "sake" und eine Konsonant- Vokal- und Vokal-Konsonant-Fragmente der Sprache im achten Ausführungsbeispiel zeigt,
Fig. 15 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem neunten erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 16 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem zehnten erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 17 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "asahi" und Konsonant-Vokal- und Vokal- Konsonant-Fragmente der Sprache in dem zehnten Ausführungsbeispiel zeigt,
Fig. 18 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "sake" und Konsonanten-Vokal- und Vokal-Konsonant-Fragmente der Sprache in dem zehnten Ausführungsbeispiel zeigt,
Fig. 19 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "paaku" und Konsonant-Vokal- und Vokal- Konsonant-Fragmente der Sprache im zehnten Ausführungsbeispiel zeigt,
Fig. 20 ist eine Darstellung, die die zeitliche Beziehung zwischen einem ersten Sprachfragment und einem zweiten Sprachfragment, die von einem ersten bzw. einem zweiten Sprecher erzeugt wurden, zeigt,
Fig. 21 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungssystem gemäß einem elften erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 22 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsystem gemäß einem zwölften erfindungsgemäßen Ausführungsbeispiel zeigt,
Fig. 23 eine Darstellung, die dynamische Programmierungs(DP)-Pfade in dem zwölften Ausführungsbeispiel zeigt,
Fig. 24 eine Darstellung, die dynamische Programmierungs(DP)-Pfade in dem zwölften Ausführungsbeispiel zeigt,
Fig. 25 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem dreizehnten Ausführungsbeispiel zeigt,
Fig. 26 eine Darstellung, die eine Veränderung in einem Mischverhältnis in dem dreizehnten Ausführungsbeispiel zeigt, und
Fig. 27 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem vierzehnten erfindungsgemäßen Ausführungsbeispiel zeigt.

Beschreibung des ersten bevorzugten Ausführungsbeispiels

Fig. 1 zeigt ein Spracherkennungssystem, das ein Spracherkennungsverfahren gemäß einem ersten erfindungsgemäßen Ausführungsbeispiel ausführt. Wie in Fig. 1 gezeigt, enthält das Spracherkennungssystem eine Meßwandlereinrichtung 91 und einen Systemhauptteil 92. Der Systemhauptteil 92 enthält einen Mikrocomputer, eine Digitalsignalverarbeitungseinrichtung oder eine ähnliche Einrichtung, die eine Kombination einer Zentraleinheit (CPU) 93, einer Nur-Lese-Speichereinrichtung (ROM) 94, einer Schreib/Lese-Speichereinrichtung (RAM) 95 und eines Eingabe/Ausgabe (I/O)-Abschnitts 96 besitzt.
Die von einem Sprecher erzeugte Sprache wird mittels der Meßwandlereinrichtung 91 in ein entsprechendes elektrisches Sprachsignal umgewandelt. Das Sprachsignal wird in den Systemhauptteil 92 eingegeben, wobei es durch den Systemhauptteil 92 einer Spracherkennungsverarbeitung unterzogen wird. Der Systemhauptteil 92 gibt ein Signal aus, das das Ergebnis der Erkennung der Eingabesprache bzw. eingegebenen Sprache darstellt.
Insbesondere wird das Sprachsignal von der Meßwandlereinrichtung 91 zu dem Eingabe/Ausgabe-Abschnitt 96 des Systemhauptteils 92 übertragen. Der Eingabe/Ausgabe-Abschnitt 96 enthält eine Analog/Digital-Wandlereinrichtung, die das Sprachsignal digitalisiert. Das sich ergebende digitale Sprachsignal wird in dem Systemhauptteil 92 verarbeitet. Das Signal, das das Ergebnis der Erkennung der Eingabesprache darstellt, wird von dem Eingabe/Ausgabe-Abschnitt 96 ausgegeben.
Der Systemhauptteil 92 funktioniert entsprechend einem in der Nur-Lese-Speichereinrichtung 94 gespeicherten Programm. Das Programm ist derart entworfen, daß es die Spracherkennungsverarbeitung beim Eingabesprachsignal ausführt.
Auf dem Gebiet von Erfindungen, die sich auf Spracherkennungssysteme beziehen, ist es eine allgemeine Praxis, die Inhalte der Erfindungen zum einfachen Verständnis der Erfindungen unter Bezugnahme auf Diagramme des Ablaufs von Funktionen zu erklären. Es ist zu beachten, daß derartige Funktionsflußdiagramme die Hardwarestrukturen nicht direkt zeigen. Fig. 2 ist ein Funktionsflußdiagramm des Spracherkennungssystems.
Wie in Fig. 2 gezeigt, enthält das Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, eine Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6 und einen Erkennungsabschnitt 7.
Eine Eingabesprachsignal wird in Zeitsegmente unterteilt, die als Datenübertragungsblöcke bezeichnet werden, die eine vorbestimmte Periode besitzen, beispielsweise 10 ms. Das Eingabesprachsignal wird Datenübertragungsblock für Datenübertragungsblock verarbeitet. Der Sprachanalyseabschnitt 1 empfängt das Eingabesprachsignal, analysiert das Eingabesprachsignal und leitet für jeden Datenübertragungsblock lineare Vorhersagekoeffizienten (LPC) ab. Der Merkmalsparameterextraktionsabschnitt 2, der dem Sprachanalyseabschnitt 1 folgt, berechnet Merkmalsparameter und insbesondere lineare Vorhersagekoeffizienten-Cepstrum-Koeffizienten c&sub0;, c&sub1;, c&sub2;, ..., c&sub8; aus den linearen Vorhersagekoeffizienten. Die linearen Vorhersagekoeffizienten-Cepstrum-Koeffizienten werden von dem Mermalsparameterextraktionsabschnitt 2 zu dem Ähnlichkeitsberechnungsabschnitt 3 zugeführt.
Der Standardmusterspeicherabschnitt 4 speichert Standardmuster von 20 verschiedenen Phonemen. Die Phonemstandardmuster werden von dem Standardmusterspeicherabschnitt 4 zu dem Ähnlichkeitsberechnungsabschnitt 3 zugeführt. Die Phonemstandardmuster werden auf der Grundlage von von einer Vielzahl von Sprechern erzeugten Sprachdaten vorbestimmt. Die Phonemstandardmuster sind von den Standardmustern bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al sehr verschieden. Insbesondere beziehen sich die Phonemstandardmuster auf voreingestellte Phoneme, die im allgemeinen unabhängig von Erkennungsobjekt- Worten sind, wohingegen die Standardmuster bei der herkömmlichen Spracherkennung jeweils Erkennungsobjekt-Worten entsprechen. In dem Fall, in dem Erkennungsobjekt-Worte verändert werden, ist es unnötig, die Phonemstandardmuster zu verändern, aber die Standardmuster bei der herkömmlichen Spracherkennung müssen verändert werden. Die Phonemstandardmuster werden auf der Grundlage von von einer großen Anzahl von Sprechern erhaltenen Sprachdaten erzeugt. Bei der herkömmlichen Spracherkennung ist auch eine große Anzahl von Sprechern notwendig, um zuverlässige Standardmuster zu erzeugen.
Die 20 verschiedenen Phoneme sind /a/, /o/, /u/, /l/, /e/, /j/, /w/, /m/, /n/, /η/, /b/, /d/, /r/, /z/, /h/, /s/, /c/, /p/, /t/ und /k/. Die Phonemstandardmuster werden durch sichtbar machen bzw. veranschaulichen von Sprachsignalen, die die jeweiligen Phoneme darstellen, erzeugt, wobei die Merkmalsteile der jeweiligen Phoneme durch Beobachtung unter Verwendung der Augen (die Merkmalsteile der jeweiligen Phoneme sind gleich den zeitlichen Positionen oder Datenübertragungsblökken, die die Merkmale der Phoneme gut darstellen) und unter Verwendung zeitlicher Muster von Merkmalsparametern von Datenübertragungsblöcken, die an den Merkmalsbildern bzw. Merkmalsdatenübertragungsblöcken zentriert sind, genau erfaßt.
Insbesondere werden im Hinblick auf jedes der Phoneme zeitliche Muster jeweils aus einer Vielzahl von Teilen von Sprachdaten extrahiert. Jedes zeitliche Muster verwendet eine Merkmalsparameterabfolge x, die aus einer linearen oder eindimensionalen Anordnung von linearen Vorhersagekoeffizienten(LPC)-Cepstrum-Koeffizienten c&sub0;, c&sub1;, c&sub2;, ..., c&sub8; in 12 Datenübertragungsblöcken mit 8 Datenübertragungsblöcken vorhergehend einem Merkmalsdatenübertragungsblock, dem Merkmalsdatenübertragungsblock und 3 Datenübertragungsblöcken folgend dem Merkmalsdatenübertragungsblock besteht. Die Merkmalsparameterabfolge x wird wie folgt ausgedrückt.
wobei jede Hochstellung eine Datenübertragungsblockordnungszahl und somit ci(k) den i-ten linearen Vorhersagekoeffizienten (LPC)-Cepstrum-Koeffizienten in dem k-ten Datenübertragungsblock bezeichnet. Berechnungen werden von einem Vektor µ von Mittelwerten der jeweiligen Elemente der extrahierten Merkmalsparameterabfolgen und einer Kovarianzmatrix Σ zwischen den Elementen gegeben. Der Mittelwertvektor µ und die Kovarianzmatrix Σ Datenübertragungsblocken ein Standardmuster des bezüglichen Phonems. Der Mittelwertvektor µ wird wie folgt ausgedrückt.
Auf diesem Weg verwendet jedes Phonemstandardmuster Merkmalsparameter in einer Vielzahl von Datenübertragungsblöcken. Somit wird das Phonemstandardmuster unter Berücksichtigung von Zeitbereichsveränderungen der Merkmalsparameter erzeugt.
Der Ähnlichkeitsberechnungsabschnitt 3 berechnet die Ähnlichkeiten zwischen den Merkmalsparametern (die linearen Vorhersagekoeffizienten (LPC)-Cepstrum-Koeffizienten) der Eingabesprache und die Standardmuster der 20 Phoneme für jeden Datenübertragungsblock. Die Berechnung der Ähnlichkeiten wird nachfolgend genau beschrieben. Maharanobis's Abstand dp für die Berechnung der Ähnlichkeit zwischen der Eingabesprachmerkmalsparameterabfolge x und dem Standardmuster µp eines Phonems "p" wird wie folgt ausgedrückt.
wobei die Hochstellung "t" einen transponierten Vektor bezeichnet. Wenn die Kovarianzmatrizen Σp allen Phonemen gemeinsam sind, wird Gleichung (3) wie folgt vereinfacht.
wobei Σ die gemeinsame Kovarianzmatrix bezeichnet. Die Gleichungen (4) werden bei der Ähnlichkeitsberechnung verwendet. In den Gleichungen (4) stellen ap und bp das Standardmuster des Phonems "p" dar.
Der Parameterabfolgeerzeugungsabschnitt 5 empfängt aufeinanderfolgend die Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Ähnlichkeitsvektorabfolge (die als die Eingabespracheähnlichkeitsvektorabfolge bezeichnet wird) wird dem Erkennungsabschnitt 7 zugeführt.
Fig. 3 zeigt ein Beispiel für die Ähnlichkeitsvektorabfolge, die im Hinblick auf die Eingabesprache, die ein japanisches Wort "akai" darstellt, erhalten wird. In Fig. 3 entspricht die Abszisse einer Zeitrichtung und die Ordinate bezeichnet die an jeweiligen Zeitsegmenten (Datenübertragungsblöcken) erhaltenen Ähnlichkeiten. Im Hinblick auf das Standardmuster des Phonems /a/ wird der Vergleich zwischen der Eingabesprache und dem Standardmuster jedesmal durchgeführt, wenn die Eingabesprache um einen Datenübertragungsblock verschoben wird und somit wird eine Abfolge von Ähnlichkeiten erhalten. Im in Fig. 3 gezeigten Beispiel ist die erhaltene Ähnlichkeitsabfolge "40, 46, 68, 74, 60, ..., 10, 14, 16". Eine derartige Ähnlichkeitsabfolge wird für jedes der anderen 19 Phoneme auf eine ähnliche Weise erhalten. In Fig. 3 wird ein Ähnlichkeitsvektor durch den schraffierten Bereich bezeichnet.
Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen enthält, die jeweils den Erkennungsobjekt-Worten entsprechen. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6 dem Erkennungsabschnitt 7 zugeführt. Jede Bezugsähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format der Eingabesprachähnlichkeitsvektorabfolge gemäß Fig. 30. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt.
Der Erkennungsabschnitt 7 führt den Vergleich zwischen der Eingabesprachähnlichkeitsvektorabfolge und der Bezugsähnlichkeitsvektorabfolge durch und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils den Erkennungsobjekt-Worten.Der Erkennungsabschnitt 7 wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programierungs(DP)-Vergleichstechnik, die sich auf die folgende Rekursionsformel bezieht.
wobei max den Operator zur Auswahl des Maximums von Elementen folgend auf das Operatorzeichen, l(i,j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge mit einer Länge von I Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsähnlichkeitsvektorabfolge mit einer Länge von J Datenübertragungsblöcken und g(i, j) die akkumulative Ähnlichkeit in Bezug auf den i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge und den j-ten Datenübertragungsblock der Bezugsähnlichkeitsvektorabfolge bezeichnet.
Das Abstandsmaß der Abstandsfunktion l(i,j) kann das euklidische Abstandsmaß, das gewichtete euklidische Abstandsmaß, das Korrelationskosinusabstandsmaß oder andere verwenden. In dem Fall, in dem der Korrelationskosinusabstand verwendet wird, wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
l(i,j) = (a b)/( a b ) ...(6)
wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1,a2,...,a20), und "b" eine Wörterbuchähnlichkeitsvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als b=(b1,b2,...,b20), bezeichnet.
Die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher aufeinanderfolgend Ausdrücke bzw. Worte, d.h. Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache (die Ausdrücke bzw. Worte) werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jedes Teil der Eingabesprache durch die Abschnitte 1-5 gemäß Fig. 2 auf eine ähnliche Weise verarbeitet, wie die Weise der Verarbeitung von Eingabesprache während der aktuellen Spracherkennungsverarbeitung. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 die Ähnlichkeitsvektorabfolge aus, die in Bezug zu dem verarbeiteten Teil der Eingabesprache steht, die einem der Erkennungsobjekt-Worte entspricht. Die ausgegebene Ähnlichkeitsvektorabfolge wird in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als eine Bezugsähnlichkeitsvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort registriert. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch die Ähnlichkeitsvektorabfolgen aus, die sich auf die anderen Teile der Eingabesprache beziehen, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen. Die ausgegebenen Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als Bezugsähnlichkeitsvektorabfolgen entsprechend den jeweils verbleibenden Erkennungsobjekt-Worten registriert.
Es wurden unter Verwendung von Sprachdaten, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Wörter darstellten, Experimente durchgeführt. Die vorhergehende Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die Sprachdaten, die von einem der 20 Sprecher erzeugt wurden und die 212 verschiedenen Wörter darstellten, in das Spracherkennungssystem eingegeben und in dem Sprachverarbeitungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen entsprechend den jeweils 212 verschiedenen Wörtern auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die durch die anderen 19 Sprecher erzeugten und die 212 verschiedenen Wörter für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterzogen. Es wurden mit einer Quote von 88,7% gute Erkennungsergebnisse erhalten.

Beschreibung des zweiten bevorzugten Ausführungsbeispiels

Ein zweites Ausführungsbeispiel der Erfindung ist ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 abgesehen von Entwurf sveränderungen, die nachfolgend angezeigt werden. Bezugsähnlichkeitsvektorabfolgen, d.h. Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von zwei Sprechern "1" und "2" während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt. Während der vorhergehenden Verarbeitung erzeugen der erste Sprecher "1" und der zweite Sprecher "2" aufeinanderfolgend Teile von Sprache, die ein erstes voreingestelltes Wort (ein ersten Erkennungsobjekt-Wort) darstellen. Der Teil der durch den ersten Sprecher "1" erzeugten Sprache und der Teil der durch den zweiten Sprecher "2" erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Der Teil der Sprache vom ersten Sprecher "1" und der Teil der Sprache vom zweiten Sprecher "2" werden unter Verwendung einer dynamischen Programmierungs-Vergleichstechnik in ihrer Zeitdauer abgeglichen&sub0; Beispielsweise ist, wie in Fig. 4 gezeigt, die Zeitdauer des durch den ersten Sprecher erzeugten japanischen Worts "akai" verschieden von der Zeitdauer desselben durch den zweiten Sprecher "2" erzeugten japanischen Worts. Der Zeitdauerabgleich ermöglicht, daß die Zeitdauern der Phoneme /a/, /k/, /a/ und /i/ des ersten Sprechers "1" bzw. die Zeitdauern derselben Phoneme des zweiten Sprechers "2" übereinstimmen. Ein Parameterabfolgeerzeugungsabschnitt 5 (siehe Fig 2) erzeugt einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Beziehung zur Sprache des ersten Sprechers "1". Zusätzlich erzeugt der Parameterabfolgeerzeugungsabschnitt 5 einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Beziehung zu der Sprache des zweiten Sprechers "2". Für jedes Paar von entsprechenden Datenübertragungsblöcken der Sprache des ersten Sprechers "1" und der Sprache des zweiten Sprechers "2", werden ein Ähnlichkeitsvektor in Bezug auf den ersten Sprecher "1" und ein Ähnlichkeitsvektor in Bezug auf den zweiten Sprecher "2" in einen Mittelwert-Ähnlichkeitsvektor gemittelt. Beispielsweise im Fall, in dem der i-te Datenübertragungsblock der Sprache des ersten Sprechers "1" dem j-ten Datenübertragungsblock der Sprache des zweiten Sprechers "2" entspricht, wie in Fig. 4 gezeigt, erzeugt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks der Sprache des ersten Sprechers "1" als "c=(c1, c2, ..., c20)" und der Ähnlichkeitsvektor der Sprache des zweiten Sprechers "2" als "e=(e1, e2, ..., e20)" dargestellt ist, die Mittelwertberechnung den Mittelwert-Ähnlichkeitsvektor, der gegeben ist als "f=((c1+e1)/2, (c2+e2)/2, ..., (c20+e20)/2)". Die Mittelwert- Ähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcken bilden eine Mittelwert-Ähnlichkeitsvektorabfolge in Bezug auf das erste vorliegende Wort (das erste Erkennungsobjekt-Wort). Die Mittelwert-Ähnlichkeitsvektorabfolge in Bezug auf das erste Erkennungsobjekt-Wort wird in einem Wörterbuch in einem Wörterbuchspeicherabschnitt 6 (siehe Fig. 2) als eine Bezugsähnlichkeitsvektorabfolge verzeichnet bzw. registriert. Ähnliche Verarbeitungen werden für jedes der anderen Erkennungsobjekt-Worte ausgeführt. Somit gibt der Parameterabfolgeerzeugungsabschnitt 5 auch Mittelwert-Ähnlichkeitsvektorabfolgen entsprechend jeweils den anderen Erkennungsobjekt-Worten aus. Diese ausgegebenen Mittelwert-Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils den anderen Erkennungsobjekt-Worten verzeichnet bzw. registriert.
Es wurden Versuche ähnlich den Versuchen in dem Ausführungsbeispiel gemäß den Figen. 1-3 durchgeführt. Entsprechend den Versuchen wurden in dem zweiten Ausführungsbeispiel gute Erkennungsergebnisse mit einer Quote von 93,4 % erhalten.
Es ist zu beachten, daß Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von drei oder mehr Sprechern erzeugten Sprachdaten erzeugt werden können. In diesem Fall wird eine Mittelwertberechnung ähnlich der vorstehend erwähnten Mittelwertberechnung wiederholt ausgeführt.
Es ist zu beachten, daß viele Sätze von Bezugsähnlichkeitsvektorabfolgen verwendet werden können. In diesem Fall wird ein Satz von Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von jedem von zwei oder mehr verschiedenen Sprechern erzeugten Sprachdaten erzeugt. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 93,2 % gute Erkennungsergebnisse erhalten.

Beschreibung des dritten bevorzugten Ausführungsbeispiels

Fig. 5 bezieht sich auf ein drittes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachstehend angezeigten Entwurfsveränderungen.
Wie in Fig. 5 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, eine Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, eine Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A und einen Regressionskoeffizientberechnungsabschnitt 8. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
Der Regressionskoeffizientberechnungsabschnitt 8 empfängt aufeinanderfolgend Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3. Der Regressionskoeffizientberechnungsabschnitt 8 berechnet Regressionskoeffizienten, die zeitlichen Veränderungen der Ähnlichkeiten entsprechen. Die Gesamtanzahl der Regressionskoeffizienten ist pro Ähnlichkeitsabfolge gleich "n". Insbesondere stimmt ein Regressionskoeffizient eines vorliegenden Datenübertragungsblocks mit der Steigung einer geraden Linie einer Näherung nach der Methode der kleinsten Quadrate im Hinblick auf die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock vorhergehenden Datenübertragungsblökken, die Ähnlichkeit des vorliegenden Datenübertragungsblocks und die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock folgenden Datenübertragungsblöcken überein.
Wie im Ausführungsbeispiel gemäß den Figen. 1-3 berechnet der Ähnlichkeitsberechnungsabschnitt 3 die Ähnlichkeit zwischen den Eingabesprachparametern und jeden Phonemstandardmuster zu jeden Zeitpunkt, zu dem die Eingabesprache um ein Datenübertragungsblock verschoben wird. Als ein Ergebnis davon wird eine zeitliche Abfolge der Ähnlichkeiten für jedes Phonemstandardmuster erhalten. Fig. 6 zeigt ein Beispiel für eine Ähnlichkeitsabfolge, bei der die Abszisse einen Datenübertragungsblock (eine Datenübertragungsblockordnungszahl) und die Ordinate die Größe der Ähnlichkeit bezeichnet. Wie in Fig. 6 gezeigt, wird eine angenommene gerade Linie im Hinblick auf die Ähnlichkeiten eines (i-2)-ten Datenübertragungsblocks bis zu einem (i+2)-ten Datenübertragungsblock durch den Regressionskoeffizientberechnungsabschnitt 8 auf der Grundlage einer Näherung nach der Methode der kleinsten Quadrate bestimmt und die Steigung der geraden Linie wird als die Zeitbereichsveränderung (der Regressionskoeffizient) des i-ten Datenübertragungsblocks eingestellt. Insbesondere wird der Regressionskoeffizient "a" unter Bezugnahme auf die folgenden Gleichung berechnet.
wobei ai die Ähnlichkeit eines i-ten Datenübertragungsblocks bezeichnet.
Der Parameterabfolgeerzeugungsabschnitt 5A empfängt aufeinanderfolgend die Regressionskoeffizienten von dem Regressionskoeffizientberechnungsabschnitt 8 und ordnet die Regressionskoeffizienten in einer zeitlichen Abfolge von Vektoren der Regressionskoeffizienten an. Zusätzlich empfängt der Parameterabfolgeerzeugungsabschnitt 5A aufeinanderfolgend die Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Regressionskoeffizientenvektorabfolge und die Ähnlichkeitsvektorabfolge (bezeichnet als die Eingabesprachähnlichkeitsvektorabfolge) werden dem Erkennungsabschnitt 7A zugeführt.
Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils Erkennungsobjekt-Worten und auch Bezugsregressionskoeffizientvektorabfolgen entsprechend jeweils den Erkennungsobjekt- Worten enthält. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) und die Bezugsregressionskoeffzientenvektorabfolgen (auch als die Wörterbuchregressionskoeffzientvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6A zu dem Erkennungsabschnitt 7A zugeführt. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen und die Bezugsregressionskoeffizientvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wurde, erzeugten Sprachdaten bestimmt.
Der Erkennungsabschnitt 7A führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabsprachregressionskoeffzientvektorabfolge und Sätzen der Bzugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen durch und berechnet die Vergleichsbzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7A wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das dem höchsten Vergleichs- bzw. Übereinstimmungswert entsprechende Erkennungsobjekt-Wort. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs-Vergleichstechnik wie in dem Ausführungsbeispiel gemäß den Figen. 1-3. In dem Fall, in dem ein Korrelationskosinusabstand während der Vergleichsberechnung als ein Maß verwendet wird, wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
l(i,j) = w (a b/( a b )) + (l-w)(cd/( c d )) (8)
wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientvektor in einem i-ten Datenübertragungsblock, das ausgedrückt wird als c=(c1, c2, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als d=(d1, d2, ..., d20), und "w" ein Gewicht, das mit einem vorbestimmten Mischverhältnis des Ähnlichkeitsteil und des Regressionskoeffiziententeils übereinstimmt, bezeichnet. Bevorzugterweise bewegt sich das Mischverhältnis im Bereich von 0,4 bis 0,6.
Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientvektorabfolgen (die Wörterbuchregressionskoeffizientvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile von erzeugter Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache durch die Abschnitte 1-4, 5A und 8 gemäß Fig. 5 auf eine Weise ähnlich der Verarbeitungsweise von Eingabesprache während der aktuellen Spracherkennungsverarbeitung verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnitt 5A einen Satz der Ählichkeitsvektorabfolge und der Regressionskoeffizientvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, die einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6A als eine Bzugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgegebenen Regressionskoeffizientvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6A als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientvektorabfolgen entsprechend den jeweiligen verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
Unter Verwendung von von 20 Sprechern erzeugten und 212 verschiedene Worte für jeden Sprecher darstellenden Sprachdaten wurden Versuche durchgeführt. Die vorhergehende Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und 212 verschiedene Worte darstellenden Sprachdaten in das Spracherkennungssystem eingeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientvektorabfolgen entsprechend den jeweils 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worte für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterworfen. Mit einer Quote von 91,8% wurden gute Erkennungsergebnisse erhalten.
Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientvektorabfolgen (Wörterbuchregressionskoeffzientvektorabfolgen) können über eine Mittelberechnung auf der Grundlage von wie im zweiten Ausführungsbeispiel von zwei Sprechern erzeugten Sprachdaten bestimmt werden. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 95,9% gute Erkennungsergebnisse erhalten.

Beschreibung des vierten bevorzugten Ausführungsbeispiels

Fig. 7 bezieht sich auf ein viertes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachfolgend angezeigten Entwurfsveränderungen.
Wie in Fig. 7 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalayseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5B, einen Wörterbuchspeicherabschnitt 6B, einen Erkennungsabschnitt 7B und einer Ähnlichkeitsanpaßabschnitt 9. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
Der Ähnlichkeitsanpaßabschnitt 9 empfängt aufeinanderfolgend Ähnlichkeiten, die jeweils 20 Erkennungsobjekt-Worten entsprechen, von dem Ähnlichkeitsberechnungsabschnitt 3 für jeden Datenübertragungsblock, und ordnet die Ähnlichkeiten in einer Vektorform neu an. In jedem Ähnlichkeitsvektor werden die Ähnlichkeiten entsprechend der Größe angeordnet. Die Ähnlichkeiten in jedem Ähnlichkeitsvektor werden einer Verstärkungsverarbeitung unterzogen, so daß der Ähnlichkeitsvektor in einen zweiten Ähnlichkeitsvektor umgewandelt wird. Während der Verstärkungsverarbeitung werden die erstgrößte Ähnlichkeit bis zur k-größten Ähnlichkeit linear jeweils in 1 bis 0 umgewandelt. Somit wird die erstgrößte Ähnlichkeit in 1 umgewandelt und die k-größte Ähnlichkeit wird in 0 umgewandelt. Die zweitgrößte Ähnlichkeit bis zur (k-1)-größten Ähnlichkeit werden linear in Werte zwischen 1 und 0 umgewandelt. Die (k+1)-größte Ähnlichkeit bis zur kleinsten Ähnlichkeit werden auf 0 gesetzt. Insbesondere werden die Komponenten F(ai) eines zweiten Ähnlichkeitsvektors (i=1, 2, ..., 20) wie folgt ausgedrückt.
F(ai) = (1/(M-Mk))ai - Mk/(M-Mk) (für die erst- bis k-größte Komponente)
F(ai) = 0 (für die (k+1)-größte bis zur kleinsten Komponente) ...(9)
wobei ai eine i-te Komponente des Original-Ähnlichkeitsvektors und M die größte der Ähnlichkeiten und Mk die k-größte Ähnlichkeit bezeichnen. Auf diesem Wert werden größere Ähnlichkeiten in jedem Originalähnlichkeitsvektor relativ zu den verbleibenden Ähnlichkeiten gemäß den Verstärkungsfunktionen (9) verstärkt. Da die Werte M und Mk von dem Datenübertragungsblock abhängen, hängt ein zweiter Ähnlichkeitsvektor von einem Datenübertragungsblock ab. Die Maximalkomponente (Max) und die Minimalkomponente (Min) sind jeweils in jedem zweiten Ähnlichkeitsvektor entsprechend einem Datenübertragungsblock gleich 1 und 0. Somit werden zweite Ähnlichkeitsvektoren Datenübertragungsblock für Datenübertragungsblock normiert. Im allgemeinen neigen Originalähnlichkeiten, da Phonemstandardmuster in dem Standardmusterspeicherabschnitt 4 aus zeitlichen Mustern der Merkmalsparameter in und rund um einen Merkmalsdatenübertragungsblock erzeugt werden, dazu, in einem Teil der Eingabesprache, der einem Übergang zwischen Phonemen entspricht, klein zu sein. Die vorstehend erwähnte Normierung verhindert eine Unterschätzung eines Merkmals in der Beziehung zwischen Ähnlichkeiten, die durch kleine Originalähnlichkeiten in einem Eingabsprachteil entsprechend einem Übergang zwischen Phonemen verursacht würden.
Der Parameterabfolgeerzeugungsabschnitt 5B empfängt aufeinanderfolgend die zweiten Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die empfangenen Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten neu an. Die Ähnlichkeitsvektorabfolge (als die Eingabesprachähnlichkeitsvektorabfolge bezeichnet) wird dem Erkennungsabschnitt 7B zugeführt.
Fig. 8 zeigt ein Beispiel für die Ähnlichkeitsvektorabfolge, die im Hinblick auf ein japanisches Wort "akai" darstellende Eingabesprache erhalten wird. In Fig. 8 entspricht die Abszisse einer Zeitrichtung und die Ordinate bezeichnet die bei jeweiligen Zeitsegmenten (Datenübertragungsblöcken) erhaltenen Ähnlichkeiten. Im Hinblick auf das Standardmuster des Phonems /a/ wird der Vergleich zwischen der Eingabesprache und dem Standardmuster jedesmal ausgeführt, wenn die Eingabesprache um einen Datenübertragungsblock verschoben wird, und somit wird eine Abfolge der Ähnlichkeiten erhalten. In dem in Fig. 8 gezeigten Beispiel lautet die erhaltene Ähnlichkeitsabfolge "1.0, 1.0, 1.0, 1.0, 1.0, 0.0, ..., 0.3, 0.2, 0.3". Eine derartige Ähnlichkeitsabfolge wird für jedes der anderen 19 Phoneme auf eine ähnliche Weise erhalten. In Fig. 8 wird ein Ähnlichkeitsvektor durch den schraffierten Bereich bezeichnet. Zur Verdeutlichung der Verstärkungsverarbeitung und der Normierungsverarbeitungen durch den Ähnlichkeitsanpaßabschnitt 9, zeigt Fig. 9 eine Ähnlichkeitsvektorabfolge, die der Ähnlichkeitsvektorabfolge gemäß Fig. 8 entspricht und ohne den Verstärkungsvorgang und den Normierungsvorgang erhalten wird.
Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen enthält, die jeweils Erkennungsobjekt-Worten entsprechen. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6A zum Erkennungsabschnitt 7A zugeführt. Jede Bezugsähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format der Eingabesprachähnlichkeitsvektorabfolge gemäß Fig. 8. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor eine aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt.
Der Erkennungsabschnitt 7A führt den Vergleich zwischen der Eingabesprachähnlichkeitsvektorabfolge und den Bezugsähnlichkeitsvektorabfolgen aus und berechnet die Vergleichswerte für die Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten. Der Erkennungsabschnitt 7A wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs (DP)-Vergleichstechnik, die sich auf die folgende periodische Formel bezieht.
wobei max den Operator zur Auswahl des Maximums der Mitglieder folgend auf das Operatorzeichen, l(i,j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge mit einer Länge von I Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsähnlichkeitsvektorabfolge mit einer Länge von J Datenübertragungsblöcken, und g(i,j) die akkumulative Ähnlichkeit in Bezug auf den i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge und den j-ten Datenübertragungsblock der Bezugsähnlichkeitsvektorabfolge bezeichnet.
Das Abstandmaß der Abstandsfunktion l(i,j) kann das euklidische Abstandsmaß, das gewichtete euklidische Abstandsmaß, das Korrelationskosinusabstandsmaß oder andere verwenden. Im Fall der Verwendung des euklidischen Abstands wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
l(i,j) = (a1 - b1)² + (a2 - b2)² + ... + (a20 - b20)² (11)
wobei a1, a2, ..., a20 Komponenten eines Eingabesprachähnlichkeitsvektors "a" in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, ..., a20), und b1, b2, b20 Komponenten eines Wörterbuchähnlichkeitsvektors "b" in einem j-ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), bezeichnet.
Die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt- Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-4, 5B und 9 gemäß Fig. 7 auf eine der Weise der Verarbeitung der Eingabesprache während der aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnjtt 5B die Ähnlichkeitsvektorabfolge bezüglich des verarbeiteten Teils der Eingabesprache aus, der einem der Erkennungsobjekt-Worte entspricht. Die ausgegebene Ähnlichkeitsvektorabfolge wird in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als eine Bezugsähnlichkeitsvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet. Der Parameterabfolgeerzeugungsabschnitt 5B gibt auch die Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
Unter Verwendung von Sprachdaten, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten, Versuche durchgeführt. Die vorhergehende Verarbeitung wurde ausgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und die 212 verschiedenen Worte darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worten für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterzogen. Mit einer Quote von 88,5% wurden gute Erkennungsergebnisse erhalten.

Beschreibung des fünften bevorzugten Ausführungsbeispiels

Ein fünftes erfindungsgemäßes Ausführungsbeispiel ist ähnlich dem Ausführungsbeispiel gemäß den Figen. 7-8, abgesehen von den nachstehend angezeigten Entwurfsveränderungen. Bezugsähnlichkeitsvektorabfolgen, d.h. Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von zwei Sprechern "1" und "2" während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugen der erste Sprecher "1" und der zweite Sprecher "2" aufeinanderfolgend Teile von Sprachen, die ein erste voreingestelltes Wort (ein erstes Erkennungsobjekt-Wort) darstellen. Der Teil der vom ersten Sprecher "1" erzeugten Sprache und der Teil der vom zweiten Sprecher "2" erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Der Teil der Sprache vom ersten Sprecher "1" und der Teil der Sprache vom zweiten Sprecher "2" werden unter Verwendung einer dynamischen Programmierungs-Vergleichstechnik auf eine Periode abgeglichen&sub0; Beispielsweise unterscheidet sich, wie in Fig. 4 gezeigt, die Periode des durch den ersten Sprecher "1" erzeugten japanischen Worts "akai" von der Periode desselben durch den zweiten Sprecher 2" erzeugten japanischen Worts. Der Periodenabgleich ermöglicht, daß die Perioden der Phoneme /a/, /k/, /a/ und /i/ vom ersten Sprecher "1" jeweils mit den Perioden derselben Phoneme vom zweiten Sprecher "2" übereinstimmen. Ein Parameterabfolgeerzeugungsabschnitt 5B (siehe Fig. 7) erzeugt einen Ähnlichkeitsvektor für denselben Datenübertragungsblock in Bezug auf die Sprache vom ersten Sprecher "1". Zusätzlich erzeugt der Parameterabfolgeerzeugungsabschnitt 5B einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Bezug auf die Sprache vom zweiten Sprecher "2". Für jedes Paar von entsprechenden Datenübertragungsblöcken der Sprache vom ersten Sprecher "1" und der Sprache vom zweiten Sprecher "2" werden ein Ähnlichkeitsvektor in Bezug auf den ersten Sprecher "1" und ein Ähnlichkeitsvektor in Bezug auf den zweiten Sprecher "2" in einen Mittelwertähnlichkeitsvektor gemittelt. Beispielsweise im Fall, in dem der i-te Datenübertragungsblock der Sprache vom ersten Sprecher "1" dem j-ten Datenübertragungsblock der Sprache vom zweiten Sprecher "2" entspricht, wie in Fig. 4 gezeigt, erzeugt, wenn der Ähnlichkeitsvektor des i- ten Datenübertragungsblocks der Sprache vom ersten Sprecher "1" als "c=(c1,c2, ..., c20) " dargestellt ist und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks der Sprache vom zweiten Sprecher "2" als "e=(e1,e2, e20)" dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der als "f=((c1+e1)/2, (c2+e2)/2, ..., (C20+e20)/2)" gegeben ist. Die Mittelwertähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken bilden eine Mittelwertähnlichkeitsvektorabfolge in Bezug auf das erste voreingestellte Wort (das erste Erkennungsobjekt-Wort). Die Mittelwertähnlichkeitsvektorabfolge in Bezug auf das ersten Erkennungsobjekt-Wort wird in einem Wörterbuch in einem Wörterbuchspeicherabschnitt 6B (siehe Fig. 7) als eine Bezugsähnlichkeitsvektorabfolge verzeichnet bzw. registriert. Ähnliche Verarbeitungen werden für jedes der anderen Erkennungsobjekt-Worte ausgeführt. Somit gibt der Parameterabfolgeerzeugungsabschnitt 5B auch Mittelwertähnlichkeitsvektorabfolgen jeweils entsprechend den anderen Erkennungsobjekt-Worten aus. Diese ausgegebenen Mittelwertähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den anderen Erkennungsobjekt-Worten verzeichnet bzw. registriert werden.
Versuche ähnlich den Versuchen im Ausführungsbeispiel gemäß den Figen. 7-8 wurden ausgeführt. Entsprechend den Versuchen wurden in diesem Ausführungsbeispiel unter Bedingungen, bei denen Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) auf der Grundlage von von einem männlichen Sprecher und einem weiblichen Sprecher erzeugten Sprachdaten bestimmt, mit einer Quote von 93,4% gute Erkennungsergebnisse erhalten.
Es ist zu beachten, daß Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von drei oder mehr Sprechern erzeugten Sprachdaten erzeugt werden können. In diesem Fall wird wiederholt eine Mittelwertberechnung ähnlich der vorstehend erwähnten Mittelwertberechnung ausgeführt.
Es ist zu beachten, daß mehrere Sätze von Bezugsähnlichkeitsvektorabfolgen verwendet werden können. In diesem Fall wird ein Satz von Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von jedem von zwei oder mehr verschiedenen Sprechern erzeugten Sprachdaten erzeugt. In diesem Fall wurden mit einer Quote von 93,2% entsprechend den Versuchen gute Erkennungsergebnisse erhalten.

Beschreibung des sechsten bevorzugten Ausführungsbeispiels

Fig. 10 bezieht sich auf ein sechstes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachstehend angezeigten Entwurfsveränderungen.
Wie in Fig. 10 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsvektorberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6C, einen Erkennungsabschnitt 7C, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12 und einen Regressionskoeffizientnormierungsabschnitt 13. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
Der Ähnlichkeitsverstärkungsabschnitt 10 empfängt aufeinanderfolgend 20 Ähnlichkeiten, die jeweils 20 Erkennungsobjekt- Worten entsprechen, vom dem Ähnlichkeitsberechnungsabschnitt 3 für jeden Datenübertragungsblock und ordnet die Ähnlichkeiten in einer Vektorform neu an. Die Ähnlichkeiten in jedem Ähnlichkeitsvektor werden einer exponentiellen Verstärkungsverarbeitung unterzogen, so daß der Ähnlichkeitsvektor in einen zweiten Ähnlichkeitsvektor umgewandelt wird. Während der Verstärkungsverarbeitung werden die Komponenten G(ai) eines zweiten Ähnlichkeitsvektors (i=1, 2, ..., 20) wie folgt ausgedrückt.
G(ai) = exp(αai + β) (12)
wobei ai eine i-te Komponente des Origninalähnlichkeitsvektors und "α" und "β" vorbestimmte, allen Phonemen und allen Datenübertragungsblöcken gemeinsame konstante Werte bezeichnet. Auf diesem Weg werden größere Ähnlichkeiten in jedem Originalähnlichkeitsvektor bezüglich kleineren Ähnlichkeiten gemäß der Exponentialverstärkungsfunktion (12) verstärkt.
Der Ähnlichkeitsnormierungsabschnitt 11 empfängt aufeinanderfolgend zwei Ähnlichkeitsvektoren von dem Ähnlichkeitsverstärkungsabschnitt 10. Jeder zweite Ähnlichkeitsvektor a' wird nun ausgedrückt als a'=(a1', a2', ..., ai', ..., a20'). Der Ähnlichkeitsnormierungsabschnitt 11 normiert jeden zweiten Ähnlichkeitsvektor ai unter Bezugnahme auf die folgenden Gleichungen in einen dritten Ähnlichkeitsvektor a".
a" = (a&sub1;'/Q, a&sub2;'/Q, ..., a&sub2;&sub0;'/Q)
Der Absolutwert jedes dritten Ähnlichkeitsvektors a" ist gleich 1.
Im allgemeinen neigen Originalähnlichkeiten, da Phonemstandardmuster in dem Standardmusterspeicherabschnitt 4 aus zeitlichen Mustern von Merkmalsparametern in und rund um einen Merkmalsdatenübertragungsblock erzeugt werden, dazu, in einem Teil der Eingabesprache, die einem Übergang zwischen Phomenen entspricht, klein zu sein. Die Verstärkungsverarbeitung und die Normierungsverarbeitung durch die Einrichtungen 10 und 11 verhindern eine Unterschätzung eines Merkmals in der Beziehung zwischen Ähnlichkeiten, die durch kleine Originalähnlichkeiten in einem Eingabsprachteil entsprechend einem Übergang zwischen Phonemen verursacht wurden.
Der Regressionskoeffizientberechnungsabschnitt 12 empfängt aufeinanderfolgend drei Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3. Der Regressionskoeffizientberechnungsabschnitt 12 berechnet Regressionskoeffizienten auf eine dem Berechnungsweg der Regressionskoeffizienten durch den Regressionskoeffizientberechnungsabschnitt 8 im Ausführungsbeispiel gemäß den Figen. 5 und 6 ähnliche Weise. Die berechneten Regressionskoeffizienten entsprechen zeitlichen Veränderungen der Ähnlichkeiten. Die Gesamtanzahl der Regressionskoeffizienten ist pro Ähnlichkeitsabfolge gleich "n". Insbesondere stimmt ein Regressionskoeffizient eines vorliegenden Datenübertragungsblocks mit der Steigung von einer nach der Methode der kleinsten Quadrate angenäherten geraden Linie im Hinblick auf die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock vorhergehenden Datenübertragungsblöcken, der Ähnlichkeit des vorliegenden Datenübertragungsblocks und den Ähnlichkeiten von zwei dem vorliegenden Rahmen folgenden Datenübertragungsblöcken überein.
Der Regressionskoeffizientnormierungsabschnitt 13 empfängt aufeinanderfolgend 20 Regressionskoeffizienten, die jeweils den 20 Erkennungsobjekt-Worten entsprechen, von dem Regressionskoeffizientberechnungsabschnitt 12 für jeden Datenübertragungsblock und ordnet die Regressionskoeffizienten in einer Vektorform neu an. Zusätzlich normiert der Ähnlichkeitsnormierungsabschnitt 11 jeden Regressionskoeffizientenvektor in einen zweiten Regressionskoeffizientenvektor mit einem Absolutwert von 1.
Der Parameterabfolgeerzeugungsabschnitt 5C empfängt aufeinanderfolgend die zweiten Regressionskoeffizienten von dem Regressionskoeffizientnormierungsabschnitt 13 und orndet die empfangenen Regressionskoeffizienten in einer zeitlichen Abfolge von Vektoren der Regressionskoeffizienten an. Zusätzlich empfängt der Parameterabfolgeerzeugungsabschnitt 5C aufeinanderfolgend die dritten Ähnlichkeiten von dem Ähnlichkeitsnormierungsabschnitt 11 und ordnet die empfangenen Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Regressionskoeffizientvektorabfolge (auch als die Eingabesprachregressionskoeffizientenvektorabfolge bezeichnet) und die Ähnlichkeitsvektorabfolge (auch als die Eingabesprachähnlichkeitsvektorabfolge bezeichnet) werden dem Erkennungsabschnitt 7C zugeführt.
Der Wörterbuchspeicherabschnitt 6C speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten und auch Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den Erkennungsobjekt- Worten enthält. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) und die Bezugsregressionskoeffizientenvektorabfolgen (auch als die Wörterbuchregressionskoeffizientenvektorabfolgen bezeichnet) werden vom Wörterbuchspeicherabschnitt 6C dem Erkennungsabschnitt 7C zugeführt. Wie nachstehend erläutert wird, werden die Bezugsähnlichkeitsvektorabfolgen und die Bezugsregressionskoeffizientenvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Sprachverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt.
Der Erkennungsabschnitt 7C führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientenvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen aus und berechnet die Vergleichswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7C wählt den höchsten der berechneten Vergleichswerte aus und entscheidet das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichswert als ein Erkennungsergebnis. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs-Vergleichstechnik wie im Ausführungsbeispiel gemäß den Figen. 1-3. Im Fall, in dem ein Korrelationskosinusabstand als ein Maß während der Vergleichsberechnung verwendet wird, wird die Abstandsfunktion l(i, j) wie folgt ausgedrückt.
l(i, j) = w (a b)/( a b ) + (1-w)(cd)/( C d ) ...(14)
wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientenvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als c=(c1, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientenvektor in einem j-ten Datenübertragungsblock, das ausgedrückt wird als d=(d1, d2, ..., d20), und "w" eine Gewichtung, die mit einem vorbestimmten Mischungsverhältnis des Ähnlichkeitsteils und der Regressionskoeffiziententeils übereinstimmt, bezeichnet. Bevorzugterweise ist das Mischugnsverhältnis in dem Bereich von 0,4 bis 0,6. Da ein Eingabesprachähnlichkeitsvektor "a", ein Wörterbuchähnlichkeitsvektor "b", ein Eingabesprachregressionskoeffizientenvektor "c" und ein Wörterbuchregressionskoeffizientenvektor "d" normiert sind, sind die Absolutwerte a , b , c und d gleich 1. Somit wird Gleichung (14) in die folgende Gleichung vereinfacht.
l(i, j) = wa b + (1-w)c d ...(15)
Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jedes Teil der Eingabesprache mittels der Abschnitte 1-4, 5C und 10-13 gemäß Fig. 10 auf eine der Verarbeitung von Eingabesprache während der aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnitt 5C einen Satz der Ähnlichkeitsvektorabfolge und der Regressionskoeffizientenvektorabfolge bezüglich des verarbeiteten Teils der Eingabesprache, der einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientenvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6C als eine Bezugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientenvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5C gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientenvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgebenen Regressionskoeffizientenvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6C als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
Es wurden unter Verwendung von von 20 Sprechern erzeugten und 212 verschiedene Worte für jeden Sprecher darstellenden Sprachdaten Versuche durchgeführt. Die vorhergehenden Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und die 212 verschiedenen Worte darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worte für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Sprachverarbeitung unterzogen. Es wurden mit einer Quote von 91,6% gute Erkennungsergebnisse erhalten.
Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können über eine Mittelwertberechnung auf der Grundlage von von einem männlichen Sprecher und einem weiblichen Sprecher erzeugten Spachdaten, wie im zweiten Ausführungsbeispiel, bestimmt werden. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 95,9% gute Erkennungsergebnisse erhalten.

Beschreibung des siebenten bevorzugten Ausführungsbeispiels

Fig. 11 bezieht sich auf ein siebentes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 10 ist, abgesehen davon, daß ein Regressionskoeffizientenberechnungsabschnitt 12A anstelle des Regressionskoeffizientberechnungsabschnitts 12 (siehe Fig. 10) verwendet wird.
Im Ausführungsbeispiel gemäß Fig. 11 empfängt der Regressionskoeffizientberechnungsabschnitt 12A direkt Ähnlichkeiten von einem Ähnlichkeitsverstärkungsabschnitt 10 und berechnet Regressionskoeffizienten von den empfangenen Ähnlichkeiten.

Beschreibung des achten bevorzugten Ausführungsbeispiels

Fig. 12 bezieht sich auf ein achtes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen).
Wie in Fig. 12 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6, einen Erkennungsabschnitt 7, einen Sprachfragmentspeicherabschnitt 21 und einer Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22.
Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, enthält. Die Wörterbuchähnlichkeitsvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracher kennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-5 gemäß Fig. 12 auf eine der Verarbeitungsweise der Eingabesprache während einer aktuellen Sprach- Verarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format gemäß Fig. 3. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Teile, die jedes einem Sprachfragment einer Abfolge von einem Konsonanten und einem Vokal entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen bezeichnet. Im Hinblick auf jedes Konsonant-Vokal(CV)-Muster wird ein Teil zwischen einem Datenübertragungsblock entsprechend einem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Vokal-Konsonant(CV)-Muster wird ein Teil zwischen einem Datenübertragungsblock entsprechend der Mitte einer Vokals bis zu einem Datenübertragungsblock entsprechend dem Ende des Vokals (der Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocket die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da die Informationen über einen Übergang von einem Konsonanten zu einem Vokal wirksam verwendet werden, größer sein. Die Konsonant-Vokal(CV)-Muster und die Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert. Die Trennung von Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern werden weiter beschrieben. In dem Fall eines japanischen Worts "asahi", wie in Fig. 13 gezeigt, entsprechend die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern /a/, /as/, /sa/, /ah/, /hi/ und /i/. Im Fall eines japanischen Worts "sake", wie in Fig. 14 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster /sa/, /ak/, /ke/ und /e/.
Der Wörterbuchähnlichkeitsvektorerzeugungsabschnitt 22 wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22 sammelt die notwendigen Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster vom Sprachfragmentspeicherabschnitt 21 ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Beispielsweise werden bei der Erzeugung einer Wörterbuchähnlichkeitsvektorabfolge entsprechend einem japanischen Wort "akai" die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster entsprechend /a/, /ak/, /ka/, /ai/ und /i/ vom Sprachfragmentspeicherabschnitt 21 gesammelt und die gesammelten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in der Wörterbuchähnlichkeitsvektorabfolge kombiniert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22 speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage der Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert- Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert.
Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann ein verstecktes Markov-Modell (WO( (hidden Markov- Modell)) Verfahren anstelle eines dynamische Programmierungsverfahrens verwendet. In diesem Fall wird ein Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov- Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov- Modelle werden zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann andere Abstandmaße, wie beispielsweise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß oder ein Lernvektorquantisierungs (LQV) abstandsmaß verwenden.
Sprachfragmente können weiterhin andere Arten, wie beispielsweise einen Typ in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
Der Wörterbuchspeicherabschnitt 6 kann Abfolgen von einer Verbindung der Sprachfragmente anstelle der Bezugsähnlichkeitsvektorabfolgen speichern. In diesem Fall werden Bezugsähnlich keitsvektorabfolgen entsprechend den Verbindungsabfolgen während der Berechnung der Ähnlichkeiten in Bezug auf die Eingabesprache erzeugt.

Beschreibung des neunten bevorzugten Ausführungsbeispiels

Fig. 15 bezieht sich auf ein neuntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungbeispiel gemäß den Figen. 5 und 6 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen).
Wie in Fig. 15 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, einen Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A, einen Regressionskoeffizientenberechnungsabschnitt 8, einen Sprachfragmentspeicherabschnitt 21A und einer Wörterbuchvektorabfolgeerzeugungsabschnitt 22A.
Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) enthält. Die Wörterbuchähnlichkeitsvektorabfolgen und die Wörterbuchregressionskoeffizientenvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Sprachverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Wörtern darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-4, 5A und 8 gemäß Fig. 15 auf eine der Verarbeitungsweise der Eingabesprache während einer aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Zusätzlich gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Regressionskoeffizientenvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Regressionskoeffizientenvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus.
Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonanten und einer Vokals entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits-Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Ähnlichkeits Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend dem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Ähnlichkeits-Vokal-Konsonant(CV)-Muster wurde der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend dem Ende des Vokals (Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bildet die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da Informationen eines Übergangs von einem Konsonanten zu einem Vokal wirksam verwendet werden, höher sein. Die Ähnlichkeits-Konsonant-Vokal(CV)-Muster und die Ähnlichkeits-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonaten und eines Vokals entsprechen, werden von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Regressionskoeffizienten Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonaten entsprechen, von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Regressionskoeffizienten Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Regressionskoeffizienten Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend dem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Regressionskoeffizienten Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend dem Ende des Vokals (dem Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bildet die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal wirksam verwendet werden, höher sein. Die Regressionskoeffizienten-Konsonant-Vokal(CV)-Muster und die Regressionskoeffizienten-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A sammelt notwendige Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster von dem Sprachfragmentspeicherabschnitt 21A ansprechend auf die Informationen über die Erkennungsobjekt-Worte und kombiniert die Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgenerzeugungsabschnitt 22A speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6. Zusätzlich sammelt der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A notwendige Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster von dem Sprachfragmentspeicherabschnitt 21A ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgenerzeugungsabschnitt 22A speichert die Wörterbuchregressionskoeffizientenvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage von Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert- Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und die Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)- werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
Eine Vergleichsverarbeitung vom Erkennungsabschnitt 7A kann ein verstecktes Markov-Modell(HMM) Verfahren anstelle eines dynamischen Programmierungsverfahrens verwenden. In diesem Fall wird ein Lernen hinsichtlich getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern durchgeführt und es werden versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) erzeugt. Die versteckten Markov-Modelle (HMM) werden zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7A kann andere Abstandsmaße, wie beispielsweise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß oder ein Lernvektorquantisierungs (LQV) abstandsmaß verwenden.
Sprachfragmente können weiterhin andere Typen, wie beispielsweise Typen in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.

Beschreibung des zehnten bevorzugten Ausführungsbeispiels

Fig. 16 bezieht sich auf ein zehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen). Wie in Fig. 16 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6, eine Erkennungsabschnitt 7, einen Sprachfragmentspeicherabschitt 21B und einer Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B.
Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, enthält. Die Wörterbuchähnlichkeitsvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellt. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels der Abschnitte 1-5 gemäß Fig. 16 auf eine der Verarbeitungsweise von Eingabesprache während einer aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, die einem der Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format gemäß Fig. 3. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Teile, die jeder einem Sprachfragment einer Abfolge von einem Konsonanten und einem Vokal entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals bis zu einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocken die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Entsprechend diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote guter Erkennungsergebnisse höher sein. Die Konsonant-Vokal(CV)-Muster und die Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert. Der Trennung der Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster wird weiter beschrieben. Im, Fall eines japanischen Worts "asahi", wie in Fig. 17 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vo&submin; kal-Konsonant(CV)-Muster /a/, /as/, /sa/, /ah/9 /hi/ und /i/. Im Fall eines japanischen Worts "sake", wie in Fig. 18 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vo&submin; kal-Konsonant(CV)-Muster /sa/, /ak/, /ke/ und /e/. Im Fall eines japanischen Worts "paaku", wie in Fig. 19 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster /pa/, /aa/, /ak/, /ku/ und /u/. Wie in Fig. 19 gezeigt, werden in einigen Fällen Vokal-Vokal(VV)-Muster wie /aa/ auch getrennt.
Im Hinblick auf ein von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes verschiedenes Sprachfragment wird das entsprechende Konsonant-Vokal(CV)- oder Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Im Fall, in dem im Hinblick auf den vorstehend erwähnten Wortsatz zwei ähnliche Sprachfragmente vorhanden sind, wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich in Übereinstimmungs zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paaku" getrennt. Die ähnlichen Sprachfragmente unterscheiden sind in der Zeitdauer-Periode. Demgemäß wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich auf eine in Fig. 20 gezeigte Weise in Übereinstimmung gebracht bzw. abgeglichen. Der Mittelwert der Ähnlichkeiten in jedem Paar von zeitlich angepaßten Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten mittleren bzw. Mittelwert-Ähnlichkeiten wird in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Beispielsweise wird in dem Fall, in dem der i-te Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/, wie in Fig. 20 gezeigt, entspricht, erzeugt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als "m=(m1, m2, ..., m20)" und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(n1, n2, n20", dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der gegeben ist als "f=((m1+n1)/2, (m2+n2)/2, ..., (m20+n20)/2)". Im Fall, in dem im Hinblick auf den vorstehend erwähnten Wortsatz drei oder mehr ähnliche Sprachfragmente vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertähnlichkeitsvektor zu erzeugen, der in dem Sprachfragmentspeicherabschnitt 21B gespeichert wird.
Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B wird über Erkennungsobjekt-Worte informiert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B sammelt ansprechend auf die Informationen über die Erkennungsobjekt- Worte notwendige Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21B und kombiniert die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Beispielsweise werden bei der Erzeugung einer Wörterbuchähnlichkeitsvektorabfolge entsprechend einem japanischen Wort "akai" die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster ensprechend /a/, /ak/, /ka/, /ai/ und /i/ aus dem Sprachfragmentspeicherabschnitt 21B geholt und die geholten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in der Wörterbuchähnlichkeitsvektorabfolge kombiniert. Der Wörterbuchähnlichkeitsabfolgeerzeugungsabschnitt 22B speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage der Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann ein verstecktes Markov-Modell(HMM)-Verfahrens anstelle eines dynamischen Programmierungs(DP)-Verfährens verwenden In diesem Fall wird Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov-Modelle (HMM) sind zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann andere Abstandsmaße, wie beispiels weise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß, ein Lernvektorquantisierungs (LQV) abstandsmaß, verwenden.
Sprachfragmente können weiterhin andere Arten enthalten, wie beispielsweise eine auf eine Abfolge von einem Vokal, einem Konsonanten und einem Vokal bezogene Art enthalten.

Beschreibung des elften bevorzugten Ausführunasbeispiels

Fig. 21 bezieht sich auf ein elftes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 5 und 6 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen).
Wie in Fig. 21 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, einen Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A, einen Regressionskoeffizientenberechnungsabschnitt 8, einen Sprachfragmentspeicherabschnitt 21C und einer Wörterbuchvektorabfolgeerzeugungsabschnitt 22C.
Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) enthält. Die Wörterbuchähnlichkeitsvektorabfolgen und die Wörterbuchregressionskoeffizientenvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Während der vorhergehenden Verabreitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels der Abschnitte 1-4, 5A und 8 gemäß Fig. 21 auf eine der Verarbeitung einer eingegebenen Sprache während einer aktuellen Spacherkennungs- Verarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5A eine in Beziehung zum verarbeiteten Teil der eingegebenen Sprache, der einem der Worte entspricht, stehende Ähnlichkeitsvektorabfolge aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Ähnlichkeitsvektorabfolgen in Beziehung zu den anderen Teilen der eingegebenen Sprache, die jeweils den verbleibenden Worten entsprechen, aus. Zusätzlich gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Regressionskoeffizientenvektorabfolge in Beziehung zu dem verarbeiteten Teil der eingegebenen Sprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Regressionskoeffizientenvektorabfolgen in Beziehung zu den anderen Teilen der eingegebenen Sprache, die jeweils den verbleibenden Worten entsprechen, aus.
Teile, die jedes einem Sprachfragment einer Abfolge eines Konsonanten und eines Vokals entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits-Vokal-Konsonant(CV)-Muster. Im vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Ähnlichkeits Konsonant-Vokal(CV)-Muster werden der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Ähnlichkeits-Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocken die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Gemäß diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote von guten Erkennungsergebnissen höher werden. Die Ähnlichkeits-Konsonant-Vokal(CV)-Muster und die Ähnlichkeits Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
Im Hinblick auf ein Sprachfragement verschieden von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes wird das entsprechende Ähnlichkeits-Konsonant-Vokal(CV)- oder Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicher abschnitt 21C gespeichert. In dem Fall, in dem zwei ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird zwischen den zwei ähnlichen Sprachfragmenten ein dynamischer Programmierungs-Vergleich durchgeführt, um sie zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paaku" getrennt. Die ähnlichen Sprachfragmente unterscheiden sich in der Zeitdauer. Demgemäß wird zwischen den zwei ähnlichen Sprachfragmenten ein dynamischer Programmierungs- Vergleich ausgeführt, um sie auf eine in Fig. 20 gezeigte Weise zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Der Mittelwert der Ähnlichkeiten in jedem Paar von zeitlich in Übereinstimmung gebrachten bzw. abgeglichenen Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten Mittelwertähnlichkeiten wird in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Beispielsweise erzeugt in dem Fall, in dem der i-te Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/ entspricht, wie in Fig. 20 gezeigt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als "m=(m1, m2, ..., m20)" und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(nl, n2, .4., n20)" dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der gegeben ist als "f=(((m1+n1)/2, (m2+n2)/2, ..., (m20+n20)/2)". In dem Fall, in dem drei oder mehr Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertähnlichkeitsvektor zu bilden, der in dem Sprachfragmentspeicherabschnitt 21C gespeichert wird.
Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonanten und eines Vokals entsprechen, werden von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile bilden jeweils Regressionskoeffizienten Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile bilden jeweils Regressionskoeffizienten Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Regressionskoeffizienten Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Regressionskoeffizienten Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bilden die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Gemäß diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote von guten Erkennungsergebnissen höher werden. Die Regressionskoeffizienten-Konsonant-Vokal(CV)-Muster und die Regressionskoeffizienten-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
Im Hinblick auf ein Sprachfragment verschieden von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes werden die entsprechenden Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Im Fall, in dem zwei ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paake" getrennt. Die ähnlichen Sprachfragmente unterscheiden sich in der Zeitdauerperiode. Demgemäß wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich auf eine Weise, wie in Fig. 20 gezeigt, in übereinstimmung zu bringen bzw. abzugleichen. Der Mittelwert der Regressionskoeffizienten in jedem Paar von zeitlich in Übereinstimmung gebrachten bzw. abgeglichenen Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten Mittelwertregressionskoeffizienten wird in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Beispielsweise erzeugt in dem Fall, in dem der i-ten Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/ anspricht, wie in Fig. 20 gezeigt, wenn der Regressionskoeffizient des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als - "m=(m1, m2, ..., m20)" und der Regressionskoeffizientenvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(n1, n2, ..., n20)" dargestellt ist, die Mittelwertberechnung den Mittelwertregressionskoeffizientenvektor, der gegeben ist als "f=((m1+n1)/2, (m2+n2)/2, (m20+n20)/2)". In dem Fall, in dem drei oder mehr ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertregressionskoeffizientenvektor zu bilden, der in dem Sprachfragmentspeicherabschnitt 21C gespeichert wird.
Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C sammelt notwendige Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21C ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6. Zusätzlich sammelt der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C notwendige Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21C ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C speichert die Wörterbuchregressionskoeffizientenvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage von Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und die Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7A kann ein verstecktes Markov-Modell(HMM)-Verfahren anstelle eines dynamischen Programmierungs(DP)verfahrens verwenden. In diesem Fall wird Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov-Modelle (HMM) werden verbunden, um Vergleichsbezüge zu erzeugen. Die Anpaßverarbeitung durch den Erkennungsabschnitt 7A kann andere Abstandsmaße, wie beispielsweiseein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzwerkabstandsmaß oder ein Lernvektorquantisierungs (LVQ) abstandsmaß, verwenden.
Sprachfragmente können weiterhin andere Arten, wie beispielsweise eine Art in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
Versuche wurden wie folgt durchgeführt. Während einer vorhergehenden Verarbeitung erzeugten zwei Sprecher 530 Worte, die unter Berücksichtigung von phonetischen Umgebungen gewählt wurden. Ähnlichkeitsvektor-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)- Muster wurden aus den Wortdaten erzeugt. Die vorhergehende Verarbeitung wurde gefolgt von der aktuellen Spracherkennungsverarbeitung. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. Mit einer Quote von 94,3% wurden gute Erkennungsergebnisse erhalten.

Beschreibung des zwölften bevorzuaten Ausführungsbeispiels

Fig. 22 bezieht sich auf ein zwölftes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 10 ist, abgesehen von den hier angezeigten Entwurfsveränderungen.
Wie in Fig. 22 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, eine Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6D, eine Erkennungsabschnitt 7D, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13 und einen dynamischen Programmierungs-Gewichtsberechnungsabschnitt 31. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12 und der Regressionskoeffizientnormierungsabschnitt 13 sind ähnlich denen gemäß Fig. 10. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Abschnitte bzw. Einrichtungen 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf eine der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 10 ähnliche Weise.
Der Wörterbuchspeicherabschnitt 6D speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten enthält, die Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den Erkennungsobjekt- Worten enthalten und auch dynamische Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; enthält. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizienten vektorabfolgen) und die dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; von dem Wörterbuchspeicherabschnitt 6D zum Erkennungsabschnitt 7D zugeführt. Wie später erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientenvektorabfolgen und die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor der aktuellen Spracherkennungsbearbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt.
Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7D eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7D führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen aus und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7D verwendet die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; bei dem Vergleich, so daß der Vergleich von den dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; abhängt. Der Erkennungsabschnitt 7D wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichsbzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs-Vergleichstechnik, die sich auf die folgende Rekursionsformel bezieht.
wobei max den Operator zur Auswahl des Maximums von Mitgliedem folgend dem Operatorzeichen, l(i, j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachvektorabfolge mit einer Länge von 1 Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsvektorabfolge mit einer Länge von J Datenübertragungsblöcken, und g(i, j) die akkumulative Ähnlichkeit in Bezug auf den i- ten Datenübertragungsblock der Eingabesprachvektorabfolge und den j-ten Datenübertragungsblock der Bezugsvektorabfolge bezeichnet. Die durch die Gleichung (16) definierten Vergleichspfade sind, wie in Fig. 23 gezeigt, asymmetrisch.
In dem Fall, in dem ein Korrelationskosinusabstand während der Vergleichsberechnung als ein Maß verwendet wird, wird die Abstandsfunktion l(i, j) wie folgt ausgedrückt.
l(i, j) = w&sub0; (ab/( a b ) + (1-w&sub0;)c d/( c d ) ...(17)
wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, ..., a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientenvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als c=(c1, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientenvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als d=(d1, d2, ..., d20), und "w&sub0;" eine Gewichtung, die mit einem vorbestimmten Mischungsverhält nis zwischen dem Ähnlichkeitsteil und dem Regressionskoeffiziententeil übereinstimmt, bezeichnet. Es ist bevorzugt, daß das Mischungsverhältnis w&sub0; im Bereich von 0,4 bis 0,6 ist. Da ein Eingabesprachähnlichkeitsvektor "a", ein Wörterbuchähnlichkeitsvektor "b", ein Eingabesprachregressionskoeffizientvektor "c" und ein Wörterbuchregressionskoeffizientvektor "d" normiert werden, sind die Absolutwerte a , b , c und d gleich 1.
Somit wird Gleichung (17) in die folgende Gleichung vereinfacht.
l(i, j) = w&sub0;a b + (1-w&sub0;)c d ...(18)
Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils vorbestimmte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels des Abschnitte 1-4, 5C und 10- 13 gemäß Fig. 22 auf eine der Verarbeitung von eingegebener Sprache während der aktuellen Sprachverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5C einen Satz der Ähnlichkeitsvektorabfolge und der Regressionskoeffizientvektorabfolge in Bezug auf den verarbeiteten Teil der eingegebenen Sprache, der einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6D als eine Bezugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientenvektorabfolge entsprechend dem gegenwärtigen Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5C gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientvektorabfolgen in Bezug auf die anderen Teile der eingegebenen Sprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgegebenen Regressionskoeffizientenvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6D als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen entsprechend jeweils den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
Die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; werden mittels des dynamischen Programmierungs- Gewichtungsberechnungsabschnitts 31 auf der Grundlage von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Da ein Ähnlichkeitsvektor für jeden Datenübertragungsblock normiert wird, besteht ein Vorteil darin, daß die relativen Beziehungen zwischen den Ähnlichkeiten an einem Übergang von einem Phonem zu einem Phonem mit einem Standardmuster ähnlich anderen Teilen gehandhabt werden können. Jedoch neigt es, da eine niedriges Ähnlichkeitsintervall eine niedrige Zuverlässigkeit besitzt, zu einer falschen Erkennung, wenn ein dynamischer Programmierungs-Vergleich mit gleichen Gewichtungen über die Gesamtheit des Eingabesprachintervalls durchgeführt wird. Die Phonemstandardmuster zur Berechnung der Ähnlichkeiten werden für die Vokalintervalle und die Konsonantenintervalle erzeugt. Daher neigen während eines ruhigen Intervalls die Ähnlichkeiten im Hinblick auf irgendwelche der Phonemstandardmuster dazu klein zu sein und durch Rauschen leicht beeinflußt zu werden. Somit hängen die Ähnlichkeiten sehr von Sprachbedingungen ab. Demgemäß werden in diesem Ausführungsbeispiel die Gewichtungen für die Vergleichs- bzw. Übereinstimmungswerte von großen Ähnlichkeitsintervallen größer eingestellt als die Gewichtungen für die Vergleichs- bzw. Übereinstimmungswerte von kleinen Ähnlichkeitsintervallen und dadurch kann die akkumulative Ähnlichkeit durch die Vergleichs- bzw. Übereinstimmungswerte von Intervallen mit niedriger Zuverlässigkeit weniger beeinflußt werden.
Während der vorhergehenden Verarbeitung berechnet der dynamische Programmierungs-Gewichtunsberechnungsabschnitt 31 eine Mittelwertähnlichkeit "m" in jedem Datenübertragungsblock über die Gesamtheit des Wörterbuchsprachintervalls. Der dynamische Programmierungs-Gewichtungsberechnungsabschitt 31 empfängt einen Ähnlichkeitsvektor von dem Ähnlichkeitsberechnungsabschnitt 3. Der Ähnlichkeitsvektor aj der Wörterbuchsprache in dem j-ten Datenübertragungsblock wird nun wie folgt ausgedrückt.
aj = (a1,j, a2,j, ..., a20,j) ...(19)
Die Mittelwertähnlichkeit "m" des j-ten Datenübertragungsblocks wird unter Bezugnahme auf die folgende Gleichung berechnet.
m = (a1,j + a2,j +... + a20,j)/20 ...(20)
Die Gewichtungen w&sub1; und w&sub2; der dynamischen Programmierungspfade werden unter Verwendung von vorbestimmten Funktionen, wie beispielsweise linearen Funktionen oder Sigmoid- bzw. Σ- bzw. s- förmigen Funktionen, berechnet. Gemäß einem ersten Beispiel ist die Gewichtung w&sub1; des dynamischen Programmierungspfads durch die folgenden Gleichungen gegeben.
w&sub1; = 1, wenn m≤S1
w&sub1; = Am + B, wenn S1< m≤S2
w&sub1; = 0,5, wenn m> S2 ...(21)
wobei A=0,5/(S1-52) und B=(0,5 S1+S1)/(S1-S2) sind und S1 und S2 auf der Grundlage der statistischen Größe der Mittelwertähnlichkeit jedes Datenübertragungsblocks bestimmt werden. Die Gewichtung w&sub2; des dynamischen Programmierungspfads wird aus der Mittelwertähnlichkeit "m" der Wörterbuchsprache in dem (j- 1)-ten Datenübertragungsblock unter Bezugnahme auf Gleichungen ähnlich den Gleichungen (21) berechnet.
Gemäß einem zweiten Beispiel ist die Gewichtung w&sub1; des dynamischen Programmierungspfads durch die folgenden Gleichungen gegeben.
w&sub1;, = 1 wenn m≤S
w&sub1; = 0,5, wenn m> S ...(22)
wobei S einen Schwellenwert bezeichnet, der auf der Grundlage der statistischen Größe der Mittelwertähnlichkeit jedes Datenübertragungsblocks bestimmt wird. Die Gewichtung w&sub2; des dynamischen Programmierungspf ads wird aus der Mittelwertähnlichkeit "m" der Wörterbuchsprache in dem (j-1)-ten Datenübertragungsblock unter Bezugnahme auf Gleichungen ähnlich den Gleichungen (22) berechnet.
Gemäß einem dritten Beispiel werden ruhige Intervalle unter Verwendung von Informationen über Phonembeginne und -Enden erfaßt, die in den Sprachdaten erhalten sind. Während der erfaßten ruhigen Intervalle werden die Gewichtungen w&sub1; und w&sub2; der dynamischen Programmierungspfade, wie in Fig. 24 gezeigt, klein eingestellt. Insbesondere wird, wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall übereinstimmt, die Gewichtung w&sub1; des dynamischen Programmierungspfads auf 0,5 eingestellt. Wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall nicht übereinstimmt, wird die Gewichtung w&sub1; des dynamischen Programmierungspfads auf 1,0 eingestellt. Wenn der (j-1)-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall nicht übereinstimmt, wird die Gewichtung w&sub2; des dynamischen Programmierungspfads auf 1,0 eingestellt.
Während sowohl die Ähnlichkeit als auch die Zeitbereichsveränderung in der Ähnlichkeit in diesem Ausführungsbeispiel verwendet werden, kann es gut sein, die zeitliche Veränderung in der Ähnlichkeit wegzulassen, aber einen Ähnlichkeitsvektor zu verwenden, der durch eine Verstärkungsfunktion erhalten und für jeden Datenübertragungsblock normiert wird.
Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorbfolgen (die Wörterbuchregressionkoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden die dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; auf der Grundlage der Mittelwertähnlichkeiten in Bezug auf einen der Sprecher bestimmt. Es ist bevorzugt, daß die Anzahl von männlichen Sprechern und die Anzahl von weiblichen sprechern zur Erzeugung derartiger Wörterbuchinformationen ungefähr gleich sind.
Versuche wurden wie folgt durchgeführt. Die aktuelle Spracherkennungsverarbeitung wurde für die Sprachdaten durchgeführt, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers erzeugt wurden und die Gewichtungen der dynamischer Programierungspfade klein eingestellt wurden, wenn die Mittelwertähnlichkeit niedriger als der Schwellenwert war, wurden gute Erkennungsergebnisse mit einer Quote von 91,34% erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden, wurden mit einer Quote von 90,08% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade klein eingestellt wurden, wenn die Mittelwertähnlichkeit kleiner als der Schwellenwert war, wurden mit einer Quote von 93,88% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus dem Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichte der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden, wurden mit einer Quote von 93,83% gute Erkennungsergebnisse erhalten.

Beschreibung des dreizehnten bevorzugten Ausführungsbeispiels

Fig. 25 bezieht sich auf ein dreizehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 13 ist, abgesehen von im folgenden angezeigten Entwurfsveränderungen.
Wie in Fig. 25 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6E, einen Erkennungsabschnitt 7E, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlickeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13 und einen Mischverhältnisberechnungsabschnitt 32. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschnitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12 und der Regressionskoeffizientnormierungsabschnitt 13 sind ähnlich denen gemäß Fig. 10. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Einrichtungen bzw. Abschnitte 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf einer der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 10 ähnliche Weise.
Der Wörterbuchspeicherabschnitt 6E speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten, Bezugsregressionskoeffizientvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten und auch Daten einer Bezugsgewichtung w&sub0; enthält. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizientenvektorabfolgen) und die Bezugsgewichtung w&sub0; von dem Wörterbuchspeicherabschnitt 6E dem Erkennungsabschnitt 7E zugeführt. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientvektorabfolgen und die Bezugsgewichtung w&sub0; auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt.
Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7E eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7E führt einen Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen aus und berechnet die Vergleichsbzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7E verwendet die Bezugsgewichtung w&sub0; bei dem Vergleich, so daß der Vergleich von der Bezugsgewichtung w&sub0; abhängt. Der Erkennungsabschnitt 7E wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs-- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs- Vergleichstechnik, die sich auf die vorstehend erwähnte Rekursionsformel (16) im Ausführungsbeispiel gemäß den Figen. 22-24 bezieht. In dem Fall, in dem ein Korrelationskosinusabstand als ein Maß während der Vergleichsberechnung verwendet wird, wird die Abstandsfunktion l(i, j) durch die vorstehend erwähnte Gleichung (18) im Ausführungsbeispiel gemäß Fig. 22-24 ausgedrückt, die Terme abhängig von der Bezugsgewichtung w&sub0; entsprechend einem vorbestimmten Mischverhältnis des Ähnlichkeitsteils und der Regressionskoeffiziententeils besitzt.
Der Mischverhältnisberechnungsabschnitt 32 berechnet das Mischverhältnis w&sub0; aus dem von dem Regressionskoeffizientberechnungsabschnitt 12 ausgegebenen Regressionskoeffizientenvektor. Da ein Regressionskoeffizient die Mittelwertquote einer Zeitbereichsveränderung bei den Ähnlichkeiten darstellt, hängt das berechnete Mischverhältnis w&sub0; von der Mittelwertquote der Zeitbereichsveränderung bei den Ähnlichkeiten ab. Dieser Entwurf ist unter Berücksichtigung der folgenden Tatsachen angepaßt. Da ein Ähnlichkeitsvektor und ein Regressionskoeffizientvektor für jeden Datenübertragungsblock auf eine Größe von 1 normiert sind, gibt es einen Vorteil, daß die relativen Beziehungen der Ähnlichkeiten an einem Übergang von einem Phonem zu einem Phonem mit Phonemstandardmustern ähnlich anderen Teilen gehandhabt werden können. Wenn jedoch ein Regressionskoeffizientvektor bei einem konstanten Teil eines Vokals oder anderen, die kleine Absolutwerte der Regressionskoeffizienten bilden, auf eine Größe von 1 normiert wird, neigen die sich ergebenden Veränderungen dazu, groß zu sein, so daß ähnliche Beziehungen von Regressionskoeffizienten nicht immer in gleichen Vokalintervallen erhalten werden. Demgemäß werden in diesem Ausführungsbeispiel während der Berechnung der Zwischen-Datenübertragungsblockabstände bei der dynamischem Programmierungs-Vergleich die Abstände zwischen den Ähnlichkeitsvektoren in einem konstanten Teil eines Vokals unter Verwendung von Gewichtungen größer als die Gewichtungen zu den Abständen zwischen den Regressionskoeffizientenvektoren addiert.
Während der vorhergehenden Verarbeitung berechnet der Mischverhältnisberechnungsabschnitt 32 eine Zeitbereichsveränderung "q" bei den Ähnlichkeiten für jeden Datenübertragungsblock über die Gesamtheit des Wörterbuchsprachintervalls. Der Mischverhältnisberechnungsabschnitt 32 empfängt eine Regressionskoeffizientenvektor von dem Regressionskoeffizientberechnungsabschnitt 12. Der Regressionskoeffizientenvektor cj der Wörterbuchsprache in dem j-ten Datenübertragungsblock wird nun wie folgt ausgedrückt.
cj = (c1,j c2,j, ..., c20,j) ... (23)
Der Mittelwertregressionskoeffizient "q" des j-ten Datenübertragungsblocks wird unter Bezugnahme auf die folgende Gleichung berechnet.
q = (c1,j + c2,j + ... + c20,j)/20 ...(24)
Das Mischverhältnis w&sub0; wird unter Verwendung vorbestimmter Funktionen, wie beispielsweise linearer Funktionen oder Sigmoid- bzw. Σ- bzw. s-förmiger Funktionen berechnet. Gemäß einem ersten Beispiel ist das Mischverhältnis w&sub0; durch die folgenden Gleichungen gegeben.
w&sub0; = 0,8, wenn q≤K1
w&sub0; wenn K1< q≤K2 ...(25)
w&sub1; = 0,5, wenn q> K2 = Aq + B, ...(25)
wobei A=0,3/(K1-K2) und B=(0,5-K1-0,8-K2)/(K1-K2) ist und K1 und K2 auf der Grundlage der statistischen Größe des Mittelwertregressionskoeffizienten jedes Datenübertragungsblocks bestimmt werden.
Gemäß einem zweiten Beispiel ist das Mischverhältnis w&sub0; durch die folgenden Gleichungen gegeben.
w&sub0; = 0.8, wenn q≤K
w&sub0; = 0,5, wenn q> K
wobei K einen Schwellenwert bezeichnet, der auf der Grundlage der statistischen Größe des Mittelwertregressionskoeffizienten jedes Datenübertragungsblocks bestimmt wird.
Gemäß einem dritten Beispiel werden Intervalle der Wörterbuchsprache, die konstanten Teilen von Vokalen entsprechen, unter Verwendung von in den Sprachdaten enthaltenen Phonembeginnund -endinformationen erfaßt. Während der erfaßten konstanten Vokalintervalle wird das Mischverhältnis w&sub0; groß eingestellt. Insbesondere, wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einer erfaßten konstanten Vokalintervall übereinstimmt, wird das Mischverhaltnis w&sub0; auf 0,8 eingestellt. Wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten konstanten Vokalintervall nicht übereinstimmt, wird das Mischverhältnis w&sub0; auf 0,5 eingestellt. Es ist bevorzugt, daß ein erfaßtes konstantes Vokalintervall auf ein Intervall von vier oder weniger Datenübertragungsblöcken beginnend mit dem Datenübertragungsblock entsprechend einem Beginn oder Ende des Phonems /a/, /o/, /u/, /i/ oder /e( (siehe die schraffierten Bereiche in Fig. 26) beschränkt ist.
Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen), die Bezugsregressionskoeffizientvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) und die Bezugsgewichtung (Mischungsverhältnis) w&sub0; können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden.
Versuche wurden wie folgt durchgeführt. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen von den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis groß eingestellt wurde, wenn der Mittelwertabsolutwert der Regressionskoeffizienten kleiner als der Schwellenwert war, wurden mit einer Quote von 90,91% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen von den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis im konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 91,29% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus dem Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis groß eingestellt wurde, wenn der Mittelwertabsolutwert der Regressionskoeffizienten kleiner als der Schwellenwert war, wurden mit einer Quote von 93,56% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 93,78% gute Erkennungsergebnisse erhalten.

Beschreibung des vierzehnten bevorzugten Ausführungsbeispiels

Fig. 27 bezieht sich auf ein vierzehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen.. 22-24 ist, abgesehen von im folgenden angezeigten Entwurfsveränderungen.
Wie in Fig. 27 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseanschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolge erzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6D, eine Erkennungsabschnitt 7D, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13, einen dynamischen Programmierungs-Gewichtungsberechnungsabschnitt 31 und einen Mischverhältnisberechnungsabschnitt 32. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschnitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12, der Regressionskoeffizientnormierungsabschnitt 13 und der dynamische Programmierungs- Gewichtungsberechnungsabschnitt 31 sind ähnlich denen gemäß Fig. 22. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Einrichtungen bzw. Abschnitte 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 22. Während einer vorhergehenden Verarbeitung, die der aktuellen Spracherkennungsverarbeitung vorhergeht, funktioniert der dynamische Programmierungs-Gewichtungsberechnungsabschnitt 31 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtung bzw. des entsprechenden Abschnitts gemäß Fig. 22.
Der Mischverhältnisberechnungsabschnitt 32 ist ähnlich der entsprechenden Einrichtung bzw. dem entsprechenden Abschnitt gemäß Fig. 25. Während der vorhergehenden Verarbeitung funktioniert der Mischverhältnisberechnungsabschnitt 32 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtung bzw. des entsprechenden Abschnitts gemäß Fig. 25.
Der Wörterbuchspeicherabschnitt 6F speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten, Bezugsregressionskoeffizientvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten, dynamische Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und auch ein Mischverhältnis (eine Bezugsgewichtung) w&sub0; enthält. Die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientvektorabfolgen, die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und das Mischverhältnis w&sub0; werden auf der Grundlage von von einem einzelnen Sprecher oder einer Vielzahl von Sprechern während einer vorhergehenden Verarbeitung, die vor der aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; werden mit dem Wörterbuch aus dem dynamischen Programmierungs- Gewichtungsberechnungsabschnitt 31 verzeichnet bzw. registriert. Das Mischverhältnis w&sub0; wird mit dem Wörterbuch aus dem Mischverhältnisberechnungsabschnitt 32 verzeichnet bzw. registriert. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch bezeichnet als die Wörterbuchähnlichkeitsvektorabfolgen), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizientenvektorabfolgen), die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und das Mischverhältnis w&sub0; von dem Wörterbuchspeicherabschnitt 6F dem Erkennungsabschnitt 7F zugeführt.
Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7F eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7F führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientenvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7F verwendet die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; beim Vergleich wie im Ausführungsbeispiel gemäß den Figen. 22-24, so daß der Vergleich von den dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; abhängt. Zusätzlich verwendet der Erkennungsabschnitt 7F das Mischverhältnis w&sub0; bei dem Vergleich wie in den Ausführungsbeispielen gemäß den Figen. 25 und 26, so daß der Vergleich von dem Mischverhältnis w&sub0; abhängt. Der Erkennungsabschnitt 7F wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergenis als das Erkennungsobjekt-Wort entsrpechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs-Vergleichstechnik wie im Ausführungsbeispiel gemäß den Figen. 22-24 und im Ausführungsbeispiel gemäß den Figen. 25 und 26.
Versuche wurden wie folgt ausgeführt. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichte der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 92,42% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 94,40% gute Erkennungsergebnisse erhalten.

Claims

1. Verfahren zur Spracherkennung mit den Schritten:

Erzeugen von "m" Merkmalsparametern für jeden Datenübertragungsblock einer Bezugssprache, die von zumindest einem Sprecher gesprochen wird und Erkennungsobjekt-Worte darstellt, wobei "m" einen voreingestellten Integerwert bezeichnet,

vorhergehend Erzeugen von "n" Arten von Standardmustern auf der Grundlage von Sprachdaten von einer Vielzahl von Sprechern, wobei "n" einen voreingestellten Integerwert bezeichnet,

Ausführen eines Vergleichs zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster und Erzeugen eines Vektors von "n" Bezugsähnlichkeiten zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster für jeden Datenübertragungsblock,

Erzeugen von zeitlichen Abfolgen der Bezugsähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken, wobei die Bezugsähnlichkeitsvektorabfolgen jeweils den Erkennungsobjekt-Worten entsprechen,

vorhergehend Verzeichnen der Bezugsähnlichkeitsvektorabfolgen als Wörterbuchähnlichkeitsvektorabfolgen,

Analysieren von zu erkennender Eingabesprache und Erzeugen von "m" Merkmalsparametern aus der Eingabesprache,

Ausführen eines Vergleichs zwischen den Merkmalsparametern der Eingabesprache und den Standardmustern und Erzeugen eines Vektors von "n" Eingabesprachähnlichkeiten zwischen den Merkmalsparametern der Eingabesprache und den Standardmustern für jeden Datenübertragungsblock,

Erzeugen einer zeitlichen Abfolge der Eingabesprachähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken und Sammeln der Eingabesprachähnlichkeitsvektorabfolge mit den Wörterbuchähnlichkeitsvektorabfolgen zum Erkennen der eingegebenen Sprache.

2. Verfahren nach Anspruch 1, mit den Schritten Berechnen von Zeitbereichsveränderungen bei den Bezugsähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen von Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten von jeweiligen Datenübertragungsblöcken,

wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,

Berechnen von Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten,

Erzeugen eines Vektors der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten von jeweiligen Datenübertragungsblöcken und

Sammeln der zeitlichen Abfolge der Vektoren der Zeitbreichsveränderungen bei den Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten zur Erkennung der eingegebenen Sprache.

3. Verfahren nach Anspruch 1, wobei der Sammelschritt eine dynamische Programmierungs- Vergleichstechnik verwendet.

4. Verfahren nach Anspruch 1, weiterhin mit dem Schritt Verarbeiten der Bezugsähnlichkeiten und der Eingabesprachähnlichkeiten mittels einer Funktion einer Verstärkung von großen Mitgliedern der Ähnlichkeiten.

5. Verfahren nach Anspruch 1, weiterhin mit den Schritten Verarbeiten der Bezugsähnlichkeiten mittels einer Funktion einer Verstärkung von großen Mitgliedern der Bezugsähnlichkeiten zur Umwandlung der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,

Verarbeiten der Eingabesprachähnlichkeiten mittels derselben Funktion zum Umwandeln der Eingabesprachähnlichkeiten in zweite Eingabesprachähnlichkeiten,

Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeiten,

Berechnen von Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen von Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der jeweiligen Datenübertragungsblöcke,

wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,

Berechnen von Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten,

Erzeugen eines Vektors der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke und Sammeln der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten zum Erkennen der Eingabesprache.

6. Verfahren nach Anspruch, weiterhin mit den Schritten Normieren jedes der Bezugsähnlichkeitsvektoren und Normieren jedes der Eingabesprachähnlichkeitsvektoren, wobei der Sammelschritt ein Berechnen eines Abstands zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen und ein Erkennen der Eingabesprache ansprechend auf die berechneten Abstände umfaßt.

7. Verfahren nach Anspruch 1, weiterhin mit den Schritten Auswählen von "k" größeren Mitgliedern aus den Bezugsähnlichkeiten und Einstellen von verbleibenden Mitgliedern der Bezugsähnlichkeiten gleich einer k-größten Bezugsähnlichkeit zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten, wobei "k" einen voreingestellten Integer wert bezeichnet,

Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeitsabfolgen,

Auswählen von "k" größeren Mitgliedern aus den eingegebenen Ähnlichkeiten und Einstellen von verbleibenden Mitgliedern der Eingabesprachähnlichkeiten gleich einer k-größten eingegebenen Ähnlichkeit zum Umwandeln der eingegebenen Ähnlichkeiten in zweiten Eingabesprachähnlichkeiten, und Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Ähnlichkeiten der eingegebenen Sprache,

wobei der Sammelschritt ein Berechnen eines euklidischen Abstands zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen und ein Erkennen der eingegebenen Sprache ansprechend auf die berechneten euklidischen Abstände umfaßt.

8. Verfahren nach Anspruch 1, weiterhin mit dem Schritt Verarbeiten der Bezugsähnlichkeiten und der Eingabesprachähnlichkeiten mittels einer Exponentialfunktion zur Verstärkung von großen Mitgliedern der Ähnlichkeiten, wobei der Sammelschritt ein Berechnen eines Korrelationsabstands zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen und ein Erkennen der Eingabesprache ansprechend auf die berechneten Korrelationsabstände umfaßt.

9. Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,

Normieren jedes der Wörterbuchähnlichkeitsvektoren, Verstärken von großen Mitgliedern der Ähnlichkeiten der Eingabesprache zur Umwandlung der Eingabesprachähnlichkeiten der Eingabesprache in zweite Eingabesprachähnlichkeiten,

Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Eingabesprachähnlichkeiten und Normieren jedes der Vektoren der Eingabesprache,

wobei der Sammelschritt eine dynamische Programmierungs- Vergleichstechnik unter Verwendung einer Gewichtung und ein Verändern der Gewichtung entsprechend einer Größe einer mittleren Ähnlichkeit eines Datenübertragungsblocks zum Einstellen der Gewichtung in einem Intervall entsprechend einer niedrigen Mittlwert-Ähnlichkeit auf klein umfaßt.

10.Verfahren nach Anspruch 9, weiterhin mit den Schritten Berechnen von Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten von jeweiligen Datenübertragungsblöcken,

Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke und Sammeln der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten zur Erkennung der Eingabesprache.

11.Verfahren nach Anspruch 1, wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik unter Verwendung einer Gewichtung und ein Einstellen der Gewichtung in einem ruhigen Intervall auf klein umfaßt.

12.Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,

Normieren jedes der Wörterbuchähnlichkeitsvektoren,

Verstärken von großen Mitgliedern der Ähnlichkeiten der Eingabesprache zum Umwandeln der Ähnlichkeiten der Eingabesprache in zweite Eingabesprachähnlichkeiten,

Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Eingabesprachähnlichkeiten,

Normieren jedes der Vektoren der Eingabesprache,

Erzeugen eines Vektors der Zeitbereichsveränderungen bei der den zweiten Eingabesprachähnlichkeiten für jeden Datenübertragungsblock und

Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke,

wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik, ein Berechnen eines Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten, ein Berechnen eines Abstands Ls zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer gewichteten Addition L zwischen den Abständen Lk und Ls durch Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p" ein Gewicht entsprechend einem Mischverhältnis bezeichnet, ein Verändern des Mischverhältnisses "p" entsprechend einer Größe der mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock zum Einstellen des Mischverhältnisses "p" in einem Intervall entsprechend einer kleinen mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock auf groß und ein Erkennen der eingegebenen Sprache ansprechend auf die gewichtete Addition L umfaßt.

13.Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,

Normieren jedes der Wörterbuchähnlichkeitsvektoren,

Verstärken großer Mitglieder von Eingabesprachähnlichkeiten zum Umwandeln der Eingabesprachähnlichkeiten in zweite Eingabesprachähnlichkeiten,

Normieren jedes der Vektoren der Eingabesprache,

Erzeugen von Vektoren der Zeitbereichsverändeurngen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,

Berechnen von Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten, und

wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik, ein Berechnen eines Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten, ein Berechnen eines Abstands Ls zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer gewichteten Addition L zwischen den Abständen Lk und Ls unter Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p" ein Gewicht entsprechend einem Mischverhältnis bezeichnt, ein Einstellen des Mischverhältnisses "p" auf einen ersten Bezugswert in einem Intervall entsprechend einem konstanten Teil eines Vokals, ein Einstellen des Mischverhältnisses "p" auf einen zweiten Bezugswert in einem Intervall verschieden von dem Intervall entsprechend dem konstanten Teil des Vokals, wobei der zweite Bezugswert kleiner als der erste Bezugswert ist, und ein Erkennen der eingegebenen Sprache ansprechend auf die gewichtete Addition L umfaßt.

14.Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsählichkeiten,

Normieren jedes der Wörterbuchähnlichkeitsvektoren,

Normieren jedes der Eingabesprachvektoren,

Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke,

wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik, ein Berechnen eines Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten, ein Berechnen eines Abstands LS zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer gewichteten Addition L zwischen den Abständen Lk und Ls unter Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p" ein Gewicht entsprechend einem Mischverhältnis bezeichnet, ein Verändern des Mischverhältnisses "p" entsprechend einer Größe einer mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock zur Einstellung des Mischverhältnisses "p" in einem Intervall entsprechend einer kleinen mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock auf groß, ein Ausführen einer dynamischen Programmierungs- Vergleichstechnik unter Verwendung einer zweiten Gewichtung, ein Einstellen der zweiten Gewichtung in einem ruhigen Intervall auf klein und ein Erkennen der eingegebenen Sprache ansprechend auf die gewichtete Addition L umfaßt.

15.Verfahren nach Anspruch 1, weiterhin mit den Schritten Analysieren von Teilen von Bezugssprache, die von zumindest zwei Sprechern gesprochen werden und gleiche Erkennungsobjekt-Worte darstellen, um zeitliche Abfolgen von Ähnlichkeitsvektoren zu erhalten,

Ausführen eines dynamischen Programmierungs-Vergleichs auf die zeitlichen Abfolgen der Ähnlichkeitsvektoren zum Vergleich von Zeitbasen zwischen den Sprechern,

Berechnen von Mittelwerten von jeweiligen Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken und

Bestimmen der Bezugsähnlichkeitsvektorabfolgen auf der Grundlage der berechneten Mittelwerte.

16.Verfahren nach Anspruch 1, weiterhin mit den Schritten Berechnen von Zeitbereichsveränderungen bei den Bezugsähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei Bezugsähnlichkeiten der jeweiligen Datenübertragungsblöcke,

Berechnen von Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten,

Erzeugen eines Vektors der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke,

Sammeln der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten zur Erkennung der Eingabesprache,

Analysieren von Teilen der Bezugssprache, die von zumindest zwei Sprechern gesprochen werden und gleiche Erkennungsobjekt-Worte darstellen, zum Erhalten von zeitlichen Abfolgen von Ähnlichkeitsvektoren und zeitlichen Abfolgen von Zeitbereichsähnlichkeitsveränderungen,

Ausführen eines dynamischen Programmierungs-Vergleichs auf die zeitlichen Abfolgen der Ähnlichkeitsvektoren und die zeitlichen Abfolgen der Zeitbereichsähnlichkeitsveränderungen zum Vergleich der Zeitbasen zwischen den Sprechern, Berechnen von Mittelwerten von jeweiligen Ähnlichkeiten zwischen zeitlich angepaßten Datenübertragungsblockern und Bestimmen der Bezugsähnlichkeitsvektorabfolgen und der Bezugszeitbereichsähnlichkeitsveränderungsabfolgen auf der Grundlage der berechneten Mittelwerte.

17.Verfahren nach Anspruch 1, weiterhin mit den Schritten Analysieren von Teilen der Bezugssprache, die von zumindest zwei Sprechern gesprochen wird und gleiche Erkennungsobjekt-Worte darstellt, zum Erhalten von Ähnlichkeitsvektoren, unter Verwendung der Ähnlichkeitsvektoren als Mehrfachstandardmuster bei der Bestimmung der Bezugsähnlichkeitsvektorabfolgen.

18.Verfahren nach Anspruch 2, weiterhin mit den Schritten Analysieren von Teilen der Bezugssprache, die von zumindest zwei Sprechern gesprochen wird und gleiche Erkennungsobjekt-Worte darstellt, zum Erhalten von Ähnlichkeitsvektorabfolgen und Zeitbereichsähnlichkeitsveränderungsvektorabfolgen, unter Verwendung der Ähnlichkeitsvektorabfolgen und der Zeitbereichsähnlichkeitsveränderungsvektorabfolgen als Mehrf achstandardmuster bei der Bestimmung des Bezugsähnlichkeitsvektorabfolgen und der Bezugszeitbereichsähnlichkeitsveränderungsvektorabfolgen.

19.Verfahren nach einem der Ansprüche 15-18, wobei die Teile der Bezugssprache von einem männlichen und einem weiblichen Sprecher gesprochen werden.

20.Verfahren zur Spracherkennung mit den Schritten:

vorhergehendes Einstellen eines Satzes von Worten unter Berücksichtigung von phonetischen Umgebungen,

Sprechenlassen des Wortsatzes durch zumindest einen Sprecher und Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock,

vorhergehendes Erzeugen von "n" Arten von Standardmustern für von vielen Sprechern erzeugte Sprachdaten,

Ausführen eines Vergleichs zwischen den Merkmalsparametern und jedem der Standardmuster zum Erhalten eines Vektors von "n" Ähnlichkeiten für jeden Datenübertragungsblock,

Erzeugen eines zeitlichen Abfolgemusters aus dem Ähnlichkeitsvektor,

Extrahieren von Sprachfragmenten aus dem zeitlichen Abfolgemuster und Verzeichnen der Sprachfragmente als ein Sprachfragmentwörterbuch,

Erzeugen einer Verbindungsabfolge der Sprachfragmente oder eines zeitlichen Abfolgemusters von Ähnlichkeitsvektoren für jedes der Spracherkennungsobjekt-Worte, wobei das zeitliche Abfolgemuster der Ähnlichkeitsvektoren durch Kombinieren der Sprachfragnente in dem Sprachfragmentwörterbuch erzeugt wird,

Speichern der Verbindungsabfolge der Sprachfragmente oder des zeitlichen Abfolgemusters der Ähnlichkeitsvektoren in einem Erkennungsobjektwörterbuch für jedes der Erkennungsobjekt-Worte,

Analysieren einer eingegebenen Sprache zum Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock,

Ausführen eines Vergleichs zwischen den Eingabesprachmerkmalsparametern und jedem der Standardmuster zum Erhalten einer zeitlichen Abfolge von Vektoren von "n" Ähnlichkeiten und

Sammeln der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die an den jeweiligen Punkten des Erkennungsobjektwörterbuchs verzeichnet sind, zum Erkennen der Eingabesprache, oder Sammeln der zeitlichen Ähnlichkeitsvektorabfolge der Eingabesprache mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die gemäß den Verbindungsabfolgen der Sprachfragmente zur Erkennung der eingegebenen Sprache erzeugt werden.

21.Verfahren nach Anspruch 20, weiterhin mit den Schritten Berechnen von "n" Zeitbereichsveränderungen bei den Ähnlichkeiten im Hinblick auf jede der zeitlichen Abfolgen der "n" Arten von Ähnlichkeiten für jeden Datenübertragungsblock und

Erzeugen der zeitlichen Abf olgemuster aus einem Vektor der "n" Zeitbereichsveränderungen bei den Ähnlichkeiten und einem Vektor der "n" Ähnlichkeiten.

22.Verfahren nach Anspruch 20, wobei die Sprachfragmente eine Abfolge eines Konsonanten und eines Vokals und eine Kombination eines Vokals und eines Konsonanten umfassen.

23.Verfahren nach Anspruch 20, wobei jeder der Punkte der Erkennungsobjekt-Worte durch Verbinden der zeitlichen Abfolgemuster der Zeitbereichsähnlichkeits- veränderungsvektoren oder der als Sprachfragmente extrahierten zeitlichen Abfolgemuster der Ähnlichkeitsvektoren erzeugt wird und

ein dynamischer Programmierungs-Vergleich im Hinblick auf die Eingabesprache zur Erkennung der Eingabesprache durchgeführt wird.

24.Verfahren nach Anspruch 20, wobei versteckte Markov-Modelle auf die zeitlichen Abfolgemuster der Zeitbereichsähnlichkeitsveränderungsvektoren oder die zeitlichen Abfolgemuster der Ähnlichkeitsvektoren, die als Sprachfragmentmuster extrahiert werden, zur Erkennung der Eingabesprache angelegt werden.

25.Verfahren nach Anspruch 20, wobei zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte sprechen, die zum Erhalten von zeitlichen Abfolgen von Ähnlichkeitsvektoren analysiert werden,

Zeitbasen der Sprecher mittels eines dynamischen Programmierungs-Vergleichs im Hinblick auf die zeitlichen Abfolgemuster der Ähnlichkeitsvektoren verglichen werden,

Mittelwerte der Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken berechnet werden,

Sprachfragmente von einem zeitlichen Abfolgemuster der Mittelwerte extrahiert werden und

die Sprachfragmente in dem Sprachfragmentwörterbuch verzeichnet werden.

26.Verfahren nach Anspruch 21, wobei Regressionskoeffizienten als Informationen über Zeitbereichsveränderungen verwendet werden.

27.Verfahren nach Anspruch 2, wobei zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte sprechen, die zum Erhalten von zeitlichen Abfolgemustern von Ähnlichkeitsvektoren und zeitlichen Abfolgemustern von Regressionskoeffizientenvektoren analysiert werden,

Zeitbasen der Sprecher mittels eines dynamischen Programmierungs-Vergleichs im Hinblick auf die zeitlichen Abfolgemuster der Ähnlichkeitsvektoren und der zeitlichen Abfolgemuster der Regressionskoeffizientenvektoren verglichen werden,

Mittelwerte der Ähnlichkeiten und Mittelwerte von Zeitbereichsveränderungen bei den Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken berechnet werden und

zeitliche Abfolgemuster der Mittelwerte in einem Wörterbuch verzeichnet werden.

28.Verfahren nach Anspruch 21, wobei zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte sprechen, die zum Erhalten von zeitlichen Abfolgemustern von Ähnlichkeitsvektoren und zeitlichen Abfolgemustern von Regressionkoeffizientenvektoren analysiert werden,

Mittelwerte der Ähnlichkeiten und Mittelwerte von Zeitbereichsveränderungen bei den Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken berechnet werden,

die Sprachfragmente in dem Sprachfragmentwörterbuch verzeichnet werden.

29.Verfahren nach Anspruch 20, wobei eines von einem euklidischen Abstand, einem gewichteten euklidischen Abstand und einem Korrelationskosinus als ein Abstandsmaß für eine Berechnung eines Abstands zwischen dem Ähnlichkeitsvektoren verwendet wird.

30.Verfahren nach Anspruch 20, wobei die Standardmuster Phonemen entsprechen.

31.Verfahren nach Anspruch 20, wobei eines von einem Bayesianischen Abstand, einen Maharanobis Abstand, einem Maharanobis Abstand, bei dem Kovarianzmatrizen der Standardmuster gemeinsam verwendet werden, einem neuronalen Netzwerkabstand, einem versteckten Markov- Modellabstand und ein Lernvektorquantisierungsabstand als ein Abstandmaß im Hinblick auf einen Vergleich mit den Standardmustern verwendet wird.