DE69127961T2 - Verfahren zur Spracherkennung - Google Patents

Verfahren zur Spracherkennung

Info

Publication number
DE69127961T2
DE69127961T2 DE69127961T DE69127961T DE69127961T2 DE 69127961 T2 DE69127961 T2 DE 69127961T2 DE 69127961 T DE69127961 T DE 69127961T DE 69127961 T DE69127961 T DE 69127961T DE 69127961 T2 DE69127961 T2 DE 69127961T2
Authority
DE
Germany
Prior art keywords
similarities
similarity
vectors
speech
input language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69127961T
Other languages
English (en)
Other versions
DE69127961D1 (de
Inventor
Shoji Hiraoka
Masakatsu Hoshimi
Maki Miyata
Katsuyuki Niyada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2404866A external-priority patent/JP2692382B2/ja
Priority claimed from JP3058796A external-priority patent/JP2879989B2/ja
Priority claimed from JP17090891A external-priority patent/JP2574557B2/ja
Priority claimed from JP3234388A external-priority patent/JP2943445B2/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE69127961D1 publication Critical patent/DE69127961D1/de
Publication of DE69127961T2 publication Critical patent/DE69127961T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Description

    Gebiet der Erfindung
  • Die Erfindung bezieht sich auf ein Verfahren zur Erkennung von von einem unbestimmten Sprecher erzeugter Sprache.
  • Beschreibung des Standes der Technik
  • Einige Verfahren zur Spracherkennung verwenden eine Wortabhör- und bzw. -entdeckungstechnik. T.Kimura et al veröffentlichten "A Telephone Speech Recognition System Using Word Spotting Technique Based on Statistical Measure", Proc. of ICASSP, Dallas, Seiten 1175-1178, 1987. S. Hiraoka et al veröffentlichten "A Small Vocabulary Speech Recognizer for Unspecified Speaker Using Word-Spotting Technique", The Japanese Society of Electronics, Information and Communications, SP88-18, 1988.
  • Gemäß der Veröffentlichung von S. Hiraoka et al, wurde ein sprecherunabhängiges Spracherkennungsverfahren entwickelt, das relativ immun gegen Rauschen ist. Das Erkennungsverfahren mit der Bezeichnung CLM (Continuous Linear Compression/Expansion Matching (fortwährender linearer Kompression/Ausdehungsvergleich bzw. -anpassung)) verwendet eine Wortabhör- bzw. -technik. Die Wortabhörtechnik wird mittels eines neuen Zeitnormierungsalgorithmus auf der Grundlage eines linearen Zeitverzerrungsmustervergleichsverfahrens durchgeführt. Eine Worterkennung wurde unter Verwendung einer Zehnzahlen- Datenbasis von 240 Personen durchgeführt, die über eine Telephonleitung gesammelt wurden. Die sich ergebende Worterkennungsquote betrug 96,4%. Bei der praktischen Anwendung betrug die Erkennungsquote 95,9%.
  • Bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al wird unbekannte eingegebene Sprache mit vorbestimmten Standardmustern voreingestellter Worte (Erkennungsobjekt-Worte) verglichen, um ein Spracherkennungsergebnis auszudatenübertragungsblocken. Die Standardmuster werden auf der Grundlage von Daten von von vielen Sprechern gesprochenen Erkennungsobjekt- Worten erzeugt. Während der Erzeugung der Standardmuster werden Signale von gesprochenen Worten veranschaulicht und aus den veranschaulichten Signalen werden Sprachintervalle extrahiert. Signalkomponenten in den Sprachintervallen werden statistisch verarbeitet, um die Standardmuster zu Datenübertragungsblocken.
  • Bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al wird ein Wortwörterbuch für einen unbestimmten Sprecher, das Standardmuster von Erkennungsobjekt-Worten enthält, durch Verwendung von von vielen, beispielsweise 330 Sprechern, erhaltenen Sprachdaten. Insbesondere erzeugen die Sprecher japanische Worte, die Zahlen von 1 bis 10 darstellen, und die erzeugten japanischen Worte werden in Sprachdaten umgewandelt. Die Sprachdaten werden in spektralen Signalverläufen veranschaulicht und Sprachintervalle werden mit Beobachtung unter Verwendung menschlicher Augen extrahiert. Jedes Sprachintervall wird in Einheitsanalyse-Zeitmaße aufgeteilt. Merkmalsparameter (linerare Vorhersage-Koeffizienten LPC Cepstrum-Koeffizienten) der Sprachdaten werden für jedes Einheitsanalyse-Zeitmaß abgeleitet. Die Merkmalsparameter für die jeweiligen Einheitsanalyse-Zeitmaße werden in einer zeitlichen Abfolge angeordnet. Die Intervalle der durch zeitliche Abfolgen von Herkmalsparametern dargestellten Sprachdaten werden auf ein voreingestelltes Sparchzeitmaß, das sich von Wort zu Wort verändert, komprimiert oder expandiert. Die Absolutwerte der sich ergebenden Sprachdaten werden zur Erzeugung eines Standardmusters jedes Erkennungsobjekt-Worts verwendet.
  • Die herkömmliche Spracherkennung gemäß S. Hiraoka et al besitzt die folgenden Probleme. Erstens waren viele verschiedene Sprecher erforderlich, um ein zuverlässiges Wortwörterbuch zu erzeugen, das Standardmuster von Erkennungsobjekt-Worten enthält. Zweitens war es mühsam, Erkennungsobjekt-Worte zu verändern.
  • Zusammenfassung der Erfindung
  • Es ist eine Aufgabe der Erfindung, ein verbessertes Verfahren zur Spracherkennung auszuDatenübertragungsblocken.
  • Ein erster Gesichtspunkt der Erfindung erzeugt ein Verfahren zur Spracherkennung, das die Schritte Erzeugen von "m" Merkmalsparametern für jeden Datenübertragungsblock aus der Bezugssprache, die von zumindest einem Sprecher gesprochen wurde und Erkennungsobjekt-Worte darstellt, wobei "m" einen voreingestellten Integerwert bezeichnet, vorher Erzeugen von "n" Typen von Standardmustern auf der Grundlage von Sprachdaten einer Vielzahl von Sprechern, wobei "n" einen voreingestellten Integerwert bezeichnet, Ausführen eines Vergleichs zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster, und Erzeugen eines Vektors mit "n" Bezugsähnlichkeiten zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster für jedes Datenübertragungsblock, Erzeugen von zeitlichen Abfolgen der Bezugsähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcke, wobei die Bezugsähnlichkeitsvektorabfolgen jeweils den Erkennungsobjekt-Worten entsprechen, vorher Registrieren der Bezugähnlichkeitsvektorabfolgen als Wörterbuchähnlichkeitsvektorabfolgen, Analysieren der zu erkennenden Eingabesprache und Erzeugen von "m" Merkmalsparametern aus der Eingabesprache, Ausführen eines Vergleichs zwischen den Merkmalsparametern der Eingabesprache und den Standardmustern und Erzeugen eines Vektors von "n" Eingabesprachähnlichkeiten zwischen den Merkmalsparametern der Eingabesprache und der Standardmuster für jeden Datenübertragungsblock, Erzeugen einer zeitlichen Abfolge der Eingabesprachähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcke und Vergleichen der Eingabesprachähnlichkeitsvektorabfolge mit den Wörterbuchähnlichkeitsvektorabfolgen zur Erkennung der Eingabesprache.
  • Eine zweiter Gesichtspunkt der Erfindung bildet ein Verfahren zur Spracherkennung aus, das die Schritte vorher Einstellen eines Satzes von Worten unter Berücksichtigung von phonetischen Umgebungen, zumindest einen Sprecher den Wortsatz sprechen lassen und Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock, vorher Erzeugen von "n" Typen von Standardmustern aus den von vielen Sprechern erzeugten Sprachdaten, Ausführen eines Vergleichs zwischen den Merkmalsparametern und jedem der Standardmuster zum Erhalten eines Vektors von "n" Ähnlichkeiten für jeden Datenübertragungsblock, Extrahieren von Sprachfragmenten aus dem zeitlichen Abfolgemuster und Registrieren der Sprachfragmente als ein Sprachfragmentwörterbuch, Erzeugen einer Verbindungsabfolge der Sprachfragmente oder eines zeitlichen Abfolgemusters von Ähnlichkeitsvektoren für jedes der Spracherkennungsobjekt-Worte, wobei das zeitliche Abfolgemuster der Ähnlichkeitsvektoren durch Kombinieren der Sprachfragmente in dem Sprachfragmentwörterbuch erzeugt wird, Speichern der Verbindungsabfolge der Sprachfragmente oder des zeitlichen Abfolgemusters der Ähnlichkeitsvektoren in einem Erkennungsobjektwörterbuch für jedes der Erkennungsobjekt-Worte, Analysieren der Eingabesprache zum Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock, Ausführen eines Vergleichs zwischen den Eingabesprachmerkmalsparametern und jedem der Standardmuster zum Erhalten einer zeitlichen Abfolge von Vektoren von "n" Ähnlichkeiten und Vergleichen der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die in jeweiligen Punkten des Erkennungsobjekt-Wörterbuchs registriert sind, um die Eingabesprache zu erkennen, oder Vergleichen der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die entsprechend der Verbindungsabfolgen der Sprachfragmente erzeugt werden, um die Eingabesprache zu erkennen.
  • Kurzbeschreibung der Zeichnung
  • Es zeigen:
  • Fig. 1 ein Blockschaltbild eines Spracherkennungssystems, das ein Verfahren gemäß einem ersten erfindungsgemäßen Ausführungsbeispiel ausführt,
  • Fig. 2 eine Darstellung, die den Ablauf von Funktionen in dem ersten Ausführungsbeispiel zeigt,
  • Fig. 3 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlichkeiten in dem ersten Ausführungsbeispiel zeigt,
  • Fig. 4 eine Darstellung, die die zeitliche Beziehung zwischen einer ersten Sprache und einer zweiten Sprache, die von einem ersten bzw. einem zweiten Sprecher erzeugt werden, zeigt,
  • Fig. 5 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem dritten erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 6 eine Darstellung, die Ähnlichkeiten von jeweiligen Datenübertragungsblöcken und eine gerade Linie entsprechend einem Ähnlichkeitsregressionskoeffizienten eines Datenübertragungsblocks in dem dritten Ausführungsbeispiel zeigt,
  • Fig. 7 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem vierten erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 8 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlichkeiten in dem vierten Ausführungsbeispiel zeigt,
  • Fig. 9 eine Darstellung, die die Inhalte einer Abfolge von Vektoren von Ähnlickeiten, die der Ähnlichkeitsvektorabfolge gemäß Fig. 8 entspricht, zeigt,
  • Fig. 10 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem sechsten erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 11 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem siebenten erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 12 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem achten erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 13 ist ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "asahi" und Konsonanten-Vokal- und Vokal-Konsonant-Fragmente der Sprache im achten Ausführungsbeispiel zeigt,
  • Fig. 14 ist ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "sake" und eine Konsonant- Vokal- und Vokal-Konsonant-Fragmente der Sprache im achten Ausführungsbeispiel zeigt,
  • Fig. 15 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem neunten erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 16 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem zehnten erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 17 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "asahi" und Konsonant-Vokal- und Vokal- Konsonant-Fragmente der Sprache in dem zehnten Ausführungsbeispiel zeigt,
  • Fig. 18 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "sake" und Konsonanten-Vokal- und Vokal-Konsonant-Fragmente der Sprache in dem zehnten Ausführungsbeispiel zeigt,
  • Fig. 19 ein Zeitbereichsdiagramm, das die Inhalte von Sprache eines japanischen Worts "paaku" und Konsonant-Vokal- und Vokal- Konsonant-Fragmente der Sprache im zehnten Ausführungsbeispiel zeigt,
  • Fig. 20 ist eine Darstellung, die die zeitliche Beziehung zwischen einem ersten Sprachfragment und einem zweiten Sprachfragment, die von einem ersten bzw. einem zweiten Sprecher erzeugt wurden, zeigt,
  • Fig. 21 ist eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungssystem gemäß einem elften erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 22 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsystem gemäß einem zwölften erfindungsgemäßen Ausführungsbeispiel zeigt,
  • Fig. 23 eine Darstellung, die dynamische Programmierungs(DP)-Pfade in dem zwölften Ausführungsbeispiel zeigt,
  • Fig. 24 eine Darstellung, die dynamische Programmierungs(DP)-Pfade in dem zwölften Ausführungsbeispiel zeigt,
  • Fig. 25 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem dreizehnten Ausführungsbeispiel zeigt,
  • Fig. 26 eine Darstellung, die eine Veränderung in einem Mischverhältnis in dem dreizehnten Ausführungsbeispiel zeigt, und
  • Fig. 27 eine Darstellung, die den Ablauf von Funktionen in einem Spracherkennungsverfahren gemäß einem vierzehnten erfindungsgemäßen Ausführungsbeispiel zeigt.
  • Beschreibung des ersten bevorzugten Ausführungsbeispiels
  • Fig. 1 zeigt ein Spracherkennungssystem, das ein Spracherkennungsverfahren gemäß einem ersten erfindungsgemäßen Ausführungsbeispiel ausführt. Wie in Fig. 1 gezeigt, enthält das Spracherkennungssystem eine Meßwandlereinrichtung 91 und einen Systemhauptteil 92. Der Systemhauptteil 92 enthält einen Mikrocomputer, eine Digitalsignalverarbeitungseinrichtung oder eine ähnliche Einrichtung, die eine Kombination einer Zentraleinheit (CPU) 93, einer Nur-Lese-Speichereinrichtung (ROM) 94, einer Schreib/Lese-Speichereinrichtung (RAM) 95 und eines Eingabe/Ausgabe (I/O)-Abschnitts 96 besitzt.
  • Die von einem Sprecher erzeugte Sprache wird mittels der Meßwandlereinrichtung 91 in ein entsprechendes elektrisches Sprachsignal umgewandelt. Das Sprachsignal wird in den Systemhauptteil 92 eingegeben, wobei es durch den Systemhauptteil 92 einer Spracherkennungsverarbeitung unterzogen wird. Der Systemhauptteil 92 gibt ein Signal aus, das das Ergebnis der Erkennung der Eingabesprache bzw. eingegebenen Sprache darstellt.
  • Insbesondere wird das Sprachsignal von der Meßwandlereinrichtung 91 zu dem Eingabe/Ausgabe-Abschnitt 96 des Systemhauptteils 92 übertragen. Der Eingabe/Ausgabe-Abschnitt 96 enthält eine Analog/Digital-Wandlereinrichtung, die das Sprachsignal digitalisiert. Das sich ergebende digitale Sprachsignal wird in dem Systemhauptteil 92 verarbeitet. Das Signal, das das Ergebnis der Erkennung der Eingabesprache darstellt, wird von dem Eingabe/Ausgabe-Abschnitt 96 ausgegeben.
  • Der Systemhauptteil 92 funktioniert entsprechend einem in der Nur-Lese-Speichereinrichtung 94 gespeicherten Programm. Das Programm ist derart entworfen, daß es die Spracherkennungsverarbeitung beim Eingabesprachsignal ausführt.
  • Auf dem Gebiet von Erfindungen, die sich auf Spracherkennungssysteme beziehen, ist es eine allgemeine Praxis, die Inhalte der Erfindungen zum einfachen Verständnis der Erfindungen unter Bezugnahme auf Diagramme des Ablaufs von Funktionen zu erklären. Es ist zu beachten, daß derartige Funktionsflußdiagramme die Hardwarestrukturen nicht direkt zeigen. Fig. 2 ist ein Funktionsflußdiagramm des Spracherkennungssystems.
  • Wie in Fig. 2 gezeigt, enthält das Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, eine Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6 und einen Erkennungsabschnitt 7.
  • Eine Eingabesprachsignal wird in Zeitsegmente unterteilt, die als Datenübertragungsblöcke bezeichnet werden, die eine vorbestimmte Periode besitzen, beispielsweise 10 ms. Das Eingabesprachsignal wird Datenübertragungsblock für Datenübertragungsblock verarbeitet. Der Sprachanalyseabschnitt 1 empfängt das Eingabesprachsignal, analysiert das Eingabesprachsignal und leitet für jeden Datenübertragungsblock lineare Vorhersagekoeffizienten (LPC) ab. Der Merkmalsparameterextraktionsabschnitt 2, der dem Sprachanalyseabschnitt 1 folgt, berechnet Merkmalsparameter und insbesondere lineare Vorhersagekoeffizienten-Cepstrum-Koeffizienten c&sub0;, c&sub1;, c&sub2;, ..., c&sub8; aus den linearen Vorhersagekoeffizienten. Die linearen Vorhersagekoeffizienten-Cepstrum-Koeffizienten werden von dem Mermalsparameterextraktionsabschnitt 2 zu dem Ähnlichkeitsberechnungsabschnitt 3 zugeführt.
  • Der Standardmusterspeicherabschnitt 4 speichert Standardmuster von 20 verschiedenen Phonemen. Die Phonemstandardmuster werden von dem Standardmusterspeicherabschnitt 4 zu dem Ähnlichkeitsberechnungsabschnitt 3 zugeführt. Die Phonemstandardmuster werden auf der Grundlage von von einer Vielzahl von Sprechern erzeugten Sprachdaten vorbestimmt. Die Phonemstandardmuster sind von den Standardmustern bei der herkömmlichen Spracherkennung gemäß S. Hiraoka et al sehr verschieden. Insbesondere beziehen sich die Phonemstandardmuster auf voreingestellte Phoneme, die im allgemeinen unabhängig von Erkennungsobjekt- Worten sind, wohingegen die Standardmuster bei der herkömmlichen Spracherkennung jeweils Erkennungsobjekt-Worten entsprechen. In dem Fall, in dem Erkennungsobjekt-Worte verändert werden, ist es unnötig, die Phonemstandardmuster zu verändern, aber die Standardmuster bei der herkömmlichen Spracherkennung müssen verändert werden. Die Phonemstandardmuster werden auf der Grundlage von von einer großen Anzahl von Sprechern erhaltenen Sprachdaten erzeugt. Bei der herkömmlichen Spracherkennung ist auch eine große Anzahl von Sprechern notwendig, um zuverlässige Standardmuster zu erzeugen.
  • Die 20 verschiedenen Phoneme sind /a/, /o/, /u/, /l/, /e/, /j/, /w/, /m/, /n/, /η/, /b/, /d/, /r/, /z/, /h/, /s/, /c/, /p/, /t/ und /k/. Die Phonemstandardmuster werden durch sichtbar machen bzw. veranschaulichen von Sprachsignalen, die die jeweiligen Phoneme darstellen, erzeugt, wobei die Merkmalsteile der jeweiligen Phoneme durch Beobachtung unter Verwendung der Augen (die Merkmalsteile der jeweiligen Phoneme sind gleich den zeitlichen Positionen oder Datenübertragungsblökken, die die Merkmale der Phoneme gut darstellen) und unter Verwendung zeitlicher Muster von Merkmalsparametern von Datenübertragungsblöcken, die an den Merkmalsbildern bzw. Merkmalsdatenübertragungsblöcken zentriert sind, genau erfaßt.
  • Insbesondere werden im Hinblick auf jedes der Phoneme zeitliche Muster jeweils aus einer Vielzahl von Teilen von Sprachdaten extrahiert. Jedes zeitliche Muster verwendet eine Merkmalsparameterabfolge x, die aus einer linearen oder eindimensionalen Anordnung von linearen Vorhersagekoeffizienten(LPC)-Cepstrum-Koeffizienten c&sub0;, c&sub1;, c&sub2;, ..., c&sub8; in 12 Datenübertragungsblöcken mit 8 Datenübertragungsblöcken vorhergehend einem Merkmalsdatenübertragungsblock, dem Merkmalsdatenübertragungsblock und 3 Datenübertragungsblöcken folgend dem Merkmalsdatenübertragungsblock besteht. Die Merkmalsparameterabfolge x wird wie folgt ausgedrückt.
  • wobei jede Hochstellung eine Datenübertragungsblockordnungszahl und somit ci(k) den i-ten linearen Vorhersagekoeffizienten (LPC)-Cepstrum-Koeffizienten in dem k-ten Datenübertragungsblock bezeichnet. Berechnungen werden von einem Vektor µ von Mittelwerten der jeweiligen Elemente der extrahierten Merkmalsparameterabfolgen und einer Kovarianzmatrix Σ zwischen den Elementen gegeben. Der Mittelwertvektor µ und die Kovarianzmatrix Σ Datenübertragungsblocken ein Standardmuster des bezüglichen Phonems. Der Mittelwertvektor µ wird wie folgt ausgedrückt.
  • Auf diesem Weg verwendet jedes Phonemstandardmuster Merkmalsparameter in einer Vielzahl von Datenübertragungsblöcken. Somit wird das Phonemstandardmuster unter Berücksichtigung von Zeitbereichsveränderungen der Merkmalsparameter erzeugt.
  • Der Ähnlichkeitsberechnungsabschnitt 3 berechnet die Ähnlichkeiten zwischen den Merkmalsparametern (die linearen Vorhersagekoeffizienten (LPC)-Cepstrum-Koeffizienten) der Eingabesprache und die Standardmuster der 20 Phoneme für jeden Datenübertragungsblock. Die Berechnung der Ähnlichkeiten wird nachfolgend genau beschrieben. Maharanobis's Abstand dp für die Berechnung der Ähnlichkeit zwischen der Eingabesprachmerkmalsparameterabfolge x und dem Standardmuster µp eines Phonems "p" wird wie folgt ausgedrückt.
  • wobei die Hochstellung "t" einen transponierten Vektor bezeichnet. Wenn die Kovarianzmatrizen Σp allen Phonemen gemeinsam sind, wird Gleichung (3) wie folgt vereinfacht.
  • wobei Σ die gemeinsame Kovarianzmatrix bezeichnet. Die Gleichungen (4) werden bei der Ähnlichkeitsberechnung verwendet. In den Gleichungen (4) stellen ap und bp das Standardmuster des Phonems "p" dar.
  • Der Parameterabfolgeerzeugungsabschnitt 5 empfängt aufeinanderfolgend die Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Ähnlichkeitsvektorabfolge (die als die Eingabespracheähnlichkeitsvektorabfolge bezeichnet wird) wird dem Erkennungsabschnitt 7 zugeführt.
  • Fig. 3 zeigt ein Beispiel für die Ähnlichkeitsvektorabfolge, die im Hinblick auf die Eingabesprache, die ein japanisches Wort "akai" darstellt, erhalten wird. In Fig. 3 entspricht die Abszisse einer Zeitrichtung und die Ordinate bezeichnet die an jeweiligen Zeitsegmenten (Datenübertragungsblöcken) erhaltenen Ähnlichkeiten. Im Hinblick auf das Standardmuster des Phonems /a/ wird der Vergleich zwischen der Eingabesprache und dem Standardmuster jedesmal durchgeführt, wenn die Eingabesprache um einen Datenübertragungsblock verschoben wird und somit wird eine Abfolge von Ähnlichkeiten erhalten. Im in Fig. 3 gezeigten Beispiel ist die erhaltene Ähnlichkeitsabfolge "40, 46, 68, 74, 60, ..., 10, 14, 16". Eine derartige Ähnlichkeitsabfolge wird für jedes der anderen 19 Phoneme auf eine ähnliche Weise erhalten. In Fig. 3 wird ein Ähnlichkeitsvektor durch den schraffierten Bereich bezeichnet.
  • Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen enthält, die jeweils den Erkennungsobjekt-Worten entsprechen. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6 dem Erkennungsabschnitt 7 zugeführt. Jede Bezugsähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format der Eingabesprachähnlichkeitsvektorabfolge gemäß Fig. 30. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt.
  • Der Erkennungsabschnitt 7 führt den Vergleich zwischen der Eingabesprachähnlichkeitsvektorabfolge und der Bezugsähnlichkeitsvektorabfolge durch und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils den Erkennungsobjekt-Worten.Der Erkennungsabschnitt 7 wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programierungs(DP)-Vergleichstechnik, die sich auf die folgende Rekursionsformel bezieht.
  • wobei max den Operator zur Auswahl des Maximums von Elementen folgend auf das Operatorzeichen, l(i,j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge mit einer Länge von I Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsähnlichkeitsvektorabfolge mit einer Länge von J Datenübertragungsblöcken und g(i, j) die akkumulative Ähnlichkeit in Bezug auf den i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge und den j-ten Datenübertragungsblock der Bezugsähnlichkeitsvektorabfolge bezeichnet.
  • Das Abstandsmaß der Abstandsfunktion l(i,j) kann das euklidische Abstandsmaß, das gewichtete euklidische Abstandsmaß, das Korrelationskosinusabstandsmaß oder andere verwenden. In dem Fall, in dem der Korrelationskosinusabstand verwendet wird, wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
  • l(i,j) = (a b)/( a b ) ...(6)
  • wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1,a2,...,a20), und "b" eine Wörterbuchähnlichkeitsvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als b=(b1,b2,...,b20), bezeichnet.
  • Die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher aufeinanderfolgend Ausdrücke bzw. Worte, d.h. Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache (die Ausdrücke bzw. Worte) werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jedes Teil der Eingabesprache durch die Abschnitte 1-5 gemäß Fig. 2 auf eine ähnliche Weise verarbeitet, wie die Weise der Verarbeitung von Eingabesprache während der aktuellen Spracherkennungsverarbeitung. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 die Ähnlichkeitsvektorabfolge aus, die in Bezug zu dem verarbeiteten Teil der Eingabesprache steht, die einem der Erkennungsobjekt-Worte entspricht. Die ausgegebene Ähnlichkeitsvektorabfolge wird in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als eine Bezugsähnlichkeitsvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort registriert. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch die Ähnlichkeitsvektorabfolgen aus, die sich auf die anderen Teile der Eingabesprache beziehen, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen. Die ausgegebenen Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als Bezugsähnlichkeitsvektorabfolgen entsprechend den jeweils verbleibenden Erkennungsobjekt-Worten registriert.
  • Es wurden unter Verwendung von Sprachdaten, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Wörter darstellten, Experimente durchgeführt. Die vorhergehende Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die Sprachdaten, die von einem der 20 Sprecher erzeugt wurden und die 212 verschiedenen Wörter darstellten, in das Spracherkennungssystem eingegeben und in dem Sprachverarbeitungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen entsprechend den jeweils 212 verschiedenen Wörtern auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die durch die anderen 19 Sprecher erzeugten und die 212 verschiedenen Wörter für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterzogen. Es wurden mit einer Quote von 88,7% gute Erkennungsergebnisse erhalten.
  • Beschreibung des zweiten bevorzugten Ausführungsbeispiels
  • Ein zweites Ausführungsbeispiel der Erfindung ist ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 abgesehen von Entwurf sveränderungen, die nachfolgend angezeigt werden. Bezugsähnlichkeitsvektorabfolgen, d.h. Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von zwei Sprechern "1" und "2" während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten bestimmt. Während der vorhergehenden Verarbeitung erzeugen der erste Sprecher "1" und der zweite Sprecher "2" aufeinanderfolgend Teile von Sprache, die ein erstes voreingestelltes Wort (ein ersten Erkennungsobjekt-Wort) darstellen. Der Teil der durch den ersten Sprecher "1" erzeugten Sprache und der Teil der durch den zweiten Sprecher "2" erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Der Teil der Sprache vom ersten Sprecher "1" und der Teil der Sprache vom zweiten Sprecher "2" werden unter Verwendung einer dynamischen Programmierungs-Vergleichstechnik in ihrer Zeitdauer abgeglichen&sub0; Beispielsweise ist, wie in Fig. 4 gezeigt, die Zeitdauer des durch den ersten Sprecher erzeugten japanischen Worts "akai" verschieden von der Zeitdauer desselben durch den zweiten Sprecher "2" erzeugten japanischen Worts. Der Zeitdauerabgleich ermöglicht, daß die Zeitdauern der Phoneme /a/, /k/, /a/ und /i/ des ersten Sprechers "1" bzw. die Zeitdauern derselben Phoneme des zweiten Sprechers "2" übereinstimmen. Ein Parameterabfolgeerzeugungsabschnitt 5 (siehe Fig 2) erzeugt einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Beziehung zur Sprache des ersten Sprechers "1". Zusätzlich erzeugt der Parameterabfolgeerzeugungsabschnitt 5 einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Beziehung zu der Sprache des zweiten Sprechers "2". Für jedes Paar von entsprechenden Datenübertragungsblöcken der Sprache des ersten Sprechers "1" und der Sprache des zweiten Sprechers "2", werden ein Ähnlichkeitsvektor in Bezug auf den ersten Sprecher "1" und ein Ähnlichkeitsvektor in Bezug auf den zweiten Sprecher "2" in einen Mittelwert-Ähnlichkeitsvektor gemittelt. Beispielsweise im Fall, in dem der i-te Datenübertragungsblock der Sprache des ersten Sprechers "1" dem j-ten Datenübertragungsblock der Sprache des zweiten Sprechers "2" entspricht, wie in Fig. 4 gezeigt, erzeugt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks der Sprache des ersten Sprechers "1" als "c=(c1, c2, ..., c20)" und der Ähnlichkeitsvektor der Sprache des zweiten Sprechers "2" als "e=(e1, e2, ..., e20)" dargestellt ist, die Mittelwertberechnung den Mittelwert-Ähnlichkeitsvektor, der gegeben ist als "f=((c1+e1)/2, (c2+e2)/2, ..., (c20+e20)/2)". Die Mittelwert- Ähnlichkeitsvektoren der jeweiligen Datenübertragungsblöcken bilden eine Mittelwert-Ähnlichkeitsvektorabfolge in Bezug auf das erste vorliegende Wort (das erste Erkennungsobjekt-Wort). Die Mittelwert-Ähnlichkeitsvektorabfolge in Bezug auf das erste Erkennungsobjekt-Wort wird in einem Wörterbuch in einem Wörterbuchspeicherabschnitt 6 (siehe Fig. 2) als eine Bezugsähnlichkeitsvektorabfolge verzeichnet bzw. registriert. Ähnliche Verarbeitungen werden für jedes der anderen Erkennungsobjekt-Worte ausgeführt. Somit gibt der Parameterabfolgeerzeugungsabschnitt 5 auch Mittelwert-Ähnlichkeitsvektorabfolgen entsprechend jeweils den anderen Erkennungsobjekt-Worten aus. Diese ausgegebenen Mittelwert-Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6 als Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils den anderen Erkennungsobjekt-Worten verzeichnet bzw. registriert.
  • Es wurden Versuche ähnlich den Versuchen in dem Ausführungsbeispiel gemäß den Figen. 1-3 durchgeführt. Entsprechend den Versuchen wurden in dem zweiten Ausführungsbeispiel gute Erkennungsergebnisse mit einer Quote von 93,4 % erhalten.
  • Es ist zu beachten, daß Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von drei oder mehr Sprechern erzeugten Sprachdaten erzeugt werden können. In diesem Fall wird eine Mittelwertberechnung ähnlich der vorstehend erwähnten Mittelwertberechnung wiederholt ausgeführt.
  • Es ist zu beachten, daß viele Sätze von Bezugsähnlichkeitsvektorabfolgen verwendet werden können. In diesem Fall wird ein Satz von Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von jedem von zwei oder mehr verschiedenen Sprechern erzeugten Sprachdaten erzeugt. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 93,2 % gute Erkennungsergebnisse erhalten.
  • Beschreibung des dritten bevorzugten Ausführungsbeispiels
  • Fig. 5 bezieht sich auf ein drittes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachstehend angezeigten Entwurfsveränderungen.
  • Wie in Fig. 5 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, eine Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, eine Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A und einen Regressionskoeffizientberechnungsabschnitt 8. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
  • Der Regressionskoeffizientberechnungsabschnitt 8 empfängt aufeinanderfolgend Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3. Der Regressionskoeffizientberechnungsabschnitt 8 berechnet Regressionskoeffizienten, die zeitlichen Veränderungen der Ähnlichkeiten entsprechen. Die Gesamtanzahl der Regressionskoeffizienten ist pro Ähnlichkeitsabfolge gleich "n". Insbesondere stimmt ein Regressionskoeffizient eines vorliegenden Datenübertragungsblocks mit der Steigung einer geraden Linie einer Näherung nach der Methode der kleinsten Quadrate im Hinblick auf die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock vorhergehenden Datenübertragungsblökken, die Ähnlichkeit des vorliegenden Datenübertragungsblocks und die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock folgenden Datenübertragungsblöcken überein.
  • Wie im Ausführungsbeispiel gemäß den Figen. 1-3 berechnet der Ähnlichkeitsberechnungsabschnitt 3 die Ähnlichkeit zwischen den Eingabesprachparametern und jeden Phonemstandardmuster zu jeden Zeitpunkt, zu dem die Eingabesprache um ein Datenübertragungsblock verschoben wird. Als ein Ergebnis davon wird eine zeitliche Abfolge der Ähnlichkeiten für jedes Phonemstandardmuster erhalten. Fig. 6 zeigt ein Beispiel für eine Ähnlichkeitsabfolge, bei der die Abszisse einen Datenübertragungsblock (eine Datenübertragungsblockordnungszahl) und die Ordinate die Größe der Ähnlichkeit bezeichnet. Wie in Fig. 6 gezeigt, wird eine angenommene gerade Linie im Hinblick auf die Ähnlichkeiten eines (i-2)-ten Datenübertragungsblocks bis zu einem (i+2)-ten Datenübertragungsblock durch den Regressionskoeffizientberechnungsabschnitt 8 auf der Grundlage einer Näherung nach der Methode der kleinsten Quadrate bestimmt und die Steigung der geraden Linie wird als die Zeitbereichsveränderung (der Regressionskoeffizient) des i-ten Datenübertragungsblocks eingestellt. Insbesondere wird der Regressionskoeffizient "a" unter Bezugnahme auf die folgenden Gleichung berechnet.
  • wobei ai die Ähnlichkeit eines i-ten Datenübertragungsblocks bezeichnet.
  • Der Parameterabfolgeerzeugungsabschnitt 5A empfängt aufeinanderfolgend die Regressionskoeffizienten von dem Regressionskoeffizientberechnungsabschnitt 8 und ordnet die Regressionskoeffizienten in einer zeitlichen Abfolge von Vektoren der Regressionskoeffizienten an. Zusätzlich empfängt der Parameterabfolgeerzeugungsabschnitt 5A aufeinanderfolgend die Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Regressionskoeffizientenvektorabfolge und die Ähnlichkeitsvektorabfolge (bezeichnet als die Eingabesprachähnlichkeitsvektorabfolge) werden dem Erkennungsabschnitt 7A zugeführt.
  • Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen entsprechend jeweils Erkennungsobjekt-Worten und auch Bezugsregressionskoeffizientvektorabfolgen entsprechend jeweils den Erkennungsobjekt- Worten enthält. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) und die Bezugsregressionskoeffzientenvektorabfolgen (auch als die Wörterbuchregressionskoeffzientvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6A zu dem Erkennungsabschnitt 7A zugeführt. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen und die Bezugsregressionskoeffizientvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wurde, erzeugten Sprachdaten bestimmt.
  • Der Erkennungsabschnitt 7A führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabsprachregressionskoeffzientvektorabfolge und Sätzen der Bzugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen durch und berechnet die Vergleichsbzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7A wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das dem höchsten Vergleichs- bzw. Übereinstimmungswert entsprechende Erkennungsobjekt-Wort. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs-Vergleichstechnik wie in dem Ausführungsbeispiel gemäß den Figen. 1-3. In dem Fall, in dem ein Korrelationskosinusabstand während der Vergleichsberechnung als ein Maß verwendet wird, wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
  • l(i,j) = w (a b/( a b )) + (l-w)(cd/( c d )) (8)
  • wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientvektor in einem i-ten Datenübertragungsblock, das ausgedrückt wird als c=(c1, c2, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als d=(d1, d2, ..., d20), und "w" ein Gewicht, das mit einem vorbestimmten Mischverhältnis des Ähnlichkeitsteil und des Regressionskoeffiziententeils übereinstimmt, bezeichnet. Bevorzugterweise bewegt sich das Mischverhältnis im Bereich von 0,4 bis 0,6.
  • Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientvektorabfolgen (die Wörterbuchregressionskoeffizientvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile von erzeugter Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache durch die Abschnitte 1-4, 5A und 8 gemäß Fig. 5 auf eine Weise ähnlich der Verarbeitungsweise von Eingabesprache während der aktuellen Spracherkennungsverarbeitung verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnitt 5A einen Satz der Ählichkeitsvektorabfolge und der Regressionskoeffizientvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, die einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6A als eine Bzugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgegebenen Regressionskoeffizientvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6A als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientvektorabfolgen entsprechend den jeweiligen verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
  • Unter Verwendung von von 20 Sprechern erzeugten und 212 verschiedene Worte für jeden Sprecher darstellenden Sprachdaten wurden Versuche durchgeführt. Die vorhergehende Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und 212 verschiedene Worte darstellenden Sprachdaten in das Spracherkennungssystem eingeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientvektorabfolgen entsprechend den jeweils 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worte für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterworfen. Mit einer Quote von 91,8% wurden gute Erkennungsergebnisse erhalten.
  • Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientvektorabfolgen (Wörterbuchregressionskoeffzientvektorabfolgen) können über eine Mittelberechnung auf der Grundlage von wie im zweiten Ausführungsbeispiel von zwei Sprechern erzeugten Sprachdaten bestimmt werden. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 95,9% gute Erkennungsergebnisse erhalten.
  • Beschreibung des vierten bevorzugten Ausführungsbeispiels
  • Fig. 7 bezieht sich auf ein viertes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachfolgend angezeigten Entwurfsveränderungen.
  • Wie in Fig. 7 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalayseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5B, einen Wörterbuchspeicherabschnitt 6B, einen Erkennungsabschnitt 7B und einer Ähnlichkeitsanpaßabschnitt 9. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
  • Der Ähnlichkeitsanpaßabschnitt 9 empfängt aufeinanderfolgend Ähnlichkeiten, die jeweils 20 Erkennungsobjekt-Worten entsprechen, von dem Ähnlichkeitsberechnungsabschnitt 3 für jeden Datenübertragungsblock, und ordnet die Ähnlichkeiten in einer Vektorform neu an. In jedem Ähnlichkeitsvektor werden die Ähnlichkeiten entsprechend der Größe angeordnet. Die Ähnlichkeiten in jedem Ähnlichkeitsvektor werden einer Verstärkungsverarbeitung unterzogen, so daß der Ähnlichkeitsvektor in einen zweiten Ähnlichkeitsvektor umgewandelt wird. Während der Verstärkungsverarbeitung werden die erstgrößte Ähnlichkeit bis zur k-größten Ähnlichkeit linear jeweils in 1 bis 0 umgewandelt. Somit wird die erstgrößte Ähnlichkeit in 1 umgewandelt und die k-größte Ähnlichkeit wird in 0 umgewandelt. Die zweitgrößte Ähnlichkeit bis zur (k-1)-größten Ähnlichkeit werden linear in Werte zwischen 1 und 0 umgewandelt. Die (k+1)-größte Ähnlichkeit bis zur kleinsten Ähnlichkeit werden auf 0 gesetzt. Insbesondere werden die Komponenten F(ai) eines zweiten Ähnlichkeitsvektors (i=1, 2, ..., 20) wie folgt ausgedrückt.
  • F(ai) = (1/(M-Mk))ai - Mk/(M-Mk) (für die erst- bis k-größte Komponente)
  • F(ai) = 0 (für die (k+1)-größte bis zur kleinsten Komponente) ...(9)
  • wobei ai eine i-te Komponente des Original-Ähnlichkeitsvektors und M die größte der Ähnlichkeiten und Mk die k-größte Ähnlichkeit bezeichnen. Auf diesem Wert werden größere Ähnlichkeiten in jedem Originalähnlichkeitsvektor relativ zu den verbleibenden Ähnlichkeiten gemäß den Verstärkungsfunktionen (9) verstärkt. Da die Werte M und Mk von dem Datenübertragungsblock abhängen, hängt ein zweiter Ähnlichkeitsvektor von einem Datenübertragungsblock ab. Die Maximalkomponente (Max) und die Minimalkomponente (Min) sind jeweils in jedem zweiten Ähnlichkeitsvektor entsprechend einem Datenübertragungsblock gleich 1 und 0. Somit werden zweite Ähnlichkeitsvektoren Datenübertragungsblock für Datenübertragungsblock normiert. Im allgemeinen neigen Originalähnlichkeiten, da Phonemstandardmuster in dem Standardmusterspeicherabschnitt 4 aus zeitlichen Mustern der Merkmalsparameter in und rund um einen Merkmalsdatenübertragungsblock erzeugt werden, dazu, in einem Teil der Eingabesprache, der einem Übergang zwischen Phonemen entspricht, klein zu sein. Die vorstehend erwähnte Normierung verhindert eine Unterschätzung eines Merkmals in der Beziehung zwischen Ähnlichkeiten, die durch kleine Originalähnlichkeiten in einem Eingabsprachteil entsprechend einem Übergang zwischen Phonemen verursacht würden.
  • Der Parameterabfolgeerzeugungsabschnitt 5B empfängt aufeinanderfolgend die zweiten Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3 und ordnet die empfangenen Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten neu an. Die Ähnlichkeitsvektorabfolge (als die Eingabesprachähnlichkeitsvektorabfolge bezeichnet) wird dem Erkennungsabschnitt 7B zugeführt.
  • Fig. 8 zeigt ein Beispiel für die Ähnlichkeitsvektorabfolge, die im Hinblick auf ein japanisches Wort "akai" darstellende Eingabesprache erhalten wird. In Fig. 8 entspricht die Abszisse einer Zeitrichtung und die Ordinate bezeichnet die bei jeweiligen Zeitsegmenten (Datenübertragungsblöcken) erhaltenen Ähnlichkeiten. Im Hinblick auf das Standardmuster des Phonems /a/ wird der Vergleich zwischen der Eingabesprache und dem Standardmuster jedesmal ausgeführt, wenn die Eingabesprache um einen Datenübertragungsblock verschoben wird, und somit wird eine Abfolge der Ähnlichkeiten erhalten. In dem in Fig. 8 gezeigten Beispiel lautet die erhaltene Ähnlichkeitsabfolge "1.0, 1.0, 1.0, 1.0, 1.0, 0.0, ..., 0.3, 0.2, 0.3". Eine derartige Ähnlichkeitsabfolge wird für jedes der anderen 19 Phoneme auf eine ähnliche Weise erhalten. In Fig. 8 wird ein Ähnlichkeitsvektor durch den schraffierten Bereich bezeichnet. Zur Verdeutlichung der Verstärkungsverarbeitung und der Normierungsverarbeitungen durch den Ähnlichkeitsanpaßabschnitt 9, zeigt Fig. 9 eine Ähnlichkeitsvektorabfolge, die der Ähnlichkeitsvektorabfolge gemäß Fig. 8 entspricht und ohne den Verstärkungsvorgang und den Normierungsvorgang erhalten wird.
  • Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen enthält, die jeweils Erkennungsobjekt-Worten entsprechen. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) werden von dem Wörterbuchspeicherabschnitt 6A zum Erkennungsabschnitt 7A zugeführt. Jede Bezugsähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format der Eingabesprachähnlichkeitsvektorabfolge gemäß Fig. 8. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor eine aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt.
  • Der Erkennungsabschnitt 7A führt den Vergleich zwischen der Eingabesprachähnlichkeitsvektorabfolge und den Bezugsähnlichkeitsvektorabfolgen aus und berechnet die Vergleichswerte für die Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten. Der Erkennungsabschnitt 7A wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs (DP)-Vergleichstechnik, die sich auf die folgende periodische Formel bezieht.
  • wobei max den Operator zur Auswahl des Maximums der Mitglieder folgend auf das Operatorzeichen, l(i,j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge mit einer Länge von I Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsähnlichkeitsvektorabfolge mit einer Länge von J Datenübertragungsblöcken, und g(i,j) die akkumulative Ähnlichkeit in Bezug auf den i-ten Datenübertragungsblock der Eingabesprachähnlichkeitsvektorabfolge und den j-ten Datenübertragungsblock der Bezugsähnlichkeitsvektorabfolge bezeichnet.
  • Das Abstandmaß der Abstandsfunktion l(i,j) kann das euklidische Abstandsmaß, das gewichtete euklidische Abstandsmaß, das Korrelationskosinusabstandsmaß oder andere verwenden. Im Fall der Verwendung des euklidischen Abstands wird die Abstandsfunktion l(i,j) wie folgt ausgedrückt.
  • l(i,j) = (a1 - b1)² + (a2 - b2)² + ... + (a20 - b20)² (11)
  • wobei a1, a2, ..., a20 Komponenten eines Eingabesprachähnlichkeitsvektors "a" in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, ..., a20), und b1, b2, b20 Komponenten eines Wörterbuchähnlichkeitsvektors "b" in einem j-ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), bezeichnet.
  • Die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt- Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-4, 5B und 9 gemäß Fig. 7 auf eine der Weise der Verarbeitung der Eingabesprache während der aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnjtt 5B die Ähnlichkeitsvektorabfolge bezüglich des verarbeiteten Teils der Eingabesprache aus, der einem der Erkennungsobjekt-Worte entspricht. Die ausgegebene Ähnlichkeitsvektorabfolge wird in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als eine Bezugsähnlichkeitsvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet. Der Parameterabfolgeerzeugungsabschnitt 5B gibt auch die Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
  • Unter Verwendung von Sprachdaten, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten, Versuche durchgeführt. Die vorhergehende Verarbeitung wurde ausgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und die 212 verschiedenen Worte darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurde die aktuelle Spracherkennungsverarbeitung ausgeführt. Während der aktuellen Spracherkennungsverarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worten für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Spracherkennung unterzogen. Mit einer Quote von 88,5% wurden gute Erkennungsergebnisse erhalten.
  • Beschreibung des fünften bevorzugten Ausführungsbeispiels
  • Ein fünftes erfindungsgemäßes Ausführungsbeispiel ist ähnlich dem Ausführungsbeispiel gemäß den Figen. 7-8, abgesehen von den nachstehend angezeigten Entwurfsveränderungen. Bezugsähnlichkeitsvektorabfolgen, d.h. Wörterbuchähnlichkeitsvektorabfolgen, werden auf der Grundlage von von zwei Sprechern "1" und "2" während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugen der erste Sprecher "1" und der zweite Sprecher "2" aufeinanderfolgend Teile von Sprachen, die ein erste voreingestelltes Wort (ein erstes Erkennungsobjekt-Wort) darstellen. Der Teil der vom ersten Sprecher "1" erzeugten Sprache und der Teil der vom zweiten Sprecher "2" erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Der Teil der Sprache vom ersten Sprecher "1" und der Teil der Sprache vom zweiten Sprecher "2" werden unter Verwendung einer dynamischen Programmierungs-Vergleichstechnik auf eine Periode abgeglichen&sub0; Beispielsweise unterscheidet sich, wie in Fig. 4 gezeigt, die Periode des durch den ersten Sprecher "1" erzeugten japanischen Worts "akai" von der Periode desselben durch den zweiten Sprecher 2" erzeugten japanischen Worts. Der Periodenabgleich ermöglicht, daß die Perioden der Phoneme /a/, /k/, /a/ und /i/ vom ersten Sprecher "1" jeweils mit den Perioden derselben Phoneme vom zweiten Sprecher "2" übereinstimmen. Ein Parameterabfolgeerzeugungsabschnitt 5B (siehe Fig. 7) erzeugt einen Ähnlichkeitsvektor für denselben Datenübertragungsblock in Bezug auf die Sprache vom ersten Sprecher "1". Zusätzlich erzeugt der Parameterabfolgeerzeugungsabschnitt 5B einen Ähnlichkeitsvektor für jeden Datenübertragungsblock in Bezug auf die Sprache vom zweiten Sprecher "2". Für jedes Paar von entsprechenden Datenübertragungsblöcken der Sprache vom ersten Sprecher "1" und der Sprache vom zweiten Sprecher "2" werden ein Ähnlichkeitsvektor in Bezug auf den ersten Sprecher "1" und ein Ähnlichkeitsvektor in Bezug auf den zweiten Sprecher "2" in einen Mittelwertähnlichkeitsvektor gemittelt. Beispielsweise im Fall, in dem der i-te Datenübertragungsblock der Sprache vom ersten Sprecher "1" dem j-ten Datenübertragungsblock der Sprache vom zweiten Sprecher "2" entspricht, wie in Fig. 4 gezeigt, erzeugt, wenn der Ähnlichkeitsvektor des i- ten Datenübertragungsblocks der Sprache vom ersten Sprecher "1" als "c=(c1,c2, ..., c20) " dargestellt ist und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks der Sprache vom zweiten Sprecher "2" als "e=(e1,e2, e20)" dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der als "f=((c1+e1)/2, (c2+e2)/2, ..., (C20+e20)/2)" gegeben ist. Die Mittelwertähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken bilden eine Mittelwertähnlichkeitsvektorabfolge in Bezug auf das erste voreingestellte Wort (das erste Erkennungsobjekt-Wort). Die Mittelwertähnlichkeitsvektorabfolge in Bezug auf das ersten Erkennungsobjekt-Wort wird in einem Wörterbuch in einem Wörterbuchspeicherabschnitt 6B (siehe Fig. 7) als eine Bezugsähnlichkeitsvektorabfolge verzeichnet bzw. registriert. Ähnliche Verarbeitungen werden für jedes der anderen Erkennungsobjekt-Worte ausgeführt. Somit gibt der Parameterabfolgeerzeugungsabschnitt 5B auch Mittelwertähnlichkeitsvektorabfolgen jeweils entsprechend den anderen Erkennungsobjekt-Worten aus. Diese ausgegebenen Mittelwertähnlichkeitsvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6B als Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend den anderen Erkennungsobjekt-Worten verzeichnet bzw. registriert werden.
  • Versuche ähnlich den Versuchen im Ausführungsbeispiel gemäß den Figen. 7-8 wurden ausgeführt. Entsprechend den Versuchen wurden in diesem Ausführungsbeispiel unter Bedingungen, bei denen Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) auf der Grundlage von von einem männlichen Sprecher und einem weiblichen Sprecher erzeugten Sprachdaten bestimmt, mit einer Quote von 93,4% gute Erkennungsergebnisse erhalten.
  • Es ist zu beachten, daß Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von drei oder mehr Sprechern erzeugten Sprachdaten erzeugt werden können. In diesem Fall wird wiederholt eine Mittelwertberechnung ähnlich der vorstehend erwähnten Mittelwertberechnung ausgeführt.
  • Es ist zu beachten, daß mehrere Sätze von Bezugsähnlichkeitsvektorabfolgen verwendet werden können. In diesem Fall wird ein Satz von Bezugsähnlichkeitsvektorabfolgen auf der Grundlage von von jedem von zwei oder mehr verschiedenen Sprechern erzeugten Sprachdaten erzeugt. In diesem Fall wurden mit einer Quote von 93,2% entsprechend den Versuchen gute Erkennungsergebnisse erhalten.
  • Beschreibung des sechsten bevorzugten Ausführungsbeispiels
  • Fig. 10 bezieht sich auf ein sechstes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von nachstehend angezeigten Entwurfsveränderungen.
  • Wie in Fig. 10 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsvektorberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6C, einen Erkennungsabschnitt 7C, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12 und einen Regressionskoeffizientnormierungsabschnitt 13. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3 und der Standardmusterspeicherabschnitt 4 sind ähnlich denen gemäß Fig. 2.
  • Der Ähnlichkeitsverstärkungsabschnitt 10 empfängt aufeinanderfolgend 20 Ähnlichkeiten, die jeweils 20 Erkennungsobjekt- Worten entsprechen, vom dem Ähnlichkeitsberechnungsabschnitt 3 für jeden Datenübertragungsblock und ordnet die Ähnlichkeiten in einer Vektorform neu an. Die Ähnlichkeiten in jedem Ähnlichkeitsvektor werden einer exponentiellen Verstärkungsverarbeitung unterzogen, so daß der Ähnlichkeitsvektor in einen zweiten Ähnlichkeitsvektor umgewandelt wird. Während der Verstärkungsverarbeitung werden die Komponenten G(ai) eines zweiten Ähnlichkeitsvektors (i=1, 2, ..., 20) wie folgt ausgedrückt.
  • G(ai) = exp(αai + β) (12)
  • wobei ai eine i-te Komponente des Origninalähnlichkeitsvektors und "α" und "β" vorbestimmte, allen Phonemen und allen Datenübertragungsblöcken gemeinsame konstante Werte bezeichnet. Auf diesem Weg werden größere Ähnlichkeiten in jedem Originalähnlichkeitsvektor bezüglich kleineren Ähnlichkeiten gemäß der Exponentialverstärkungsfunktion (12) verstärkt.
  • Der Ähnlichkeitsnormierungsabschnitt 11 empfängt aufeinanderfolgend zwei Ähnlichkeitsvektoren von dem Ähnlichkeitsverstärkungsabschnitt 10. Jeder zweite Ähnlichkeitsvektor a' wird nun ausgedrückt als a'=(a1', a2', ..., ai', ..., a20'). Der Ähnlichkeitsnormierungsabschnitt 11 normiert jeden zweiten Ähnlichkeitsvektor ai unter Bezugnahme auf die folgenden Gleichungen in einen dritten Ähnlichkeitsvektor a".
  • a" = (a&sub1;'/Q, a&sub2;'/Q, ..., a&sub2;&sub0;'/Q)
  • Der Absolutwert jedes dritten Ähnlichkeitsvektors a" ist gleich 1.
  • Im allgemeinen neigen Originalähnlichkeiten, da Phonemstandardmuster in dem Standardmusterspeicherabschnitt 4 aus zeitlichen Mustern von Merkmalsparametern in und rund um einen Merkmalsdatenübertragungsblock erzeugt werden, dazu, in einem Teil der Eingabesprache, die einem Übergang zwischen Phomenen entspricht, klein zu sein. Die Verstärkungsverarbeitung und die Normierungsverarbeitung durch die Einrichtungen 10 und 11 verhindern eine Unterschätzung eines Merkmals in der Beziehung zwischen Ähnlichkeiten, die durch kleine Originalähnlichkeiten in einem Eingabsprachteil entsprechend einem Übergang zwischen Phonemen verursacht wurden.
  • Der Regressionskoeffizientberechnungsabschnitt 12 empfängt aufeinanderfolgend drei Ähnlichkeiten von dem Ähnlichkeitsberechnungsabschnitt 3. Der Regressionskoeffizientberechnungsabschnitt 12 berechnet Regressionskoeffizienten auf eine dem Berechnungsweg der Regressionskoeffizienten durch den Regressionskoeffizientberechnungsabschnitt 8 im Ausführungsbeispiel gemäß den Figen. 5 und 6 ähnliche Weise. Die berechneten Regressionskoeffizienten entsprechen zeitlichen Veränderungen der Ähnlichkeiten. Die Gesamtanzahl der Regressionskoeffizienten ist pro Ähnlichkeitsabfolge gleich "n". Insbesondere stimmt ein Regressionskoeffizient eines vorliegenden Datenübertragungsblocks mit der Steigung von einer nach der Methode der kleinsten Quadrate angenäherten geraden Linie im Hinblick auf die Ähnlichkeiten von zwei dem vorliegenden Datenübertragungsblock vorhergehenden Datenübertragungsblöcken, der Ähnlichkeit des vorliegenden Datenübertragungsblocks und den Ähnlichkeiten von zwei dem vorliegenden Rahmen folgenden Datenübertragungsblöcken überein.
  • Der Regressionskoeffizientnormierungsabschnitt 13 empfängt aufeinanderfolgend 20 Regressionskoeffizienten, die jeweils den 20 Erkennungsobjekt-Worten entsprechen, von dem Regressionskoeffizientberechnungsabschnitt 12 für jeden Datenübertragungsblock und ordnet die Regressionskoeffizienten in einer Vektorform neu an. Zusätzlich normiert der Ähnlichkeitsnormierungsabschnitt 11 jeden Regressionskoeffizientenvektor in einen zweiten Regressionskoeffizientenvektor mit einem Absolutwert von 1.
  • Der Parameterabfolgeerzeugungsabschnitt 5C empfängt aufeinanderfolgend die zweiten Regressionskoeffizienten von dem Regressionskoeffizientnormierungsabschnitt 13 und orndet die empfangenen Regressionskoeffizienten in einer zeitlichen Abfolge von Vektoren der Regressionskoeffizienten an. Zusätzlich empfängt der Parameterabfolgeerzeugungsabschnitt 5C aufeinanderfolgend die dritten Ähnlichkeiten von dem Ähnlichkeitsnormierungsabschnitt 11 und ordnet die empfangenen Ähnlichkeiten in einer zeitlichen Abfolge von Vektoren der Ähnlichkeiten an. Die Regressionskoeffizientvektorabfolge (auch als die Eingabesprachregressionskoeffizientenvektorabfolge bezeichnet) und die Ähnlichkeitsvektorabfolge (auch als die Eingabesprachähnlichkeitsvektorabfolge bezeichnet) werden dem Erkennungsabschnitt 7C zugeführt.
  • Der Wörterbuchspeicherabschnitt 6C speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten und auch Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den Erkennungsobjekt- Worten enthält. Die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet) und die Bezugsregressionskoeffizientenvektorabfolgen (auch als die Wörterbuchregressionskoeffizientenvektorabfolgen bezeichnet) werden vom Wörterbuchspeicherabschnitt 6C dem Erkennungsabschnitt 7C zugeführt. Wie nachstehend erläutert wird, werden die Bezugsähnlichkeitsvektorabfolgen und die Bezugsregressionskoeffizientenvektorabfolgen auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Sprachverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt.
  • Der Erkennungsabschnitt 7C führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientenvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen aus und berechnet die Vergleichswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7C wählt den höchsten der berechneten Vergleichswerte aus und entscheidet das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichswert als ein Erkennungsergebnis. Insbesondere verwendet die Vergleichsberechnung eine dynamische Programmierungs-Vergleichstechnik wie im Ausführungsbeispiel gemäß den Figen. 1-3. Im Fall, in dem ein Korrelationskosinusabstand als ein Maß während der Vergleichsberechnung verwendet wird, wird die Abstandsfunktion l(i, j) wie folgt ausgedrückt.
  • l(i, j) = w (a b)/( a b ) + (1-w)(cd)/( C d ) ...(14)
  • wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientenvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als c=(c1, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientenvektor in einem j-ten Datenübertragungsblock, das ausgedrückt wird als d=(d1, d2, ..., d20), und "w" eine Gewichtung, die mit einem vorbestimmten Mischungsverhältnis des Ähnlichkeitsteils und der Regressionskoeffiziententeils übereinstimmt, bezeichnet. Bevorzugterweise ist das Mischugnsverhältnis in dem Bereich von 0,4 bis 0,6. Da ein Eingabesprachähnlichkeitsvektor "a", ein Wörterbuchähnlichkeitsvektor "b", ein Eingabesprachregressionskoeffizientenvektor "c" und ein Wörterbuchregressionskoeffizientenvektor "d" normiert sind, sind die Absolutwerte a , b , c und d gleich 1. Somit wird Gleichung (14) in die folgende Gleichung vereinfacht.
  • l(i, j) = wa b + (1-w)c d ...(15)
  • Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils voreingestellte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jedes Teil der Eingabesprache mittels der Abschnitte 1-4, 5C und 10-13 gemäß Fig. 10 auf eine der Verarbeitung von Eingabesprache während der aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis davon gibt der Parameterabfolgeerzeugungsabschnitt 5C einen Satz der Ähnlichkeitsvektorabfolge und der Regressionskoeffizientenvektorabfolge bezüglich des verarbeiteten Teils der Eingabesprache, der einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientenvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6C als eine Bezugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientenvektorabfolge entsprechend dem vorliegenden Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5C gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientenvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgebenen Regressionskoeffizientenvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6C als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
  • Es wurden unter Verwendung von von 20 Sprechern erzeugten und 212 verschiedene Worte für jeden Sprecher darstellenden Sprachdaten Versuche durchgeführt. Die vorhergehenden Verarbeitung wurde durchgeführt. Während der vorhergehenden Verarbeitung wurden die von einem der 20 Sprecher erzeugten und die 212 verschiedenen Worte darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und in dem Spracherkennungssystem verarbeitet, so daß Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den 212 verschiedenen Worten auf der Grundlage der Sprachdaten erzeugt wurden. Nach der vorhergehenden Verarbeitung wurden die von den anderen 19 Sprechern erzeugten und die 212 verschiedenen Worte für jeden Sprecher darstellenden Sprachdaten in das Spracherkennungssystem eingegeben und einer Sprachverarbeitung unterzogen. Es wurden mit einer Quote von 91,6% gute Erkennungsergebnisse erhalten.
  • Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können über eine Mittelwertberechnung auf der Grundlage von von einem männlichen Sprecher und einem weiblichen Sprecher erzeugten Spachdaten, wie im zweiten Ausführungsbeispiel, bestimmt werden. In diesem Fall wurden entsprechend Versuchen mit einer Quote von 95,9% gute Erkennungsergebnisse erhalten.
  • Beschreibung des siebenten bevorzugten Ausführungsbeispiels
  • Fig. 11 bezieht sich auf ein siebentes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 10 ist, abgesehen davon, daß ein Regressionskoeffizientenberechnungsabschnitt 12A anstelle des Regressionskoeffizientberechnungsabschnitts 12 (siehe Fig. 10) verwendet wird.
  • Im Ausführungsbeispiel gemäß Fig. 11 empfängt der Regressionskoeffizientberechnungsabschnitt 12A direkt Ähnlichkeiten von einem Ähnlichkeitsverstärkungsabschnitt 10 und berechnet Regressionskoeffizienten von den empfangenen Ähnlichkeiten.
  • Beschreibung des achten bevorzugten Ausführungsbeispiels
  • Fig. 12 bezieht sich auf ein achtes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen).
  • Wie in Fig. 12 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6, einen Erkennungsabschnitt 7, einen Sprachfragmentspeicherabschnitt 21 und einer Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22.
  • Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, enthält. Die Wörterbuchähnlichkeitsvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracher kennungssystem eingegeben und die Teile der Eingabesprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-5 gemäß Fig. 12 auf eine der Verarbeitungsweise der Eingabesprache während einer aktuellen Sprach- Verarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format gemäß Fig. 3. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Teile, die jedes einem Sprachfragment einer Abfolge von einem Konsonanten und einem Vokal entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen bezeichnet. Im Hinblick auf jedes Konsonant-Vokal(CV)-Muster wird ein Teil zwischen einem Datenübertragungsblock entsprechend einem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Vokal-Konsonant(CV)-Muster wird ein Teil zwischen einem Datenübertragungsblock entsprechend der Mitte einer Vokals bis zu einem Datenübertragungsblock entsprechend dem Ende des Vokals (der Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocket die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da die Informationen über einen Übergang von einem Konsonanten zu einem Vokal wirksam verwendet werden, größer sein. Die Konsonant-Vokal(CV)-Muster und die Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert. Die Trennung von Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern werden weiter beschrieben. In dem Fall eines japanischen Worts "asahi", wie in Fig. 13 gezeigt, entsprechend die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern /a/, /as/, /sa/, /ah/, /hi/ und /i/. Im Fall eines japanischen Worts "sake", wie in Fig. 14 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster /sa/, /ak/, /ke/ und /e/.
  • Der Wörterbuchähnlichkeitsvektorerzeugungsabschnitt 22 wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22 sammelt die notwendigen Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster vom Sprachfragmentspeicherabschnitt 21 ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Beispielsweise werden bei der Erzeugung einer Wörterbuchähnlichkeitsvektorabfolge entsprechend einem japanischen Wort "akai" die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster entsprechend /a/, /ak/, /ka/, /ai/ und /i/ vom Sprachfragmentspeicherabschnitt 21 gesammelt und die gesammelten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in der Wörterbuchähnlichkeitsvektorabfolge kombiniert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22 speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
  • Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage der Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert- Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert.
  • Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann ein verstecktes Markov-Modell (WO( (hidden Markov- Modell)) Verfahren anstelle eines dynamische Programmierungsverfahrens verwendet. In diesem Fall wird ein Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov- Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov- Modelle werden zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann andere Abstandmaße, wie beispielsweise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß oder ein Lernvektorquantisierungs (LQV) abstandsmaß verwenden.
  • Sprachfragmente können weiterhin andere Arten, wie beispielsweise einen Typ in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
  • Der Wörterbuchspeicherabschnitt 6 kann Abfolgen von einer Verbindung der Sprachfragmente anstelle der Bezugsähnlichkeitsvektorabfolgen speichern. In diesem Fall werden Bezugsähnlich keitsvektorabfolgen entsprechend den Verbindungsabfolgen während der Berechnung der Ähnlichkeiten in Bezug auf die Eingabesprache erzeugt.
  • Beschreibung des neunten bevorzugten Ausführungsbeispiels
  • Fig. 15 bezieht sich auf ein neuntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungbeispiel gemäß den Figen. 5 und 6 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen).
  • Wie in Fig. 15 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, einen Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A, einen Regressionskoeffizientenberechnungsabschnitt 8, einen Sprachfragmentspeicherabschnitt 21A und einer Wörterbuchvektorabfolgeerzeugungsabschnitt 22A.
  • Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) enthält. Die Wörterbuchähnlichkeitsvektorabfolgen und die Wörterbuchregressionskoeffizientenvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Sprachverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Wörtern darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der Eingabesprache mittels der Abschnitte 1-4, 5A und 8 gemäß Fig. 15 auf eine der Verarbeitungsweise der Eingabesprache während einer aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Zusätzlich gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Regressionskoeffizientenvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Regressionskoeffizientenvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus.
  • Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonanten und einer Vokals entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits-Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Ähnlichkeits Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend dem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Ähnlichkeits-Vokal-Konsonant(CV)-Muster wurde der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend dem Ende des Vokals (Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bildet die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da Informationen eines Übergangs von einem Konsonanten zu einem Vokal wirksam verwendet werden, höher sein. Die Ähnlichkeits-Konsonant-Vokal(CV)-Muster und die Ähnlichkeits-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
  • Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonaten und eines Vokals entsprechen, werden von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Regressionskoeffizienten Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonaten entsprechen, von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Regressionskoeffizienten Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Regressionskoeffizienten Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend dem Beginn eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Regressionskoeffizienten Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend dem Ende des Vokals (dem Beginn eines nachfolgenden Konsonanten) entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bildet die Mitte eines Vokals eine Grenze zwischen getrennten Teilen. Entsprechend diesem Entwurf kann die Quote von guten Erkennungsergebnissen, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal wirksam verwendet werden, höher sein. Die Regressionskoeffizienten-Konsonant-Vokal(CV)-Muster und die Regressionskoeffizienten-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
  • Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A sammelt notwendige Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster von dem Sprachfragmentspeicherabschnitt 21A ansprechend auf die Informationen über die Erkennungsobjekt-Worte und kombiniert die Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgenerzeugungsabschnitt 22A speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6. Zusätzlich sammelt der Wörterbuchvektorabfolgeerzeugungsabschnitt 22A notwendige Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster von dem Sprachfragmentspeicherabschnitt 21A ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgenerzeugungsabschnitt 22A speichert die Wörterbuchregressionskoeffizientenvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
  • Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage von Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert- Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und die Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)- werden in dem Sprachfragmentspeicherabschnitt 21A gespeichert.
  • Eine Vergleichsverarbeitung vom Erkennungsabschnitt 7A kann ein verstecktes Markov-Modell(HMM) Verfahren anstelle eines dynamischen Programmierungsverfahrens verwenden. In diesem Fall wird ein Lernen hinsichtlich getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Mustern durchgeführt und es werden versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) erzeugt. Die versteckten Markov-Modelle (HMM) werden zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7A kann andere Abstandsmaße, wie beispielsweise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß oder ein Lernvektorquantisierungs (LQV) abstandsmaß verwenden.
  • Sprachfragmente können weiterhin andere Typen, wie beispielsweise Typen in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
  • Beschreibung des zehnten bevorzugten Ausführungsbeispiels
  • Fig. 16 bezieht sich auf ein zehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 1-3 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen). Wie in Fig. 16 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5, einen Wörterbuchspeicherabschnitt 6, eine Erkennungsabschnitt 7, einen Sprachfragmentspeicherabschitt 21B und einer Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B.
  • Der Wörterbuchspeicherabschnitt 6 speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen, d.h. die Wörterbuchähnlichkeitsvektorabfolgen, enthält. Die Wörterbuchähnlichkeitsvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellt. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels der Abschnitte 1-5 gemäß Fig. 16 auf eine der Verarbeitungsweise von Eingabesprache während einer aktuellen Spracherkennungsverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5 eine Ähnlichkeitsvektorabfolge in Bezug auf den verarbeiteten Teil der Eingabesprache, die einem der Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge besitzt ein Format ähnlich dem Format gemäß Fig. 3. Der Parameterabfolgeerzeugungsabschnitt 5 gibt auch Ähnlichkeitsvektorabfolgen in Bezug auf die anderen Teile der Eingabesprache, die jeweils den verbleibenden Worten entsprechen, aus. Teile, die jeder einem Sprachfragment einer Abfolge von einem Konsonanten und einem Vokal entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jeder einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals bis zu einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocken die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Entsprechend diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote guter Erkennungsergebnisse höher sein. Die Konsonant-Vokal(CV)-Muster und die Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21 gespeichert. Der Trennung der Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster wird weiter beschrieben. Im, Fall eines japanischen Worts "asahi", wie in Fig. 17 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vo&submin; kal-Konsonant(CV)-Muster /a/, /as/, /sa/, /ah/9 /hi/ und /i/. Im Fall eines japanischen Worts "sake", wie in Fig. 18 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vo&submin; kal-Konsonant(CV)-Muster /sa/, /ak/, /ke/ und /e/. Im Fall eines japanischen Worts "paaku", wie in Fig. 19 gezeigt, entsprechen die getrennten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster /pa/, /aa/, /ak/, /ku/ und /u/. Wie in Fig. 19 gezeigt, werden in einigen Fällen Vokal-Vokal(VV)-Muster wie /aa/ auch getrennt.
  • Im Hinblick auf ein von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes verschiedenes Sprachfragment wird das entsprechende Konsonant-Vokal(CV)- oder Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Im Fall, in dem im Hinblick auf den vorstehend erwähnten Wortsatz zwei ähnliche Sprachfragmente vorhanden sind, wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich in Übereinstimmungs zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paaku" getrennt. Die ähnlichen Sprachfragmente unterscheiden sind in der Zeitdauer-Periode. Demgemäß wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich auf eine in Fig. 20 gezeigte Weise in Übereinstimmung gebracht bzw. abgeglichen. Der Mittelwert der Ähnlichkeiten in jedem Paar von zeitlich angepaßten Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten mittleren bzw. Mittelwert-Ähnlichkeiten wird in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Beispielsweise wird in dem Fall, in dem der i-te Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/, wie in Fig. 20 gezeigt, entspricht, erzeugt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als "m=(m1, m2, ..., m20)" und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(n1, n2, n20", dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der gegeben ist als "f=((m1+n1)/2, (m2+n2)/2, ..., (m20+n20)/2)". Im Fall, in dem im Hinblick auf den vorstehend erwähnten Wortsatz drei oder mehr ähnliche Sprachfragmente vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertähnlichkeitsvektor zu erzeugen, der in dem Sprachfragmentspeicherabschnitt 21B gespeichert wird.
  • Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B wird über Erkennungsobjekt-Worte informiert. Der Wörterbuchähnlichkeitsvektorabfolgeerzeugungsabschnitt 22B sammelt ansprechend auf die Informationen über die Erkennungsobjekt- Worte notwendige Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21B und kombiniert die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Beispielsweise werden bei der Erzeugung einer Wörterbuchähnlichkeitsvektorabfolge entsprechend einem japanischen Wort "akai" die Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster ensprechend /a/, /ak/, /ka/, /ai/ und /i/ aus dem Sprachfragmentspeicherabschnitt 21B geholt und die geholten Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in der Wörterbuchähnlichkeitsvektorabfolge kombiniert. Der Wörterbuchähnlichkeitsabfolgeerzeugungsabschnitt 22B speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
  • Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage der Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21B gespeichert. Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann ein verstecktes Markov-Modell(HMM)-Verfahrens anstelle eines dynamischen Programmierungs(DP)-Verfährens verwenden In diesem Fall wird Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov-Modelle (HMM) sind zur Erzeugung von Vergleichsbezügen verbunden. Die Vergleichsverarbeitung durch den Erkennungsabschnitt 7 kann andere Abstandsmaße, wie beispiels weise ein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzabstandsmaß, ein Lernvektorquantisierungs (LQV) abstandsmaß, verwenden.
  • Sprachfragmente können weiterhin andere Arten enthalten, wie beispielsweise eine auf eine Abfolge von einem Vokal, einem Konsonanten und einem Vokal bezogene Art enthalten.
  • Beschreibung des elften bevorzugten Ausführunasbeispiels
  • Fig. 21 bezieht sich auf ein elftes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen. 5 und 6 ist, abgesehen von der Erzeugung von Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen).
  • Wie in Fig. 21 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5A, einen Wörterbuchspeicherabschnitt 6A, einen Erkennungsabschnitt 7A, einen Regressionskoeffizientenberechnungsabschnitt 8, einen Sprachfragmentspeicherabschnitt 21C und einer Wörterbuchvektorabfolgeerzeugungsabschnitt 22C.
  • Der Wörterbuchspeicherabschnitt 6A speichert ein Wörterbuch, das die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) enthält. Die Wörterbuchähnlichkeitsvektorabfolgen und die Wörterbuchregressionskoeffizientenvektorabfolgen werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Während der vorhergehenden Verabreitung erzeugt ein Sprecher Teile von Sprache, die einen Satz von unter Berücksichtigung von phonetischen Umgebungen gewählten Worten darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels der Abschnitte 1-4, 5A und 8 gemäß Fig. 21 auf eine der Verarbeitung einer eingegebenen Sprache während einer aktuellen Spacherkennungs- Verarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5A eine in Beziehung zum verarbeiteten Teil der eingegebenen Sprache, der einem der Worte entspricht, stehende Ähnlichkeitsvektorabfolge aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Ähnlichkeitsvektorabfolgen in Beziehung zu den anderen Teilen der eingegebenen Sprache, die jeweils den verbleibenden Worten entsprechen, aus. Zusätzlich gibt der Parameterabfolgeerzeugungsabschnitt 5A eine Regressionskoeffizientenvektorabfolge in Beziehung zu dem verarbeiteten Teil der eingegebenen Sprache, der einem der Worte entspricht, aus. Der Parameterabfolgeerzeugungsabschnitt 5A gibt auch Regressionskoeffizientenvektorabfolgen in Beziehung zu den anderen Teilen der eingegebenen Sprache, die jeweils den verbleibenden Worten entsprechen, aus.
  • Teile, die jedes einem Sprachfragment einer Abfolge eines Konsonanten und eines Vokals entsprechen, werden von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Ähnlichkeitsvektorabfolgen getrennt und die getrennten Teile Datenübertragungsblocken jeweils Ähnlichkeits-Vokal-Konsonant(CV)-Muster. Im vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Ähnlichkeits Konsonant-Vokal(CV)-Muster werden der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Ähnlichkeits-Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg Datenübertragungsblocken die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Gemäß diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote von guten Erkennungsergebnissen höher werden. Die Ähnlichkeits-Konsonant-Vokal(CV)-Muster und die Ähnlichkeits Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
  • Im Hinblick auf ein Sprachfragement verschieden von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes wird das entsprechende Ähnlichkeits-Konsonant-Vokal(CV)- oder Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicher abschnitt 21C gespeichert. In dem Fall, in dem zwei ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird zwischen den zwei ähnlichen Sprachfragmenten ein dynamischer Programmierungs-Vergleich durchgeführt, um sie zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paaku" getrennt. Die ähnlichen Sprachfragmente unterscheiden sich in der Zeitdauer. Demgemäß wird zwischen den zwei ähnlichen Sprachfragmenten ein dynamischer Programmierungs- Vergleich ausgeführt, um sie auf eine in Fig. 20 gezeigte Weise zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Der Mittelwert der Ähnlichkeiten in jedem Paar von zeitlich in Übereinstimmung gebrachten bzw. abgeglichenen Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten Mittelwertähnlichkeiten wird in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Beispielsweise erzeugt in dem Fall, in dem der i-te Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/ entspricht, wie in Fig. 20 gezeigt, wenn der Ähnlichkeitsvektor des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als "m=(m1, m2, ..., m20)" und der Ähnlichkeitsvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(nl, n2, .4., n20)" dargestellt ist, die Mittelwertberechnung den Mittelwertähnlichkeitsvektor, der gegeben ist als "f=(((m1+n1)/2, (m2+n2)/2, ..., (m20+n20)/2)". In dem Fall, in dem drei oder mehr Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertähnlichkeitsvektor zu bilden, der in dem Sprachfragmentspeicherabschnitt 21C gespeichert wird.
  • Teile, die jeder einem Sprachfragment einer Abfolge eines Konsonanten und eines Vokals entsprechen, werden von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile bilden jeweils Regressionskoeffizienten Konsonant-Vokal(CV)-Muster. Zusätzlich werden Teile, die jedes einem Sprachfragment einer Abfolge eines Vokals und eines Konsonanten entsprechen, von allen ausgegebenen Regressionskoeffizientenvektorabfolgen getrennt und die getrennten Teile bilden jeweils Regressionskoeffizienten Vokal-Konsonant(CV)-Muster. In dem vorstehend erwähnten Wortsatz werden die Positionen von Phonemen unter Bezugnahme auf Spektralinformationen gekennzeichnet. Im Hinblick auf jedes Regressionskoeffizienten Konsonant-Vokal(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Konsonanten und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Vokals entsprechend den Phonemkennzeichnungen getrennt. Im Hinblick auf jedes Regressionskoeffizienten Vokal-Konsonant(CV)-Muster wird der Teil zwischen einem Datenübertragungsblock entsprechend der Mitte eines Vokals und einem Datenübertragungsblock entsprechend der Mitte eines nachfolgenden Konsonanten entsprechend den Phonemkennzeichnungen getrennt. Auf diesem Weg bilden die Mitten von Vokalen und Konsonanten Grenzen zwischen getrennten Teilen. Gemäß diesem Entwurf kann, da Informationen über einen Übergang von einem Konsonanten zu einem Vokal und Informationen über einen Übergang von einem Vokal zu einem Konsonanten wirksam verwendet werden, die Quote von guten Erkennungsergebnissen höher werden. Die Regressionskoeffizienten-Konsonant-Vokal(CV)-Muster und die Regressionskoeffizienten-Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
  • Im Hinblick auf ein Sprachfragment verschieden von anderen Sprachfragmenten des vorstehend erwähnten Wortsatzes werden die entsprechenden Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster direkt in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Im Fall, in dem zwei ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich in Übereinstimmung zu bringen bzw. abzugleichen. Beispielsweise werden ähnliche Sprachfragmente /ak/ aus dem japanischen Wort "sake" und dem japanischen Wort "paake" getrennt. Die ähnlichen Sprachfragmente unterscheiden sich in der Zeitdauerperiode. Demgemäß wird ein dynamischer Programmierungs-Vergleich zwischen den zwei ähnlichen Sprachfragmenten durchgeführt, um sie zeitlich auf eine Weise, wie in Fig. 20 gezeigt, in übereinstimmung zu bringen bzw. abzugleichen. Der Mittelwert der Regressionskoeffizienten in jedem Paar von zeitlich in Übereinstimmung gebrachten bzw. abgeglichenen Datenübertragungsblöcken der zwei ähnlichen Sprachfragmente wird berechnet. Ein Vektor der berechneten Mittelwertregressionskoeffizienten wird in dem Sprachfragmentspeicherabschnitt 21C gespeichert. Beispielsweise erzeugt in dem Fall, in dem der i-ten Datenübertragungsblock des ersten Sprachfragments /ak/ dem j-ten Datenübertragungsblock des zweiten Sprachfragments /ak/ anspricht, wie in Fig. 20 gezeigt, wenn der Regressionskoeffizient des i-ten Datenübertragungsblocks des ersten Sprachfragments /ak/ als - "m=(m1, m2, ..., m20)" und der Regressionskoeffizientenvektor des entsprechenden j-ten Datenübertragungsblocks des zweiten Sprachfragments /ak/ als "n=(n1, n2, ..., n20)" dargestellt ist, die Mittelwertberechnung den Mittelwertregressionskoeffizientenvektor, der gegeben ist als "f=((m1+n1)/2, (m2+n2)/2, (m20+n20)/2)". In dem Fall, in dem drei oder mehr ähnliche Sprachfragmente im Hinblick auf den vorstehend erwähnten Wortsatz vorhanden sind, wird eine derartige Mittelwertberechnung wiederholt, um einen Mittelwertregressionskoeffizientenvektor zu bilden, der in dem Sprachfragmentspeicherabschnitt 21C gespeichert wird.
  • Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C wird über die Erkennungsobjekt-Worte informiert. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C sammelt notwendige Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21C ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchähnlichkeitsvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C speichert die Wörterbuchähnlichkeitsvektorabfolgen in dem Wörterbuchspeicherabschnitt 6. Zusätzlich sammelt der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C notwendige Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster aus dem Sprachfragmentspeicherabschnitt 21C ansprechend auf die Informationen der Erkennungsobjekt-Worte und kombiniert die Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster in Wörterbuchregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Wörterbuchvektorabfolgeerzeugungsabschnitt 22C speichert die Wörterbuchregressionskoeffizientenvektorabfolgen in dem Wörterbuchspeicherabschnitt 6.
  • Bezugsähnlichkeitsvektorabfolgen (Wörterbuchähnlichkeitsvektorabfolgen) und Bezugsregressionskoeffizientenvektorabfolgen (Wörterbuchregressionskoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster auf der Grundlage von Sprachdaten von zwei oder mehr Sprechern erzeugt und die Mittelwert-Ähnlichkeits-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und die Mittelwert- Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster werden in dem Sprachfragmentspeicherabschnitt 21C gespeichert.
  • Eine Vergleichsverarbeitung durch den Erkennungsabschnitt 7A kann ein verstecktes Markov-Modell(HMM)-Verfahren anstelle eines dynamischen Programmierungs(DP)verfahrens verwenden. In diesem Fall wird Lernen im Hinblick auf getrennte Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster durchgeführt und versteckte Markov-Modelle (HMM) mit einer Einheit von Konsonant-Vokal(CV) und Vokal-Konsonant(CV) werden erzeugt. Die versteckten Markov-Modelle (HMM) werden verbunden, um Vergleichsbezüge zu erzeugen. Die Anpaßverarbeitung durch den Erkennungsabschnitt 7A kann andere Abstandsmaße, wie beispielsweiseein Bayesianisches Entscheidungsabstandsmaß, ein neuronales Netzwerkabstandsmaß oder ein Lernvektorquantisierungs (LVQ) abstandsmaß, verwenden.
  • Sprachfragmente können weiterhin andere Arten, wie beispielsweise eine Art in Bezug auf eine Abfolge eines Vokals, eines Konsonanten und eines Vokals enthalten.
  • Versuche wurden wie folgt durchgeführt. Während einer vorhergehenden Verarbeitung erzeugten zwei Sprecher 530 Worte, die unter Berücksichtigung von phonetischen Umgebungen gewählt wurden. Ähnlichkeitsvektor-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)-Muster und Regressionskoeffizienten-Konsonant-Vokal(CV)- und Vokal-Konsonant(CV)- Muster wurden aus den Wortdaten erzeugt. Die vorhergehende Verarbeitung wurde gefolgt von der aktuellen Spracherkennungsverarbeitung. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. Mit einer Quote von 94,3% wurden gute Erkennungsergebnisse erhalten.
  • Beschreibung des zwölften bevorzuaten Ausführungsbeispiels
  • Fig. 22 bezieht sich auf ein zwölftes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 10 ist, abgesehen von den hier angezeigten Entwurfsveränderungen.
  • Wie in Fig. 22 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, eine Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6D, eine Erkennungsabschnitt 7D, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13 und einen dynamischen Programmierungs-Gewichtsberechnungsabschnitt 31. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12 und der Regressionskoeffizientnormierungsabschnitt 13 sind ähnlich denen gemäß Fig. 10. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Abschnitte bzw. Einrichtungen 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf eine der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 10 ähnliche Weise.
  • Der Wörterbuchspeicherabschnitt 6D speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten enthält, die Bezugsregressionskoeffizientenvektorabfolgen jeweils entsprechend den Erkennungsobjekt- Worten enthalten und auch dynamische Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; enthält. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizienten vektorabfolgen) und die dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; von dem Wörterbuchspeicherabschnitt 6D zum Erkennungsabschnitt 7D zugeführt. Wie später erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientenvektorabfolgen und die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor der aktuellen Spracherkennungsbearbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt.
  • Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7D eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7D führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen aus und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7D verwendet die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; bei dem Vergleich, so daß der Vergleich von den dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; abhängt. Der Erkennungsabschnitt 7D wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichsbzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs-Vergleichstechnik, die sich auf die folgende Rekursionsformel bezieht.
  • wobei max den Operator zur Auswahl des Maximums von Mitgliedem folgend dem Operatorzeichen, l(i, j) die Funktion des Abstands zwischen einem i-ten Datenübertragungsblock der Eingabesprachvektorabfolge mit einer Länge von 1 Datenübertragungsblöcken und einem j-ten Datenübertragungsblock einer Bezugsvektorabfolge mit einer Länge von J Datenübertragungsblöcken, und g(i, j) die akkumulative Ähnlichkeit in Bezug auf den i- ten Datenübertragungsblock der Eingabesprachvektorabfolge und den j-ten Datenübertragungsblock der Bezugsvektorabfolge bezeichnet. Die durch die Gleichung (16) definierten Vergleichspfade sind, wie in Fig. 23 gezeigt, asymmetrisch.
  • In dem Fall, in dem ein Korrelationskosinusabstand während der Vergleichsberechnung als ein Maß verwendet wird, wird die Abstandsfunktion l(i, j) wie folgt ausgedrückt.
  • l(i, j) = w&sub0; (ab/( a b ) + (1-w&sub0;)c d/( c d ) ...(17)
  • wobei "a" einen Eingabesprachähnlichkeitsvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als a=(a1, a2, ..., a20), "b" einen Wörterbuchähnlichkeitsvektor in einem j- ten Datenübertragungsblock, der ausgedrückt wird als b=(b1, b2, ..., b20), "c" einen Eingabesprachregressionskoeffizientenvektor in einem i-ten Datenübertragungsblock, der ausgedrückt wird als c=(c1, c2, ..., c20), "d" einen Wörterbuchregressionskoeffizientenvektor in einem j-ten Datenübertragungsblock, der ausgedrückt wird als d=(d1, d2, ..., d20), und "w&sub0;" eine Gewichtung, die mit einem vorbestimmten Mischungsverhält nis zwischen dem Ähnlichkeitsteil und dem Regressionskoeffiziententeil übereinstimmt, bezeichnet. Es ist bevorzugt, daß das Mischungsverhältnis w&sub0; im Bereich von 0,4 bis 0,6 ist. Da ein Eingabesprachähnlichkeitsvektor "a", ein Wörterbuchähnlichkeitsvektor "b", ein Eingabesprachregressionskoeffizientvektor "c" und ein Wörterbuchregressionskoeffizientvektor "d" normiert werden, sind die Absolutwerte a , b , c und d gleich 1.
  • Somit wird Gleichung (17) in die folgende Gleichung vereinfacht.
  • l(i, j) = w&sub0;a b + (1-w&sub0;)c d ...(18)
  • Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) werden auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Während der vorhergehenden Verarbeitung erzeugt ein Sprecher Teile von Sprache, die jeweils vorbestimmte Worte (Erkennungsobjekt-Worte) darstellen. Die Teile der erzeugten Sprache werden aufeinanderfolgend in das Spracherkennungssystem eingegeben und die Teile der eingegebenen Sprache werden aufeinanderfolgend in dem Spracherkennungssystem verarbeitet. Insbesondere wird jeder Teil der eingegebenen Sprache mittels des Abschnitte 1-4, 5C und 10- 13 gemäß Fig. 22 auf eine der Verarbeitung von eingegebener Sprache während der aktuellen Sprachverarbeitung ähnliche Weise verarbeitet. Als ein Ergebnis gibt der Parameterabfolgeerzeugungsabschnitt 5C einen Satz der Ähnlichkeitsvektorabfolge und der Regressionskoeffizientvektorabfolge in Bezug auf den verarbeiteten Teil der eingegebenen Sprache, der einem der Erkennungsobjekt-Worte entspricht, aus. Die ausgegebene Ähnlichkeitsvektorabfolge und die ausgegebene Regressionskoeffizientvektorabfolge werden in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6D als eine Bezugsähnlichkeitsvektorabfolge und eine Bezugsregressionskoeffizientenvektorabfolge entsprechend dem gegenwärtigen Erkennungsobjekt-Wort verzeichnet bzw. registriert. Der Parameterabfolgeerzeugungsabschnitt 5C gibt auch Sätze der Ähnlichkeitsvektorabfolgen und der Regressionskoeffizientvektorabfolgen in Bezug auf die anderen Teile der eingegebenen Sprache, die jeweils den verbleibenden Erkennungsobjekt-Worten entsprechen, aus. Die ausgegebenen Ähnlichkeitsvektorabfolgen und die ausgegebenen Regressionskoeffizientenvektorabfolgen werden auch in dem Wörterbuch in dem Wörterbuchspeicherabschnitt 6D als Bezugsähnlichkeitsvektorabfolgen und Bezugsregressionskoeffizientenvektorabfolgen entsprechend jeweils den verbleibenden Erkennungsobjekt-Worten verzeichnet bzw. registriert.
  • Die dynamischen Programmierungs-Bezugsgewichtungen w&sub1; und w&sub2; werden mittels des dynamischen Programmierungs- Gewichtungsberechnungsabschnitts 31 auf der Grundlage von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Da ein Ähnlichkeitsvektor für jeden Datenübertragungsblock normiert wird, besteht ein Vorteil darin, daß die relativen Beziehungen zwischen den Ähnlichkeiten an einem Übergang von einem Phonem zu einem Phonem mit einem Standardmuster ähnlich anderen Teilen gehandhabt werden können. Jedoch neigt es, da eine niedriges Ähnlichkeitsintervall eine niedrige Zuverlässigkeit besitzt, zu einer falschen Erkennung, wenn ein dynamischer Programmierungs-Vergleich mit gleichen Gewichtungen über die Gesamtheit des Eingabesprachintervalls durchgeführt wird. Die Phonemstandardmuster zur Berechnung der Ähnlichkeiten werden für die Vokalintervalle und die Konsonantenintervalle erzeugt. Daher neigen während eines ruhigen Intervalls die Ähnlichkeiten im Hinblick auf irgendwelche der Phonemstandardmuster dazu klein zu sein und durch Rauschen leicht beeinflußt zu werden. Somit hängen die Ähnlichkeiten sehr von Sprachbedingungen ab. Demgemäß werden in diesem Ausführungsbeispiel die Gewichtungen für die Vergleichs- bzw. Übereinstimmungswerte von großen Ähnlichkeitsintervallen größer eingestellt als die Gewichtungen für die Vergleichs- bzw. Übereinstimmungswerte von kleinen Ähnlichkeitsintervallen und dadurch kann die akkumulative Ähnlichkeit durch die Vergleichs- bzw. Übereinstimmungswerte von Intervallen mit niedriger Zuverlässigkeit weniger beeinflußt werden.
  • Während der vorhergehenden Verarbeitung berechnet der dynamische Programmierungs-Gewichtunsberechnungsabschnitt 31 eine Mittelwertähnlichkeit "m" in jedem Datenübertragungsblock über die Gesamtheit des Wörterbuchsprachintervalls. Der dynamische Programmierungs-Gewichtungsberechnungsabschitt 31 empfängt einen Ähnlichkeitsvektor von dem Ähnlichkeitsberechnungsabschnitt 3. Der Ähnlichkeitsvektor aj der Wörterbuchsprache in dem j-ten Datenübertragungsblock wird nun wie folgt ausgedrückt.
  • aj = (a1,j, a2,j, ..., a20,j) ...(19)
  • Die Mittelwertähnlichkeit "m" des j-ten Datenübertragungsblocks wird unter Bezugnahme auf die folgende Gleichung berechnet.
  • m = (a1,j + a2,j +... + a20,j)/20 ...(20)
  • Die Gewichtungen w&sub1; und w&sub2; der dynamischen Programmierungspfade werden unter Verwendung von vorbestimmten Funktionen, wie beispielsweise linearen Funktionen oder Sigmoid- bzw. Σ- bzw. s- förmigen Funktionen, berechnet. Gemäß einem ersten Beispiel ist die Gewichtung w&sub1; des dynamischen Programmierungspfads durch die folgenden Gleichungen gegeben.
  • w&sub1; = 1, wenn m≤S1
  • w&sub1; = Am + B, wenn S1< m&le;S2
  • w&sub1; = 0,5, wenn m> S2 ...(21)
  • wobei A=0,5/(S1-52) und B=(0,5 S1+S1)/(S1-S2) sind und S1 und S2 auf der Grundlage der statistischen Größe der Mittelwertähnlichkeit jedes Datenübertragungsblocks bestimmt werden. Die Gewichtung w&sub2; des dynamischen Programmierungspfads wird aus der Mittelwertähnlichkeit "m" der Wörterbuchsprache in dem (j- 1)-ten Datenübertragungsblock unter Bezugnahme auf Gleichungen ähnlich den Gleichungen (21) berechnet.
  • Gemäß einem zweiten Beispiel ist die Gewichtung w&sub1; des dynamischen Programmierungspfads durch die folgenden Gleichungen gegeben.
  • w&sub1;, = 1 wenn m&le;S
  • w&sub1; = 0,5, wenn m> S ...(22)
  • wobei S einen Schwellenwert bezeichnet, der auf der Grundlage der statistischen Größe der Mittelwertähnlichkeit jedes Datenübertragungsblocks bestimmt wird. Die Gewichtung w&sub2; des dynamischen Programmierungspf ads wird aus der Mittelwertähnlichkeit "m" der Wörterbuchsprache in dem (j-1)-ten Datenübertragungsblock unter Bezugnahme auf Gleichungen ähnlich den Gleichungen (22) berechnet.
  • Gemäß einem dritten Beispiel werden ruhige Intervalle unter Verwendung von Informationen über Phonembeginne und -Enden erfaßt, die in den Sprachdaten erhalten sind. Während der erfaßten ruhigen Intervalle werden die Gewichtungen w&sub1; und w&sub2; der dynamischen Programmierungspfade, wie in Fig. 24 gezeigt, klein eingestellt. Insbesondere wird, wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall übereinstimmt, die Gewichtung w&sub1; des dynamischen Programmierungspfads auf 0,5 eingestellt. Wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall nicht übereinstimmt, wird die Gewichtung w&sub1; des dynamischen Programmierungspfads auf 1,0 eingestellt. Wenn der (j-1)-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten ruhigen Intervall nicht übereinstimmt, wird die Gewichtung w&sub2; des dynamischen Programmierungspfads auf 1,0 eingestellt.
  • Während sowohl die Ähnlichkeit als auch die Zeitbereichsveränderung in der Ähnlichkeit in diesem Ausführungsbeispiel verwendet werden, kann es gut sein, die zeitliche Veränderung in der Ähnlichkeit wegzulassen, aber einen Ähnlichkeitsvektor zu verwenden, der durch eine Verstärkungsfunktion erhalten und für jeden Datenübertragungsblock normiert wird.
  • Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen) und die Bezugsregressionskoeffizientenvektorbfolgen (die Wörterbuchregressionkoeffizientenvektorabfolgen) können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden. In diesem Fall werden die dynamischen Programmierungs- Bezugsgewichtungen w&sub1; und w&sub2; auf der Grundlage der Mittelwertähnlichkeiten in Bezug auf einen der Sprecher bestimmt. Es ist bevorzugt, daß die Anzahl von männlichen Sprechern und die Anzahl von weiblichen sprechern zur Erzeugung derartiger Wörterbuchinformationen ungefähr gleich sind.
  • Versuche wurden wie folgt durchgeführt. Die aktuelle Spracherkennungsverarbeitung wurde für die Sprachdaten durchgeführt, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers erzeugt wurden und die Gewichtungen der dynamischer Programierungspfade klein eingestellt wurden, wenn die Mittelwertähnlichkeit niedriger als der Schwellenwert war, wurden gute Erkennungsergebnisse mit einer Quote von 91,34% erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden, wurden mit einer Quote von 90,08% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade klein eingestellt wurden, wenn die Mittelwertähnlichkeit kleiner als der Schwellenwert war, wurden mit einer Quote von 93,88% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus dem Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichte der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden, wurden mit einer Quote von 93,83% gute Erkennungsergebnisse erhalten.
  • Beschreibung des dreizehnten bevorzugten Ausführungsbeispiels
  • Fig. 25 bezieht sich auf ein dreizehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß Fig. 13 ist, abgesehen von im folgenden angezeigten Entwurfsveränderungen.
  • Wie in Fig. 25 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseabschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolgeerzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6E, einen Erkennungsabschnitt 7E, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlickeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13 und einen Mischverhältnisberechnungsabschnitt 32. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschnitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12 und der Regressionskoeffizientnormierungsabschnitt 13 sind ähnlich denen gemäß Fig. 10. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Einrichtungen bzw. Abschnitte 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf einer der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 10 ähnliche Weise.
  • Der Wörterbuchspeicherabschnitt 6E speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten, Bezugsregressionskoeffizientvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten und auch Daten einer Bezugsgewichtung w&sub0; enthält. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch als die Wörterbuchähnlichkeitsvektorabfolgen bezeichnet), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizientenvektorabfolgen) und die Bezugsgewichtung w&sub0; von dem Wörterbuchspeicherabschnitt 6E dem Erkennungsabschnitt 7E zugeführt. Wie nachstehend erklärt wird, werden die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientvektorabfolgen und die Bezugsgewichtung w&sub0; auf der Grundlage von von einem einzelnen Sprecher während einer vorhergehenden Verarbeitung, die vor einer aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt.
  • Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7E eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7E führt einen Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen aus und berechnet die Vergleichsbzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7E verwendet die Bezugsgewichtung w&sub0; bei dem Vergleich, so daß der Vergleich von der Bezugsgewichtung w&sub0; abhängt. Der Erkennungsabschnitt 7E wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergebnis als das Erkennungsobjekt-Wort entsprechend dem höchsten Vergleichs-- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs- Vergleichstechnik, die sich auf die vorstehend erwähnte Rekursionsformel (16) im Ausführungsbeispiel gemäß den Figen. 22-24 bezieht. In dem Fall, in dem ein Korrelationskosinusabstand als ein Maß während der Vergleichsberechnung verwendet wird, wird die Abstandsfunktion l(i, j) durch die vorstehend erwähnte Gleichung (18) im Ausführungsbeispiel gemäß Fig. 22-24 ausgedrückt, die Terme abhängig von der Bezugsgewichtung w&sub0; entsprechend einem vorbestimmten Mischverhältnis des Ähnlichkeitsteils und der Regressionskoeffiziententeils besitzt.
  • Der Mischverhältnisberechnungsabschnitt 32 berechnet das Mischverhältnis w&sub0; aus dem von dem Regressionskoeffizientberechnungsabschnitt 12 ausgegebenen Regressionskoeffizientenvektor. Da ein Regressionskoeffizient die Mittelwertquote einer Zeitbereichsveränderung bei den Ähnlichkeiten darstellt, hängt das berechnete Mischverhältnis w&sub0; von der Mittelwertquote der Zeitbereichsveränderung bei den Ähnlichkeiten ab. Dieser Entwurf ist unter Berücksichtigung der folgenden Tatsachen angepaßt. Da ein Ähnlichkeitsvektor und ein Regressionskoeffizientvektor für jeden Datenübertragungsblock auf eine Größe von 1 normiert sind, gibt es einen Vorteil, daß die relativen Beziehungen der Ähnlichkeiten an einem Übergang von einem Phonem zu einem Phonem mit Phonemstandardmustern ähnlich anderen Teilen gehandhabt werden können. Wenn jedoch ein Regressionskoeffizientvektor bei einem konstanten Teil eines Vokals oder anderen, die kleine Absolutwerte der Regressionskoeffizienten bilden, auf eine Größe von 1 normiert wird, neigen die sich ergebenden Veränderungen dazu, groß zu sein, so daß ähnliche Beziehungen von Regressionskoeffizienten nicht immer in gleichen Vokalintervallen erhalten werden. Demgemäß werden in diesem Ausführungsbeispiel während der Berechnung der Zwischen-Datenübertragungsblockabstände bei der dynamischem Programmierungs-Vergleich die Abstände zwischen den Ähnlichkeitsvektoren in einem konstanten Teil eines Vokals unter Verwendung von Gewichtungen größer als die Gewichtungen zu den Abständen zwischen den Regressionskoeffizientenvektoren addiert.
  • Während der vorhergehenden Verarbeitung berechnet der Mischverhältnisberechnungsabschnitt 32 eine Zeitbereichsveränderung "q" bei den Ähnlichkeiten für jeden Datenübertragungsblock über die Gesamtheit des Wörterbuchsprachintervalls. Der Mischverhältnisberechnungsabschnitt 32 empfängt eine Regressionskoeffizientenvektor von dem Regressionskoeffizientberechnungsabschnitt 12. Der Regressionskoeffizientenvektor cj der Wörterbuchsprache in dem j-ten Datenübertragungsblock wird nun wie folgt ausgedrückt.
  • cj = (c1,j c2,j, ..., c20,j) ... (23)
  • Der Mittelwertregressionskoeffizient "q" des j-ten Datenübertragungsblocks wird unter Bezugnahme auf die folgende Gleichung berechnet.
  • q = (c1,j + c2,j + ... + c20,j)/20 ...(24)
  • Das Mischverhältnis w&sub0; wird unter Verwendung vorbestimmter Funktionen, wie beispielsweise linearer Funktionen oder Sigmoid- bzw. &Sigma;- bzw. s-förmiger Funktionen berechnet. Gemäß einem ersten Beispiel ist das Mischverhältnis w&sub0; durch die folgenden Gleichungen gegeben.
  • w&sub0; = 0,8, wenn q&le;K1
  • w&sub0; wenn K1< q&le;K2 ...(25)
  • w&sub1; = 0,5, wenn q> K2 = Aq + B, ...(25)
  • wobei A=0,3/(K1-K2) und B=(0,5-K1-0,8-K2)/(K1-K2) ist und K1 und K2 auf der Grundlage der statistischen Größe des Mittelwertregressionskoeffizienten jedes Datenübertragungsblocks bestimmt werden.
  • Gemäß einem zweiten Beispiel ist das Mischverhältnis w&sub0; durch die folgenden Gleichungen gegeben.
  • w&sub0; = 0.8, wenn q&le;K
  • w&sub0; = 0,5, wenn q> K
  • wobei K einen Schwellenwert bezeichnet, der auf der Grundlage der statistischen Größe des Mittelwertregressionskoeffizienten jedes Datenübertragungsblocks bestimmt wird.
  • Gemäß einem dritten Beispiel werden Intervalle der Wörterbuchsprache, die konstanten Teilen von Vokalen entsprechen, unter Verwendung von in den Sprachdaten enthaltenen Phonembeginnund -endinformationen erfaßt. Während der erfaßten konstanten Vokalintervalle wird das Mischverhältnis w&sub0; groß eingestellt. Insbesondere, wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einer erfaßten konstanten Vokalintervall übereinstimmt, wird das Mischverhaltnis w&sub0; auf 0,8 eingestellt. Wenn der j-te Datenübertragungsblock der Wörterbuchsprache mit einem erfaßten konstanten Vokalintervall nicht übereinstimmt, wird das Mischverhältnis w&sub0; auf 0,5 eingestellt. Es ist bevorzugt, daß ein erfaßtes konstantes Vokalintervall auf ein Intervall von vier oder weniger Datenübertragungsblöcken beginnend mit dem Datenübertragungsblock entsprechend einem Beginn oder Ende des Phonems /a/, /o/, /u/, /i/ oder /e( (siehe die schraffierten Bereiche in Fig. 26) beschränkt ist.
  • Die Bezugsähnlichkeitsvektorabfolgen (die Wörterbuchähnlichkeitsvektorabfolgen), die Bezugsregressionskoeffizientvektorabfolgen (die Wörterbuchregressionskoeffizientenvektorabfolgen) und die Bezugsgewichtung (Mischungsverhältnis) w&sub0; können durch eine Mittelwertberechnung auf der Grundlage von von zwei oder mehr Sprechern, wie im zweiten Ausführungsbeispiel, erzeugten Sprachdaten bestimmt werden.
  • Versuche wurden wie folgt durchgeführt. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen von den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis groß eingestellt wurde, wenn der Mittelwertabsolutwert der Regressionskoeffizienten kleiner als der Schwellenwert war, wurden mit einer Quote von 90,91% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen von den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis im konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 91,29% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus dem Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis groß eingestellt wurde, wenn der Mittelwertabsolutwert der Regressionskoeffizienten kleiner als der Schwellenwert war, wurden mit einer Quote von 93,56% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 93,78% gute Erkennungsergebnisse erhalten.
  • Beschreibung des vierzehnten bevorzugten Ausführungsbeispiels
  • Fig. 27 bezieht sich auf ein vierzehntes erfindungsgemäßes Ausführungsbeispiel, das ähnlich dem Ausführungsbeispiel gemäß den Figen.. 22-24 ist, abgesehen von im folgenden angezeigten Entwurfsveränderungen.
  • Wie in Fig. 27 gezeigt, enthält ein Spracherkennungssystem einen Sprachanalyseanschnitt 1, einen Merkmalsparameterextraktionsabschnitt 2, einen Ähnlichkeitsberechnungsabschnitt 3, einen Standardmusterspeicherabschnitt 4, einen Parameterabfolge erzeugungsabschnitt 5C, einen Wörterbuchspeicherabschnitt 6D, eine Erkennungsabschnitt 7D, einen Ähnlichkeitsverstärkungsabschnitt 10, einen Ähnlichkeitsnormierungsabschnitt 11, einen Regressionskoeffizientberechnungsabschnitt 12, einen Regressionskoeffizientnormierungsabschnitt 13, einen dynamischen Programmierungs-Gewichtungsberechnungsabschnitt 31 und einen Mischverhältnisberechnungsabschnitt 32. Der Sprachanalyseabschnitt 1, der Merkmalsparameterextraktionsabschnitt 2, der Ähnlichkeitsberechnungsabschnitt 3, der Standardmusterspeicherabschnitt 4, der Parameterabfolgeerzeugungsabschnitt 5C, der Ähnlichkeitsverstärkungsabschnitt 10, der Ähnlichkeitsnormierungsabschnitt 11, der Regressionskoeffizientberechnungsabschnitt 12, der Regressionskoeffizientnormierungsabschnitt 13 und der dynamische Programmierungs- Gewichtungsberechnungsabschnitt 31 sind ähnlich denen gemäß Fig. 22. Während einer aktuellen Spracherkennungsverarbeitung funktionieren die Einrichtungen bzw. Abschnitte 1, 2, 3, 4, 5C, 10, 11, 12 und 13 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtungen bzw. Abschnitte gemäß Fig. 22. Während einer vorhergehenden Verarbeitung, die der aktuellen Spracherkennungsverarbeitung vorhergeht, funktioniert der dynamische Programmierungs-Gewichtungsberechnungsabschnitt 31 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtung bzw. des entsprechenden Abschnitts gemäß Fig. 22.
  • Der Mischverhältnisberechnungsabschnitt 32 ist ähnlich der entsprechenden Einrichtung bzw. dem entsprechenden Abschnitt gemäß Fig. 25. Während der vorhergehenden Verarbeitung funktioniert der Mischverhältnisberechnungsabschnitt 32 auf eine Weise ähnlich der Funktionsweise der entsprechenden Einrichtung bzw. des entsprechenden Abschnitts gemäß Fig. 25.
  • Der Wörterbuchspeicherabschnitt 6F speichert ein Wörterbuch, das Bezugsähnlichkeitsvektorabfolgen jeweils entsprechend Erkennungsobjekt-Worten, Bezugsregressionskoeffizientvektorabfolgen jeweils entsprechend den Erkennungsobjekt-Worten, dynamische Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und auch ein Mischverhältnis (eine Bezugsgewichtung) w&sub0; enthält. Die Bezugsähnlichkeitsvektorabfolgen, die Bezugsregressionskoeffizientvektorabfolgen, die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und das Mischverhältnis w&sub0; werden auf der Grundlage von von einem einzelnen Sprecher oder einer Vielzahl von Sprechern während einer vorhergehenden Verarbeitung, die vor der aktuellen Spracherkennungsverarbeitung ausgeführt wird, erzeugten Sprachdaten vorherbestimmt. Die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; werden mit dem Wörterbuch aus dem dynamischen Programmierungs- Gewichtungsberechnungsabschnitt 31 verzeichnet bzw. registriert. Das Mischverhältnis w&sub0; wird mit dem Wörterbuch aus dem Mischverhältnisberechnungsabschnitt 32 verzeichnet bzw. registriert. Während der aktuellen Spracherkennungsverarbeitung werden die Bezugsähnlichkeitsvektorabfolgen (auch bezeichnet als die Wörterbuchähnlichkeitsvektorabfolgen), die Bezugsregressionskoeffizientenvektorabfolgen (auch bezeichnet als die Wörterbuchregressionskoeffizientenvektorabfolgen), die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; und das Mischverhältnis w&sub0; von dem Wörterbuchspeicherabschnitt 6F dem Erkennungsabschnitt 7F zugeführt.
  • Während der aktuellen Spracherkennungsverarbeitung empfängt der Erkennungsabschnitt 7F eine Eingabesprachähnlichkeitsvektorabfolge von dem Parameterabfolgeerzeugungsabschnitt 5C und empfängt auch eine Eingabesprachregressionskoeffizientenvektorabfolge von dem Regressionskoeffizientnormierungsabschnitt 13. Der Erkennungsabschnitt 7F führt den Vergleich zwischen einem Satz der Eingabesprachähnlichkeitsvektorabfolge und der Eingabesprachregressionskoeffizientenvektorabfolge und Sätzen der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen und berechnet die Vergleichs- bzw. Übereinstimmungswerte für die Sätze der Bezugsähnlichkeitsvektorabfolgen und der Bezugsregressionskoeffizientenvektorabfolgen, die jeweils den Erkennungsobjekt-Worten entsprechen. Der Erkennungsabschnitt 7F verwendet die dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; beim Vergleich wie im Ausführungsbeispiel gemäß den Figen. 22-24, so daß der Vergleich von den dynamischen Bezugsprogrammierungsgewichtungen w&sub1; und w&sub2; abhängt. Zusätzlich verwendet der Erkennungsabschnitt 7F das Mischverhältnis w&sub0; bei dem Vergleich wie in den Ausführungsbeispielen gemäß den Figen. 25 und 26, so daß der Vergleich von dem Mischverhältnis w&sub0; abhängt. Der Erkennungsabschnitt 7F wählt den höchsten der berechneten Vergleichs- bzw. Übereinstimmungswerte aus und entscheidet ein Erkennungsergenis als das Erkennungsobjekt-Wort entsrpechend dem höchsten Vergleichs- bzw. Übereinstimmungswert. Insbesondere verwendet die Vergleichsberechnung eine asymmetrische dynamische Programmierungs-Vergleichstechnik wie im Ausführungsbeispiel gemäß den Figen. 22-24 und im Ausführungsbeispiel gemäß den Figen. 25 und 26.
  • Versuche wurden wie folgt ausgeführt. Die aktuelle Spracherkennungsverarbeitung wurde auf die Sprachdaten angewendet, die von 20 Sprechern erzeugt wurden und für jeden Sprecher 212 verschiedene Worte darstellten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichte der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 92,42% gute Erkennungsergebnisse erhalten. In dem Fall, in dem die Wörterbuchinformationen aus den Sprachdaten eines einzelnen männlichen Sprechers und eines einzelnen weiblichen Sprechers erzeugt wurden und die Gewichtungen der dynamischen Programmierungspfade in dem ruhigen Intervall klein eingestellt wurden und das Mischverhältnis in dem konstanten Vokalintervall groß eingestellt wurde, wurden mit einer Quote von 94,40% gute Erkennungsergebnisse erhalten.

Claims (31)

1. Verfahren zur Spracherkennung mit den Schritten:
Erzeugen von "m" Merkmalsparametern für jeden Datenübertragungsblock einer Bezugssprache, die von zumindest einem Sprecher gesprochen wird und Erkennungsobjekt-Worte darstellt, wobei "m" einen voreingestellten Integerwert bezeichnet,
vorhergehend Erzeugen von "n" Arten von Standardmustern auf der Grundlage von Sprachdaten von einer Vielzahl von Sprechern, wobei "n" einen voreingestellten Integerwert bezeichnet,
Ausführen eines Vergleichs zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster und Erzeugen eines Vektors von "n" Bezugsähnlichkeiten zwischen den Merkmalsparametern der Bezugssprache und jedem der Standardmuster für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Bezugsähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken, wobei die Bezugsähnlichkeitsvektorabfolgen jeweils den Erkennungsobjekt-Worten entsprechen,
vorhergehend Verzeichnen der Bezugsähnlichkeitsvektorabfolgen als Wörterbuchähnlichkeitsvektorabfolgen,
Analysieren von zu erkennender Eingabesprache und Erzeugen von "m" Merkmalsparametern aus der Eingabesprache,
Ausführen eines Vergleichs zwischen den Merkmalsparametern der Eingabesprache und den Standardmustern und Erzeugen eines Vektors von "n" Eingabesprachähnlichkeiten zwischen den Merkmalsparametern der Eingabesprache und den Standardmustern für jeden Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Eingabesprachähnlichkeitsvektoren von jeweiligen Datenübertragungsblöcken und Sammeln der Eingabesprachähnlichkeitsvektorabfolge mit den Wörterbuchähnlichkeitsvektorabfolgen zum Erkennen der eingegebenen Sprache.
2. Verfahren nach Anspruch 1, mit den Schritten Berechnen von Zeitbereichsveränderungen bei den Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten von jeweiligen Datenübertragungsblöcken,
wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten von jeweiligen Datenübertragungsblöcken und
Sammeln der zeitlichen Abfolge der Vektoren der Zeitbreichsveränderungen bei den Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten zur Erkennung der eingegebenen Sprache.
3. Verfahren nach Anspruch 1, wobei der Sammelschritt eine dynamische Programmierungs- Vergleichstechnik verwendet.
4. Verfahren nach Anspruch 1, weiterhin mit dem Schritt Verarbeiten der Bezugsähnlichkeiten und der Eingabesprachähnlichkeiten mittels einer Funktion einer Verstärkung von großen Mitgliedern der Ähnlichkeiten.
5. Verfahren nach Anspruch 1, weiterhin mit den Schritten Verarbeiten der Bezugsähnlichkeiten mittels einer Funktion einer Verstärkung von großen Mitgliedern der Bezugsähnlichkeiten zur Umwandlung der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,
Verarbeiten der Eingabesprachähnlichkeiten mittels derselben Funktion zum Umwandeln der Eingabesprachähnlichkeiten in zweite Eingabesprachähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeiten,
Berechnen von Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke und Sammeln der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten zum Erkennen der Eingabesprache.
6. Verfahren nach Anspruch, weiterhin mit den Schritten Normieren jedes der Bezugsähnlichkeitsvektoren und Normieren jedes der Eingabesprachähnlichkeitsvektoren, wobei der Sammelschritt ein Berechnen eines Abstands zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen und ein Erkennen der Eingabesprache ansprechend auf die berechneten Abstände umfaßt.
7. Verfahren nach Anspruch 1, weiterhin mit den Schritten Auswählen von "k" größeren Mitgliedern aus den Bezugsähnlichkeiten und Einstellen von verbleibenden Mitgliedern der Bezugsähnlichkeiten gleich einer k-größten Bezugsähnlichkeit zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten, wobei "k" einen voreingestellten Integer wert bezeichnet,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeitsabfolgen,
Auswählen von "k" größeren Mitgliedern aus den eingegebenen Ähnlichkeiten und Einstellen von verbleibenden Mitgliedern der Eingabesprachähnlichkeiten gleich einer k-größten eingegebenen Ähnlichkeit zum Umwandeln der eingegebenen Ähnlichkeiten in zweiten Eingabesprachähnlichkeiten, und Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Ähnlichkeiten der eingegebenen Sprache,
wobei der Sammelschritt ein Berechnen eines euklidischen Abstands zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen und ein Erkennen der eingegebenen Sprache ansprechend auf die berechneten euklidischen Abstände umfaßt.
8. Verfahren nach Anspruch 1, weiterhin mit dem Schritt Verarbeiten der Bezugsähnlichkeiten und der Eingabesprachähnlichkeiten mittels einer Exponentialfunktion zur Verstärkung von großen Mitgliedern der Ähnlichkeiten, wobei der Sammelschritt ein Berechnen eines Korrelationsabstands zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen und ein Erkennen der Eingabesprache ansprechend auf die berechneten Korrelationsabstände umfaßt.
9. Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren, Verstärken von großen Mitgliedern der Ähnlichkeiten der Eingabesprache zur Umwandlung der Eingabesprachähnlichkeiten der Eingabesprache in zweite Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Eingabesprachähnlichkeiten und Normieren jedes der Vektoren der Eingabesprache,
wobei der Sammelschritt eine dynamische Programmierungs- Vergleichstechnik unter Verwendung einer Gewichtung und ein Verändern der Gewichtung entsprechend einer Größe einer mittleren Ähnlichkeit eines Datenübertragungsblocks zum Einstellen der Gewichtung in einem Intervall entsprechend einer niedrigen Mittlwert-Ähnlichkeit auf klein umfaßt.
10.Verfahren nach Anspruch 9, weiterhin mit den Schritten Berechnen von Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten von jeweiligen Datenübertragungsblöcken,
wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke und Sammeln der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten zur Erkennung der Eingabesprache.
11.Verfahren nach Anspruch 1, wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik unter Verwendung einer Gewichtung und ein Einstellen der Gewichtung in einem ruhigen Intervall auf klein umfaßt.
12.Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren,
Verstärken von großen Mitgliedern der Ähnlichkeiten der Eingabesprache zum Umwandeln der Ähnlichkeiten der Eingabesprache in zweite Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Eingabesprachähnlichkeiten,
Normieren jedes der Vektoren der Eingabesprache,
Berechnen von Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei der den zweiten Eingabesprachähnlichkeiten für jeden Datenübertragungsblock und
Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik, ein Berechnen eines Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten, ein Berechnen eines Abstands Ls zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer gewichteten Addition L zwischen den Abständen Lk und Ls durch Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p" ein Gewicht entsprechend einem Mischverhältnis bezeichnet, ein Verändern des Mischverhältnisses "p" entsprechend einer Größe der mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock zum Einstellen des Mischverhältnisses "p" in einem Intervall entsprechend einer kleinen mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock auf groß und ein Erkennen der eingegebenen Sprache ansprechend auf die gewichtete Addition L umfaßt.
13.Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsähnlichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren,
Verstärken großer Mitglieder von Eingabesprachähnlichkeiten zum Umwandeln der Eingabesprachähnlichkeiten in zweite Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Eingabesprachähnlichkeiten,
Normieren jedes der Vektoren der Eingabesprache,
Berechnen von Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsverändeurngen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten, und
Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik, ein Berechnen eines Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten, ein Berechnen eines Abstands Ls zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer gewichteten Addition L zwischen den Abständen Lk und Ls unter Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p" ein Gewicht entsprechend einem Mischverhältnis bezeichnt, ein Einstellen des Mischverhältnisses "p" auf einen ersten Bezugswert in einem Intervall entsprechend einem konstanten Teil eines Vokals, ein Einstellen des Mischverhältnisses "p" auf einen zweiten Bezugswert in einem Intervall verschieden von dem Intervall entsprechend dem konstanten Teil des Vokals, wobei der zweite Bezugswert kleiner als der erste Bezugswert ist, und ein Erkennen der eingegebenen Sprache ansprechend auf die gewichtete Addition L umfaßt.
14.Verfahren nach Anspruch 1, weiterhin mit den Schritten Verstärken von großen Mitgliedern der Bezugsähnlichkeiten zum Umwandeln der Bezugsähnlichkeiten in zweite Bezugsählichkeiten,
Bestimmen der Wörterbuchähnlichkeitsvektorabfolgen auf der Grundlage der zweiten Bezugsähnlichkeiten,
Normieren jedes der Wörterbuchähnlichkeitsvektoren,
Verstärken großer Mitglieder von Eingabesprachähnlichkeiten zum Umwandeln der Eingabesprachähnlichkeiten in zweite Eingabesprachähnlichkeiten,
Bestimmen der Eingabesprachähnlichkeitsvektorabfolge auf der Grundlage der zweiten Eingabesprachähnlichkeiten,
Normieren jedes der Eingabesprachvektoren,
Berechnen von Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten, und
Erzeugen eines Vektors der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen einer zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke,
wobei der Sammelschritt ein Ausführen einer dynamischen Programmierungs-Vergleichstechnik, ein Berechnen eines Abstands Lk zwischen der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den zweiten Eingabesprachähnlichkeiten und jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den zweiten Bezugsähnlichkeiten, ein Berechnen eines Abstands LS zwischen der Eingabesprachähnlichkeitsvektorabfolge und jeder der Wörterbuchähnlichkeitsvektorabfolgen, ein Berechnen einer gewichteten Addition L zwischen den Abständen Lk und Ls unter Bezugnahme auf eine Gleichung "L=pLs + (1-p)Lk", wobei "p" ein Gewicht entsprechend einem Mischverhältnis bezeichnet, ein Verändern des Mischverhältnisses "p" entsprechend einer Größe einer mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock zur Einstellung des Mischverhältnisses "p" in einem Intervall entsprechend einer kleinen mittleren Zeitbereichsveränderung bei den Ähnlichkeiten in einem Datenübertragungsblock auf groß, ein Ausführen einer dynamischen Programmierungs- Vergleichstechnik unter Verwendung einer zweiten Gewichtung, ein Einstellen der zweiten Gewichtung in einem ruhigen Intervall auf klein und ein Erkennen der eingegebenen Sprache ansprechend auf die gewichtete Addition L umfaßt.
15.Verfahren nach Anspruch 1, weiterhin mit den Schritten Analysieren von Teilen von Bezugssprache, die von zumindest zwei Sprechern gesprochen werden und gleiche Erkennungsobjekt-Worte darstellen, um zeitliche Abfolgen von Ähnlichkeitsvektoren zu erhalten,
Ausführen eines dynamischen Programmierungs-Vergleichs auf die zeitlichen Abfolgen der Ähnlichkeitsvektoren zum Vergleich von Zeitbasen zwischen den Sprechern,
Berechnen von Mittelwerten von jeweiligen Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken und
Bestimmen der Bezugsähnlichkeitsvektorabfolgen auf der Grundlage der berechneten Mittelwerte.
16.Verfahren nach Anspruch 1, weiterhin mit den Schritten Berechnen von Zeitbereichsveränderungen bei den Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen von zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei Bezugsähnlichkeiten der jeweiligen Datenübertragungsblöcke,
wobei die zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten jeweils den Erkennungsobjekt-Worten entsprechen,
Berechnen von Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten,
Erzeugen eines Vektors der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten für jeweilige Datenübertragungsblöcke,
Sammeln der zeitlichen Abfolge der Vektoren der Zeitbereichsveränderungen bei den Eingabesprachähnlichkeiten mit jeder der zeitlichen Abfolgen der Vektoren der Zeitbereichsveränderungen bei den Bezugsähnlichkeiten zur Erkennung der Eingabesprache,
Analysieren von Teilen der Bezugssprache, die von zumindest zwei Sprechern gesprochen werden und gleiche Erkennungsobjekt-Worte darstellen, zum Erhalten von zeitlichen Abfolgen von Ähnlichkeitsvektoren und zeitlichen Abfolgen von Zeitbereichsähnlichkeitsveränderungen,
Ausführen eines dynamischen Programmierungs-Vergleichs auf die zeitlichen Abfolgen der Ähnlichkeitsvektoren und die zeitlichen Abfolgen der Zeitbereichsähnlichkeitsveränderungen zum Vergleich der Zeitbasen zwischen den Sprechern, Berechnen von Mittelwerten von jeweiligen Ähnlichkeiten zwischen zeitlich angepaßten Datenübertragungsblockern und Bestimmen der Bezugsähnlichkeitsvektorabfolgen und der Bezugszeitbereichsähnlichkeitsveränderungsabfolgen auf der Grundlage der berechneten Mittelwerte.
17.Verfahren nach Anspruch 1, weiterhin mit den Schritten Analysieren von Teilen der Bezugssprache, die von zumindest zwei Sprechern gesprochen wird und gleiche Erkennungsobjekt-Worte darstellt, zum Erhalten von Ähnlichkeitsvektoren, unter Verwendung der Ähnlichkeitsvektoren als Mehrfachstandardmuster bei der Bestimmung der Bezugsähnlichkeitsvektorabfolgen.
18.Verfahren nach Anspruch 2, weiterhin mit den Schritten Analysieren von Teilen der Bezugssprache, die von zumindest zwei Sprechern gesprochen wird und gleiche Erkennungsobjekt-Worte darstellt, zum Erhalten von Ähnlichkeitsvektorabfolgen und Zeitbereichsähnlichkeitsveränderungsvektorabfolgen, unter Verwendung der Ähnlichkeitsvektorabfolgen und der Zeitbereichsähnlichkeitsveränderungsvektorabfolgen als Mehrf achstandardmuster bei der Bestimmung des Bezugsähnlichkeitsvektorabfolgen und der Bezugszeitbereichsähnlichkeitsveränderungsvektorabfolgen.
19.Verfahren nach einem der Ansprüche 15-18, wobei die Teile der Bezugssprache von einem männlichen und einem weiblichen Sprecher gesprochen werden.
20.Verfahren zur Spracherkennung mit den Schritten:
vorhergehendes Einstellen eines Satzes von Worten unter Berücksichtigung von phonetischen Umgebungen,
Sprechenlassen des Wortsatzes durch zumindest einen Sprecher und Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock,
vorhergehendes Erzeugen von "n" Arten von Standardmustern für von vielen Sprechern erzeugte Sprachdaten,
Ausführen eines Vergleichs zwischen den Merkmalsparametern und jedem der Standardmuster zum Erhalten eines Vektors von "n" Ähnlichkeiten für jeden Datenübertragungsblock,
Erzeugen eines zeitlichen Abfolgemusters aus dem Ähnlichkeitsvektor,
Extrahieren von Sprachfragmenten aus dem zeitlichen Abfolgemuster und Verzeichnen der Sprachfragmente als ein Sprachfragmentwörterbuch,
Erzeugen einer Verbindungsabfolge der Sprachfragmente oder eines zeitlichen Abfolgemusters von Ähnlichkeitsvektoren für jedes der Spracherkennungsobjekt-Worte, wobei das zeitliche Abfolgemuster der Ähnlichkeitsvektoren durch Kombinieren der Sprachfragnente in dem Sprachfragmentwörterbuch erzeugt wird,
Speichern der Verbindungsabfolge der Sprachfragmente oder des zeitlichen Abfolgemusters der Ähnlichkeitsvektoren in einem Erkennungsobjektwörterbuch für jedes der Erkennungsobjekt-Worte,
Analysieren einer eingegebenen Sprache zum Erhalten von "m" Merkmalsparametern für jeden Datenübertragungsblock,
Ausführen eines Vergleichs zwischen den Eingabesprachmerkmalsparametern und jedem der Standardmuster zum Erhalten einer zeitlichen Abfolge von Vektoren von "n" Ähnlichkeiten und
Sammeln der zeitlichen Eingabesprachähnlichkeitsvektorabfolge mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die an den jeweiligen Punkten des Erkennungsobjektwörterbuchs verzeichnet sind, zum Erkennen der Eingabesprache, oder Sammeln der zeitlichen Ähnlichkeitsvektorabfolge der Eingabesprache mit jedem der zeitlichen Abfolgemuster der Ähnlichkeiten, die gemäß den Verbindungsabfolgen der Sprachfragmente zur Erkennung der eingegebenen Sprache erzeugt werden.
21.Verfahren nach Anspruch 20, weiterhin mit den Schritten Berechnen von "n" Zeitbereichsveränderungen bei den Ähnlichkeiten im Hinblick auf jede der zeitlichen Abfolgen der "n" Arten von Ähnlichkeiten für jeden Datenübertragungsblock und
Erzeugen der zeitlichen Abf olgemuster aus einem Vektor der "n" Zeitbereichsveränderungen bei den Ähnlichkeiten und einem Vektor der "n" Ähnlichkeiten.
22.Verfahren nach Anspruch 20, wobei die Sprachfragmente eine Abfolge eines Konsonanten und eines Vokals und eine Kombination eines Vokals und eines Konsonanten umfassen.
23.Verfahren nach Anspruch 20, wobei jeder der Punkte der Erkennungsobjekt-Worte durch Verbinden der zeitlichen Abfolgemuster der Zeitbereichsähnlichkeits- veränderungsvektoren oder der als Sprachfragmente extrahierten zeitlichen Abfolgemuster der Ähnlichkeitsvektoren erzeugt wird und
ein dynamischer Programmierungs-Vergleich im Hinblick auf die Eingabesprache zur Erkennung der Eingabesprache durchgeführt wird.
24.Verfahren nach Anspruch 20, wobei versteckte Markov-Modelle auf die zeitlichen Abfolgemuster der Zeitbereichsähnlichkeitsveränderungsvektoren oder die zeitlichen Abfolgemuster der Ähnlichkeitsvektoren, die als Sprachfragmentmuster extrahiert werden, zur Erkennung der Eingabesprache angelegt werden.
25.Verfahren nach Anspruch 20, wobei zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte sprechen, die zum Erhalten von zeitlichen Abfolgen von Ähnlichkeitsvektoren analysiert werden,
Zeitbasen der Sprecher mittels eines dynamischen Programmierungs-Vergleichs im Hinblick auf die zeitlichen Abfolgemuster der Ähnlichkeitsvektoren verglichen werden,
Mittelwerte der Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken berechnet werden,
Sprachfragmente von einem zeitlichen Abfolgemuster der Mittelwerte extrahiert werden und
die Sprachfragmente in dem Sprachfragmentwörterbuch verzeichnet werden.
26.Verfahren nach Anspruch 21, wobei Regressionskoeffizienten als Informationen über Zeitbereichsveränderungen verwendet werden.
27.Verfahren nach Anspruch 2, wobei zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte sprechen, die zum Erhalten von zeitlichen Abfolgemustern von Ähnlichkeitsvektoren und zeitlichen Abfolgemustern von Regressionskoeffizientenvektoren analysiert werden,
Zeitbasen der Sprecher mittels eines dynamischen Programmierungs-Vergleichs im Hinblick auf die zeitlichen Abfolgemuster der Ähnlichkeitsvektoren und der zeitlichen Abfolgemuster der Regressionskoeffizientenvektoren verglichen werden,
Mittelwerte der Ähnlichkeiten und Mittelwerte von Zeitbereichsveränderungen bei den Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken berechnet werden und
zeitliche Abfolgemuster der Mittelwerte in einem Wörterbuch verzeichnet werden.
28.Verfahren nach Anspruch 21, wobei zwei oder mehr Sprecher gleiche Erkennungsobjekt-Worte sprechen, die zum Erhalten von zeitlichen Abfolgemustern von Ähnlichkeitsvektoren und zeitlichen Abfolgemustern von Regressionkoeffizientenvektoren analysiert werden,
Zeitbasen der Sprecher mittels eines dynamischen Programmierungs-Vergleichs im Hinblick auf die zeitlichen Abfolgemuster der Ähnlichkeitsvektoren und der zeitlichen Abfolgemuster der Regressionskoeffizientenvektoren verglichen werden,
Mittelwerte der Ähnlichkeiten und Mittelwerte von Zeitbereichsveränderungen bei den Ähnlichkeiten zwischen zeitlich in Übereinstimmung gebrachten Datenübertragungsblöcken berechnet werden,
Sprachfragmente von einem zeitlichen Abfolgemuster der Mittelwerte extrahiert werden und
die Sprachfragmente in dem Sprachfragmentwörterbuch verzeichnet werden.
29.Verfahren nach Anspruch 20, wobei eines von einem euklidischen Abstand, einem gewichteten euklidischen Abstand und einem Korrelationskosinus als ein Abstandsmaß für eine Berechnung eines Abstands zwischen dem Ähnlichkeitsvektoren verwendet wird.
30.Verfahren nach Anspruch 20, wobei die Standardmuster Phonemen entsprechen.
31.Verfahren nach Anspruch 20, wobei eines von einem Bayesianischen Abstand, einen Maharanobis Abstand, einem Maharanobis Abstand, bei dem Kovarianzmatrizen der Standardmuster gemeinsam verwendet werden, einem neuronalen Netzwerkabstand, einem versteckten Markov- Modellabstand und ein Lernvektorquantisierungsabstand als ein Abstandmaß im Hinblick auf einen Vergleich mit den Standardmustern verwendet wird.
DE69127961T 1990-12-21 1991-12-19 Verfahren zur Spracherkennung Expired - Lifetime DE69127961T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2404866A JP2692382B2 (ja) 1990-12-21 1990-12-21 音声認識方法
JP747791 1991-01-25
JP3058796A JP2879989B2 (ja) 1991-03-22 1991-03-22 音声認識方法
JP17090891A JP2574557B2 (ja) 1991-07-11 1991-07-11 音声認識方法
JP3234388A JP2943445B2 (ja) 1991-01-25 1991-09-13 音声認識方法

Publications (2)

Publication Number Publication Date
DE69127961D1 DE69127961D1 (de) 1997-11-20
DE69127961T2 true DE69127961T2 (de) 1998-03-05

Family

ID=27518826

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69127961T Expired - Lifetime DE69127961T2 (de) 1990-12-21 1991-12-19 Verfahren zur Spracherkennung

Country Status (3)

Country Link
US (1) US5345536A (de)
EP (1) EP0492470B1 (de)
DE (1) DE69127961T2 (de)

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2704348B1 (fr) * 1993-04-23 1995-07-07 Matra Communication Procede de reconnaissance de parole a apprentissage.
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
US5704004A (en) * 1993-12-01 1997-12-30 Industrial Technology Research Institute Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique
EP0703566A1 (de) * 1994-09-23 1996-03-27 Aurelio Oskian Vorrichtung zur Spracherkennung
JP2738403B2 (ja) * 1995-05-12 1998-04-08 日本電気株式会社 音声認識装置
US5822728A (en) * 1995-09-08 1998-10-13 Matsushita Electric Industrial Co., Ltd. Multistage word recognizer based on reliably detected phoneme similarity regions
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5825977A (en) * 1995-09-08 1998-10-20 Morin; Philippe R. Word hypothesizer based on reliably detected phoneme similarity regions
US5657424A (en) * 1995-10-31 1997-08-12 Dictaphone Corporation Isolated word recognition using decision tree classifiers and time-indexed feature vectors
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
US6038531A (en) * 1997-01-30 2000-03-14 Seiko Epson Corporation Similar word discrimination method and its apparatus
US6847717B1 (en) 1997-05-27 2005-01-25 Jbc Knowledge Ventures, L.P. Method of accessing a dial-up service
US9978373B2 (en) 1997-05-27 2018-05-22 Nuance Communications, Inc. Method of accessing a dial-up service
US6073095A (en) * 1997-10-15 2000-06-06 International Business Machines Corporation Fast vocabulary independent method and apparatus for spotting words in speech
US6230129B1 (en) 1998-11-25 2001-05-08 Matsushita Electric Industrial Co., Ltd. Segment-based similarity method for low complexity speech recognizer
WO2000054168A2 (en) * 1999-03-05 2000-09-14 Canon Kabushiki Kaisha Database annotation and retrieval
JP2001075964A (ja) * 1999-08-31 2001-03-23 Sony Corp 情報処理装置および情報処理方法、並びに記録媒体
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7149695B1 (en) * 2000-10-13 2006-12-12 Apple Computer, Inc. Method and apparatus for speech recognition using semantic inference and word agglomeration
US6915259B2 (en) * 2001-05-24 2005-07-05 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on linear separation of variability sources
US6996527B2 (en) * 2001-07-26 2006-02-07 Matsushita Electric Industrial Co., Ltd. Linear discriminant based sound class similarities with unit value normalization
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
US20050206721A1 (en) * 2004-03-22 2005-09-22 Dennis Bushmitch Method and apparatus for disseminating information associated with an active conference participant to other conference participants
US7606707B2 (en) * 2005-09-06 2009-10-20 Toshiba Tec Kabushiki Kaisha Speaker recognition apparatus and speaker recognition method to eliminate a trade-off relationship between phonological resolving performance and speaker resolving performance
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US20090132237A1 (en) * 2007-11-19 2009-05-21 L N T S - Linguistech Solution Ltd Orthogonal classification of words in multichannel speech recognizers
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8788256B2 (en) 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI396184B (zh) * 2009-09-17 2013-05-11 Tze Fen Li 一種語音辨認所有語言及用語音輸入單字的方法
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8843364B2 (en) 2012-02-29 2014-09-23 Adobe Systems Incorporated Language informed source separation
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
KR102014665B1 (ko) 2013-03-15 2019-08-26 애플 인크. 지능형 디지털 어시스턴트에 의한 사용자 트레이닝
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
AU2014251347B2 (en) 2013-03-15 2017-05-18 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
JP6292911B2 (ja) * 2014-02-07 2018-03-14 キヤノン株式会社 画像処理方法、画像処理プログラムおよび画像処理装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN112668632B (zh) * 2020-12-25 2022-04-08 浙江大华技术股份有限公司 一种数据处理方法、装置、计算机设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5131043A (en) * 1983-09-05 1992-07-14 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for speech recognition wherein decisions are made based on phonemes
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
US4885791A (en) * 1985-10-18 1989-12-05 Matsushita Electric Industrial Co., Ltd. Apparatus for speech recognition
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
JPH01167898A (ja) * 1987-12-04 1989-07-03 Internatl Business Mach Corp <Ibm> 音声認識装置
JPH0293597A (ja) * 1988-09-30 1990-04-04 Nippon I B M Kk 音声認識装置
JPH0636156B2 (ja) * 1989-03-13 1994-05-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置
JPH02272495A (ja) * 1989-04-13 1990-11-07 Toshiba Corp 音声認識装置

Also Published As

Publication number Publication date
EP0492470A3 (en) 1993-05-12
EP0492470A2 (de) 1992-07-01
US5345536A (en) 1994-09-06
EP0492470B1 (de) 1997-10-15
DE69127961D1 (de) 1997-11-20

Similar Documents

Publication Publication Date Title
DE69127961T2 (de) Verfahren zur Spracherkennung
DE3876207T2 (de) Spracherkennungssystem unter verwendung von markov-modellen.
DE69827586T2 (de) Technik zur Adaptation von Hidden Markov Modellen für die Spracherkennung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69311303T2 (de) Sprachtrainingshilfe für kinder.
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69816177T2 (de) Sprache/Pausen-Unterscheidung mittels ungeführter Adaption von Hidden-Markov-Modellen
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69725802T2 (de) Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung
DE60020660T2 (de) Kontextabhängige akustische Modelle für die Spracherkennung mit Eigenstimmenanpassung
DE69030561T2 (de) Spracherkennungseinrichtung
EP0987683B1 (de) Spracherkennungsverfahren mit Konfidenzmassbewertung
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1084490B1 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE60004331T2 (de) Sprecher-erkennung
DE10030105A1 (de) Spracherkennungseinrichtung
DE60314128T2 (de) Parametrische online-histogramm normierung zur rauschrobusten spracherkennung
DE68924134T2 (de) Spracherkennungssystem.
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
DE2825082A1 (de) Verfahren zur spracherkennung
DE69813597T2 (de) Mustererkennung, die mehrere referenzmodelle verwendet
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP