DE69519453T2

DE69519453T2 - Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien

Info

Publication number: DE69519453T2
Application number: DE69519453T
Authority: DE
Inventors: Hiroaki Hattori; Keizaburo Takagi
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-06-07
Filing date: 1995-06-06
Publication date: 2001-03-29
Anticipated expiration: 2015-06-07
Also published as: EP0686965A3; JP2692581B2; EP0686965A2; US5651094A; JPH07334184A; EP0686965B1; DE69519453D1

Description

Die vorliegende Erfindung betrifft allgemein Spracherkennung und insbesondere eine Verbesserung der Technik der Berechnung des Mittelwerts jeder akustischen Kategorie, die notwendig ist, um eine Sprecheradaptierung von Eingangssprache oder Referenzmustern zu bewirken.
Mehrere unterschiedliche Spracherkennungstechniken sind abhängig von der Beschaffenheit und dem technologischen Niveau bekannt gewesen. Die Grundprinzipien hinter den existierenden Spracherkennungstechniken sind wie folgt: Ausdrücke, die erkannt werden sollen, werden in einem Trainings- oder Registrierungsmodus analysiert und als Referenzmuster gespeichert. Ein unbekannter Ausdruck, der durch einen Sprecher geäußert wird, wird in einem Erkennungs- oder Testmodus analysiert, und das als Ergebnis der Analyse erzeugte Muster wird aufeinanderfolgend mit den Referenzmustern verglichen. Dann wird ein Ergebnis, das einem der Referenzmuster entspricht, das mit dem Muster am besten übereinstimmt, als der erkannte Ausdruck ausgegeben.
Unter verschiedenen Spracherkennungssystemen wird ein sprecherunabhängiges Spracherkennungssystem verbreitet verwendet, in dem Ausdrücke vieler Sprecher als Referenzmuster registriert sind, um sich der Verteilung der Sprechereigenarten anzupassen. Daher ist das sprecherunabhängige Spracherkennungssystem fähig, Ausdrücke eines unbekannten Sprechers mit einer verhältnismäßig hohen Spracherkennungsrate unabhängig von Sprachklangvariationen der unterschiedlichen Sprecher zu erkennen.
Jedoch ist das sprecherunabhängige Spracherkennungssystem darin nachteilig, daß es keine hohe Leistung erzielen kann, wenn unbekannte Ausdrücke, die eingegeben werden, sich sehr stark von jenen unterscheiden, die als Referenzmuster registriert sind. Es ist ebenfalls bekannt, daß die Spracherkennungsrate des Systems verschlechtert wird, wenn ein Mikrophon verwendet wird, um einen Prüfausdruck aufzunehmen, das sich vom Mikrophon unterscheidet, daß verwendet wurde, um Ausdrücke aufzunehmen, um Referenzmustern bereitzustellen.
Es ist eine Technik, die als "Sprecheradaptierung" bekannt ist, vorgeschlagen worden, um die Spracherkennungsrate zu verbessern. Der Sprecheradaptierungsprozeß setzt verhältnismäßig wenige Ausdrücke ein, die durch einen spezifischen Sprecher oder ein spezifisches Mikrophon bereitgestellt werden, um Referenzmuster an die Ausdrücke zu adaptieren. Ein Beispiel des Sprecheradaptierungsverfahrens wird durch K. Shinoda u. a. in "Speaker Adaption on Using Spectral Interpolation for Speech Recognition", Trans. of IEICE (Jap.), Ausg. J 77-A, Nr. S. 120 - 127, Feb. 1994 offenbart (das im folgenden als "Literatur 1" bezeichnet wird).
Ein herkömmliches Spracherkennungssystem, das zur Sprecheradaptierung verwendet wird, wird im folgenden unter Bezugnahme auf Fig. 1 der beigefügten Zeichnungen beschrieben.
Wie in Fig. 1 gezeigt, weist das herkömmliche Spracherkennungssystem auf: einen Analysator 1 zur Umwandlung der Eingangssprache in ein zeitliche Abfolge von Merkmalsvektoren, einen Referenzmuster-Speicher 2 zum Speichern von Referenzmustern, d. h. einer zeitlichen Abfolge von Merkmalsvektoren, die aus Trainingsausdrücken umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, eine Vergleichseinheit 12 zum Vergleichen der zeitlichen Abfolge von Merkmalsvektoren von Eingangsausdrücken und den Referenzmustern, um einen optimalen Weg und einen Zeitabgleich zwischen den Eingangsausdrücken und den Referenzmustern zu bestimmen, einen Rückwärtsverarbeitungsinformations-Speicher 14 zum Speichern zweidimensionaler Informationen, die durch die Vergleichseinheit 12 assoziiert werden, einen Schabloneninformations-Speicher 16 zum Speichern von Schabloneninformationen, d. h. der Indexinformation einer Schablone, die anzeigt, welche Schablone an jeweiligen Gitterpunkten verwendet worden ist, wenn die Schablone eine Mehrfachschablone ist, die mehrere Referenzmustern aufweist, und einen Durchschnittsvektor-Rechner 18 zum Ausführen eines Rückwärtsverarbeitungsprozesses, um festzustellen, welches Referenzmuster jedesmal mit der Eingangssprache assoziiert ist, beruhend auf der zweidimensionalen assoziierten Information, die im Rückwärtsverarbeitungsinformations-Speicher 14 gespeichert ist. Sowohl der Rückwärtsverarbeitungsinformations-Speicher 14 als auch der Schabloneninformations-Speicher 16 weisen einen zweidimensionalen Speicherbereich auf, der eine Größe von (Länge der Eingangssprache) · (Länge des Referenzmusters) aufweist.
Der Analysator 1 kann Eingangssprache in eine zeitliche Abfolge von Merkmalsvektoren entsprechend irgendeines verschiedener Spektralanalyseverfahren umwandeln. Diese verschiedenen Spektralanalyseverfahren umfassen ein Verfahren zum Einsetzen von Ausgangssignalen aus einer Bandpaßfilterbank in 10 bis 30 Kanälen, ein nichtparametrisches Spektralanalyseverfahren, ein lineares Prädikationscodierungs- (LPC-) Verfahren und ein Verfahren zum Erhalten verschiedener mehrdimensionaler Vektoren, die Kurzzeitspektren von Eingangssprache repräsentieren, mit verschiedenen Parametern, die ein Spektrum umfassen, das direkt aus einer Wellenform berechnet wird durch eine schnelle Fourier-Transformation (FFT), ein Kepstrum, das eine inverse Fourier-Transformation des Logarithmus eines Kurzzeitamplitudenspektrums einer Wellenform ist, eine Autokorrelationsfunktion, und eine spektrale Einhüllende, die durch LPC erzeugt wird.
Im allgemeinen weisen Merkmalsvektoren, die aus Eingangssprache so extrahiert werden, daß sie Sprachmerkmale repräsentieren, wobei diskrete Zeiten als ein Rahmen verwendet werden, eine Leistungsinformation, eine Änderung der Leistungsinformation, ein Kepstrum, und einen linearen Regressionskoeffizienten eines Kepstrums auf. Spektren selbst und logarithmische Spektren werden ebenfalls als Merkmalsvektoren verwendet.
Sprache eines Standardsprechers wird analysiert und in derselben Weise wie der Analyseprozeß, der durch den Analysator 1 eingesetzt wird, in eine zeitliche Abfolge von Merkmalsvektoren umgewandelt, und die Merkmalsvektoren werden als Referenzmuster in Einheiten von isolierten Worten, verbundenen Worten oder Phonemen im Referenzmuster-Speicher 2 registriert. Wichtungsinformationen für jeweilige Kategorien, die klassifiziert werden sollen, werden im voraus bezüglich dieser Referenzmuster hergestellt.
Die Vergleichseinheit 12 führt einen Vergleich des dynamischen Zeitverzugs zwischen der zeitlichen Abfolge der Merkmalsvektoren der Eingangssprache, die durch den Analysator 1 umgewandelt wird, und den Referenzmustern, die im Referenzmuster- Speicher 2 gespeichert sind, aus. Der Vergleichsalgorithmus zwischen den beiden Mustern ist vorzugsweise einer der Algorithmen, die eine nichtlineare Dehnung und Zusammenziehung im Zeitbereich berücksichtigen, weil die zeitliche Abfolge der Eingangssprache und der Referenzmuster im Zeitbereich leicht gedehnt und zusammengezogen wird. Die Algorithmen, die eine nichtlineare Dehnung und Zusammenziehung im Zeitbereich berücksichtigen, umfassen ein DP (Dynamisches Programmierungs-) Vergleichsverfahren, ein HMM (Hidden-Markov-Modell-) Vergleichsverfahren, und so weiter. In der im folgenden gegebenen Beschreibung wird der DP-Vergleich erläutert, der in der Technik der gegenwärtigen Spracherkennung verbreitet verwendet wird.
Wenn vorausgesetzt wird, daß die Symbole "i", "j" Zeitrahmen (i = 0 bis I), (j = 0 bis J) einer jeweiligen Eingangssprache und eines Referenzmusters darstellen, und das Symbol "c" eine Vektorkomponente darstellt, dann wird die zeitliche Abfolge der Merkmalsvektoren der Eingangssprache durch X(i, c) angegeben, und die zeitliche Abfolge der Referenzmuster wird durch Y(j, c) angegeben.
Die Eingangssprache und die Referenzmustern bilden einen zweidimensionalen Raum, der aus Gitterpunkten (i, j) besteht, und es wird ein minimaler Weg von akkumulierten Abständen, unter den Wegen von einen Start-Ende (0, 0) zu einem End-Ende (I, J) als eine optimale Assoziation zwischen den beiden Mustern betrachtet, und die akkumulierten Abstände werden als der Abstand zwischen den Mustern bezeichnet. Gemäß der Spracherkennung, die auf dem DP-Vergleich beruht, werden Abstände zwischen der Eingangssprache und allen Referenzmustern berechnet, und die akustische Kategorie eines der Referenzmuster, die einen minimalen Abstand ergibt, wird als das Ergebnis der Spracherkennung ausgegeben.
Wenn der DP-Vergleich zur Adaptierung oder zum Lernen ausgeführt wird, dann hat, da ein Referenzmuster und die zu vergleichende Sprache schon begrenzt sind, der DP-Vergleich vielmehr seine Aufgabe darin, einen Mittelwert von Merkmalsvektoren in jeder akustischen Kategorie zu bestimmen, wenn ein optimaler Zeitabgleich zwischen zwei Mustern erhalten wird, als eine Spracherkennung.
Abstände d(i, j) zwischen den Vektoren der Gitterpunkte (i, j) der zeitlichen Abfolge X(i, c) der Merkmalsvektoren der Eingangssprache und der zeitlichen Abfolge Y(j, c) der Merkmalsvektoren der Referenzmuster sind wie folgt definiert:
wobei k eine k-te Schablone am jeweiligen Gitterpunkt repräsentiert. Ein Abstand für jeden Gitterpunkt entspricht dem Minimalen der Abstände, die durch mehrere k Schablonen gegeben sind.
Gemäß dem DP-Vergleich werden die akkumulierten Abstände D(i, j), die mit den Gitterpunkten (i, j) assoziiert sind, durch die folgende rekursive Gleichung angegeben:
Insbesondere werden die akkumulierten Abstände D in eine Richtung der Zunahme der Zeit für die Eingangssprache berechnet, wobei der Gitterpunkt (0, 0) als ein Startpunkt und der Anfangswert D (0, 0) als d (0, 0) verwendet werden, und wenn akkumulierte Abstände bis zum Endgitterpunkt (I, J) bestimmt werden, wird angenommen, daß ein optimaler Vergleichsweg zwischen den beiden Mustern bestimmt ist.
Die Rückwärtsverarbeitungsinformation, die im Rückwärtsverarbeitungsinformations-Speicher 5 gespeichert ist, ist eine Übergangsinformation B(i, j) der jeweiligen Gitterpunkte, die wie folgt ausgedrückt wird:
wobei argmin(j) die Auswahl von irgendeinem der Werte j, j - 1, j - 2 repräsentiert, der D einen minimalen Wert gibt, als den Wert einer j-Komponente.
Die Schabloneninformation T(i, j), die im Schabloneninformations-Speicher 16 gespeichert ist, wird repräsentiert durch:
Der Rückwärtsverarbeitungsprozeß, der vordem durch den herkömmlichen Durchschnittsvektor-Rechner 18 ausgeführt worden ist, wird unten in bezug auf ein einfaches Beispiel beschrieben, wo die Anzahl der zu klassifizierenden akustischen Kategorien 2 ist, d. h. Eingangssprache in einen Geräuschanteil und einen Sprachanteil unterteilt wird, und deren Mittelwerte bestimmt werden.
Wenn die Mittelwerte der Geräusch- und Sprachanteile jeweils durch N(c), S(c) angegeben werden, dann werden die Mittelwerte in den jeweiligen akustischen Kategorien zurück längs des optimalen Weges von einem Gitterpunkt (I, J) zu einem Gitterpunkt (0, 0) wie folgt berechnet:
In einem ersten Schritt, werden die Werte von i, j, N(c), S(c) jeweils auf I, J, 0, 0 wie folgt gesetzt:
i = I,
j = J
N(c) = 0, und
S(c) = 0.
In einem zweiten Schritt wird die Art der akustischen Kategorie des Gitterpunkts (i, j) überprüft. Wenn es sich um eine Sprachkategorie handelt, dann wird S(c) = S(c) + X(i, c) berech net, und wenn es sich um eine Geräuschkategorie handelt, dann wird N(c) = N(c) + X(I, c) berechnet.
In einem dritten Schritt, werden die Werte von i und j überprüft. Wenn beide 0 sind, dann springt die Verarbeitung zu einem fünften Schritt, und wenn i oder j nicht 0 ist, dann rückt die Verarbeitung zu einem vierten Schritt vor.
Im vierten Schritt wird i um 1 vermindert, und die Übergangsinformation B(i, j)des Gitterpunkts (i, j) wird in j wie folgt eingesetzt:
1 = i - 1, und
j = B(i, j).
Danach kehrt die Verarbeitung zum zweiten Schritt zurück, und die zweiten und folgenden Schritte werden wiederholt.
Im fünften Schritt werden die Inhalte von N(c), S(c) durch die Anzahl der Male geteilt, die jeweils akkumuliert werden, und die Mittelwerte in den jeweiligen akustischen Kategorien werden berechnet. Die Verarbeitung ist nun vollendet.
In der herkömmlichen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien wird der Rückwärtsverarbeitungsprozeß ausgeführt, indem von einer Gitterpunktposition, die aus einem Abschlußendpunkt von Eingangssprache und einem Abschlüßendpunkt eines Referenzmusters zurück zu einem Startende gegangen wird, um die Eingangssprache und das Referenzmuster in einem zweidimensionalen Raum zu assoziieren. Durchschnittsvektoren der Eingangssprache werden in jeweiligen Kategorien des Referenzmusters berechnet, das durch den Rückwärtsverarbeitungsprozeß assoziiert worden ist, und werden als Mittelwerte akustischer Kategorien ausgegeben.
Da es erforderlich ist, daß die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien im zweidimensionalen Raum sowohl im Vergleichsprozeß sucht, der durch die Vergleichseinheit 12 ausgeführt wird, aus auch im Rückwärtsverarbeitungsprozeß, der durch den Durchschnittsvektor- Rechner 18 ausgeführt wird, ist die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien darin nachteilig, daß sie eine große Menge an Berechnungen benötigt und folglich nicht geeignet für einen Echtzeitbetrieb ist. Da der Rückwärtsverarbeitungsprozeß, der durch den Durchschnittsvektor-Rechner 18 ausgeführt wird, nicht gestartet werden kann, sofern der Vergleichsprozeß, der durch die Vergleichseinheit 12 ausgeführt wird, nicht beendet ist, können ferner der Rückwärtsverarbeitungsprozeß und der Vergleichsprozeß nicht gleichzeitig parallel zueinander ausgeführt werden, d. h. sie können nicht durch eine sogenannte Pipeline-Verarbeitung ausgeführt werden. Auch dies macht die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien unfähig zum Echtzeitbetrieb.
Selbst wenn die Anzahl zu klassifizierender akustischer Kategorien klein ist, benötigt die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien notwendigerweise einen großen Speicher als einen zweidimensionalen Speicherbereich zum Ausführen des Rückwärtsverarbeitungsprozesses. Aus diesem Grund ist es unmöglich gewesen, die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien kostengünstig herzustellen.
Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien und eine Adaptierungsvorrichtung bereitzustellen, die eine reduzierte Speichergröße zur Adaptierung von Eingangssprache oder Referenzmustern benötigen, und effizient arbeiten, ohne einen Bedarf nach einem Rückwärtsverarbeitungsprozeß.
Erfindungsgemäß wird eine Vorrichtung bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie indem mit einer Vergleichseinheit eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei die Vorrichtung aufweist: ebensoviel Merkmalsvektor- Akkumulationspuffer wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien, ebensoviel Wichtungszähler wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes von Wichtungen von Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen addiert werden, einen Merkmalsvektorintegrator, der jedes Mal, wenn die Vergleichseinheit einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen mit der Wichtung in jedem der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor- Akkumulationspuffern addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern gespeichert sind, und die Summe in den Wichtungszählern speichert, und einen Mittelwertrechner zum Teilen akkumulierter Werte gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in den jeweiligen akustischen Kategorien, die in den Merkmalsvektor- Akkumulationspuffern gespeichert sind; durch die akkumulierten Werte von Wichtungen in den akustischen Kategorien, die in den Wichtungszählern gespeichert sind, und Ausgeben der Quotienten als Mittelwerte in den akustischen Kategorien der Merkmalsvektoren der Eingangssprache, die berechnet werden sollen.
Erfindungsgemäß wird auch eine Vorrichtung bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem mit einer Vergleichseinheit eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei die Vorrichtung aufweist: zwei Abschnitte zur Berechnung von Mittelwerten akustischer Kategorien, die jeweils aufweisen: ebensoviel Merkmalsvektor-Akkumulationspuffer wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien, ebensoviel Wichtungszähler wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes von Wichtungen von Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen addiert werden, einen Merkmalsvektorintegrator, der jedes Mal, wenn die Vergleichseinheit einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, mit der Wichtung in jedem der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor-Akkumulationspuffern addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern gespeichert sind, und die Summe in den Wichtungszählern speichert, und einen Mittelwertrechner zum Teilen akkumulierter Werte gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in den jeweiligen akustischen Kategorien, die in den Merkmalsvektor-Akkumulationspuffern gespeichert sind, durch die akkumulierten Werte von Wichtungen in den akustischen Kategorien, die in den Wichtungszählern gespeichert sind, und Ausgeben der Quotienten als Mittelwerte in den akustischen Kategorien der Merkmalsvektoren der Eingangssprache, die berechne t werden sollen.
Erfindungsgemäß wird auch eine Vorrichtung bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem mit einer Vergleichseinheit eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und addierte Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durch zuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, und um die Eingangssprachmuster und/ oder die Referenzmuster unter Verwendung des Mittelwertes in jeder der akustischen Kategorien zu adaptieren, wobei die Vorrichtung aufweist: zwei Abschnitte zur Berechnung von Mittelwerten akustischer Kategorien, die jeweils aufweisen: ebensoviel Merkmalsvektor-Akkumulationspuffer wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien, ebensoviel Wichtungszähler wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes von Wichtungen von Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen addiert werden, einen Merkmalsvektorintegrator, der jedes Mal, wenn die Vergleichseinheit einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, mit der Wichtung in jedem der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor-Akkumulationspuffern addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern gespeichert sind, und die Summe in den Wichtungszählern speichert, und einen Mittelwertrechner zum Teilen akkumulierter Werte gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in den jeweiligen akustischen Kategorien, die in den Merkmalsvektor- Akkumulationspuffern gespeichert sind, durch die akkumulierten Werte von Wichtungen in den akustischen Kategorien, die in den Wichtungszählern gespeichert sind, und Ausgeben der Quotienten als Mittelwerte in den akustischen Kategorien der Merkmalsvektoren der Eingangssprache, die berechnet werden sollen.
Erfindungsgemäß wird auch ein Verfahren bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache umgewandelt worden sind, und Referenzmuster, die aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und addierte Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei das Verfahren die Schritte aufweist: jedes Mal, wenn die Eingangssprache aufeinanderfolgend mit den Referenzmustern aus einem ersten Rahmen der Referenzmuster verglichen wird und ein Übergang zu einem nächsten Rahmen stattfindet, Integrieren von Werten, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, in dem die Eingangssprache mit den Referenzmustern verglichen wird, mit der Wichtung in jedem der akustischen Kategorien im Rahmen erzeugt worden sind, und Halten der integrierten Werte in jedem Rahmen, Integrieren von Wichtungen in den jeweiligen akustischen Kategorien im Rahmen, in dem die Eingangssprache mit den Referenzmustern verglichen wird, und Halten der integrierten Wichtungen in jedem Rahmen, nachdem die Eingangssprache mit den Referenzmustern in einem Endrahmen verglichen wird, Teilen eines gewichteten akkumulierten Wertes der Merkmalsvektoren in jeder der akustischen Kategorien im Endrahmen, durch einen gewichteten akkumulierten Wert von Wichtungen in den entsprechenden akustischen Kategorien im Rahmen, und Ausgeben eines Quotienten als einen Mittelwert in jeder der akustischen Kategorien.
Im obigen Verfahren kann eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren, die aus der Eingangssprache extrahiert werden, und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um einen Mittelwert in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache auszugeben.
Im obigen Verfahren kann eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren der Referenzmuster, und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um einen Mittelwert in jeder der akustischen Kategorien der Merkmalsvektoren der Referenzmuster auszugeben.
Im obigen Verfahren kann eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren, die aus der Eingangssprache extrahiert werden, und den Merkmalsvektoren der Referenzmuster und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um Mittelwerte in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache und der Referenzmuster gleichzeitig miteinander auszugeben.
Eine erfindungsgemäße Adaptierungsvorrichtung weist eine Adaptierungseinheit auf zum Adaptieren der Eingangssprachmuster und/oder der Referenzmuster unter Verwendung von Mittelwerten in den jeweiligen akustischen Kategorien, die durch die erfindungsgemäße Vorrichtung zur Berechnung eines Mittelwerts in jeder akustischen Kategorie berechnet werden.
Da ein Mittelwert in jeder akustischen Kategorie durch die Vorrichtung zum Zeitpunkt der Vollendung des Vergleichsprozes ses berechnet wird, kann der Berechnungsprozeß in einem Schritt ausgeführt werden, und kann folglich eine reduzierte Speichergröße benötigen und mit einer hohen Geschwindigkeit arbeiten. Da die Vorrichtung fähig ist, gleichzeitig den Vergleichsprozeß und den Durchschnittsvektor-Integrationsprozeß durchzuführen, ist die Vorrichtung in der Lage, parallele Berechnungen durch eine Pipeline-Verarbeitung auszuführen und folglich eine Echtzeit-Verarbeitung auszuführen.
Die obigen und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung deutlich werden, die auf die beigefügten Zeichnungen bezug nimmt, die ein Beispiel bevorzugter Ausführungsformen der vorliegenden Erfindung veranschaulichen.
Fig. 1 ist ein Blockdiagramm einer herkömmlichen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien;
Fig. 2 ist ein Blockdiagramm einer Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
Fig. 3 ist ein Blockdiagramm einer Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer zweiten Ausführungsform der vorliegenden Erfindung;
Fig. 4 ist ein Blockdiagramm einer Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer dritten Ausführungsform der vorliegenden Erfindung; und
Fig. 5 ist ein Blockdiagramm einer erfindungsgemäßen Adaptierungsvorrichtung.
Wie in Fig. 2 gezeigt, weist eine Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer ersten Ausführungsform der vorliegenden Erfindung auf: eine Vergleichseinheit 22 zum Vergleichen einer zeitlichen Abfolge von Merkmalsvektoren, die durch einen Analysator 1 aus Eingangs sprache umgewandelt worden sind, und Referenzmustern, die in einem Referenzmuster-Speicher 2 gespeichert sind, d. h. einer zeitlichen Abfolge von Merkmalsvektoren, die aus Trainingssprachklängen umgewandelt worden sind und addierte Wichtungsinformationen für jede akustische Kategorie enthalten, um einen Normierungsvergleich, d. h. einen Zeitabgleich zwischen der Eingangssprache und den Referenzmustern durchzuführen, ebensoviel Eingangssprachen-Merkmalsvektor-Akkumulationspuffer 26 wie die Anzahl akustischer Kategorien in jedem Rahmen der zeitlichen Abfolge von Merkmalsvektoren der Referenzmuster zum Speichern einer Akkumulation gewichteter Merkmalsvektoren der Eingangssprache, Wichtungszähler 27 zum Speichern von Wichtungen, die in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache akkumuliert werden, die in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffern 26 gespeichert werden, einen Eingangssprachen-Merkmalsvektorintegrator 24, der jedes Mal, wenn die Vergleichseinheit 22 einen Vergleichsprozeß in einem Rahmen bei jedem der Male durchführt und einen Übergang zu einem nächsten Rahmen macht, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache im Rahmen mit der Wichtung in jeder der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird, derselben akustischen Kategorie in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffern 26 addiert, die Summen im Rahmen in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffer 26 speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen im Wichtungszähler 27 gespeichert sind, und die Summe in den Wichtungszählern 27 speichert, und einen Mittelwertrechner 28, der nach dem Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, und dem Akkumulationsprozeß, der durch den Eingangssprachen-Merkmalsvektorintegrator 24 durchgeführt wird, Werte von Endrahmenpositionen in den jeweiligen akustischen Kategorien in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffern 26 durch die Werte in den entsprechenden Wichtungszählern 27 teilt, und die Quotienten als Mittelwerte in den akustischen Kategorien der Eingangssprache ausgibt.
Die Eingangssprache wird durch den Analysator 1 in derselben Weise wie mit dem herkömmlichen Analysator 1 in eine zeitliche Abfolge von Merkmalsvektoren umgewandelt. Die Merkmalsvektoren der Eingangssprache, die durch den Analysator 1 umgewandelt worden sind, sind im Zeitbereich mit den Referenzmustern assoziiert, die im Referenzmuster-Speicher 2 gespeichert sind, durch einen bekannten dynamischen Zeitverzugvergleichsprozeß, wie den DP-Vergleich oder dem HMM-Vergleich.
Es wird vorausgesetzt, daß die Rahmen der Eingangssprache und der Referenzmuster, d. h. diskrete Zeiten, durch i (i = 1 bis I) bzw. j (j = 0 bis J) repräsentiert werden, die zeitliche Abfolge der Merkmalsvektoren der Eingangssprache durch X(i, c) repräsentiert wird und die zeitliche Abfolge der Merkmalsvektoren der Referenzmuster durch Y(k) (j, c) repräsentiert wird, wobei c ein Suffix ist, das die Kanalkomponenten der Merkmalsvektoren repräsentiert und k eine ausgewählte Schablone ist. Es gibt ebensoviel Merkmalsvektor-Akkumulationspuffer 26 und ebensoviel Wichtungszähler 27 wie die Anzahl an Kategorien p und die Anzahl an Referenzmustern j, und sie werden jeweils durch Vp(j, c), Vcp(j) repräsentiert.
Der Eingangssprachen-Merkmalsvektorintegrator 24 führt die folgende Verarbeitung bei jedem Übergang durch, der für jeden Gitterpunkt durch die Vergleichseinheit 22 ausgeführt wird, wobei vorausgesetzt wird, daß eine ausgewählte Schablone durch k' und ein ausgewählter Übergang durch j' repräsentiert wird.
Vp(j, c) = Vp(j', c) + wp(j)X (i, c)
Vcp(j) = Vcp (j') + wp (j)
wobei wp(j) die Wichtung einer Kategorie p ist, d. h. eine Quantität, die anzeigt, wie sehr ein Rahmen j zur Kategorie p gehört, und im voraus bezüglich jedes Rahmens j eines Referenzmusters bestimmt wird. Die Wichtung wp(j) weist einen großen Wert auf, wenn das Maß, in dem der Rahmen j zu der Kategorie p gehört, groß ist, und weist einen kleinen Wert auf, wenn das Maß, mit dem der Rahmen j zur Kategorie p gehört, klein ist. Im einfachsten Fall ist es möglich, die Wichtung wp(j) für nur die Kategorie, zu der der Rahmen j gehört, auf 1 zu setzen, und sie für die anderen Kategorien auf 0 zu setzen. In diesem Fall wird vielmehr ein einfacher Mittelwert, als ein gewichteter Mittelwert bestimmt.
Zu dem Zeitpunkt, zu dem die Berechnungen, die durch die Vergleichseinheit 22 ausgeführt werden, beendet sind, d. h. zu dem Zeitpunkt, bei dem ein optimaler Weg von einem Gitterpunkt (0, 0) zu einem Gitterpunkt (I, J) bestimmt ist, werden eine gewichtete Akkumulation und eine Akkumulation integrierter Wichtungen in jeder der assoziierten akustischen Kategorien längs des optimalen Weges in Endrahmenpositionen (I, J) in den Merkmalsvektor-Akkumulationspuffern 26 und den Wichtungszählern 27 gespeichert.
Der Mittelwertrechner 28 teilt die Werte, die im Merkmalsvektor-Akkumulationspuffer 26 gespeichert sind, die den Endrahmen in den jeweiligen akustischen Kategorien der Referenzmuster zugeordnet sind, durch die Werte, die in den entsprechenden Wichtungszählern 27 gespeichert sind, um dadurch Mittelwerte Vp(J, c) in den jeweiligen akustischen Kategorien der Eingangs sprache zu bestimmen.
Es wird wie beim herkömmlichen Prozeß vorausgesetzt, daß akustische Kategorien, die klassifiziert werden sollen, zwei Arten von Schablonen aufweisen, d. h. Sprache und Geräusch, und daß die Wichtung bezüglich jeder Kategorie der Kürze willen einen Wert 1 oder 0 ausweist, z. B. wird eine Kategorie der Eingangssprache so identifiziert, daß sie entweder Sprache oder Geräusch ist. Es wird auch vorausgesetzt, daß ein Geräuschanteil der Merkmalsvektor-Akkumulationspuffer 26 durch V(j, c), ein Sprachanteil derselben durch W(j, c), ein Geräuschanteil der Wichtungszähler 27 durch Vc(j) und ein Sprachanteil derselben durch Wc(j) repräsentiert wird.
Wie im herkömmlichen Prozeß beginnt die Vergleichseinheit 22 damit, einen Vergleichsprozeß von einem Startpunkt an einem Gitterpunkt (0, 0) jedes Rahmens mit einem akkumulierten Abstand D(i, j) = D(0, 0) auszuführen, und führt den Vergleichsprozeß fortschreitend in die Richtung aus, in der die Eingangssprache Y(j, c) zunimmt, wobei der akkumulierte Abstand berechnet wird, bis letztlich ein Gitterpunkt (I, J) erreicht ist.
Abhängig vom Übergang jedes Gitterpunkts X, Y in der Vergleichseinheit 22, arbeitet der Merkmalsvektorintegrator 24 wie folgt:
Wenn die Merkmalsvektoren y(k')(j, c) der Eingangssprache die Sprachschablone sind, dann werden die Merkmalsvektoren X(i, c) des Gitterpunkts, zu dem ein Übergang gemacht wird, zum Sprachanteil W(j', c) der Merkmalsvektor-Akkumulationspuffer 26 addiert, und 1 wird zum Sprachanteil Wc(j') der Wichtungszähler 27 addiert, wie folgt:
V(j,c) = V(j', c)
W(j.c) = W(j', c) + X(i,c)
Vc(i) = Vc(j')
Wc(j) = Wc(j') + 1.
Wenn die Merkmalsvektoren Y(k')(j, c) der Eingangssprache die Geräuschschablone sind, dann werden die Merkmalsvektoren X(i, c) des Gitterpunkts, zu dem ein Übergang gemacht wird, zum Geräuschanteil V(j', c) der Merkmalsvektor-Akkumulationspuffer 26 addiert, und 1 wird zum Geräuschanteil Vc(j') der Wichtungszähler 27 addiert, wie folgt:
V(j,c) = V(j',c) + X(i,c)
W(j,c) = W(j',c)
Vc(i) = Vc(j') + 1
Wc(i) = Wc(j')
Wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgerührt wird, den Gitterpunkt (I, J) erreicht und folglich ein optimaler Weg vom Gitterpunkt (0, 0) bestimmt ist, werden ein akkumulierter Wert der Merkmalsvektoren und ein akkumulierter Wert von Wichtungen in jeder der assoziierten akustischen Kategorien längs des optimalen Weges im Merkmalsvektor- Akkumulationspuffer 26 und dem Wichtungszähler 27 bestimmt, die dem Endgitterpunkt (I, J) entsprechen.
Daher teilt, wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, beendet ist, der Mittelwertrechner 28 den Wert des Merkmalsvektor-Akkumulationspuffers 26, der dem Endgitterpunkt (I, J) entspricht, durch den Wert des Wichtungszählers 27, um dadurch einen Mittelwert in jeder akustischen Kategorie der Eingangssprache zu bestimmen, d. h. einen Mittelwert V(J, c) des Geräuschanteils der Eingangssprache und einen Mittelwert W(J, c) dessen Sprachanteils.
Wenn die Anzahl akustischer Kategorien, die klassifiziert werden sollen, klein ist, dann kann die Speichergröße kleiner als jene der herkömmlichen Vorrichtung sein. Für einen allgemeinen Maßstab zum Beispiel, bei dem die Anzahl zu klassifizie render akustischer Kategorien 2 ist, die Länge der Referenzmuster 100 beträgt, die Länge der Eingangssprache 200 beträgt und die Anzahl der Dimensionen der Merkmalsvektoren 20 beträgt, hat die herkömmliche Vorrichtung eine Speichergröße von 100 · 200 · 2 = 40000 zum Speichern von Rückwärtsverarbeitungs- und Schabloneninformationen benötigt, wohingegen die erfindungsgemäße Vorrichtung eine Speichergröße von nur 100 · 2 · 20 + 100 · 2 = 4200 zum Speichern von Rückwärtsverarbeitungs- und Schabloneninformationen benötigt. Daher können, da die Speichergröße der erfindungsgemäßen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien etwa 1/10 derjenigen der herkömmlichen Vorrichtung beträgt, die Kosten der erfindungsgemäßen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien niedriger als jene der herkömmlichen Vorrichtung sein.
Fig. 3 zeigt eine Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer zweiten Ausführungsform der vorliegenden Erfindung. Wie in Fig. 3 gezeigt, weist die Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien auf: eine Vergleichseinheit 22, die identisch mit der Vergleichseinheit 22 der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform ist, die in Fig. 2 gezeigt wird, einen Merkmalsvektorintegrator 34, Merkmalsvektor-Akkumulationspuffer 36, Wichtungszähler 37 und einen Mittelwertrechner 38. Während der Merkmalsvektorintegrator 24 der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform die Merkmalsvektoren von Eingangssprache in den Merkmalsvektor-Akkumulationspuffern 26 und den Wichtungszählern 27 integriert, unterscheidet sich der Merkmalsvektorintegrator 34 davon darin, daß er Referenzmuster, die im Referenzmuster-Speicher 2 gespeichert sind, mit Eingangssprache ver gleicht, und gewichtete Merkmalsvektoren und Wichtungen der Referenzmuster in den Merkmalsvektor-Akkumulationspuffern 36 und den Wichtungszählern 37 integriert und speichert, und der Mittelwertrechner 38 einen Mittelwert der Referenzmuster ausgibt.
Daher sind die Anordnungen und die Arbeitsweise der Teile der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien im wesentlichen dieselben wie jene der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform.
Es wird vorausgesetzt, daß die zeitliche Abfolge von Merkmalsvektoren von Eingangssprache durch X(i, c) repräsentiert wird, und die zeitliche Abfolge von Merkmalsvektoren von Referenzmustern durch Y(k) (j, c) repräsentiert wird, wobei i, j Rahmen (diskrete Zeiten) der Eingangssprache bzw. der Referenzmuster repräsentieren, c ein Suffix ist, das die Kanalkomponenten der Merkmalsvektoren repräsentiert, und k eine ausgewählte Schablone ist. Es gibt ebensoviel Merkmalsvektor-Akkumulationspuffer 36 wie die Anzahl von Referenzmustern j von Kategorien p, und sie werden durch wp(j, c) repräsentiert. Entsprechend werden die Wichtungszähler 37 durch wcp(j) repräsentiert.
Der Merkmalsvektorintegrator 34 führt die folgende Verarbeitung bei jedem Übergang aus, der für jeden Gitterpunkt durch die Vergleichseinheit 22 ausgeführt wird, wobei vorausgesetzt wird, daß eine ausgewählte Schablone durch k' und ein ausgewählter Übergang durch j' repräsentiert wird, und die Wichtung einer Kategorie, die im voraus für jeden Rahmen j der Referenzmuster bestimmt wird, durch wp(j) repräsentiert wird:
Wp(j, C) = Wp(j, C) + wp(j)Y(k') (j, c)
Wcp(j) = wcp(j) + wp(j)
Wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, den Gitterpunkt (I, J) erreicht und folglich ein optimaler Weg vom Gitterpunkt (0, 0) bestimmt ist, werden ein akkumulierter Wert der Merkmalsvektoren und ein akkumulierter Wert von Wichtungen in jeder der assoziierten akustischen Kategorien längs des optimalen Weges im Merkmalsvektor- Akkumulationspuffer 26 und dem Wichtungszähler 27 bestimmt, die dem Endgitterpunkt (I, J) entsprechen.
Daher teilt, wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, beendet ist, der Mittelwertrechner 38 den Wert des Merkmalsvektor-Akkumulationspuffers 26, der dem Endgitterpunkt (I, J) entspricht, durch den Wert des Wichtungszählers 27, um dadurch einen Mittelwert Wp(j, c) in jeder akustischen Kategorie der Referenzmuster zu bestimmen.
Gemäß der zweiten Ausführungsform kann, nachdem die Referenzmuster nichtlinear in derselben Weise wie bei der Eingangssprache verarbeitet worden sind, ein Mittelwert in jeder Kategorie der Referenzmustern bestimmt werden. Daher wird die Genauigkeit, mit der der Mittelwert geschätzt wird, verbessert, und ebenso die Leistung der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien.
Fig. 4 zeigt eine Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer dritten Ausführungsform der vorliegenden Erfindung. Wie in Fig. 4 gezeigt, weist die Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien auf: einen Abschnitt zur Berechnung von Mittelwerten akustischer Kategorien, der identisch mit der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform ist, und einen Abschnitt zur Berechnung von Mittelwerten akustischer Kategorien, der identisch mit der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der zweiten Ausführungsform ist, wobei diese Abschnitte zur Berechnung von Mittelwerten akustischer Kategorien miteinander in einer Vorrichtung gekoppelt sind. Wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 ausgeführt wird, vollendet ist, kann die Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien Mittelwerte der akustischen Kategorien sowohl der Eingangssprache als auch der Referenzmuster gleichzeitig miteinander berechnen.
Gemäß der dritten Ausführungsform ist es möglich, sowohl die Eingangssprache als auch die Referenzmuster zu adaptieren, um Mittelwerte der akustischen Kategorien sowohl der Eingangssprache als auch der Referenzmuster zu bestimmen, nachdem die Maße nichtlinearer Dehnung und Zusammenziehung sowohl der Eingangssprache als auch der Referenzmustern ausgeglichen worden sind. Die Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien weist daher eine höhere Leistung auf.
Fig. 5 zeigt eine Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer vierten Ausführungsform der vorliegenden Erfindung. Wie in Fig. 5 gezeigt, weist die Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien auf: eine Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien, die identisch mit der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform ist, und eine Adaptierungseinheit 55, die mit der Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien verbunden ist. Unter Verwendung von Mittelwerten in den jeweiligen Kategorien von Eingangssprache, die durch die Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien berechnet worden sind, werden die Referenzmuster, die im Referenzmuster-Speicher 2 gespeichert sind, adaptiert, um neue Referenzmuster zu erzeugen.
Die Arbeitsweise der Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der vierten Ausführungsform, die dazu bestimmt ist, eine Sprecheradaptierung in derselben Weise wie bei Literatur 1 durchzuführen, die oben erwähnt wird, wird im folgenden beschrieben.
Ein Adaptierungsvektor Δj akustischer Kategorien wird aus einem Mittelwert [uj] bezüglich akustischer Kategorien j von Eingangssprache, der durch die Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien berechnet wird, und einem vorbestimmten Mittelwert uj bezüglich akustischer Kategorien j von Referenzmustern wie folgt bestimmt:
Δj = [uj] - uj
Bezüglich akustischer Kategorien i von Referenzmustern für Eingangssprache mit keinen darin vorhandenen akustischen Kategorien wird ihr Adaptierungsvektor Δi aus akustischen Kategorien j von Referenzmustern für Eingangssprache mit darin vorhandenen akustischen Kategorien unter Verwendung derselben spektralen Interpolation wie bei der obigen Literatur 1 wie folgt bestimmt:
Δi = wijΔj
Unter Verwendung dieser Adaptierungsvektoren führt die Adaptierungseinheit 55 eine Adaptierung durch, indem sie
u^k = uk + Δ
bezüglich aller Referenzmuster k herstellt, die zu den akustischen Kategorien i, j gehören, wobei Δ entweder Δi oder Δj ist, ausgewählt abhängig von der Art von k.
Wenn ein Mittelwert I(p, c) bezüglich akustischer Kategorien p bestimmt worden ist, d. h. ein Mittelwert M(p, c) bezüglich akustischer Kategorien p von Referenzmustern im voraus bestimmt worden ist, wird ein Adaptierungsvektor Δ(p, c) in jeder der akustischen Kategorien bestimmt durch:
Δ(P, c) = I(P, c) - M(P, c).
Die Adaptierungseinheit 55 addiert diesen Adaptierungsvektor in jeder der akustischen Kategorien der Referenzmuster, um die Referenzmuster zu adaptieren, um dadurch neue Referenzmustern zu erzeugen.
Während der Adaptierungsvektor verwendet wird, wie er ist, um die Referenzmuster im obigen Beispiel zu adaptieren, kann ein geeigneter Koeffizient Δ verwendet werden, um die folgende Gleichung herzustellen:
um das Maß der Adaptierung zu steuern, um eine übermäßig große Adaptierung zu vermeiden.
Die Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der vierten Ausführungsform kann aus einer Kombination der Adaptierungseinheit 55 und entweder der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien oder der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien zusammengesetzt sein.
Die Kombination der Adaptierungseinheit 55 und der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien zum Extrahieren von Umgebungsunterschieden, d. h. einem Unterschied der Kanalverzerrung und einem Unterschied des zusätzlichen Geräusches im spektralen Bereich zwischen einem Referenzmuster und einem kurzen Ausdruck, der erkannt werden soll, und Adaptieren der Referenzmuster an eine neue Umgebung unter Verwendung der Unterschiede wird im folgenden beschrieben.
Experimentelle Ergebnisse, die unter Verwendung einer her kömmlichen Spracherkennungsvorrichtung erhalten worden sind, sind durch Takagi, u. a. berichtet worden. Siehe Takagi, Hattori und Watanabe, "Speech Recognition with Environment Adaption by Spectrum Equalization", Spring Meeting of the Acoustical Society of Japan, 2-P-8, S. 173- 174; März 1994.
Es wird vorausgesetzt, daß zu klassifizierende akustische Kategorien Sprache und Geräusch sind. Ein Durchschnittsspektrum Sw eines Sprachmodells von Referenzmustern, ein Durchschnittsspektrum Nw eines Geräuschmodells von Referenzmustern, ein Durchschnittsspektrum Sv eines Sprachanteils von Eingangssprache und ein Durchschnittsspektrum Nv eines Geräuschanteils der Eingangssprache werden durch eine Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien erhalten.
Ein Sprachmodell von Referenzmustern W(t) wird adaptiert durch:
[W(t)] = ((Sv-Nv)/(Sw-Nw)) · (W(t)-(Nw)) + Nv
und ein Geräuschmodell von Referenzmustern wird adaptiert durch:
[w(t)] = Nv
Die vorliegende Erfindung ist auch auf jede Adaptierungs- oder Trainingsvorrichtung anwendbar, die anders als die obige Vorrichtung einen Mittelwert in jeder akustischen Kategorie verwendet.
Es ist zu verstehen, daß Variationen und Modifikationen der Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien und der Adaptierungsvorrichtung, die hierin offenbart werden, für Fachleute offensichtlich sein werden. Es wird beabsichtigt, daß alle solche Modifikationen und Variationen innerhalb des Rahmens der beigefügten Ansprüche eingeschlossen sind.

Claims

1. Vorrichtung zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem mit einer Vergleichseinheit (22) eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator (1) umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher (2) gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei die Vorrichtung aufweist:

ebensoviel Merkmalsvektor-Akkumulationspuffer (26) wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster, zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien;

ebensoviel Wichtungszähler (27) wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes von Wichtungen von Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen addiert werden;

einen Merkmalsvektorintegrator (24), der jedes Mal, wenn die Vergleichseinheit (22) einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, mit der Wichtung in jeder der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor-Akkumulationspuffern (26) addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern (26) speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern (27) gespeichert sind, und die Summe in den Wichtungszählern (27) speichert; und

einen Mittelwertrechner (28) zum Teilen akkumulierter Werte gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in den jeweiligen akustischen Kategorien, die in den Merkmalsvektor-Akkumulationspuffern (26) gespeichert sind, durch die akkumulierten Werte von Wichtungen in den akustischen Kategorien, die in den Wichtungszählern (27) gespeichert sind, und Ausgeben der Quotienten als Mittelwerte in den akustischen Kategorien der Merkmalsvektoren der Eingangssprache, die berechnet werden sollen.

2. Vorrichtung zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem mit einer Vergleichseinheit (22) eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator (1) umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher (2) gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei die Vorrichtung aufweist:

zwei Abschnitte zur Berechnung von Mittelwerten akustischer Kategorien, die jeweils aufweisen:

ebensoviel Merkmalsvektor-Akkumulationspuffer (26) wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien;

3. Vorrichtung zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem mit einer Vergleichseinheit (22) eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator (1) umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher (2) gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, und um die Eingangssprachmuster und/oder die Referenzmuster unter Verwendung des Mittelwertes in jeder der akustischen Kategorien zu adaptieren, wobei die Vorrichtung aufweist:

einen Merkmalsvektorintegrator (24), der jedes mal, wenn die Vergleichseinheit (22) einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, mit der Wichtung in jedem der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor-Akkumulationspuffern (26) addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern (26) speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern (27) gespeichert sind, und die Summe in den Wichtungszählern (27) speichert; und

4. Verfahren zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache umgewandelt worden sind, und Referenzmuster, die aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und addierte Wichtungsin formationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei das Verfahren die Schritte aufweist:

jedes Mal, wenn die Eingangssprache aufeinanderfolgend mit den Referenzmustern aus einem ersten Rahmen der Referenzmuster verglichen wird und ein Übergang zu einem nächsten Rahmen stattfindet, Integrieren von Werten, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, in dem die Eingangssprache mit den Referenzmustern verglichen wird, mit der Wichtung in jedem der akustischen Kategorien im Rahmen erzeugt worden sind, und Halten der integrierten Werte in jedem Rahmen;

Integrieren von Wichtungen in den jeweiligen akustischen Kategorien im Rahmen, in dem die Eingangssprache mit den Referenzmustern verglichen wird, und Halten der integrierten Wichtungen in jedem Rahmen;

nachdem die Eingangssprache mit den Referenzmustern in einem Endrahmen verglichen wird, Teilen eines gewichteten akkumulierten Wertes der Merkmalsvektoren in jeder der akustischen Kategorien im Endrahmen durch einen gewichteten akkumulierten Wert von Wichtungen in den entsprechenden akustischen Kategorien im Rahmen; und

Ausgeben eines Quotienten als einen Mittelwert in jeder der akustischen Kategorien.

5. Verfahren nach Anspruch 4, wobei eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren, die aus der Eingangssprache extrahiert werden, und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um einen Mittelwert in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache auszugeben.

6. Verfahren nach Anspruch 4, wobei eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren der Referenzmuster und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um einen Mittelwert in jeder der akustischen Kategorien der Merkmalsvektoren der Referenzmuster auszugeben.

7. Verfahren nach Anspruch 4, wobei eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren, die aus der Eingangssprache extrahiert werden, und den Merkmalsvektoren der Referenzmuster und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um Mittelwerte in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache und der Referenzmuster gleichzeitig miteinander auszugeben.