DE69519453T2 - Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien - Google Patents
Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer KategorienInfo
- Publication number
- DE69519453T2 DE69519453T2 DE69519453T DE69519453T DE69519453T2 DE 69519453 T2 DE69519453 T2 DE 69519453T2 DE 69519453 T DE69519453 T DE 69519453T DE 69519453 T DE69519453 T DE 69519453T DE 69519453 T2 DE69519453 T2 DE 69519453T2
- Authority
- DE
- Germany
- Prior art keywords
- acoustic
- frame
- feature vectors
- categories
- acoustic categories
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000006978 adaptation Effects 0.000 title description 29
- 239000013598 vector Substances 0.000 claims description 178
- 238000000034 method Methods 0.000 claims description 59
- 238000009825 accumulation Methods 0.000 claims description 53
- 239000000872 buffer Substances 0.000 claims description 43
- 230000008569 process Effects 0.000 claims description 36
- 230000007704 transition Effects 0.000 claims description 26
- 230000002123 temporal effect Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 description 35
- 238000012545 processing Methods 0.000 description 25
- 230000014509 gene expression Effects 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008602 contraction Effects 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Description
- Die vorliegende Erfindung betrifft allgemein Spracherkennung und insbesondere eine Verbesserung der Technik der Berechnung des Mittelwerts jeder akustischen Kategorie, die notwendig ist, um eine Sprecheradaptierung von Eingangssprache oder Referenzmustern zu bewirken.
- Mehrere unterschiedliche Spracherkennungstechniken sind abhängig von der Beschaffenheit und dem technologischen Niveau bekannt gewesen. Die Grundprinzipien hinter den existierenden Spracherkennungstechniken sind wie folgt: Ausdrücke, die erkannt werden sollen, werden in einem Trainings- oder Registrierungsmodus analysiert und als Referenzmuster gespeichert. Ein unbekannter Ausdruck, der durch einen Sprecher geäußert wird, wird in einem Erkennungs- oder Testmodus analysiert, und das als Ergebnis der Analyse erzeugte Muster wird aufeinanderfolgend mit den Referenzmustern verglichen. Dann wird ein Ergebnis, das einem der Referenzmuster entspricht, das mit dem Muster am besten übereinstimmt, als der erkannte Ausdruck ausgegeben.
- Unter verschiedenen Spracherkennungssystemen wird ein sprecherunabhängiges Spracherkennungssystem verbreitet verwendet, in dem Ausdrücke vieler Sprecher als Referenzmuster registriert sind, um sich der Verteilung der Sprechereigenarten anzupassen. Daher ist das sprecherunabhängige Spracherkennungssystem fähig, Ausdrücke eines unbekannten Sprechers mit einer verhältnismäßig hohen Spracherkennungsrate unabhängig von Sprachklangvariationen der unterschiedlichen Sprecher zu erkennen.
- Jedoch ist das sprecherunabhängige Spracherkennungssystem darin nachteilig, daß es keine hohe Leistung erzielen kann, wenn unbekannte Ausdrücke, die eingegeben werden, sich sehr stark von jenen unterscheiden, die als Referenzmuster registriert sind. Es ist ebenfalls bekannt, daß die Spracherkennungsrate des Systems verschlechtert wird, wenn ein Mikrophon verwendet wird, um einen Prüfausdruck aufzunehmen, das sich vom Mikrophon unterscheidet, daß verwendet wurde, um Ausdrücke aufzunehmen, um Referenzmustern bereitzustellen.
- Es ist eine Technik, die als "Sprecheradaptierung" bekannt ist, vorgeschlagen worden, um die Spracherkennungsrate zu verbessern. Der Sprecheradaptierungsprozeß setzt verhältnismäßig wenige Ausdrücke ein, die durch einen spezifischen Sprecher oder ein spezifisches Mikrophon bereitgestellt werden, um Referenzmuster an die Ausdrücke zu adaptieren. Ein Beispiel des Sprecheradaptierungsverfahrens wird durch K. Shinoda u. a. in "Speaker Adaption on Using Spectral Interpolation for Speech Recognition", Trans. of IEICE (Jap.), Ausg. J 77-A, Nr. S. 120 - 127, Feb. 1994 offenbart (das im folgenden als "Literatur 1" bezeichnet wird).
- Ein herkömmliches Spracherkennungssystem, das zur Sprecheradaptierung verwendet wird, wird im folgenden unter Bezugnahme auf Fig. 1 der beigefügten Zeichnungen beschrieben.
- Wie in Fig. 1 gezeigt, weist das herkömmliche Spracherkennungssystem auf: einen Analysator 1 zur Umwandlung der Eingangssprache in ein zeitliche Abfolge von Merkmalsvektoren, einen Referenzmuster-Speicher 2 zum Speichern von Referenzmustern, d. h. einer zeitlichen Abfolge von Merkmalsvektoren, die aus Trainingsausdrücken umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, eine Vergleichseinheit 12 zum Vergleichen der zeitlichen Abfolge von Merkmalsvektoren von Eingangsausdrücken und den Referenzmustern, um einen optimalen Weg und einen Zeitabgleich zwischen den Eingangsausdrücken und den Referenzmustern zu bestimmen, einen Rückwärtsverarbeitungsinformations-Speicher 14 zum Speichern zweidimensionaler Informationen, die durch die Vergleichseinheit 12 assoziiert werden, einen Schabloneninformations-Speicher 16 zum Speichern von Schabloneninformationen, d. h. der Indexinformation einer Schablone, die anzeigt, welche Schablone an jeweiligen Gitterpunkten verwendet worden ist, wenn die Schablone eine Mehrfachschablone ist, die mehrere Referenzmustern aufweist, und einen Durchschnittsvektor-Rechner 18 zum Ausführen eines Rückwärtsverarbeitungsprozesses, um festzustellen, welches Referenzmuster jedesmal mit der Eingangssprache assoziiert ist, beruhend auf der zweidimensionalen assoziierten Information, die im Rückwärtsverarbeitungsinformations-Speicher 14 gespeichert ist. Sowohl der Rückwärtsverarbeitungsinformations-Speicher 14 als auch der Schabloneninformations-Speicher 16 weisen einen zweidimensionalen Speicherbereich auf, der eine Größe von (Länge der Eingangssprache) · (Länge des Referenzmusters) aufweist.
- Der Analysator 1 kann Eingangssprache in eine zeitliche Abfolge von Merkmalsvektoren entsprechend irgendeines verschiedener Spektralanalyseverfahren umwandeln. Diese verschiedenen Spektralanalyseverfahren umfassen ein Verfahren zum Einsetzen von Ausgangssignalen aus einer Bandpaßfilterbank in 10 bis 30 Kanälen, ein nichtparametrisches Spektralanalyseverfahren, ein lineares Prädikationscodierungs- (LPC-) Verfahren und ein Verfahren zum Erhalten verschiedener mehrdimensionaler Vektoren, die Kurzzeitspektren von Eingangssprache repräsentieren, mit verschiedenen Parametern, die ein Spektrum umfassen, das direkt aus einer Wellenform berechnet wird durch eine schnelle Fourier-Transformation (FFT), ein Kepstrum, das eine inverse Fourier-Transformation des Logarithmus eines Kurzzeitamplitudenspektrums einer Wellenform ist, eine Autokorrelationsfunktion, und eine spektrale Einhüllende, die durch LPC erzeugt wird.
- Im allgemeinen weisen Merkmalsvektoren, die aus Eingangssprache so extrahiert werden, daß sie Sprachmerkmale repräsentieren, wobei diskrete Zeiten als ein Rahmen verwendet werden, eine Leistungsinformation, eine Änderung der Leistungsinformation, ein Kepstrum, und einen linearen Regressionskoeffizienten eines Kepstrums auf. Spektren selbst und logarithmische Spektren werden ebenfalls als Merkmalsvektoren verwendet.
- Sprache eines Standardsprechers wird analysiert und in derselben Weise wie der Analyseprozeß, der durch den Analysator 1 eingesetzt wird, in eine zeitliche Abfolge von Merkmalsvektoren umgewandelt, und die Merkmalsvektoren werden als Referenzmuster in Einheiten von isolierten Worten, verbundenen Worten oder Phonemen im Referenzmuster-Speicher 2 registriert. Wichtungsinformationen für jeweilige Kategorien, die klassifiziert werden sollen, werden im voraus bezüglich dieser Referenzmuster hergestellt.
- Die Vergleichseinheit 12 führt einen Vergleich des dynamischen Zeitverzugs zwischen der zeitlichen Abfolge der Merkmalsvektoren der Eingangssprache, die durch den Analysator 1 umgewandelt wird, und den Referenzmustern, die im Referenzmuster- Speicher 2 gespeichert sind, aus. Der Vergleichsalgorithmus zwischen den beiden Mustern ist vorzugsweise einer der Algorithmen, die eine nichtlineare Dehnung und Zusammenziehung im Zeitbereich berücksichtigen, weil die zeitliche Abfolge der Eingangssprache und der Referenzmuster im Zeitbereich leicht gedehnt und zusammengezogen wird. Die Algorithmen, die eine nichtlineare Dehnung und Zusammenziehung im Zeitbereich berücksichtigen, umfassen ein DP (Dynamisches Programmierungs-) Vergleichsverfahren, ein HMM (Hidden-Markov-Modell-) Vergleichsverfahren, und so weiter. In der im folgenden gegebenen Beschreibung wird der DP-Vergleich erläutert, der in der Technik der gegenwärtigen Spracherkennung verbreitet verwendet wird.
- Wenn vorausgesetzt wird, daß die Symbole "i", "j" Zeitrahmen (i = 0 bis I), (j = 0 bis J) einer jeweiligen Eingangssprache und eines Referenzmusters darstellen, und das Symbol "c" eine Vektorkomponente darstellt, dann wird die zeitliche Abfolge der Merkmalsvektoren der Eingangssprache durch X(i, c) angegeben, und die zeitliche Abfolge der Referenzmuster wird durch Y(j, c) angegeben.
- Die Eingangssprache und die Referenzmustern bilden einen zweidimensionalen Raum, der aus Gitterpunkten (i, j) besteht, und es wird ein minimaler Weg von akkumulierten Abständen, unter den Wegen von einen Start-Ende (0, 0) zu einem End-Ende (I, J) als eine optimale Assoziation zwischen den beiden Mustern betrachtet, und die akkumulierten Abstände werden als der Abstand zwischen den Mustern bezeichnet. Gemäß der Spracherkennung, die auf dem DP-Vergleich beruht, werden Abstände zwischen der Eingangssprache und allen Referenzmustern berechnet, und die akustische Kategorie eines der Referenzmuster, die einen minimalen Abstand ergibt, wird als das Ergebnis der Spracherkennung ausgegeben.
- Wenn der DP-Vergleich zur Adaptierung oder zum Lernen ausgeführt wird, dann hat, da ein Referenzmuster und die zu vergleichende Sprache schon begrenzt sind, der DP-Vergleich vielmehr seine Aufgabe darin, einen Mittelwert von Merkmalsvektoren in jeder akustischen Kategorie zu bestimmen, wenn ein optimaler Zeitabgleich zwischen zwei Mustern erhalten wird, als eine Spracherkennung.
- Abstände d(i, j) zwischen den Vektoren der Gitterpunkte (i, j) der zeitlichen Abfolge X(i, c) der Merkmalsvektoren der Eingangssprache und der zeitlichen Abfolge Y(j, c) der Merkmalsvektoren der Referenzmuster sind wie folgt definiert:
- wobei k eine k-te Schablone am jeweiligen Gitterpunkt repräsentiert. Ein Abstand für jeden Gitterpunkt entspricht dem Minimalen der Abstände, die durch mehrere k Schablonen gegeben sind.
- Gemäß dem DP-Vergleich werden die akkumulierten Abstände D(i, j), die mit den Gitterpunkten (i, j) assoziiert sind, durch die folgende rekursive Gleichung angegeben:
- Insbesondere werden die akkumulierten Abstände D in eine Richtung der Zunahme der Zeit für die Eingangssprache berechnet, wobei der Gitterpunkt (0, 0) als ein Startpunkt und der Anfangswert D (0, 0) als d (0, 0) verwendet werden, und wenn akkumulierte Abstände bis zum Endgitterpunkt (I, J) bestimmt werden, wird angenommen, daß ein optimaler Vergleichsweg zwischen den beiden Mustern bestimmt ist.
- Die Rückwärtsverarbeitungsinformation, die im Rückwärtsverarbeitungsinformations-Speicher 5 gespeichert ist, ist eine Übergangsinformation B(i, j) der jeweiligen Gitterpunkte, die wie folgt ausgedrückt wird:
- wobei argmin(j) die Auswahl von irgendeinem der Werte j, j - 1, j - 2 repräsentiert, der D einen minimalen Wert gibt, als den Wert einer j-Komponente.
- Die Schabloneninformation T(i, j), die im Schabloneninformations-Speicher 16 gespeichert ist, wird repräsentiert durch:
- Der Rückwärtsverarbeitungsprozeß, der vordem durch den herkömmlichen Durchschnittsvektor-Rechner 18 ausgeführt worden ist, wird unten in bezug auf ein einfaches Beispiel beschrieben, wo die Anzahl der zu klassifizierenden akustischen Kategorien 2 ist, d. h. Eingangssprache in einen Geräuschanteil und einen Sprachanteil unterteilt wird, und deren Mittelwerte bestimmt werden.
- Wenn die Mittelwerte der Geräusch- und Sprachanteile jeweils durch N(c), S(c) angegeben werden, dann werden die Mittelwerte in den jeweiligen akustischen Kategorien zurück längs des optimalen Weges von einem Gitterpunkt (I, J) zu einem Gitterpunkt (0, 0) wie folgt berechnet:
- In einem ersten Schritt, werden die Werte von i, j, N(c), S(c) jeweils auf I, J, 0, 0 wie folgt gesetzt:
- i = I,
- j = J
- N(c) = 0, und
- S(c) = 0.
- In einem zweiten Schritt wird die Art der akustischen Kategorie des Gitterpunkts (i, j) überprüft. Wenn es sich um eine Sprachkategorie handelt, dann wird S(c) = S(c) + X(i, c) berech net, und wenn es sich um eine Geräuschkategorie handelt, dann wird N(c) = N(c) + X(I, c) berechnet.
- In einem dritten Schritt, werden die Werte von i und j überprüft. Wenn beide 0 sind, dann springt die Verarbeitung zu einem fünften Schritt, und wenn i oder j nicht 0 ist, dann rückt die Verarbeitung zu einem vierten Schritt vor.
- Im vierten Schritt wird i um 1 vermindert, und die Übergangsinformation B(i, j)des Gitterpunkts (i, j) wird in j wie folgt eingesetzt:
- 1 = i - 1, und
- j = B(i, j).
- Danach kehrt die Verarbeitung zum zweiten Schritt zurück, und die zweiten und folgenden Schritte werden wiederholt.
- Im fünften Schritt werden die Inhalte von N(c), S(c) durch die Anzahl der Male geteilt, die jeweils akkumuliert werden, und die Mittelwerte in den jeweiligen akustischen Kategorien werden berechnet. Die Verarbeitung ist nun vollendet.
- In der herkömmlichen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien wird der Rückwärtsverarbeitungsprozeß ausgeführt, indem von einer Gitterpunktposition, die aus einem Abschlußendpunkt von Eingangssprache und einem Abschlüßendpunkt eines Referenzmusters zurück zu einem Startende gegangen wird, um die Eingangssprache und das Referenzmuster in einem zweidimensionalen Raum zu assoziieren. Durchschnittsvektoren der Eingangssprache werden in jeweiligen Kategorien des Referenzmusters berechnet, das durch den Rückwärtsverarbeitungsprozeß assoziiert worden ist, und werden als Mittelwerte akustischer Kategorien ausgegeben.
- Da es erforderlich ist, daß die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien im zweidimensionalen Raum sowohl im Vergleichsprozeß sucht, der durch die Vergleichseinheit 12 ausgeführt wird, aus auch im Rückwärtsverarbeitungsprozeß, der durch den Durchschnittsvektor- Rechner 18 ausgeführt wird, ist die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien darin nachteilig, daß sie eine große Menge an Berechnungen benötigt und folglich nicht geeignet für einen Echtzeitbetrieb ist. Da der Rückwärtsverarbeitungsprozeß, der durch den Durchschnittsvektor-Rechner 18 ausgeführt wird, nicht gestartet werden kann, sofern der Vergleichsprozeß, der durch die Vergleichseinheit 12 ausgeführt wird, nicht beendet ist, können ferner der Rückwärtsverarbeitungsprozeß und der Vergleichsprozeß nicht gleichzeitig parallel zueinander ausgeführt werden, d. h. sie können nicht durch eine sogenannte Pipeline-Verarbeitung ausgeführt werden. Auch dies macht die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien unfähig zum Echtzeitbetrieb.
- Selbst wenn die Anzahl zu klassifizierender akustischer Kategorien klein ist, benötigt die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien notwendigerweise einen großen Speicher als einen zweidimensionalen Speicherbereich zum Ausführen des Rückwärtsverarbeitungsprozesses. Aus diesem Grund ist es unmöglich gewesen, die herkömmliche Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien kostengünstig herzustellen.
- Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien und eine Adaptierungsvorrichtung bereitzustellen, die eine reduzierte Speichergröße zur Adaptierung von Eingangssprache oder Referenzmustern benötigen, und effizient arbeiten, ohne einen Bedarf nach einem Rückwärtsverarbeitungsprozeß.
- Erfindungsgemäß wird eine Vorrichtung bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie indem mit einer Vergleichseinheit eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei die Vorrichtung aufweist: ebensoviel Merkmalsvektor- Akkumulationspuffer wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien, ebensoviel Wichtungszähler wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes von Wichtungen von Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen addiert werden, einen Merkmalsvektorintegrator, der jedes Mal, wenn die Vergleichseinheit einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen mit der Wichtung in jedem der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor- Akkumulationspuffern addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern gespeichert sind, und die Summe in den Wichtungszählern speichert, und einen Mittelwertrechner zum Teilen akkumulierter Werte gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in den jeweiligen akustischen Kategorien, die in den Merkmalsvektor- Akkumulationspuffern gespeichert sind; durch die akkumulierten Werte von Wichtungen in den akustischen Kategorien, die in den Wichtungszählern gespeichert sind, und Ausgeben der Quotienten als Mittelwerte in den akustischen Kategorien der Merkmalsvektoren der Eingangssprache, die berechnet werden sollen.
- Erfindungsgemäß wird auch eine Vorrichtung bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem mit einer Vergleichseinheit eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei die Vorrichtung aufweist: zwei Abschnitte zur Berechnung von Mittelwerten akustischer Kategorien, die jeweils aufweisen: ebensoviel Merkmalsvektor-Akkumulationspuffer wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien, ebensoviel Wichtungszähler wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes von Wichtungen von Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen addiert werden, einen Merkmalsvektorintegrator, der jedes Mal, wenn die Vergleichseinheit einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, mit der Wichtung in jedem der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor-Akkumulationspuffern addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern gespeichert sind, und die Summe in den Wichtungszählern speichert, und einen Mittelwertrechner zum Teilen akkumulierter Werte gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in den jeweiligen akustischen Kategorien, die in den Merkmalsvektor-Akkumulationspuffern gespeichert sind, durch die akkumulierten Werte von Wichtungen in den akustischen Kategorien, die in den Wichtungszählern gespeichert sind, und Ausgeben der Quotienten als Mittelwerte in den akustischen Kategorien der Merkmalsvektoren der Eingangssprache, die berechne t werden sollen.
- Erfindungsgemäß wird auch eine Vorrichtung bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem mit einer Vergleichseinheit eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache durch einen Analysator umgewandelt worden sind, und Referenzmuster, die in einem Referenzmuster-Speicher gespeichert sind und aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und addierte Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durch zuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, und um die Eingangssprachmuster und/ oder die Referenzmuster unter Verwendung des Mittelwertes in jeder der akustischen Kategorien zu adaptieren, wobei die Vorrichtung aufweist: zwei Abschnitte zur Berechnung von Mittelwerten akustischer Kategorien, die jeweils aufweisen: ebensoviel Merkmalsvektor-Akkumulationspuffer wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter Merkmalsvektoren in den akustischen Kategorien, ebensoviel Wichtungszähler wie die Anzahl akustischer Kategorien in jedem Rahmen der Referenzmuster zum Speichern eines akkumulierten Wertes von Wichtungen von Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen addiert werden, einen Merkmalsvektorintegrator, der jedes Mal, wenn die Vergleichseinheit einen Vergleichsprozeß in jedem Rahmen durchführt, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, mit der Wichtung in jedem der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird und der unmittelbar zuvor einem Vergleich unterzogen worden ist, in den Merkmalsvektor-Akkumulationspuffern addiert, die Summen im Rahmen in den Merkmalsvektor-Akkumulationspuffern speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen in den Wichtungszählern gespeichert sind, und die Summe in den Wichtungszählern speichert, und einen Mittelwertrechner zum Teilen akkumulierter Werte gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in den jeweiligen akustischen Kategorien, die in den Merkmalsvektor- Akkumulationspuffern gespeichert sind, durch die akkumulierten Werte von Wichtungen in den akustischen Kategorien, die in den Wichtungszählern gespeichert sind, und Ausgeben der Quotienten als Mittelwerte in den akustischen Kategorien der Merkmalsvektoren der Eingangssprache, die berechnet werden sollen.
- Erfindungsgemäß wird auch ein Verfahren bereitgestellt zur Berechnung eines Mittelwertes in jeder akustischen Kategorie, indem eine zeitliche Abfolge von Merkmalsvektoren, die aus Eingangssprache umgewandelt worden sind, und Referenzmuster, die aus einer zeitlichen Abfolge von Merkmalsvektoren bestehen, die aus Trainingssprachklängen umgewandelt worden sind und addierte Wichtungsinformationen für jede akustische Kategorie enthalten, verglichen werden, um einen Zeitabgleich in jedem Rahmen durchzuführen, um dadurch einen Mittelwert in jeder der akustischen Kategorien zu berechnen, wobei das Verfahren die Schritte aufweist: jedes Mal, wenn die Eingangssprache aufeinanderfolgend mit den Referenzmustern aus einem ersten Rahmen der Referenzmuster verglichen wird und ein Übergang zu einem nächsten Rahmen stattfindet, Integrieren von Werten, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache, die im Rahmen berechnet werden sollen, in dem die Eingangssprache mit den Referenzmustern verglichen wird, mit der Wichtung in jedem der akustischen Kategorien im Rahmen erzeugt worden sind, und Halten der integrierten Werte in jedem Rahmen, Integrieren von Wichtungen in den jeweiligen akustischen Kategorien im Rahmen, in dem die Eingangssprache mit den Referenzmustern verglichen wird, und Halten der integrierten Wichtungen in jedem Rahmen, nachdem die Eingangssprache mit den Referenzmustern in einem Endrahmen verglichen wird, Teilen eines gewichteten akkumulierten Wertes der Merkmalsvektoren in jeder der akustischen Kategorien im Endrahmen, durch einen gewichteten akkumulierten Wert von Wichtungen in den entsprechenden akustischen Kategorien im Rahmen, und Ausgeben eines Quotienten als einen Mittelwert in jeder der akustischen Kategorien.
- Im obigen Verfahren kann eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren, die aus der Eingangssprache extrahiert werden, und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um einen Mittelwert in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache auszugeben.
- Im obigen Verfahren kann eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren der Referenzmuster, und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um einen Mittelwert in jeder der akustischen Kategorien der Merkmalsvektoren der Referenzmuster auszugeben.
- Im obigen Verfahren kann eine Akkumulation gewichteter Merkmalsvektoren in jeder der akustischen Kategorien bezüglich den Merkmalsvektoren, die aus der Eingangssprache extrahiert werden, und den Merkmalsvektoren der Referenzmuster und ein akkumulierter Wert von Wichtungen derselben berechnet werden, um Mittelwerte in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache und der Referenzmuster gleichzeitig miteinander auszugeben.
- Eine erfindungsgemäße Adaptierungsvorrichtung weist eine Adaptierungseinheit auf zum Adaptieren der Eingangssprachmuster und/oder der Referenzmuster unter Verwendung von Mittelwerten in den jeweiligen akustischen Kategorien, die durch die erfindungsgemäße Vorrichtung zur Berechnung eines Mittelwerts in jeder akustischen Kategorie berechnet werden.
- Da ein Mittelwert in jeder akustischen Kategorie durch die Vorrichtung zum Zeitpunkt der Vollendung des Vergleichsprozes ses berechnet wird, kann der Berechnungsprozeß in einem Schritt ausgeführt werden, und kann folglich eine reduzierte Speichergröße benötigen und mit einer hohen Geschwindigkeit arbeiten. Da die Vorrichtung fähig ist, gleichzeitig den Vergleichsprozeß und den Durchschnittsvektor-Integrationsprozeß durchzuführen, ist die Vorrichtung in der Lage, parallele Berechnungen durch eine Pipeline-Verarbeitung auszuführen und folglich eine Echtzeit-Verarbeitung auszuführen.
- Die obigen und andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden aus der folgenden Beschreibung deutlich werden, die auf die beigefügten Zeichnungen bezug nimmt, die ein Beispiel bevorzugter Ausführungsformen der vorliegenden Erfindung veranschaulichen.
- Fig. 1 ist ein Blockdiagramm einer herkömmlichen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien;
- Fig. 2 ist ein Blockdiagramm einer Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
- Fig. 3 ist ein Blockdiagramm einer Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer zweiten Ausführungsform der vorliegenden Erfindung;
- Fig. 4 ist ein Blockdiagramm einer Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer dritten Ausführungsform der vorliegenden Erfindung; und
- Fig. 5 ist ein Blockdiagramm einer erfindungsgemäßen Adaptierungsvorrichtung.
- Wie in Fig. 2 gezeigt, weist eine Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer ersten Ausführungsform der vorliegenden Erfindung auf: eine Vergleichseinheit 22 zum Vergleichen einer zeitlichen Abfolge von Merkmalsvektoren, die durch einen Analysator 1 aus Eingangs sprache umgewandelt worden sind, und Referenzmustern, die in einem Referenzmuster-Speicher 2 gespeichert sind, d. h. einer zeitlichen Abfolge von Merkmalsvektoren, die aus Trainingssprachklängen umgewandelt worden sind und addierte Wichtungsinformationen für jede akustische Kategorie enthalten, um einen Normierungsvergleich, d. h. einen Zeitabgleich zwischen der Eingangssprache und den Referenzmustern durchzuführen, ebensoviel Eingangssprachen-Merkmalsvektor-Akkumulationspuffer 26 wie die Anzahl akustischer Kategorien in jedem Rahmen der zeitlichen Abfolge von Merkmalsvektoren der Referenzmuster zum Speichern einer Akkumulation gewichteter Merkmalsvektoren der Eingangssprache, Wichtungszähler 27 zum Speichern von Wichtungen, die in jeder der akustischen Kategorien der Merkmalsvektoren der Eingangssprache akkumuliert werden, die in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffern 26 gespeichert werden, einen Eingangssprachen-Merkmalsvektorintegrator 24, der jedes Mal, wenn die Vergleichseinheit 22 einen Vergleichsprozeß in einem Rahmen bei jedem der Male durchführt und einen Übergang zu einem nächsten Rahmen macht, Werte, die durch Multiplizieren der Merkmalsvektoren der Eingangssprache im Rahmen mit der Wichtung in jeder der akustischen Kategorien erzeugt worden sind, zu Werten, die im Rahmen gespeichert sind, von dem ein Übergang gemacht wird, derselben akustischen Kategorie in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffern 26 addiert, die Summen im Rahmen in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffer 26 speichert, die Wichtung in jeder der akustischen Kategorien im Rahmen, von dem der Übergang gemacht wird, zu Werten addiert, die in derselben akustischen Kategorie im Rahmen im Wichtungszähler 27 gespeichert sind, und die Summe in den Wichtungszählern 27 speichert, und einen Mittelwertrechner 28, der nach dem Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, und dem Akkumulationsprozeß, der durch den Eingangssprachen-Merkmalsvektorintegrator 24 durchgeführt wird, Werte von Endrahmenpositionen in den jeweiligen akustischen Kategorien in den Eingangssprachen-Merkmalsvektor-Akkumulationspuffern 26 durch die Werte in den entsprechenden Wichtungszählern 27 teilt, und die Quotienten als Mittelwerte in den akustischen Kategorien der Eingangssprache ausgibt.
- Die Eingangssprache wird durch den Analysator 1 in derselben Weise wie mit dem herkömmlichen Analysator 1 in eine zeitliche Abfolge von Merkmalsvektoren umgewandelt. Die Merkmalsvektoren der Eingangssprache, die durch den Analysator 1 umgewandelt worden sind, sind im Zeitbereich mit den Referenzmustern assoziiert, die im Referenzmuster-Speicher 2 gespeichert sind, durch einen bekannten dynamischen Zeitverzugvergleichsprozeß, wie den DP-Vergleich oder dem HMM-Vergleich.
- Es wird vorausgesetzt, daß die Rahmen der Eingangssprache und der Referenzmuster, d. h. diskrete Zeiten, durch i (i = 1 bis I) bzw. j (j = 0 bis J) repräsentiert werden, die zeitliche Abfolge der Merkmalsvektoren der Eingangssprache durch X(i, c) repräsentiert wird und die zeitliche Abfolge der Merkmalsvektoren der Referenzmuster durch Y(k) (j, c) repräsentiert wird, wobei c ein Suffix ist, das die Kanalkomponenten der Merkmalsvektoren repräsentiert und k eine ausgewählte Schablone ist. Es gibt ebensoviel Merkmalsvektor-Akkumulationspuffer 26 und ebensoviel Wichtungszähler 27 wie die Anzahl an Kategorien p und die Anzahl an Referenzmustern j, und sie werden jeweils durch Vp(j, c), Vcp(j) repräsentiert.
- Der Eingangssprachen-Merkmalsvektorintegrator 24 führt die folgende Verarbeitung bei jedem Übergang durch, der für jeden Gitterpunkt durch die Vergleichseinheit 22 ausgeführt wird, wobei vorausgesetzt wird, daß eine ausgewählte Schablone durch k' und ein ausgewählter Übergang durch j' repräsentiert wird.
- Vp(j, c) = Vp(j', c) + wp(j)X (i, c)
- Vcp(j) = Vcp (j') + wp (j)
- wobei wp(j) die Wichtung einer Kategorie p ist, d. h. eine Quantität, die anzeigt, wie sehr ein Rahmen j zur Kategorie p gehört, und im voraus bezüglich jedes Rahmens j eines Referenzmusters bestimmt wird. Die Wichtung wp(j) weist einen großen Wert auf, wenn das Maß, in dem der Rahmen j zu der Kategorie p gehört, groß ist, und weist einen kleinen Wert auf, wenn das Maß, mit dem der Rahmen j zur Kategorie p gehört, klein ist. Im einfachsten Fall ist es möglich, die Wichtung wp(j) für nur die Kategorie, zu der der Rahmen j gehört, auf 1 zu setzen, und sie für die anderen Kategorien auf 0 zu setzen. In diesem Fall wird vielmehr ein einfacher Mittelwert, als ein gewichteter Mittelwert bestimmt.
- Zu dem Zeitpunkt, zu dem die Berechnungen, die durch die Vergleichseinheit 22 ausgeführt werden, beendet sind, d. h. zu dem Zeitpunkt, bei dem ein optimaler Weg von einem Gitterpunkt (0, 0) zu einem Gitterpunkt (I, J) bestimmt ist, werden eine gewichtete Akkumulation und eine Akkumulation integrierter Wichtungen in jeder der assoziierten akustischen Kategorien längs des optimalen Weges in Endrahmenpositionen (I, J) in den Merkmalsvektor-Akkumulationspuffern 26 und den Wichtungszählern 27 gespeichert.
- Der Mittelwertrechner 28 teilt die Werte, die im Merkmalsvektor-Akkumulationspuffer 26 gespeichert sind, die den Endrahmen in den jeweiligen akustischen Kategorien der Referenzmuster zugeordnet sind, durch die Werte, die in den entsprechenden Wichtungszählern 27 gespeichert sind, um dadurch Mittelwerte Vp(J, c) in den jeweiligen akustischen Kategorien der Eingangs sprache zu bestimmen.
- Es wird wie beim herkömmlichen Prozeß vorausgesetzt, daß akustische Kategorien, die klassifiziert werden sollen, zwei Arten von Schablonen aufweisen, d. h. Sprache und Geräusch, und daß die Wichtung bezüglich jeder Kategorie der Kürze willen einen Wert 1 oder 0 ausweist, z. B. wird eine Kategorie der Eingangssprache so identifiziert, daß sie entweder Sprache oder Geräusch ist. Es wird auch vorausgesetzt, daß ein Geräuschanteil der Merkmalsvektor-Akkumulationspuffer 26 durch V(j, c), ein Sprachanteil derselben durch W(j, c), ein Geräuschanteil der Wichtungszähler 27 durch Vc(j) und ein Sprachanteil derselben durch Wc(j) repräsentiert wird.
- Wie im herkömmlichen Prozeß beginnt die Vergleichseinheit 22 damit, einen Vergleichsprozeß von einem Startpunkt an einem Gitterpunkt (0, 0) jedes Rahmens mit einem akkumulierten Abstand D(i, j) = D(0, 0) auszuführen, und führt den Vergleichsprozeß fortschreitend in die Richtung aus, in der die Eingangssprache Y(j, c) zunimmt, wobei der akkumulierte Abstand berechnet wird, bis letztlich ein Gitterpunkt (I, J) erreicht ist.
- Abhängig vom Übergang jedes Gitterpunkts X, Y in der Vergleichseinheit 22, arbeitet der Merkmalsvektorintegrator 24 wie folgt:
- Wenn die Merkmalsvektoren y(k')(j, c) der Eingangssprache die Sprachschablone sind, dann werden die Merkmalsvektoren X(i, c) des Gitterpunkts, zu dem ein Übergang gemacht wird, zum Sprachanteil W(j', c) der Merkmalsvektor-Akkumulationspuffer 26 addiert, und 1 wird zum Sprachanteil Wc(j') der Wichtungszähler 27 addiert, wie folgt:
- V(j,c) = V(j', c)
- W(j.c) = W(j', c) + X(i,c)
- Vc(i) = Vc(j')
- Wc(j) = Wc(j') + 1.
- Wenn die Merkmalsvektoren Y(k')(j, c) der Eingangssprache die Geräuschschablone sind, dann werden die Merkmalsvektoren X(i, c) des Gitterpunkts, zu dem ein Übergang gemacht wird, zum Geräuschanteil V(j', c) der Merkmalsvektor-Akkumulationspuffer 26 addiert, und 1 wird zum Geräuschanteil Vc(j') der Wichtungszähler 27 addiert, wie folgt:
- V(j,c) = V(j',c) + X(i,c)
- W(j,c) = W(j',c)
- Vc(i) = Vc(j') + 1
- Wc(i) = Wc(j')
- Wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgerührt wird, den Gitterpunkt (I, J) erreicht und folglich ein optimaler Weg vom Gitterpunkt (0, 0) bestimmt ist, werden ein akkumulierter Wert der Merkmalsvektoren und ein akkumulierter Wert von Wichtungen in jeder der assoziierten akustischen Kategorien längs des optimalen Weges im Merkmalsvektor- Akkumulationspuffer 26 und dem Wichtungszähler 27 bestimmt, die dem Endgitterpunkt (I, J) entsprechen.
- Daher teilt, wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, beendet ist, der Mittelwertrechner 28 den Wert des Merkmalsvektor-Akkumulationspuffers 26, der dem Endgitterpunkt (I, J) entspricht, durch den Wert des Wichtungszählers 27, um dadurch einen Mittelwert in jeder akustischen Kategorie der Eingangssprache zu bestimmen, d. h. einen Mittelwert V(J, c) des Geräuschanteils der Eingangssprache und einen Mittelwert W(J, c) dessen Sprachanteils.
- Wenn die Anzahl akustischer Kategorien, die klassifiziert werden sollen, klein ist, dann kann die Speichergröße kleiner als jene der herkömmlichen Vorrichtung sein. Für einen allgemeinen Maßstab zum Beispiel, bei dem die Anzahl zu klassifizie render akustischer Kategorien 2 ist, die Länge der Referenzmuster 100 beträgt, die Länge der Eingangssprache 200 beträgt und die Anzahl der Dimensionen der Merkmalsvektoren 20 beträgt, hat die herkömmliche Vorrichtung eine Speichergröße von 100 · 200 · 2 = 40000 zum Speichern von Rückwärtsverarbeitungs- und Schabloneninformationen benötigt, wohingegen die erfindungsgemäße Vorrichtung eine Speichergröße von nur 100 · 2 · 20 + 100 · 2 = 4200 zum Speichern von Rückwärtsverarbeitungs- und Schabloneninformationen benötigt. Daher können, da die Speichergröße der erfindungsgemäßen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien etwa 1/10 derjenigen der herkömmlichen Vorrichtung beträgt, die Kosten der erfindungsgemäßen Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien niedriger als jene der herkömmlichen Vorrichtung sein.
- Fig. 3 zeigt eine Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer zweiten Ausführungsform der vorliegenden Erfindung. Wie in Fig. 3 gezeigt, weist die Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien auf: eine Vergleichseinheit 22, die identisch mit der Vergleichseinheit 22 der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform ist, die in Fig. 2 gezeigt wird, einen Merkmalsvektorintegrator 34, Merkmalsvektor-Akkumulationspuffer 36, Wichtungszähler 37 und einen Mittelwertrechner 38. Während der Merkmalsvektorintegrator 24 der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform die Merkmalsvektoren von Eingangssprache in den Merkmalsvektor-Akkumulationspuffern 26 und den Wichtungszählern 27 integriert, unterscheidet sich der Merkmalsvektorintegrator 34 davon darin, daß er Referenzmuster, die im Referenzmuster-Speicher 2 gespeichert sind, mit Eingangssprache ver gleicht, und gewichtete Merkmalsvektoren und Wichtungen der Referenzmuster in den Merkmalsvektor-Akkumulationspuffern 36 und den Wichtungszählern 37 integriert und speichert, und der Mittelwertrechner 38 einen Mittelwert der Referenzmuster ausgibt.
- Daher sind die Anordnungen und die Arbeitsweise der Teile der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien im wesentlichen dieselben wie jene der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform.
- Es wird vorausgesetzt, daß die zeitliche Abfolge von Merkmalsvektoren von Eingangssprache durch X(i, c) repräsentiert wird, und die zeitliche Abfolge von Merkmalsvektoren von Referenzmustern durch Y(k) (j, c) repräsentiert wird, wobei i, j Rahmen (diskrete Zeiten) der Eingangssprache bzw. der Referenzmuster repräsentieren, c ein Suffix ist, das die Kanalkomponenten der Merkmalsvektoren repräsentiert, und k eine ausgewählte Schablone ist. Es gibt ebensoviel Merkmalsvektor-Akkumulationspuffer 36 wie die Anzahl von Referenzmustern j von Kategorien p, und sie werden durch wp(j, c) repräsentiert. Entsprechend werden die Wichtungszähler 37 durch wcp(j) repräsentiert.
- Der Merkmalsvektorintegrator 34 führt die folgende Verarbeitung bei jedem Übergang aus, der für jeden Gitterpunkt durch die Vergleichseinheit 22 ausgeführt wird, wobei vorausgesetzt wird, daß eine ausgewählte Schablone durch k' und ein ausgewählter Übergang durch j' repräsentiert wird, und die Wichtung einer Kategorie, die im voraus für jeden Rahmen j der Referenzmuster bestimmt wird, durch wp(j) repräsentiert wird:
- Wp(j, C) = Wp(j, C) + wp(j)Y(k') (j, c)
- Wcp(j) = wcp(j) + wp(j)
- Wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, den Gitterpunkt (I, J) erreicht und folglich ein optimaler Weg vom Gitterpunkt (0, 0) bestimmt ist, werden ein akkumulierter Wert der Merkmalsvektoren und ein akkumulierter Wert von Wichtungen in jeder der assoziierten akustischen Kategorien längs des optimalen Weges im Merkmalsvektor- Akkumulationspuffer 26 und dem Wichtungszähler 27 bestimmt, die dem Endgitterpunkt (I, J) entsprechen.
- Daher teilt, wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 durchgeführt wird, beendet ist, der Mittelwertrechner 38 den Wert des Merkmalsvektor-Akkumulationspuffers 26, der dem Endgitterpunkt (I, J) entspricht, durch den Wert des Wichtungszählers 27, um dadurch einen Mittelwert Wp(j, c) in jeder akustischen Kategorie der Referenzmuster zu bestimmen.
- Gemäß der zweiten Ausführungsform kann, nachdem die Referenzmuster nichtlinear in derselben Weise wie bei der Eingangssprache verarbeitet worden sind, ein Mittelwert in jeder Kategorie der Referenzmustern bestimmt werden. Daher wird die Genauigkeit, mit der der Mittelwert geschätzt wird, verbessert, und ebenso die Leistung der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien.
- Fig. 4 zeigt eine Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer dritten Ausführungsform der vorliegenden Erfindung. Wie in Fig. 4 gezeigt, weist die Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien auf: einen Abschnitt zur Berechnung von Mittelwerten akustischer Kategorien, der identisch mit der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform ist, und einen Abschnitt zur Berechnung von Mittelwerten akustischer Kategorien, der identisch mit der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der zweiten Ausführungsform ist, wobei diese Abschnitte zur Berechnung von Mittelwerten akustischer Kategorien miteinander in einer Vorrichtung gekoppelt sind. Wenn der Vergleichsprozeß, der durch die Vergleichseinheit 22 ausgeführt wird, vollendet ist, kann die Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien Mittelwerte der akustischen Kategorien sowohl der Eingangssprache als auch der Referenzmuster gleichzeitig miteinander berechnen.
- Gemäß der dritten Ausführungsform ist es möglich, sowohl die Eingangssprache als auch die Referenzmuster zu adaptieren, um Mittelwerte der akustischen Kategorien sowohl der Eingangssprache als auch der Referenzmuster zu bestimmen, nachdem die Maße nichtlinearer Dehnung und Zusammenziehung sowohl der Eingangssprache als auch der Referenzmustern ausgeglichen worden sind. Die Vorrichtung 40 zur Berechnung von Mittelwerten akustischer Kategorien weist daher eine höhere Leistung auf.
- Fig. 5 zeigt eine Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien gemäß einer vierten Ausführungsform der vorliegenden Erfindung. Wie in Fig. 5 gezeigt, weist die Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien auf: eine Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien, die identisch mit der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der ersten Ausführungsform ist, und eine Adaptierungseinheit 55, die mit der Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien verbunden ist. Unter Verwendung von Mittelwerten in den jeweiligen Kategorien von Eingangssprache, die durch die Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien berechnet worden sind, werden die Referenzmuster, die im Referenzmuster-Speicher 2 gespeichert sind, adaptiert, um neue Referenzmuster zu erzeugen.
- Die Arbeitsweise der Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der vierten Ausführungsform, die dazu bestimmt ist, eine Sprecheradaptierung in derselben Weise wie bei Literatur 1 durchzuführen, die oben erwähnt wird, wird im folgenden beschrieben.
- Ein Adaptierungsvektor Δj akustischer Kategorien wird aus einem Mittelwert [uj] bezüglich akustischer Kategorien j von Eingangssprache, der durch die Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien berechnet wird, und einem vorbestimmten Mittelwert uj bezüglich akustischer Kategorien j von Referenzmustern wie folgt bestimmt:
- Δj = [uj] - uj
- Bezüglich akustischer Kategorien i von Referenzmustern für Eingangssprache mit keinen darin vorhandenen akustischen Kategorien wird ihr Adaptierungsvektor Δi aus akustischen Kategorien j von Referenzmustern für Eingangssprache mit darin vorhandenen akustischen Kategorien unter Verwendung derselben spektralen Interpolation wie bei der obigen Literatur 1 wie folgt bestimmt:
- Δi = wijΔj
- Unter Verwendung dieser Adaptierungsvektoren führt die Adaptierungseinheit 55 eine Adaptierung durch, indem sie
- u^k = uk + Δ
- bezüglich aller Referenzmuster k herstellt, die zu den akustischen Kategorien i, j gehören, wobei Δ entweder Δi oder Δj ist, ausgewählt abhängig von der Art von k.
- Wenn ein Mittelwert I(p, c) bezüglich akustischer Kategorien p bestimmt worden ist, d. h. ein Mittelwert M(p, c) bezüglich akustischer Kategorien p von Referenzmustern im voraus bestimmt worden ist, wird ein Adaptierungsvektor Δ(p, c) in jeder der akustischen Kategorien bestimmt durch:
- Δ(P, c) = I(P, c) - M(P, c).
- Die Adaptierungseinheit 55 addiert diesen Adaptierungsvektor in jeder der akustischen Kategorien der Referenzmuster, um die Referenzmuster zu adaptieren, um dadurch neue Referenzmustern zu erzeugen.
- Während der Adaptierungsvektor verwendet wird, wie er ist, um die Referenzmuster im obigen Beispiel zu adaptieren, kann ein geeigneter Koeffizient Δ verwendet werden, um die folgende Gleichung herzustellen:
- um das Maß der Adaptierung zu steuern, um eine übermäßig große Adaptierung zu vermeiden.
- Die Vorrichtung 50 zur Berechnung von Mittelwerten akustischer Kategorien gemäß der vierten Ausführungsform kann aus einer Kombination der Adaptierungseinheit 55 und entweder der Vorrichtung 20 zur Berechnung von Mittelwerten akustischer Kategorien oder der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien zusammengesetzt sein.
- Die Kombination der Adaptierungseinheit 55 und der Vorrichtung 30 zur Berechnung von Mittelwerten akustischer Kategorien zum Extrahieren von Umgebungsunterschieden, d. h. einem Unterschied der Kanalverzerrung und einem Unterschied des zusätzlichen Geräusches im spektralen Bereich zwischen einem Referenzmuster und einem kurzen Ausdruck, der erkannt werden soll, und Adaptieren der Referenzmuster an eine neue Umgebung unter Verwendung der Unterschiede wird im folgenden beschrieben.
- Experimentelle Ergebnisse, die unter Verwendung einer her kömmlichen Spracherkennungsvorrichtung erhalten worden sind, sind durch Takagi, u. a. berichtet worden. Siehe Takagi, Hattori und Watanabe, "Speech Recognition with Environment Adaption by Spectrum Equalization", Spring Meeting of the Acoustical Society of Japan, 2-P-8, S. 173- 174; März 1994.
- Es wird vorausgesetzt, daß zu klassifizierende akustische Kategorien Sprache und Geräusch sind. Ein Durchschnittsspektrum Sw eines Sprachmodells von Referenzmustern, ein Durchschnittsspektrum Nw eines Geräuschmodells von Referenzmustern, ein Durchschnittsspektrum Sv eines Sprachanteils von Eingangssprache und ein Durchschnittsspektrum Nv eines Geräuschanteils der Eingangssprache werden durch eine Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien erhalten.
- Ein Sprachmodell von Referenzmustern W(t) wird adaptiert durch:
- [W(t)] = ((Sv-Nv)/(Sw-Nw)) · (W(t)-(Nw)) + Nv
- und ein Geräuschmodell von Referenzmustern wird adaptiert durch:
- [w(t)] = Nv
- Die vorliegende Erfindung ist auch auf jede Adaptierungs- oder Trainingsvorrichtung anwendbar, die anders als die obige Vorrichtung einen Mittelwert in jeder akustischen Kategorie verwendet.
- Es ist zu verstehen, daß Variationen und Modifikationen der Vorrichtung zur Berechnung von Mittelwerten akustischer Kategorien und der Adaptierungsvorrichtung, die hierin offenbart werden, für Fachleute offensichtlich sein werden. Es wird beabsichtigt, daß alle solche Modifikationen und Variationen innerhalb des Rahmens der beigefügten Ansprüche eingeschlossen sind.
Claims (7)
1. Vorrichtung zur Berechnung eines Mittelwertes in jeder
akustischen Kategorie, indem mit einer Vergleichseinheit (22)
eine zeitliche Abfolge von Merkmalsvektoren, die aus
Eingangssprache durch einen Analysator (1) umgewandelt worden
sind, und Referenzmuster, die in einem
Referenzmuster-Speicher (2) gespeichert sind und aus einer zeitlichen Abfolge
von Merkmalsvektoren bestehen, die aus
Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen
für jede akustische Kategorie enthalten, verglichen werden,
um einen Zeitabgleich in jedem Rahmen durchzuführen, um
dadurch einen Mittelwert in jeder der akustischen
Kategorien zu berechnen, wobei die Vorrichtung aufweist:
ebensoviel Merkmalsvektor-Akkumulationspuffer (26) wie die
Anzahl akustischer Kategorien in jedem Rahmen der
Referenzmuster, zum Speichern eines akkumulierten Wertes
gewichteter Merkmalsvektoren in den akustischen Kategorien;
ebensoviel Wichtungszähler (27) wie die Anzahl akustischer
Kategorien in jedem Rahmen der Referenzmuster zum Speichern
eines akkumulierten Wertes von Wichtungen von
Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen
addiert werden;
einen Merkmalsvektorintegrator (24), der jedes Mal, wenn
die Vergleichseinheit (22) einen Vergleichsprozeß in jedem
Rahmen durchführt, Werte, die durch Multiplizieren der
Merkmalsvektoren der Eingangssprache, die im Rahmen
berechnet werden sollen, mit der Wichtung in jeder der akustischen
Kategorien erzeugt worden sind, zu Werten, die im Rahmen
gespeichert sind, von dem ein Übergang gemacht wird und der
unmittelbar zuvor einem Vergleich unterzogen worden ist, in
den Merkmalsvektor-Akkumulationspuffern (26) addiert, die
Summen im Rahmen in den
Merkmalsvektor-Akkumulationspuffern (26) speichert, die Wichtung in jeder der akustischen
Kategorien im Rahmen, von dem der Übergang gemacht wird, zu
Werten addiert, die in derselben akustischen Kategorie im
Rahmen in den Wichtungszählern (27) gespeichert sind, und
die Summe in den Wichtungszählern (27) speichert; und
einen Mittelwertrechner (28) zum Teilen akkumulierter Werte
gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in
den jeweiligen akustischen Kategorien, die in den
Merkmalsvektor-Akkumulationspuffern (26) gespeichert sind, durch
die akkumulierten Werte von Wichtungen in den akustischen
Kategorien, die in den Wichtungszählern (27) gespeichert
sind, und Ausgeben der Quotienten als Mittelwerte in den
akustischen Kategorien der Merkmalsvektoren der
Eingangssprache, die berechnet werden sollen.
2. Vorrichtung zur Berechnung eines Mittelwertes in jeder
akustischen Kategorie, indem mit einer Vergleichseinheit (22)
eine zeitliche Abfolge von Merkmalsvektoren, die aus
Eingangssprache durch einen Analysator (1) umgewandelt worden
sind, und Referenzmuster, die in einem
Referenzmuster-Speicher (2) gespeichert sind und aus einer zeitlichen Abfolge
von Merkmalsvektoren bestehen, die aus
Trainingssprachklängen umgewandelt worden sind und Wichtungsinformationen
für jede akustische Kategorie enthalten, verglichen werden,
um einen Zeitabgleich in jedem Rahmen durchzuführen, um
dadurch einen Mittelwert in jeder der akustischen
Kategorien zu berechnen, wobei die Vorrichtung aufweist:
zwei Abschnitte zur Berechnung von Mittelwerten akustischer
Kategorien, die jeweils aufweisen:
ebensoviel Merkmalsvektor-Akkumulationspuffer (26) wie die
Anzahl akustischer Kategorien in jedem Rahmen der
Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter
Merkmalsvektoren in den akustischen Kategorien;
ebensoviel Wichtungszähler (27) wie die Anzahl akustischer
Kategorien in jedem Rahmen der Referenzmuster zum Speichern
eines akkumulierten Wertes von Wichtungen von
Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen
addiert werden;
einen Merkmalsvektorintegrator (24), der jedes Mal, wenn
die Vergleichseinheit (22) einen Vergleichsprozeß in jedem
Rahmen durchführt, Werte, die durch Multiplizieren der
Merkmalsvektoren der Eingangssprache, die im Rahmen
berechnet werden sollen, mit der Wichtung in jeder der akustischen
Kategorien erzeugt worden sind, zu Werten, die im Rahmen
gespeichert sind, von dem ein Übergang gemacht wird und der
unmittelbar zuvor einem Vergleich unterzogen worden ist, in
den Merkmalsvektor-Akkumulationspuffern (26) addiert, die
Summen im Rahmen in den
Merkmalsvektor-Akkumulationspuffern (26) speichert, die Wichtung in jeder der akustischen
Kategorien im Rahmen, von dem der Übergang gemacht wird, zu
Werten addiert, die in derselben akustischen Kategorie im
Rahmen in den Wichtungszählern (27) gespeichert sind, und
die Summe in den Wichtungszählern (27) speichert; und
einen Mittelwertrechner (28) zum Teilen akkumulierter Werte
gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in
den jeweiligen akustischen Kategorien, die in den
Merkmalsvektor-Akkumulationspuffern (26) gespeichert sind, durch
die akkumulierten Werte von Wichtungen in den akustischen
Kategorien, die in den Wichtungszählern (27) gespeichert
sind, und Ausgeben der Quotienten als Mittelwerte in den
akustischen Kategorien der Merkmalsvektoren der
Eingangssprache, die berechnet werden sollen.
3. Vorrichtung zur Berechnung eines Mittelwertes in jeder
akustischen Kategorie, indem mit einer Vergleichseinheit (22)
eine zeitliche Abfolge von Merkmalsvektoren, die aus
Eingangssprache durch einen Analysator (1) umgewandelt worden
sind, und Referenzmuster, die in einem
Referenzmuster-Speicher (2) gespeichert sind und aus einer zeitlichen Abfolge
von Merkmalsvektoren bestehen, die aus
Trainingssprachklängen umgewandelt worden sind und
Wichtungsinformationen für jede akustische Kategorie enthalten,
verglichen werden, um einen Zeitabgleich in jedem Rahmen
durchzuführen, um dadurch einen Mittelwert in jeder der
akustischen Kategorien zu berechnen, und um die
Eingangssprachmuster und/oder die Referenzmuster unter
Verwendung des Mittelwertes in jeder der akustischen
Kategorien zu adaptieren, wobei die Vorrichtung aufweist:
zwei Abschnitte zur Berechnung von Mittelwerten akustischer
Kategorien, die jeweils aufweisen:
ebensoviel Merkmalsvektor-Akkumulationspuffer (26) wie die
Anzahl akustischer Kategorien in jedem Rahmen der
Referenzmuster zum Speichern eines akkumulierten Wertes gewichteter
Merkmalsvektoren in den akustischen Kategorien;
ebensoviel Wichtungszähler (27) wie die Anzahl akustischer
Kategorien in jedem Rahmen der Referenzmuster zum Speichern
eines akkumulierten Wertes von Wichtungen von
Merkmalsvektoren, die in den akustischen Kategorien in jedem Rahmen
addiert werden;
einen Merkmalsvektorintegrator (24), der jedes mal, wenn
die Vergleichseinheit (22) einen Vergleichsprozeß in jedem
Rahmen durchführt, Werte, die durch Multiplizieren der
Merkmalsvektoren der Eingangssprache, die im Rahmen
berechnet werden sollen, mit der Wichtung in jedem der akustischen
Kategorien erzeugt worden sind, zu Werten, die im Rahmen
gespeichert sind, von dem ein Übergang gemacht wird und der
unmittelbar zuvor einem Vergleich unterzogen worden ist, in
den Merkmalsvektor-Akkumulationspuffern (26) addiert, die
Summen im Rahmen in den
Merkmalsvektor-Akkumulationspuffern (26) speichert, die Wichtung in jeder der akustischen
Kategorien im Rahmen, von dem der Übergang gemacht wird, zu
Werten addiert, die in derselben akustischen Kategorie im
Rahmen in den Wichtungszählern (27) gespeichert sind, und
die Summe in den Wichtungszählern (27) speichert; und
einen Mittelwertrechner (28) zum Teilen akkumulierter Werte
gewichteter Merkmalsvektoren in Endrahmen des Vergleichs in
den jeweiligen akustischen Kategorien, die in den
Merkmalsvektor-Akkumulationspuffern (26) gespeichert sind, durch
die akkumulierten Werte von Wichtungen in den akustischen
Kategorien, die in den Wichtungszählern (27) gespeichert
sind, und Ausgeben der Quotienten als Mittelwerte in den
akustischen Kategorien der Merkmalsvektoren der
Eingangssprache, die berechnet werden sollen.
4. Verfahren zur Berechnung eines Mittelwertes in jeder
akustischen Kategorie, indem eine zeitliche Abfolge von
Merkmalsvektoren, die aus Eingangssprache umgewandelt worden
sind, und Referenzmuster, die aus einer zeitlichen Abfolge
von Merkmalsvektoren bestehen, die aus
Trainingssprachklängen umgewandelt worden sind und addierte
Wichtungsin
formationen für jede akustische Kategorie enthalten,
verglichen werden, um einen Zeitabgleich in jedem Rahmen
durchzuführen, um dadurch einen Mittelwert in jeder der
akustischen Kategorien zu berechnen, wobei das Verfahren
die Schritte aufweist:
jedes Mal, wenn die Eingangssprache aufeinanderfolgend mit
den Referenzmustern aus einem ersten Rahmen der
Referenzmuster verglichen wird und ein Übergang zu einem nächsten
Rahmen stattfindet, Integrieren von Werten, die durch
Multiplizieren der Merkmalsvektoren der Eingangssprache, die
im Rahmen berechnet werden sollen, in dem die Eingangssprache
mit den Referenzmustern verglichen wird, mit der Wichtung
in jedem der akustischen Kategorien im Rahmen erzeugt
worden sind, und Halten der integrierten Werte in jedem
Rahmen;
Integrieren von Wichtungen in den jeweiligen akustischen
Kategorien im Rahmen, in dem die Eingangssprache mit den
Referenzmustern verglichen wird, und Halten der
integrierten Wichtungen in jedem Rahmen;
nachdem die Eingangssprache mit den Referenzmustern in
einem Endrahmen verglichen wird, Teilen eines gewichteten
akkumulierten Wertes der Merkmalsvektoren in jeder der
akustischen Kategorien im Endrahmen durch einen gewichteten
akkumulierten Wert von Wichtungen in den entsprechenden
akustischen Kategorien im Rahmen; und
Ausgeben eines Quotienten als einen Mittelwert in jeder
der akustischen Kategorien.
5. Verfahren nach Anspruch 4, wobei eine Akkumulation
gewichteter Merkmalsvektoren in jeder der akustischen Kategorien
bezüglich den Merkmalsvektoren, die aus der Eingangssprache
extrahiert werden, und ein akkumulierter Wert von
Wichtungen derselben berechnet werden, um einen Mittelwert in
jeder der akustischen Kategorien der Merkmalsvektoren der
Eingangssprache auszugeben.
6. Verfahren nach Anspruch 4, wobei eine Akkumulation
gewichteter Merkmalsvektoren in jeder der akustischen Kategorien
bezüglich den Merkmalsvektoren der Referenzmuster und ein
akkumulierter Wert von Wichtungen derselben berechnet
werden, um einen Mittelwert in jeder der akustischen
Kategorien der Merkmalsvektoren der Referenzmuster auszugeben.
7. Verfahren nach Anspruch 4, wobei eine Akkumulation
gewichteter Merkmalsvektoren in jeder der akustischen Kategorien
bezüglich den Merkmalsvektoren, die aus der Eingangssprache
extrahiert werden, und den Merkmalsvektoren der
Referenzmuster und ein akkumulierter Wert von Wichtungen derselben
berechnet werden, um Mittelwerte in jeder der akustischen
Kategorien der Merkmalsvektoren der Eingangssprache und der
Referenzmuster gleichzeitig miteinander auszugeben.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6125528A JP2692581B2 (ja) | 1994-06-07 | 1994-06-07 | 音響カテゴリ平均値計算装置及び適応化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69519453D1 DE69519453D1 (de) | 2000-12-28 |
DE69519453T2 true DE69519453T2 (de) | 2001-03-29 |
Family
ID=14912415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69519453T Expired - Fee Related DE69519453T2 (de) | 1994-06-07 | 1995-06-06 | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien |
Country Status (4)
Country | Link |
---|---|
US (1) | US5651094A (de) |
EP (1) | EP0686965B1 (de) |
JP (1) | JP2692581B2 (de) |
DE (1) | DE69519453T2 (de) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2738403B2 (ja) * | 1995-05-12 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
GB9602691D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Word model generation |
KR100453021B1 (ko) * | 1996-09-27 | 2005-04-08 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 구두텍스트인식방법및시스템 |
JP3061114B2 (ja) * | 1996-11-25 | 2000-07-10 | 日本電気株式会社 | 音声認識装置 |
US6654955B1 (en) * | 1996-12-19 | 2003-11-25 | International Business Machines Corporation | Adding speech recognition libraries to an existing program at runtime |
US6389392B1 (en) * | 1997-10-15 | 2002-05-14 | British Telecommunications Public Limited Company | Method and apparatus for speaker recognition via comparing an unknown input to reference data |
US6343267B1 (en) | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6263309B1 (en) | 1998-04-30 | 2001-07-17 | Matsushita Electric Industrial Co., Ltd. | Maximum likelihood method for finding an adapted speaker model in eigenvoice space |
JP2000259198A (ja) * | 1999-03-04 | 2000-09-22 | Sony Corp | パターン認識装置および方法、並びに提供媒体 |
US6526379B1 (en) | 1999-11-29 | 2003-02-25 | Matsushita Electric Industrial Co., Ltd. | Discriminative clustering methods for automatic speech recognition |
US6571208B1 (en) | 1999-11-29 | 2003-05-27 | Matsushita Electric Industrial Co., Ltd. | Context-dependent acoustic models for medium and large vocabulary speech recognition with eigenvoice training |
WO2002001549A1 (en) * | 2000-06-15 | 2002-01-03 | Intel Corporation | Speaker adaptation using weighted feedback |
US6917918B2 (en) * | 2000-12-22 | 2005-07-12 | Microsoft Corporation | Method and system for frame alignment and unsupervised adaptation of acoustic models |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
US8229751B2 (en) * | 2004-02-26 | 2012-07-24 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified Broadcast audio or video signals |
EP1730105B1 (de) * | 2004-02-26 | 2012-01-25 | Mediaguide, inc. | Verfahren und vorrichtung zur automatischen erkennung und identifikation der sendung von audio- oder videoprogrammsignalen |
GB2418764B (en) * | 2004-09-30 | 2008-04-09 | Fluency Voice Technology Ltd | Improving pattern recognition accuracy with distortions |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8200495B2 (en) | 2005-02-04 | 2012-06-12 | Vocollect, Inc. | Methods and systems for considering information about an expected response when performing speech recognition |
US7827032B2 (en) * | 2005-02-04 | 2010-11-02 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7865362B2 (en) * | 2005-02-04 | 2011-01-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US20090006337A1 (en) * | 2005-12-30 | 2009-01-01 | Mediaguide, Inc. | Method and apparatus for automatic detection and identification of unidentified video signals |
CN101390156B (zh) * | 2006-02-27 | 2011-12-07 | 日本电气株式会社 | 标准模式适应装置、标准模式适应方法 |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US10714121B2 (en) | 2016-07-27 | 2020-07-14 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU7529981A (en) * | 1980-09-19 | 1982-03-25 | Hitachi Limited | Language analysis by pattern recognition |
JPS5885499A (ja) * | 1981-11-18 | 1983-05-21 | 株式会社デンソー | 連続音声認識装置 |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
JPH0792673B2 (ja) * | 1984-10-02 | 1995-10-09 | 株式会社東芝 | 認識用辞書学習方法 |
JPS61145599A (ja) * | 1984-12-19 | 1986-07-03 | 日本電気株式会社 | 連続音声認識装置 |
JPH0638199B2 (ja) * | 1985-09-02 | 1994-05-18 | 日本電気株式会社 | 音声認識装置 |
US5315689A (en) * | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
US5159637A (en) * | 1988-07-27 | 1992-10-27 | Fujitsu Limited | Speech word recognizing apparatus using information indicative of the relative significance of speech features |
JP2852298B2 (ja) * | 1990-07-31 | 1999-01-27 | 日本電気株式会社 | 標準パターン適応化方式 |
-
1994
- 1994-06-07 JP JP6125528A patent/JP2692581B2/ja not_active Expired - Fee Related
-
1995
- 1995-06-05 US US08/463,289 patent/US5651094A/en not_active Expired - Lifetime
- 1995-06-06 EP EP95108667A patent/EP0686965B1/de not_active Expired - Lifetime
- 1995-06-06 DE DE69519453T patent/DE69519453T2/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0686965A3 (de) | 1997-10-29 |
JP2692581B2 (ja) | 1997-12-17 |
EP0686965A2 (de) | 1995-12-13 |
US5651094A (en) | 1997-07-22 |
JPH07334184A (ja) | 1995-12-22 |
EP0686965B1 (de) | 2000-11-22 |
DE69519453D1 (de) | 2000-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE69726526T2 (de) | Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert | |
DE69121145T2 (de) | Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung | |
DE69430082T2 (de) | Verfahren und Vorrichtung zur Sprachdetektion | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE602004000382T2 (de) | Rauschadaptierung zur Spracherkennung | |
DE60100637T2 (de) | Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung | |
DE69831288T2 (de) | An Umgebungsgeräusche angepasste Sprachverarbeitung | |
DE3878071T2 (de) | Sprachnormierung durch adaptive klassifizierung. | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69726235T2 (de) | Verfahren und Vorrichtung zur Spracherkennung | |
DE69420842T2 (de) | Spracherkennung unter anwendung einer zweidurchgängigen suchmethode | |
DE69226594T2 (de) | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69423588T2 (de) | Spracherkennungsgerät | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE60316704T2 (de) | Mehrkanalige spracherkennung in ungünstigen umgebungen | |
DE69613646T2 (de) | Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen | |
DE69414752T2 (de) | Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes | |
DE69614233T2 (de) | Sprachadaptionssystem und Spracherkenner | |
DE60004331T2 (de) | Sprecher-erkennung | |
DE69423692T2 (de) | Sprachkodiergerät und Verfahren unter Verwendung von Klassifikationsregeln |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |