DE3048107A1

DE3048107A1 - Verfahren zur mustervorverarbeitung fuer ein spracherkennungssystem

Info

Publication number: DE3048107A1
Application number: DE19803048107
Authority: DE
Inventors: Nobuo Hachiouji Tokyo Hataoka; Akira Musashino Tokyo Ichikawa; Yoshiaki Sayama Saitama Kitazume; Eiji Hachiouji Tokyo Ohira
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1979-12-21
Filing date: 1980-12-19
Publication date: 1981-09-10
Also published as: JPS5688199A; JPS628800B2

Description

Beschreibung
Die Erfindung betrifft ein Verfahren zur Mustervorverarbeitung in einem Spracherkennungssystem, bei dem im allgemeinen eine Normierung der Korrektur von Schwankungen bei Merkmalsmusters'in einem Sprachmuster erfolgt, das sich in Form einer Zeitfolge von Merkmalsvektoren ausdrückt, wobei die Schwankungen Differenzen unter Individuen zuzuschreiben sind.
Als Merkmalsparameter, die repräsentativ für die Werte der entsprechenden Bestandteile von Merkmalsvektoren eines Sprachmusters sind, sind bislang die verschiedensten Größen verwendet worden, einschließlich der folgenden: (i) Ausgangswerte von Filterbänken, die einem entsprechenden Kanal von einigen Kanälen entsprechen, in die das Frequenzband der Sprache unterteilt ist, (ii) Auto-Korrelationskoeffizienten, (iii) partielle Auto-Korrelationskoeffizienten, die nachstehend auch als PARCOR-Koeffizienten bezeichnet werden, usw.
Mit all diesen Werten sind jedoch verschiede Variationen bei den Merkmalsparametern auf der Basis der Differenzen von Sprachinformation unter Individuen verbunden. Infolgedessen hat das Problem bestanden, daß die Fehler von herausgezogenen Merkmalsparametern groß sind, was die korrekte Erkennung des Sprachmusters schwierig macht.
Im Falle von Sprachmustern sind typische Beispiele von Schwankungen auf der Basis der Differenzen unter Individuen folgende: (1) Schwankungen der Absolutwerte der Merkmalsparameter, die auf Schwankungen der Eingangswerte beruhen und (2) Schwankungen der Formantenfrequenzen in dem Falle, wo die Ausgangswerte der Filterbänke als Merkmalsparameter verwendet werden.
Um die Verschlechterung der Erkennungsgenauigkeit aufgrund dieser Schwänkungen zu verhindern, sind die folgenden Methoden ins Auge gefaßt worden: Hinsichtlich i1) werden zum Beispiel im Falle der Verwehdung der Ausgangswerte der Filterbänke als Merkmalsparameter die Filterausgangssignale in der Frequenzrichtung zu entsprechenden Zeiten normiert (die Filterausgangssignale werden in Relativwerte umgewandelt).
Hinsichtlich (2) beruhen die Schwankungen der Formantenfrequenzen auf ungleichen Vokalzuglänge der Individuen.
S@@@t wird iin4 vokalzulänge aus der Sprachinformation geschätzt und diese vokalzuglänge normiert.
Mit dose. herkö@@lichen Normierungsverfahren zur Berücksichtigung von (1) wird jedoch zum Beispiel eine Struktur au@ den zusammenhänge der Absolutwerte der Merkmalspara-@@ter In det Zeitrichtung zerstört. Dies hat zu dem Nachteil @@@@hrt, dah ein Teil Von wesentlicher Information, die die Srachinformation besitzt, verlorengeht.
Bei einem herkömmlichen Verfahren zur Berücksichtigung von (2) ist es schwierig, die Vokalzuglänge genau zu schätzen, und somit tritt ein Schätzfehler auf. Dementsprechend bestand bislang der Nachteil daß eine ridhtige Normierung nicht @@@glich war.
Aufgabe der Erfindung ist es daher, ein Verfahren zur M@@tervorverarbeitung für Spracherkennungssysteme anzugeben, @@i dem die Schwankungen von Eigenschaften bei Merkmalsparam@tern absoiert werden, die aus einem Sprachmuster.herausgezogen @ den, wobei die Schwankungen auf Differenzen unter den Indiv@@@en beruhen, ohne daß wesentliche Information aus dem Sprachmuster verlorengeht.
Weiterhin ist es Ziel der Erfindung, ein Verfahren zur Mustervorverarbeitung zu schaffen, bei dem schließlich auch die Schwankungen der Formantenfrequenze als Schwankungen d@r Frequenzeigenschaften aufgrund der Differenzen unter Individuen absorbiert werden, während die Struktur der Merkmalsparameter in der Zeitrichtung gehalten wird.
Gemäß der Erfindung ist vorgesehen, daß bei einem System, bei dem von den Koordinatenachsen eine zweidimensionale Ebene aufgespannt wird, die eine Achse eine Zeitachse und die andere Achse eine Frequenzachse sind, und bei dem die Eigenschaftsparameter bei einer Reihe von Punkten auf der Zeitachse einem Punkt auf der Frequenzachse entsprechen' eine Vorverarbeitung in der nachstehenden Weise durchgeführt wird, wobei die Größenrelationen der Werte der Merkmalsparameter in Richtung der Zeitachse gehalten werden: (a) die entsprechenden Eigenschaftsparameter werden durch den Maximalwert der Reihe von Eigenschaftsparametern geteilt, (b) die Eigenschaftsparameter werden logarithmischen, nicht-linearen Korrekturen unterworfen, (c) die Reihe von logarithmischen, nicht-linearen Korrekturen unterworfenen Eigenschaftsparamtern wird durch ihren Maximalwert geteilt.
Die Erfindung wird nachstehend anhand der Beschreibung von Ausführungsbeispielen und unter Bezugnahme auf die beiliegen Zeichnungen näher erläutert. Die Zeichnungen zeigen in Fig. 1 eine graphische Darstellung zur Erläuterung der Differenz der Filterbank-Ausgangssignale bezüglich einem identischen Sprachmuster, wobei die Differenz den Sprechern zuzuschreiben ist; Fig. 2 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung bei einer Ausführungsform einer Vorrichtung zur Mustervorverarbeitung gemäß der Erfindung; Fig. 3 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung einer Ausführungsform einer Maximum-Abtastschaltung; Fig. 4 ein Blockschaltbild zur Erläuterung einer Schaltungsanordnung einer Ausführungsform eines Spracherkennungssystems gemäß der Erfindung; und Fig. 5 ein Diagramm zur Erläuterung der Differenzen ton Unterscheidungsgraden, die sich aus Erkennungsuntersuchungen eines Eingangssprachmusters ergeben, wenn man das erfindungsgemäße Verfahren einerseits und herkömmliche Verfahren andererseits einsetzt.
Fig. 1 zeigt die Diskrepanz von Filterbank-Ausgangssignalen hinsichtlich eines identischen Sprachinhaltes, der ton verschiedenen Sprechern in einem bestimmten spezifizierten kanal in dem Falle gegeben ist, wo die Filterbank-Ausgangssignale für Sprache als Eigenschaftsparameter verwendet werden.
Aus Fig. 1 ergibt sich, daß die Positionen auf der Zeitachse, die maximale und minimale Extrempunkte angeben, ähnlich sind, daß aber die Amplitudenwerte in hohem Maße unterschiedlich sind. Wenn die Gleichheitswerte zwischen den von unterschiedlichen Sprechern geliferten Sprachmustern A und B erhalten werden, indem man den üblichen euklidischen Abstand als Skala verwendet, werden die Schwankungen aufgrund der Diskrepanz der Sprecher groBer als die Schwankungen aufgrund der Diskrepanz der Sprachmuster selbst. Es ist somit unmöglich, die Differenz der Sprachmuster korrekt abzutasten.
Dementsprechend müssen die Schwankungen aufgrund der Diskrepanz der Sprechen verringert werden, indem man die Amplitudenwerte normiert c.der korrigiert. Um die Amplitudenwerte zu normieren oder zu korrigieren, werden gemäß der Erfindung einer von zwei nachstehend beschriebenen Schritten oder ein Verfahren, das diese in Nombination umfaßt, eingesettt.
Nachstehend wird das Vorverarbeitungsverfahren mit den beiden k @@inierten Schritten beispialsteise erläutert, jedoch sind ein Vorverarbeitungsverfahren, das hur den Schritt 1 umfaßt, sowie ein Vorverarbeitungsverf8hren, bei dem der Schritt 1 weggelaSsen ist, ebenfalls mSglich.
Die Eigenschaftsvektoren ai zu den Zeitpunkten i (i 1, 2, ... und I), die aus einem Sprachmuster herausgezogen sind, und Eigenschaftsmuster A, die sich als Zeitfolge von ausdrücken lassen, sind folgendermaßen definiert: ai = (ai1, ai2, ... und aij) A = a1, a2, ... und aI Hierbei bezeichnen aij ( j = 1, 2, ... und J) Eigenschaftsparameterwerte, die den Filterbank-Ausgangssignalen des j-ten Kanals zu den Zeitpunkten i entsprechen.
Schritt 1: Korrektur durch Logarithmieren Um Amplituden zu erhalten, die der Schalleigenschaft-oder Struktur des Menschen angenähert sind, werden die Eigenschaftsparameterwerte aij nicht-linearen Korrekturen unter Verwendung eines Logarithmus unterworfen, dessen Basis 10, e o. dgl. sein kann.
Werte aij', die den Eigenschaftsparametern nach den Korrekturen entsprechen, sind durch die nachstehende Gleichung gegeben: ij' = log (1 + aij/Ao) (1), wobei Ao eine Konstante ist.
Die 1 (eins) in Gleichung (1) ist dazuaddiert worden, um abrupte Schwankungen von aij' zu dem Zeitpunkt zu verhindern, wo aij/Ao dicht an O (null) herankommt.
Schritt 2: Normierung in Zeitachsenrichtung Die allgemeine Normierung in Richtung der Zeitachse wird für jeden Kanal in Richtung einer Frequenzachse durchgeführt.
Sei M. der maximale oder größte Wert unter den Werten 3 a1j, a2' ... und aIj im j-ten Kanal in der Frequenzachsenrichtung, so sind die Eigenschaftsparameter nach der Normierung aij", die den Eigenschaftsparametern aij entsprechen, durch die nachstehende Gleichnung gegeben: aij" = aij'/Mj (2), wobei Mj = Max (aij', a2j, ... und aIj) (3).
Das Normierunys- oder Korrekturverfahren, bestehend aus den beiden Schritten, hält die Größenrelationen der Eigenschaftsparameter in Richtung der Zeitachse in der angegebenen Weise und ermöglicht außerdem den Erhalt der neuen Eigenschaftsparameter aij, die wirklich wesentliche Eigenschaften ausdrücken, welche die ursprüngliche Sprachinformation besitzt.
Man kann sagen, daß die Eigenschaftsparameter aij" wesentlich besser sind als die Eigenschaftsparameter aij, ' und zwar in folgender Hinsicht: (a) Da die Maßnahme eine Abbildung darstellt, bei der die Maximalwerte der Eigenschaftsparameter in Richtung der Zeitachse auf einen identischen Pegel, z.B. den maximalen Pegel 1 im Falle der Normierung auf Werte 0 bis 1, für die entsprechenden Kanäle in Richtung der Frequenzachse umgewandelt werden, werden die Schwankungen der Absolutwerte der Eigenschaftsparameter absorbiert, die bislang problematisch waren.
Insbesondere kann gemäß der Normierung nur mit dem Schritt 2, d.h.
aij" = aij/Max (a1j, a2j, ... und aIj) die Unzulänglichkeit eintreten, daß, obwohl die Schwankungen der Absolutwerte in einem Bereich klein sind, in dem die Amplitudenwerte der Eigenschaftsparameter aij klein sind, die Schwankungen der Relativwerte nach der Normierung groß werden. Die Korrekturen durch den Schritt 1 sind wirksam im Hinblick auf die Beseitigung dieser Unzulänglichkeit.
(ß) Die Normierung gemäß Schritt 2 ist eine Abbildung, bei der die Eigenschaftsparameter der Sprache mit identischem Inhalt allgemeiner und definitiver extrahiert werden als beim Stande der Technik, und zwar auch im Falle von unterschiedlichen Sprechern.
Die Maßnahme ist eine Transformation, gemäß der z.B.
die Anderungen der Eigenschaftsparameter in den çntsprechenden Kanälen auf der Frequenzachse betont werden, oder umgekehrt, in dem Kanal, der die Eigenschaftsparameter von kleinen Werten über die gesamte Zeitperiode hat, werden die Werte von aij" vergrößert, wobei die kleinen Werte eine Eigenschaft oder ein Merkmal bilden.
(y) Die Normierung im Schritt 2, insbesondere in dem Falle, wo die Ausgangswerte der Filterbank als Eigenschaftsparameter verwendet werden, ist wirksam, um die Schwankungen in Richtung der Frequenzachse zu absorbieren, die Differenzen zwischen den Sprechern zuzuschreiben sind, z.B. dem Einfluß der Formanten-Frequenzen auf den benachbarten Kanälen zwischen den Sprechern.
Genauer gesagt, zum Zeitpunkt i, bei dem der Maximalwert der Eigenschaftsparameter im j-ten Kanal auf der Frequenzachse gegeben ist, ist die Wahrscheinlichkeit hoch, bei der die Eigenschaftsparameter in den benachbarten (j - 1)-ten und (j + 1)-ten Kanälen maximiert werden. Somit sind die Eigenschaftsparameter nach dem Schritt 2 äquivalent zu einer Verringerung des Wertes Q für die Resonanzqualität in einer Frequenzanalyse. Dies entspricht einer Verringerung der Schwankungen der Eigenschaftsparameter auf der Basis der Differenz zwischen den Sprechern und liefert eine Maßnahme gegenüber dem oben beschriebenen Nachteil (2).
Obwohl der Fall der Anwendung der erfindungsgemäßen Vorverarbeitung auf die Filterbank-Ausgangswerte des Sprachmusters bislang im wesentlichen erläutert worden ist, ist es auch möglich, die Anwendung der Vorverarbeitung bei den Auto-Korrelationskoeffizienten und den partiellen Auto-Korrelationskoeffizienten vorzunehmen. Im Falle der Anwendung auf die partiellen Auto-Korrelationskoeffizienten können beispielsweise die partiellen Auto-Korrelationskoeffizienten einer zur An- passung dienenden Umkehrfilterung in Werte unterworfen unterworfen werden, die den Reflexionskoeffizienten entsprechen, um damit eine Linearität für die Absolutwert-Schwankungen auszubilden.
Figur 2 zeigt ein Blockschaltbild einer Ausführungsform einer Schaltungsanordnung, in der das erfindungsgemäße Vorverarbeitungsverfahren realisiert ist. Die Eigenschaftsparameter aij, die aus einem Eingangssprachsignal erhalten werden, werden aus einem Eingangspuffer 21 in jedem Kanal i mit (a1j, a2j, ... und aIj) als 1-Block-Daten ausgelesen und an eine logarithmische Transformationsschaltung 221 einer Schaltung 22 zur logarithmischen Transformation und Normierung angelegt. Die Berechnung gemäß Gleichung (1) wird in der logarithmischen Transformationsschaltung 221 ausgeführt, und die resultierenden Blockdaten (a1j', a2j', ... und aIj') werden an eine Maximum-Abtastschaltung 223 und eine Normierungsschaltung 224 über eine Ausgangsleitung 222 angelegt.
Die Berechnung gemäß Gleichung (3) wird in der Maximum-Abtastschaltung 223 ausgeführt, und das Resultat Mj wird an die Normierungsschaltung 224 angelegt. Die Berechnung gemäß Gleichung (2) wird in der Normierungsschaltung 224 durchgeführt, und die resultierenden Blockdaten a1j", a2j", und a111) werden in einem Ausgangspuffer 23 gespeichert.
Die Berechnungsvorgänge der oben angegebenen Art werden gemäß Steuersignalen ausgeführt, die von einer Steuerschaltung 24 geliefert werden, z.B. in der Reihenfolge j = 1, 2, und J.
Die logarithmische Transformationsschaltung 221 in Figur 2 kann beispielsweise aus einem Festwertspeicher oder ROM bestehen.
In diesem Fall können, unter Verwendung der Ausgangssignale des Eingangspuffers 21 als Adressensignale für den ROM, die Daten (a1j', a2j, ... und aIj) als berechnete Resultate der Gleichung (1) in die Adressen (a1j, mi ... und aIj) eingeschrieben werden, woraufhin sie gemäß Auslesesignalen ausge- lesen werden können, die von der Steuerschaltung 24 angelegt werden.
Wie in Figur 3 dargestellt, ist die Maximum-Abtastschaltung 223 aus einem Subtrahierer 301 und einem Register 302 zum Speichern der subtrahierten Ergebnisse aufgebaut. Sie kann die folgende Verarbeitung für i = 1, 2, ... und I durchführen.
Die Daten (aij') werden an den Subtrahierer 301 z.B. in der Reihenfolge a1j', a2j', ... und aIj' angelegt die Subtraktionen hinsichtlich der im Register 302 gespeicherten Daten (R) durchgeführt. Nur wenn die Ungleichung aij - R > O gilt, wird der Inhalt des Registers 302 erneuert und aij in das Register 302 neu eingespeichert, und zwar in Abhängigkeit von einem Borge-Signal.
Die Normierungsschaltung 224 kann mit einem herkömmlichen Teiler aufgebaut werden.
Die Berechnungen in der Schaltung 22 zur logarithmischen Transformation und Normierung können auch auf Software-Basis durchgeführt werden.
Figur 4 zeigt ein Blockschaltbild zur Erläuterung einer Ausführungsform eines Spracherkennungssystems, bei dem die erfindungsgemäße Schaltungsanordnung gemäß Figur 2 verwendet wird. Die in Figur 2 dargestellten Teile sind dabei mit gleichen Bezugszeichen versehen.
Ein Eingangssprachsignal wird einer Frequenzanalyse in einer Eigenschaftsauswerteschaltung 31 unterzogen. Eigenschaftsvektoren a1, a2, ... und aI, die als Resultat herausgezogen werden, werden im Eingangspuffer 21 sequentiell in einer Zeitfolge gespeichert. Die normierten Daten, die im Ausgangspuffer 23 durch Ausführung des unter Bezugnahme auf Figur 2 erläuterten Vorganges gespeichert worden sind, werden an eine Erkennungsschaltung 34 angelegt. Andererseits werden normierte Standardmuster der Sprache nacheinander aus einem Standardmusterspeicher 32 ausgelesen und eines von ihnen an die Erkennungsschaltung 34 über einen Standardmusterpuffer 33 angelegt.
In der Erkennungsschaltung 34 werden Gleichheitswerte zwischen den normierten Daten, entsprechend dem Sprachmuster-Eingangssignal und dem normierten Standardmuster berechnet, um die Erkennung vorzunehmen. Das Erkennungsresultat wird einem Anschluß 35 zugeführt.
Figur 5 zeigt experimentelle Daten hinsichtlich der Differenzen von Unterscheidungsgraden, die sich aus der Spracherkennung in den Fällen ergeben, wenn man einerseits die erfindungsgemäßen Vorverarbeitungsverfahren und andererseits herkömmliche Vorverarbeitungsverfahren einsetzt.
In Figur 5 bezeichnet die Abszissenachse den Gewichtswert für die Erkennung, während die Ordinatenachse den Unterscheidungsgrad angibt, der gegeben ist als das Verhältnis (S?/SZ) zwischen dem meisten Gleichheitswert (S1) und dem zweiten Gleichheitswert (S>) zu der Zeit, wenn ein richtiges Erkennungsresultat erhalten worden ist. Die Kurven (I) bis (III) entsprechen den Fällen der Durchführung der jeweiligen folgenden Vorverarbeitungen, während die Kurve (IV) einem Fall entspricht, bei dem ein herkömmliches Verfahren eingesetzt wird.
(I); aij" = log (1 + wobei Mj = Max {log (1 + a1j/A0), log (1 + a2j/A0), bis log (1 + aIj/A0)}.
(II): aij" = log (1 + aij/A0).
(III): aij" = aij/Max (a1j, a2j, ... und aIj).
Aus den experimentellen Ergebnissen gemäß Figur 5 läßt sich entnehmen, daß bei den erfindungsgemäßen Vorverarbeitungsverfahren die Unterscheidungsgrade größer sind als die Werte, die mit anderen Verfahren erreicht werden, indem man die Gewichtswerte bei der Berechnung der Gleichheitswerte in richtiger Weise einsetzt.
Aus den obigen Ausführungen ergibt sich, daß es das erfindungsgemäße Vorverarbeitungsverfahren ermöglicht, Eigenschaftsmuster in neue Eigenschaftsmuster umzuwandeln, wobei die Eigenschaften der vorherigen Eigenschaftsmuster definitiv herausgezogen werden. Die mit den Vorverarbeitungsverfahren erhaltenen Eigenschaftsparameter haben eine gute Unterscheidbarkeit (die Reiheneigenschaften sind definitiv), und sie sind wirksam, um die Zuverlässigkeit der Erkennung zu steigern. Diese Wirkung läßt sich auch aus dem Ergebnis verifizieren, daß die Erkennungsrate in einem Spracherkennungssystem steigern läßt, bei dem das Vorverarbeitungs-Normierungsverfahren eingesetzt wird.
Beim erfindungsgemäßen Verfahren wird somit folgender maßen vorgegangen: Vor dem Herausziehen einer Vielzahl von Eigenschaftsmustern mit einer Vielzahl von Eigenschaftsparametern in Richtung einer Zeitachse aus einem Sprachmustereingangssignal in einer Zeitfolge und Erkennung des Sprachmuster-Eingangssignals unter Verwendung der herausgezogenen Eigenschaftsparameter werden die Eigenschaftsparameter, die das jeweilige Eienschaftsmuster bilden, einer Vorverarbeitung, wie z.B. einer logarithmischen Transformation und Normierung mit einem Maximalwert unterworfen, um die Größenrelationen unter ihren Werten aufrecht zu erhalten.

Claims

Verfahren zur Mustervorverarbeitung für ein Spracherkennungssystem PATENTANSPRÜCHE Verfahren zur Mustervorverarbeitung für ein Spracherkennungssystem, bei dem eine Vielzahl von Eigenschaftsmustern mit einer Vielzahl von Eigenschaftsparametern in der Richtung einer Zeitachse aus einem Sprachmuster-Eingangssignal herausgezogen wird und die herausgezogenen Eigenschaftsmuster zur Erkennung des Sprachmusters verwendet werden, dadurch g e -k e n n z e i c h n e t , daß die Eigenschaftsparameter, die das jeweilige Eigenschaftsmuster bilden, einer vorgegebenen Vorverarbeitung unterworfen werden, um die Gröen-Relationen unter ihren Werten aufrecht zu erhalten.
2. Verfahren nach Anspruch 1, dadurch g e k e n n -z e i c h n e t , daß bei der Vorverarbeitung Korrekturen der logarithmischen Transformation der Werte der Eigenschaftsparameter vorgenommen werden.
3 Verfahren nach Anspruch 1, dadurch g e k e n n -æ 9 i t n n b t , daß die jeweiligen Eigenschaftsparameter mit einem Maximalwert der Eigenschaftsparameter in dem jeweiligen Eigenschaftsmuster bei der Vorverarbeitung normiert werden.