DE69128582T2

DE69128582T2 - Methode zur Phonemunterscheidung

Info

Publication number: DE69128582T2
Application number: DE69128582T
Authority: DE
Inventors: Kei Miki
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1990-09-13
Filing date: 1991-09-12
Publication date: 1998-07-09
Anticipated expiration: 2011-09-13
Also published as: US5202926A; EP0475759A2; EP0475759A3; DE69128582D1; EP0475759B1

Description

Die vorliegende Erfindung bezieht sich auf Phonem-Unterscheidungsverfahren, die folgende Schritte aufweisen: Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen, Erzeugen eines Leistungsändewngsvektors, der eine Ändemng in der Sprachsignal-Leistung mit der Zeit darstellt, von den Sprachsignal-Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames, Vektorquantisieren des Leistungsändemngsvektors unter Verwendung eines empirisch ermittelten Leistungsändemngsvektor-Codebuchs, um einen Leistungsändemngsvektor- Quantisiemngscode zu erzeugen, und Ausgeben eines Signais, das ein Phonem auf der Basis des Leistungsändemngsvektor-Quantisierungscodes darstellt. Die vorliegende Erfindung bezieht sich auch auf eine Vorrichtung zur Durchführung solcher Verfahren.
Eines der heutzutage am intensivsten untersuchten Verfahren auf dem Gebiet der Spracherkennung ist das Phonem-Erkennungsverfahren. Der Begriff "Phonem-Erkennung" bedeutet Umwandlung eines Eingangs-Sprachsignals in eine Reihe von Phonemen, die im wesentlichen Aussprachesymbolen gleichen. Das in solch eine Reihe von Phonemen umgewandelte Sprachsignal wird dann unter Verwendung eines Wörterbuchs, Grammatikregeln u. ä. z. B. in eine am geeignetsten erscheinende Buchstabenfolge (z. B. Satz) umgewandelt.
Ein Verdienst des Verfahrens der Phonem-Unterscheidung liegt darin, daß die Ausdehnung von Vokabularen, erkennbaren Satztypen usw. wie gewünscht erzielt werden kann, indem man die Ebene der Akustikverarbeitung und die Ebene der Buchstabenfolgeverarbeitung voneinander trennt.
Ein Verfahren der Phonem-Unterscheidung wird in "Multi-Level Clustering of Acoustic Features for Phoneme Recognition Based on Mutual Information", Proc. ICASSP-89, Seiten 604-607 (Mai 1989) vorgeschlagen.
Ein Überblick über das herkömmliche Phonem-Unterscheidungsverfahren, das in der obigen Veröffentlichung beschrieben ist, wird nachfolgend beschrieben.
Gemäß des Phonem-Unterscheidungsverfahrens werden die Leistungen der individuellen Frames und die akustischen Parameter (LPC Mel-Cepstrum Koeffizienten) durch eine LPC-Analyse von Eingangs-Sprachsignalen erhalten. Im Anschluß an die nachfolgend beschriebene Berechnung von vier Quantisiemngscodes wird die Phonembezeichnung (die Abfolge von Phonemsymbolen) jedes Frames aus der Kombination dieser Quantisiemngscodes ermittelt.
(1) Hinsichtlich jedes Frames wird ein Leistungsändemngsvektor (PCP), der durch die Unterschiede zwischen der Leistung des betreffenden Frames und dessen vorhergehenden und nachfolgenden Frames gebildet wird, vektorquantisiert, wobei man einen Leistungsänderungsvektor-Code, der die Leistungsändemngsvektoren der Sprachsignalform anzeigt, erhält.
(2) Als akustische Parameter erhält man Cepstmm-Codes durch Vektorquantisieren der LPC Mel-Cepstrum Koeffizienten, während Codebücher, die vorab entsprechend den Leistungscodes klassifiziert wurden, verwendet werden.
(3) Der Gradient einer Fehlerquadrat-Approximationslinie der akustischen Parameter wird vektorquantisiert, um einen Regressionskoeffizienten zu ermitteln.
(4) Das Zeitfolge-Muster der Leistungscodes wird vektorquantisiert, um eine Leistungscodefolge zu erhalten.
Um ein hohes Maß an Phonem-Unterscheidung zu erhalten, ist es nötig, Parameter effektiv zu analysieren, die als verschiedene Schlüssel einer Stimme dienen. Wenn eine Person eine Stimme erkennt, wurde durch verschiedene Experimente bewiesen, daß die Veränderung der Intensität der Stimme und die Zeitvarianz ihres Spektrums - dynamische Informationen über die Stimme - zu wichtigen Schlüsseln werden, ganz zu schweigen von statischen Informationen über die Stimme, nämlich die Intensität der Stimme zu einem bestimmten Zeitpunkt und die klanglichen Eigenschaften (Spektrum der Stimme). Obwohl das oben beschriebene herkömmliche Phonem-Unterscheidungsverfahren Leistungsänderungen, einer der wichtigsten Parameter in der Phonem- Unterscheidung, in Form eines charakteristischen Leistungsänderungsvektors (PCP) analysiert und auch die statischen Informationen auf dem Spektrum in Betracht zieht, indem es sich auf akustische Parameter (LPC Mel-Cepstrum Koeffizienten) stützt, wurde in Verbindung mit Änderungen des Sprachspektrums nichts berücksichtigt, wobei diese Änderungen der wichtigste Schlüsselparameter zur Unterscheidung zwischen ähnlichen Phonemen sind. Das herkömmliche Phonem-Unterscheidungsverfahren beinhaltet nämlich das Problem, das seine Phonem-Unterscheidungsfähigkeit unzureichend ist, weil sie sich auf indirekte Auswertung durch eine Leistungscodefolge o. ä. stützt, oder auf eine ungefähre Auswertung durch den Gradienten der Fehlerquadrat-Approximationslinie der akustischen Parameter.
Wenn eine Person eine Stimme versteht&sub1; gruppiert sie die Sprachqualität mittels einer Reihe von Äußerungen, zusätzlich zu einer Beurteilung, die auf statischen Informationen über die Stimme basiert. Die Reihe der Äußerungen weist eine spezielle Spektrumstruktur auf, die von der Sprachqualität definiert wird, die dem Sprecher zu eigen ist, so daß die Spektrumstruktur anders ist, wenn sie von einem anderen Sprecher geäußert wird. Man benötigt daher ein sprecherunabhängiges Spracherkennungssystem, um diese Spektrumstruktur präzise analysieren zu können. Dieser Aspekt wurde jedoch überhaupt nicht berücksichtigt. Es gibt nämlich nur ein Codebuch, um die Eigenschaften der individuellen Spektren zu analysieren, so daß das Codieren aller Stimmen unter Verwendung dieses einzigen Codebuchs durchgeführt wird. Dies resultierte in einer häufigen Zuordnung einer Gruppe von Codes einer Kombination, die grundsätzlich niemals auftritt, wenn sie von einem einzelnen Sprecher geäußert wird, was ein Grund für die erfolglose Verbesserung in der Erkennungsleistung führt.
Weitere Informationen bezüglich Spracherkennungssysteme des Stands der Technik erhält man aus US-A4 882 755 und S. Furui, "On the use of hierarchical spectral dynamics in speech recognition", ICASSP April 1990.
Eine Aufgabe der vorliegenden Erfindung ist, ein Phonem- Unterscheidungsverfahren zu schaffen, das in der Fähigkeit, Phoneme zu unterscheiden, verbessert ist, indem es unmittelbar die Variationen eines jeden Sprachspektrums berücksichtigt, wobei diese Variationen die wichtigsten Schlüsselparameter für die Unterscheidung zwischen ähnlichen Phonemen sind. Weiterhin ist eine andere Aufgabe der vorliegenden Erfindung, ein Phonem- Unterscheidungsverfahren zu schaffen, das ein hohes Maß an Phonem- Unterscheidungsleistung in einem sprecherunabhängigen Spracherkennungssystem erreichen kann, indem es die Spektrumstruktur präzise einschätzt, die durch die Sprachqualität des Sprechers definiert wird.
Ein Verfahren gemäß eines ersten Aspekts der vorliegenden Erfindung ist gekennzeichnet durch die Schritte des Erzeugens eines Spektrumsänderungsvektors, der eine Änderung im Sprachsignalspektrum mit der Zeit darstellt, aus den Sprachsignalspektren einer vorherbestimmten Anzahl von aufeinanderfolgenden Frames; und des Vektorquantisieren des Spektrumsänderungsvektors unter Verwendung eines Codebuchs, das in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungsvektor-Quantisierungscode zu erzeugen, und dadurch, daß die Ausgabe eines ein Phonem darstellenden Signals auf der weiteren Basis des Spektrumsänderungsvektor-Quantisierungscode ausgeführt wird.
Ein Verfahren gemäß des ersten Aspekts der vorliegenden Erfindung analysiert Variationen in Sprachleistung in Form eines Leistungsänderungsvektors als dynamische Information über die Stimme, ganz zu schweigen von statischen Informationen über die Stimme, nämlich dem Unterschied in Sprachleistung oder -spektrum zu einem gegebenen Zeitpunkt. Weiterhin, nach grober Gruppierung durch einen solchen Leistungsänderungsvektor, wird eine genaue Gruppierung unter Verwendung des Spektrumsänderungsvektors durchgeführt, so daß die Stimme gemäß eines hierarchischen Prozesses erkannt wird. Dies ermöglichte es, eine effizientere und höhere Unterscheidungsleistung zu erreichen, als durch einzelne Verwendung von individuellen Merkmalen möglich gewesen wäre.
Ein Verfahren gemäß eines zweiten Aspekts der vorliegenden Erfindung ist gekennzeichnet durch den Schritt des Vektorquantisierens des Spektrumvektors für ein Frame unter Verwendung einer Vielzahl von Spektrumvektor-Codebüchern, die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurden, um eine Vielzahl von Spektrumvektor-Quantisierungscodes und eine Vielzahl von Quantisierungsfehlerwerten zu erzeugen, und dadurch, daß das ein Phonem darstellendes Signal auf der weiteren Basis des Spektrumvektor- Quantisierungscode ausgegeben wird, der gemäß eines optimalen Codebuchs erzeugt wurde, wobei das optimale Codebuch das Spektrumvektor-Codebuch ist, für das die Summe der Quantisierungsfehlerwerte über der Zeit am geringsten ist.
In einem Verfahren gemäß des zweiten Aspekts der vorliegenden Erfindung sind Mehrfach-Spektrum-Codebücher vorgesehen, die zuvor gemäß der Sprachstrukturen gruppiert wurden, und durch Vergleichen der Eingangsstimme mit jedem der Codebücher wird eine genaue Unterscheidung und Sprachstrukturbeurteilung durchgeführt. Es ist daher möglich, eine Erkennung für eine Stimme jeglicher Struktur durchzuführen, während ihre Spektrumstruktur präzise analysiert wird. Gemäß dieses Verfahrens wird, anstatt des Vorsehens von Mehrfach-Codebüchern für alle Merkmale, ein einziges Codebuch für Mustermerkmale mit niedrigerer Sprecherabhängigkeit benutzt, aber Mehrfach-Codebücher werden für Spektrumeigenschaften mit hoher Sprecherabhängigkeit eingesetzt. Durch Schaffen einer geeigneten Anzahl von Codebüchern gemäß der Sprecherabhängigkeit jedes Merkmals ist es möglich, nicht nur die Anzahl der zu verarbeitenden Daten zu reduzieren, sondern auch, dank des Wegfalls der Verarbeitung für unnötige Wörterbucheinträge, eine stabilere, präzisere Gruppierung durchzuführen, wobei es möglich gemacht wird, eine effiziente und hochwertige Phonem-Unterscheidungsleistung zu schaffen.
Die vorliegende Erfindung schafft auch Vorrichtungen zur Durchführung der Verfahren der vorliegenden Erfindung. Die Vorrichtungen weisen Einrichtungen auf, um jeden der Schritte des einen oder anderen Verfahrens durchzuführen.
Ausführungsbeispiele der vorliegenden Erfindung werden nun mittels Beispielen im Bezug auf die Begleitzeichnungen beschrieben werden, in denen:
Fig. 1 ein Blockdiagramm ist, das den Aufbau eines Systems eines ersten Ausführungsbeispiels der vorliegenden Erfindung zeigt;
Fig. 2 ein Diagramm ist, das ein Beispiel der Leistung der Eingangs- Sprachsignale veranschaulicht;
Fig. 3 ein Diagramm ist, das ein Beispiel der Leistungsänderung eines Eingangs-Sprachsignals darstellt;
Fig. 4 ein Diagramm ist, das ein Beispiel der Zeitvariation eines Frequenzspektrums zeigt;
Fig. 5 ein Diagramm ist, das ein Beispiel einer Spektrumsänderung zeigt, die man erhält, wenn ein Frequenzspektrum binärquantisiert wird;
Fig. 6 ein Diagramm ist, das ein Beispiel eines Leistungsft nderungsvektor-Codebuchs veranschaulicht;
Fig. 7 ein Diagramm ist, das ein Beispiel eines Spektrumsänderungsmuster-Codebuchs zeigt;
Fig. 8 ein Diagramm ist, das ein Beispiel einer Phonemtabelle zur Verwendung im ersten Ausführungsbeispiel zeigt;
Fig. 9 ein Blockdiagramm ist, das den Aufbau eines Systems eines zweiten Ausführungsbeispiels der vorliegenden Erfindung zeigt;
Fig. 10 ein Diagramm ist, das ein beispiel des Frequenzespektrums eines Eingangs-Sprachsignal veranschaulicht;
Fig. 11 ein Diagramm ist, das ein Beispiel von Spektrumdaten zeigt;
Fig. 12 ein Diagramm ist, das ein Beispiel eines Spektrum-Codebuchs zeigt; und
Fig. 13 ein Diagramm ist, das ein Beispiel einer Phonemtabelle zur Verwendung im zweiten Ausführungsbeispiel darstellt.

Beispiel 1

Das erste Ausführungsbeispiel dieser Erfindung wird im Bezug auf Fig. 1 bis Fig. 8 beschrieben werden.
Fig. 1 ist ein Blockdiagramm, das ein System zeigt, das in der Praxis des ersten Phonem-Unterscheidungsverfahrens nützlich ist.
In Fig. 1 wird das von einem nicht dargestellten Mikrophon aufgenommene Spektrum einer Stimme in einem Akustikanalysator 10 aus Sprachsignalen berechnet, die von einem Spracheingangsanschluß 1 eingegeben werden. Die Spektrumsextraktion kann unter Verwendung eines Verfahrens durchgeführt werden, das ein Band von Bandpaßfiltern mit aufeinanderfolgend höheren Zentralfrequenzen verwendet, ein Verfahren, das die Spektrumanalyse durch FFT (schnelle Fourier-Transformation) oder ein anderes Verfahren verwendet. Das Verfahren, das die Bank von Bandpaßfiltern benutzt, wird in diesem Ausführungsbeispiel eingesetzt.
Als Spektrum eingesetzt, erhält man Si durch logarithmisches Konvertieren von Bandfrequenzkomponenten, die durch die Bank von J Bandpaßfiltern mit verschiedenen Zentralfrequenzen extrahiert wurden, und durch Abtasten von diesen in kurzen Intervallen, genannt "Frames". Das Spektrum Si kann in Vektorform wie folgt ausgedrückt werden:
S&sub1; = (Si1, Si2, ..., Sij, ..., SiJ-1 SiJ) (1)
wobei i die Framenummer und j die Nummer des Bandpaßfilters ist. In der folgenden Beschreibung wird die Anfangsframenummer des Sprachsignals auf 0 gesetzt&sub1; während die Endframenummer des Sprachsignals auf 1 eingestellt wird.
Im Akustikanalysator 10 wird die Sprachleistung Pi eines jeden Frames auch gemäß der folgenden Formel berechnet:
In einem PCP Generator 20 wird ein Leistungsänderungsvektor (PCP) Pi, der durch die folgende Formel (3) dargestellt wird, berechnet durch Kombinieren der (2n+1) Sprachleistungen des i-ten Frames und der benachbarten n Frames, die dem i-ten Frame vorangehen bzw. folgen:
Pi = (Pi-n, Pi-n+1, ..., Pi-1, Pi, ..., Pi+n-1, Pi+n) (3)
Der PCP P wird in einer PCP-VQ-Einheit 30 mit Bezug auf ein PCP Codebuch 40 wie in Fig. 6 gezeigt, vektorquantisiert, so daß man einen Leistungsänderungsvektor-Quantisierungscode (PCP-VQ-Code) Ci gemäß der folgenden Formel erhält:
Hier zeigt d(Pi, Ym) die Entfernung zwischen dem PCP Pi und dem PCP
der Leistungscodenummer m an, und argmin bedeutet, die Leistungscodenummer zu ermitteln, die die geringste Entfernung ergibt. M ist die Größe eines PCP Codebuchs. Diese Leistungsänderungsvektor-Quantisierung (PCP-VQ) dient zur Einschätzung der Eingangs-Stimme aus der Form des Leistungsänderungsvektors.
Bei einem TSP Generator 50 wird ein Spektrumsänderungsvektor (TSP), der durch die folgende Formel dargestellt wird, dadurch geschaffen, daß die (2k+1) Spektren des i-ten Frames, dessen Spektrum Si ist, und die benachbarten k Frames, die dem i-ten Frame vorangehen, bzw. folgen, kombiniert werden;
T&sub1; = (Si-k, ..., Si-1, Si, Si+1, ..., Si+k) (6)
In einer TSP-VQ-Einheit 60 wird der TSP Ti basierend auf TSP Codebüchern 70, wie in Fig. 7 gezeigt, vektorquantisiert,. Die TSP Codebücher 70 bestehen aus M Codebüchem, die gemäß der Leistungscodes gespeichert sind.
Die Spektrumsänderungsvektor-Quantisierung dient zur Durchführung einer detaillierten Abschätzung, die auf genauen Eigenschaften eines Sprachsignals und deren Variationen im Gegensatz zu der ungefähren Schätzung in der Muster-Quantisierung basiert. Als erstes wird das TSP Codebuch entsprechend dem Leistungscode Ci von den TSP Codebüchern 70 ausgewählt. In anderen Worten ist dies gleichbedeutend mit einem Wechsel zu einem Wörterbuch, das im Hinblick auf die Ergebnisse der ungefähren Schätzung geeignet ist für eine genaue Unterscheidung. Vektorquantisierung wird unter Verwendung des so ausgewählten Codebuchs durchgeführt. Angenommen, daß der Leistungscode Ci ist, kann ein Spektrumsänderungsvektor-Quantisierungscode Zi durch die folgende Formel definiert werden:
wobei U(Ci)r dem Leistungscode Ci entspricht und ein Spektrumsänderungsvektor (TSP) ist, der aus (2k+1)*J Elementen besteht, wobei r eine Codenummer ist, die jedem Spektrumsänderungsvektor (TSP) zugeordnet ist, und R(Ci) der Größe des TSP Codebuchs entsprechend dem Leistungscode Ci entspricht.
In einer Phonem-Zähleinheit 80 werden der Leistungscode Ci und der Spektrumsänderungs-VQ-Code Zi in ein Phonemsymbol Li umgewandelt. Obwohl verschiedene Verfahren für diese Umwandlung angewendet werden könnten, wird hier das einfachste Tabellennachschlagverfahren beschrieben.
Der Aufbau einer für die o. g. Umwandlung nützlichen Phonem- Zähltabelle 90 wird in Fig. 8 dargestellt. Z. B. ist das Phonemsymbol Li "a", wenn Ci = 1 und Zi = 1, und "e", wenn Ci = 2 und Zi = 3. Auf diese Weise wird das Eingangs-Sprachsignal in eine Abfolge von Phonemsymbolen umgewandelt und dann von einer Ausgangsklemme 100 ausgegeben.
Verschiedene Verfahren können für die Schaffung der Phonem- Zähltabelle 90 angewendet werden. Ein Beispiel wird nachfolgend beschrieben.
(1) Man berechne vorher einen Leistungsänderungsvektor (PCP) und einen Spektrumsänderungsvektor (TSP) auf der Basis von Sprachdatensätzen und speichere sie als Leistungsänderungsvektor (PCP)-Daten und Spektrumsänderungs (TSP)-Daten.
(2) Man gruppiere die PCP Daten&sub1; um ein PCP Codebuch zu schaffen.
(3) Man vektorquantisiere die PCP Daten unter Verwendung des PCP Codebuchs, wodurch die Leistungscode-Daten geschaffen werden.
(4) Man gruppiere die TSP Daten entsprechend den Frames, die der gleichen Leistungscode-Nummer aus den PCP Daten zugeordnet sind, so daß ein Spektrumsänderungsvektor (TSP)-Codebuch geschaffen wird. Diese Vorgehensweise wird so oft wiederholt, wie es Leistungscodes gibt.
(5) Man vektorquantisiere die TSP Daten unter Verwendung des TSP Codebuchs, ermittelt vom entsprechenden Leistungscode, und erhalte dadurch Spektrumsänderungsvektor-Quantisierungscode (TSP-VQ-Code)-Daten.
(6) Man schaffe eine Phonemtabelle, die eine Korrelation zwischen Phonemcode-Daten&sub1; die zuvor zugeordnet wurden, zu Sprachdaten, und den PCP- VQ-Code-Daten und TSP-VQ-Daten darstellt.

Beispiel 2

Fig. 9 ist das Blockdiagramm, das den Aufbau des für die Durchführung des zweiten Phonem-Unterscheidungsverfahrens nützlichen Systems der vorliegenden Erfindung zeigt.
In der Zeichnung sind der Akustikanalysator 110, der PCP Generator 120, die PCP-VQ-Einheit 130 und das PCP Codebuch 140 entweder gleich oder ähnlich dem Akustikanalysator 10, dem PCP Generator 20, der PCP-VQ-Einheit 30 und dem PCP Codebuch 40 in Beispiel 1 (Fig. 1), so daß deren Beschreibung hier ausgelassen werden kann.
In einer Spektrum-VQ-Einheit 150 in diesem Ausführungsbeispiel wird das Vektorquantisieren des Spektrums Si (siehe Formel (1)] basierend auf Spektrum-Codebüchern 160, wie in Fig. 12 dargestellt, durchgeführt.
Die Spektrum-Codebücher 160 bestehen aus Q Arten von Codebüchern, die aus zahlreichen Beispielen von Sprachdaten geschaffen werden und im vorhinein nach Sprechereigenschaften, nämlich Parameter wie Geschlecht, Alter, Sprachqualität und ähnliches klassifiziert werden. Weiterhin umfaßt jedes Codebuch Unter-Codebücher, die abhängig von Leistungsänderungsvektor- Quantisierungscodes (PCP-VQ-Codes) klassifiziert werden. Die Spektrum- Codebücher 160 bestehen nämlich aus Q Codebüchern, die jeweils M Unter- Codebücher umfassen.
Gemäß des Spektrums VQ in diesem Ausführungsbeispiel, werden Q Unter-Codebücher gemäß eines PCP-VQ-Codes Ci ausgewählt, und Vektorquantisierung wird durchgeführt. Auf das q-te Unter-Codebuch, entsprechend dem PCP-VQ-Code Ci, wird Bezug genommen, und ein Spektrum- VQ-Code Z(q)i und VQ-Fehler V(q)i, die jeweils von den folgenden Formeln dargestellt werden, werden berechnet:
wobei X(q, Ci)r das Spektrum des q-ten Unter-Codebuchs entsprechend dem PCP-VQ-Code Ci ist, r eine Codenummer, die jedem Spektrum zugeordnet ist, und R(q, Ci) die Größe des Unter-Codebuchs entsprechend dem PCI-VQ-Code Ci.
In einem optimalen Spektrum-VQ-Codeselektor 170 wird die Summe Wq der VQ-Fehler V(q)i vom Startframe zum Endframe des Sprachsignals gemäß der folgenden Formel (12) berechnet, und die Codebuchnummer qm des Codebuchs, das Wq am kleinsten macht, wird durch die folgende Formel (13) ermittelt:
Der Code, den man nach der Quantisierung des Spektrums Si durch das Codebuch entsprechend der Nummer qm erhält, ist ein optimaler Spektrum-VQ- Code Zi. Zi wird nämlich wie folgt definiert:
Zi = Z(qm)i (14)
In einer Phonem-Zähleinheit 180 werden der PCP-VQ-Code Ci, die optimale Codebuchnummer qm und der optimale Spektrum-VQ-Code Zi in ein Phonemsymbol L&sub1; umgewandelt. Diese Umwandlung wird durch das Tabellennachschlagverfahren wie in Beispiel 1 durchgeführt. Fig. 13 zeigt eine beispielhafte Phonem-Zähltabelle 190, die für jede optimale Codebuchnummer die Korrelation zwischen dem Leistungscode und dem optimalen Spektrum-VQ-Code und dem Phonemsymbol definiert. Dementsprechend ist das Phonemsymbol Li "a", wenn qm=1, Ci=1 und Zi=1 und "e", wenn qm=2, Ci=2 und Zi=2. Auf diese Weise wird das Eingangs-Sprachsignal in eine Abfolge von Phonemsymbolen umgewandelt und dann von einem Ausgangsanschluß 200 ausgegeben.
Verschiedene Verfahren können für die Schaffung der Phonem- Zähltabelle angewendet werden. Ein Beispiel wird im nachfolgenden beschrieben.
(1) Man gruppiere im vorhinein Sprachdaten, die von vielen Sprechern gesprochen worden sind, nach Eigenschaften, Geschlecht, Alter und Sprachqualität der Sprecher in mehrere Gruppen und ordne den Sprachdatengruppen einen Sprechergruppencode zu.
(2) Man berechne Leistungsänderungsvektoren (PCPS) und Spektren für die Sprachdaten und speichere sie als PCP Daten (siehe Fig. 3) bzw. Spektrumdaten (siehe Fig. 11).
(3) Man gruppiere die PCP Daten, um PCP Codebücher zu schaffen.
(4) Man vektorquantisiere die PCP Daten unter Verwendung des PCP Codebuchs, und schaffe dadurch Leistungscodedaten.
(5) Man klassifiziere die Spektrumdaten gemäß des Sprechergruppencodes in gruppierte Spektrumdaten.
(6) Man klassifiziere die individuell gruppierten Spektrumdaten gemäß der Leistungscodes, wobei die gruppierten Spektrumdaten gruppiert werden, um Unter-Codebücher zu schaffen. Es sind die Spektrumcodebücher 150 (siehe Fig. 12), wo diese Unter-Codebücher zusammengesetzt werden.
(7) Man vektorquantisiere die gruppierten Spektrumdaten unter Verwendung der Unter-Codebücher, die vom entsprechenden Leistungscode ermittelt werden, und erhält dadurch Spektrum-VQ-Codedaten.
(8) Man stelle für jede der Gruppennummern eine Phonemtabelle 190 bereit, die die Korrelation unter den individuellen Codes von Phonemcodedaten, die zuvor den manuell bezeichneten Sprachdaten zugeordnet werden, den Spektrum-VQ-Codedaten und den Leistungscodes angeben.
Es muß angemerkt werden, daß die vorliegende Erfindung nicht auf die oben genannten Ausführungsbeispiele beschränkt ist, sondern daß verschiedene Modifikationen möglich sind, die auf den Gegenstand der vorliegenden Erfindung, wie beansprucht, basieren.

Claims

1. Phonem-Unterscheidungsverfahren, das folgende Schritte aufweist:

Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen;

Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal- Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;

Vektor-Quantisieren des Leistungsänderu ngsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs, um einen Leistungsänderungsvektor-Quantisierungscode (PCP-VQ) zu erzeugen; und

Ausgeben eines Signals, das ein Phonem auf der Basis des Leistu ngsänderungsvektor-Quantisierungscodes darstellt,

gekennzeichnet durch folgende Schritte:

Erzeugen eines Spektrumsänderungsvektors (TSP), der eine Änderung im Sprachsignal-Spektrum mit der Zeit darstellt, von den Sprachsignal-Spektren einer vorbestimmen Anzahl von aufeinanderfolgenden Frames; und

Vektor-Quantisieren des Spektrumsänderungsvektors unter Verwendung eines Codebuchs (70), das in Abhängigkeit vom Leistungsänderungsvektor- Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungsvektor- Quantisierungscode (TSP-VQ) zu erzeugen,

und dadurch gekennzeichnet, daß

die Ausgabe eines Signals, das ein Phonem darstellt, auf der weiteren Basis des Spektrumsänderungsvektor-Quantisierungscode ausgeführt wird.

2. Phonem-Unterscheidungsvorrichtung, die folgendes umfaßt:

eine Vorrichtung (10) zum Analysieren von Frames eines Eingangs- Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignais während eines jeden Frames darstellen;

eine Vorrichtung (20) zum Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal-Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;

eine Vorrichtung (30) zur Vektor-Quantisierung des Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs (40), um einen Leistungsänderungsvektor- Quantisierungscode (PCP-VQ) zu erzeugen; und

Vorrichtungen (80, 90,100) für die Ausgabe eines Signals, das ein Phonem darstellt, auf der Basis des Leistungsänderungsvektor- Quantisierungscodes,

gekennzeichnet durch

eine Vorrichtung (50) zur Erzeugung eines Spektrumsänderungsvektors, der eine Änderung im Sprachsignal-Spektrum mit der Zeit darstellt, aus den Sprachsignal-Spektren einer vorbestimmten Anzahl von aufeinanderfolgenden Frames; und

eine Vorrichtung (60) zur Vektor-Quantisierung des Spektrumsänderungsvektors unter Verwendung eines Codebuchs (70), das in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungs-Quantisiemngscode (TSP-VQ) zu erzeugen,

und dadurch gekennzeichnet, daß

die Vorrichtung für die Ausgabe eines Signals, das ein Phonem darstellt, weiterhin empfänglich ist auf den Spektru msänderungsvektor-Quantisierungscode.

3. Phonem-Unterscheidungsverfahren, das folgende Schritte aufweist:

Vektor-Quantisieren des Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs, um einen Leistungsänderungsvektor-Quantisierungscode (PCP-VQ) zu erzeugen; und

Ausgeben eines Signals, das ein Phonem darstellt, auf der Basis des Leistungsänderungsvektor-Quantisierungscodes;

gekennzeichnet durch folgenden Schritt:

Vektor-Quantisieren des Spektrumvektors für ein Frame unter Verwendung einer Vielzahl von Spektrumsvektor-Codebüchern (160), die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurden, um eine Vielzahl von Spektrumsvektor-Quantisierungscodes und eine Vielzahl von Quantisierungs-Fehlerwerten zu erzeugen,

und dadurch, daß das Signal, das ein Phonem darstellt, auf der weiteren Basis des Spektrumsvektor-Quantisierungscode ausgegeben wird, der gemäß einem optimalen Codebuch erzeugt wird,

wobei das optimale Codebuch das Spektrum-Codebuch ist, für das die Summe der Quantisierungs-Fehlerwerte über die Zeit am geringsten ist.

4. Phonem-Unterscheidungsvorrichtung, die folgendes aufweist:

eine Vorrichtung (110) zum Analysieren von Frames eines Eingangs- Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen;

eine Vorrichtung (120) zum Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal-Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;

eine Vorrichtung (130) zum Vektor-Quantisieren des Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs (140), um einen Leistungsänderungsvektor- Quantisierungscode (PCP-VQ) zu erzeugen; und

Vorrichtungen (180, 190, 200) für die Ausgabe eines Signais, das ein Phonem darstellt, auf der Basis des Leistungsänderungsvektor- Quantisierungscodes;

gekennzeichnet durch

eine Vorrichtung (150) zum Vektor-Quantisieren des Spektrumsvektors für ein Frame unter Verwendung einer Vielzahl von Spektrumsvektor-Codebüchern (160), die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurden, um eine Vielzahl von Spektrumsvektor-Quantisierungscodes und eine Vielzahl von Quantisierungs-Fehlerwerten zu erzeugen; und

Vorrichtungen (180, 190, 200) für die Ausgabe eines Signais, das ein Phonem darstellt, auf der weiteren Basis des Spektrumsvektor- Quantisierungscodes, der gemäß einem optimalen Codebuch erzeugt wurde,

wobei das optimale Codebuch das Spektrumsvektor-Codebuch ist, das durch eine Vorrichtung (170) identifiziert wird, um zu ermitteln, für welches Spektrumsvektor-Codebuch die Summe der Quantisierungs-Fehlerwerte über die Zeit am geringsten ist.