DE69128582T2 - Methode zur Phonemunterscheidung - Google Patents
Methode zur PhonemunterscheidungInfo
- Publication number
- DE69128582T2 DE69128582T2 DE69128582T DE69128582T DE69128582T2 DE 69128582 T2 DE69128582 T2 DE 69128582T2 DE 69128582 T DE69128582 T DE 69128582T DE 69128582 T DE69128582 T DE 69128582T DE 69128582 T2 DE69128582 T2 DE 69128582T2
- Authority
- DE
- Germany
- Prior art keywords
- spectrum
- vector
- power
- speech signal
- change vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title description 24
- 239000013598 vector Substances 0.000 claims description 111
- 238000001228 spectrum Methods 0.000 claims description 101
- 238000013139 quantization Methods 0.000 claims description 46
- 238000012850 discrimination method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 15
- 230000003068 static effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die vorliegende Erfindung bezieht sich auf Phonem-Unterscheidungsverfahren, die folgende Schritte aufweisen: Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen, Erzeugen eines Leistungsändewngsvektors, der eine Ändemng in der Sprachsignal-Leistung mit der Zeit darstellt, von den Sprachsignal-Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames, Vektorquantisieren des Leistungsändemngsvektors unter Verwendung eines empirisch ermittelten Leistungsändemngsvektor-Codebuchs, um einen Leistungsändemngsvektor- Quantisiemngscode zu erzeugen, und Ausgeben eines Signais, das ein Phonem auf der Basis des Leistungsändemngsvektor-Quantisierungscodes darstellt. Die vorliegende Erfindung bezieht sich auch auf eine Vorrichtung zur Durchführung solcher Verfahren.
- Eines der heutzutage am intensivsten untersuchten Verfahren auf dem Gebiet der Spracherkennung ist das Phonem-Erkennungsverfahren. Der Begriff "Phonem-Erkennung" bedeutet Umwandlung eines Eingangs-Sprachsignals in eine Reihe von Phonemen, die im wesentlichen Aussprachesymbolen gleichen. Das in solch eine Reihe von Phonemen umgewandelte Sprachsignal wird dann unter Verwendung eines Wörterbuchs, Grammatikregeln u. ä. z. B. in eine am geeignetsten erscheinende Buchstabenfolge (z. B. Satz) umgewandelt.
- Ein Verdienst des Verfahrens der Phonem-Unterscheidung liegt darin, daß die Ausdehnung von Vokabularen, erkennbaren Satztypen usw. wie gewünscht erzielt werden kann, indem man die Ebene der Akustikverarbeitung und die Ebene der Buchstabenfolgeverarbeitung voneinander trennt.
- Ein Verfahren der Phonem-Unterscheidung wird in "Multi-Level Clustering of Acoustic Features for Phoneme Recognition Based on Mutual Information", Proc. ICASSP-89, Seiten 604-607 (Mai 1989) vorgeschlagen.
- Ein Überblick über das herkömmliche Phonem-Unterscheidungsverfahren, das in der obigen Veröffentlichung beschrieben ist, wird nachfolgend beschrieben.
- Gemäß des Phonem-Unterscheidungsverfahrens werden die Leistungen der individuellen Frames und die akustischen Parameter (LPC Mel-Cepstrum Koeffizienten) durch eine LPC-Analyse von Eingangs-Sprachsignalen erhalten. Im Anschluß an die nachfolgend beschriebene Berechnung von vier Quantisiemngscodes wird die Phonembezeichnung (die Abfolge von Phonemsymbolen) jedes Frames aus der Kombination dieser Quantisiemngscodes ermittelt.
- (1) Hinsichtlich jedes Frames wird ein Leistungsändemngsvektor (PCP), der durch die Unterschiede zwischen der Leistung des betreffenden Frames und dessen vorhergehenden und nachfolgenden Frames gebildet wird, vektorquantisiert, wobei man einen Leistungsänderungsvektor-Code, der die Leistungsändemngsvektoren der Sprachsignalform anzeigt, erhält.
- (2) Als akustische Parameter erhält man Cepstmm-Codes durch Vektorquantisieren der LPC Mel-Cepstrum Koeffizienten, während Codebücher, die vorab entsprechend den Leistungscodes klassifiziert wurden, verwendet werden.
- (3) Der Gradient einer Fehlerquadrat-Approximationslinie der akustischen Parameter wird vektorquantisiert, um einen Regressionskoeffizienten zu ermitteln.
- (4) Das Zeitfolge-Muster der Leistungscodes wird vektorquantisiert, um eine Leistungscodefolge zu erhalten.
- Um ein hohes Maß an Phonem-Unterscheidung zu erhalten, ist es nötig, Parameter effektiv zu analysieren, die als verschiedene Schlüssel einer Stimme dienen. Wenn eine Person eine Stimme erkennt, wurde durch verschiedene Experimente bewiesen, daß die Veränderung der Intensität der Stimme und die Zeitvarianz ihres Spektrums - dynamische Informationen über die Stimme - zu wichtigen Schlüsseln werden, ganz zu schweigen von statischen Informationen über die Stimme, nämlich die Intensität der Stimme zu einem bestimmten Zeitpunkt und die klanglichen Eigenschaften (Spektrum der Stimme). Obwohl das oben beschriebene herkömmliche Phonem-Unterscheidungsverfahren Leistungsänderungen, einer der wichtigsten Parameter in der Phonem- Unterscheidung, in Form eines charakteristischen Leistungsänderungsvektors (PCP) analysiert und auch die statischen Informationen auf dem Spektrum in Betracht zieht, indem es sich auf akustische Parameter (LPC Mel-Cepstrum Koeffizienten) stützt, wurde in Verbindung mit Änderungen des Sprachspektrums nichts berücksichtigt, wobei diese Änderungen der wichtigste Schlüsselparameter zur Unterscheidung zwischen ähnlichen Phonemen sind. Das herkömmliche Phonem-Unterscheidungsverfahren beinhaltet nämlich das Problem, das seine Phonem-Unterscheidungsfähigkeit unzureichend ist, weil sie sich auf indirekte Auswertung durch eine Leistungscodefolge o. ä. stützt, oder auf eine ungefähre Auswertung durch den Gradienten der Fehlerquadrat-Approximationslinie der akustischen Parameter.
- Wenn eine Person eine Stimme versteht&sub1; gruppiert sie die Sprachqualität mittels einer Reihe von Äußerungen, zusätzlich zu einer Beurteilung, die auf statischen Informationen über die Stimme basiert. Die Reihe der Äußerungen weist eine spezielle Spektrumstruktur auf, die von der Sprachqualität definiert wird, die dem Sprecher zu eigen ist, so daß die Spektrumstruktur anders ist, wenn sie von einem anderen Sprecher geäußert wird. Man benötigt daher ein sprecherunabhängiges Spracherkennungssystem, um diese Spektrumstruktur präzise analysieren zu können. Dieser Aspekt wurde jedoch überhaupt nicht berücksichtigt. Es gibt nämlich nur ein Codebuch, um die Eigenschaften der individuellen Spektren zu analysieren, so daß das Codieren aller Stimmen unter Verwendung dieses einzigen Codebuchs durchgeführt wird. Dies resultierte in einer häufigen Zuordnung einer Gruppe von Codes einer Kombination, die grundsätzlich niemals auftritt, wenn sie von einem einzelnen Sprecher geäußert wird, was ein Grund für die erfolglose Verbesserung in der Erkennungsleistung führt.
- Weitere Informationen bezüglich Spracherkennungssysteme des Stands der Technik erhält man aus US-A4 882 755 und S. Furui, "On the use of hierarchical spectral dynamics in speech recognition", ICASSP April 1990.
- Eine Aufgabe der vorliegenden Erfindung ist, ein Phonem- Unterscheidungsverfahren zu schaffen, das in der Fähigkeit, Phoneme zu unterscheiden, verbessert ist, indem es unmittelbar die Variationen eines jeden Sprachspektrums berücksichtigt, wobei diese Variationen die wichtigsten Schlüsselparameter für die Unterscheidung zwischen ähnlichen Phonemen sind. Weiterhin ist eine andere Aufgabe der vorliegenden Erfindung, ein Phonem- Unterscheidungsverfahren zu schaffen, das ein hohes Maß an Phonem- Unterscheidungsleistung in einem sprecherunabhängigen Spracherkennungssystem erreichen kann, indem es die Spektrumstruktur präzise einschätzt, die durch die Sprachqualität des Sprechers definiert wird.
- Ein Verfahren gemäß eines ersten Aspekts der vorliegenden Erfindung ist gekennzeichnet durch die Schritte des Erzeugens eines Spektrumsänderungsvektors, der eine Änderung im Sprachsignalspektrum mit der Zeit darstellt, aus den Sprachsignalspektren einer vorherbestimmten Anzahl von aufeinanderfolgenden Frames; und des Vektorquantisieren des Spektrumsänderungsvektors unter Verwendung eines Codebuchs, das in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungsvektor-Quantisierungscode zu erzeugen, und dadurch, daß die Ausgabe eines ein Phonem darstellenden Signals auf der weiteren Basis des Spektrumsänderungsvektor-Quantisierungscode ausgeführt wird.
- Ein Verfahren gemäß des ersten Aspekts der vorliegenden Erfindung analysiert Variationen in Sprachleistung in Form eines Leistungsänderungsvektors als dynamische Information über die Stimme, ganz zu schweigen von statischen Informationen über die Stimme, nämlich dem Unterschied in Sprachleistung oder -spektrum zu einem gegebenen Zeitpunkt. Weiterhin, nach grober Gruppierung durch einen solchen Leistungsänderungsvektor, wird eine genaue Gruppierung unter Verwendung des Spektrumsänderungsvektors durchgeführt, so daß die Stimme gemäß eines hierarchischen Prozesses erkannt wird. Dies ermöglichte es, eine effizientere und höhere Unterscheidungsleistung zu erreichen, als durch einzelne Verwendung von individuellen Merkmalen möglich gewesen wäre.
- Ein Verfahren gemäß eines zweiten Aspekts der vorliegenden Erfindung ist gekennzeichnet durch den Schritt des Vektorquantisierens des Spektrumvektors für ein Frame unter Verwendung einer Vielzahl von Spektrumvektor-Codebüchern, die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurden, um eine Vielzahl von Spektrumvektor-Quantisierungscodes und eine Vielzahl von Quantisierungsfehlerwerten zu erzeugen, und dadurch, daß das ein Phonem darstellendes Signal auf der weiteren Basis des Spektrumvektor- Quantisierungscode ausgegeben wird, der gemäß eines optimalen Codebuchs erzeugt wurde, wobei das optimale Codebuch das Spektrumvektor-Codebuch ist, für das die Summe der Quantisierungsfehlerwerte über der Zeit am geringsten ist.
- In einem Verfahren gemäß des zweiten Aspekts der vorliegenden Erfindung sind Mehrfach-Spektrum-Codebücher vorgesehen, die zuvor gemäß der Sprachstrukturen gruppiert wurden, und durch Vergleichen der Eingangsstimme mit jedem der Codebücher wird eine genaue Unterscheidung und Sprachstrukturbeurteilung durchgeführt. Es ist daher möglich, eine Erkennung für eine Stimme jeglicher Struktur durchzuführen, während ihre Spektrumstruktur präzise analysiert wird. Gemäß dieses Verfahrens wird, anstatt des Vorsehens von Mehrfach-Codebüchern für alle Merkmale, ein einziges Codebuch für Mustermerkmale mit niedrigerer Sprecherabhängigkeit benutzt, aber Mehrfach-Codebücher werden für Spektrumeigenschaften mit hoher Sprecherabhängigkeit eingesetzt. Durch Schaffen einer geeigneten Anzahl von Codebüchern gemäß der Sprecherabhängigkeit jedes Merkmals ist es möglich, nicht nur die Anzahl der zu verarbeitenden Daten zu reduzieren, sondern auch, dank des Wegfalls der Verarbeitung für unnötige Wörterbucheinträge, eine stabilere, präzisere Gruppierung durchzuführen, wobei es möglich gemacht wird, eine effiziente und hochwertige Phonem-Unterscheidungsleistung zu schaffen.
- Die vorliegende Erfindung schafft auch Vorrichtungen zur Durchführung der Verfahren der vorliegenden Erfindung. Die Vorrichtungen weisen Einrichtungen auf, um jeden der Schritte des einen oder anderen Verfahrens durchzuführen.
- Ausführungsbeispiele der vorliegenden Erfindung werden nun mittels Beispielen im Bezug auf die Begleitzeichnungen beschrieben werden, in denen:
- Fig. 1 ein Blockdiagramm ist, das den Aufbau eines Systems eines ersten Ausführungsbeispiels der vorliegenden Erfindung zeigt;
- Fig. 2 ein Diagramm ist, das ein Beispiel der Leistung der Eingangs- Sprachsignale veranschaulicht;
- Fig. 3 ein Diagramm ist, das ein Beispiel der Leistungsänderung eines Eingangs-Sprachsignals darstellt;
- Fig. 4 ein Diagramm ist, das ein Beispiel der Zeitvariation eines Frequenzspektrums zeigt;
- Fig. 5 ein Diagramm ist, das ein Beispiel einer Spektrumsänderung zeigt, die man erhält, wenn ein Frequenzspektrum binärquantisiert wird;
- Fig. 6 ein Diagramm ist, das ein Beispiel eines Leistungsft nderungsvektor-Codebuchs veranschaulicht;
- Fig. 7 ein Diagramm ist, das ein Beispiel eines Spektrumsänderungsmuster-Codebuchs zeigt;
- Fig. 8 ein Diagramm ist, das ein Beispiel einer Phonemtabelle zur Verwendung im ersten Ausführungsbeispiel zeigt;
- Fig. 9 ein Blockdiagramm ist, das den Aufbau eines Systems eines zweiten Ausführungsbeispiels der vorliegenden Erfindung zeigt;
- Fig. 10 ein Diagramm ist, das ein beispiel des Frequenzespektrums eines Eingangs-Sprachsignal veranschaulicht;
- Fig. 11 ein Diagramm ist, das ein Beispiel von Spektrumdaten zeigt;
- Fig. 12 ein Diagramm ist, das ein Beispiel eines Spektrum-Codebuchs zeigt; und
- Fig. 13 ein Diagramm ist, das ein Beispiel einer Phonemtabelle zur Verwendung im zweiten Ausführungsbeispiel darstellt.
- Das erste Ausführungsbeispiel dieser Erfindung wird im Bezug auf Fig. 1 bis Fig. 8 beschrieben werden.
- Fig. 1 ist ein Blockdiagramm, das ein System zeigt, das in der Praxis des ersten Phonem-Unterscheidungsverfahrens nützlich ist.
- In Fig. 1 wird das von einem nicht dargestellten Mikrophon aufgenommene Spektrum einer Stimme in einem Akustikanalysator 10 aus Sprachsignalen berechnet, die von einem Spracheingangsanschluß 1 eingegeben werden. Die Spektrumsextraktion kann unter Verwendung eines Verfahrens durchgeführt werden, das ein Band von Bandpaßfiltern mit aufeinanderfolgend höheren Zentralfrequenzen verwendet, ein Verfahren, das die Spektrumanalyse durch FFT (schnelle Fourier-Transformation) oder ein anderes Verfahren verwendet. Das Verfahren, das die Bank von Bandpaßfiltern benutzt, wird in diesem Ausführungsbeispiel eingesetzt.
- Als Spektrum eingesetzt, erhält man Si durch logarithmisches Konvertieren von Bandfrequenzkomponenten, die durch die Bank von J Bandpaßfiltern mit verschiedenen Zentralfrequenzen extrahiert wurden, und durch Abtasten von diesen in kurzen Intervallen, genannt "Frames". Das Spektrum Si kann in Vektorform wie folgt ausgedrückt werden:
- S&sub1; = (Si1, Si2, ..., Sij, ..., SiJ-1 SiJ) (1)
- wobei i die Framenummer und j die Nummer des Bandpaßfilters ist. In der folgenden Beschreibung wird die Anfangsframenummer des Sprachsignals auf 0 gesetzt&sub1; während die Endframenummer des Sprachsignals auf 1 eingestellt wird.
- Im Akustikanalysator 10 wird die Sprachleistung Pi eines jeden Frames auch gemäß der folgenden Formel berechnet:
- In einem PCP Generator 20 wird ein Leistungsänderungsvektor (PCP) Pi, der durch die folgende Formel (3) dargestellt wird, berechnet durch Kombinieren der (2n+1) Sprachleistungen des i-ten Frames und der benachbarten n Frames, die dem i-ten Frame vorangehen bzw. folgen:
- Pi = (Pi-n, Pi-n+1, ..., Pi-1, Pi, ..., Pi+n-1, Pi+n) (3)
- Der PCP P wird in einer PCP-VQ-Einheit 30 mit Bezug auf ein PCP Codebuch 40 wie in Fig. 6 gezeigt, vektorquantisiert, so daß man einen Leistungsänderungsvektor-Quantisierungscode (PCP-VQ-Code) Ci gemäß der folgenden Formel erhält:
- Hier zeigt d(Pi, Ym) die Entfernung zwischen dem PCP Pi und dem PCP
- der Leistungscodenummer m an, und argmin bedeutet, die Leistungscodenummer zu ermitteln, die die geringste Entfernung ergibt. M ist die Größe eines PCP Codebuchs. Diese Leistungsänderungsvektor-Quantisierung (PCP-VQ) dient zur Einschätzung der Eingangs-Stimme aus der Form des Leistungsänderungsvektors.
- Bei einem TSP Generator 50 wird ein Spektrumsänderungsvektor (TSP), der durch die folgende Formel dargestellt wird, dadurch geschaffen, daß die (2k+1) Spektren des i-ten Frames, dessen Spektrum Si ist, und die benachbarten k Frames, die dem i-ten Frame vorangehen, bzw. folgen, kombiniert werden;
- T&sub1; = (Si-k, ..., Si-1, Si, Si+1, ..., Si+k) (6)
- In einer TSP-VQ-Einheit 60 wird der TSP Ti basierend auf TSP Codebüchern 70, wie in Fig. 7 gezeigt, vektorquantisiert,. Die TSP Codebücher 70 bestehen aus M Codebüchem, die gemäß der Leistungscodes gespeichert sind.
- Die Spektrumsänderungsvektor-Quantisierung dient zur Durchführung einer detaillierten Abschätzung, die auf genauen Eigenschaften eines Sprachsignals und deren Variationen im Gegensatz zu der ungefähren Schätzung in der Muster-Quantisierung basiert. Als erstes wird das TSP Codebuch entsprechend dem Leistungscode Ci von den TSP Codebüchern 70 ausgewählt. In anderen Worten ist dies gleichbedeutend mit einem Wechsel zu einem Wörterbuch, das im Hinblick auf die Ergebnisse der ungefähren Schätzung geeignet ist für eine genaue Unterscheidung. Vektorquantisierung wird unter Verwendung des so ausgewählten Codebuchs durchgeführt. Angenommen, daß der Leistungscode Ci ist, kann ein Spektrumsänderungsvektor-Quantisierungscode Zi durch die folgende Formel definiert werden:
- wobei U(Ci)r dem Leistungscode Ci entspricht und ein Spektrumsänderungsvektor (TSP) ist, der aus (2k+1)*J Elementen besteht, wobei r eine Codenummer ist, die jedem Spektrumsänderungsvektor (TSP) zugeordnet ist, und R(Ci) der Größe des TSP Codebuchs entsprechend dem Leistungscode Ci entspricht.
- In einer Phonem-Zähleinheit 80 werden der Leistungscode Ci und der Spektrumsänderungs-VQ-Code Zi in ein Phonemsymbol Li umgewandelt. Obwohl verschiedene Verfahren für diese Umwandlung angewendet werden könnten, wird hier das einfachste Tabellennachschlagverfahren beschrieben.
- Der Aufbau einer für die o. g. Umwandlung nützlichen Phonem- Zähltabelle 90 wird in Fig. 8 dargestellt. Z. B. ist das Phonemsymbol Li "a", wenn Ci = 1 und Zi = 1, und "e", wenn Ci = 2 und Zi = 3. Auf diese Weise wird das Eingangs-Sprachsignal in eine Abfolge von Phonemsymbolen umgewandelt und dann von einer Ausgangsklemme 100 ausgegeben.
- Verschiedene Verfahren können für die Schaffung der Phonem- Zähltabelle 90 angewendet werden. Ein Beispiel wird nachfolgend beschrieben.
- (1) Man berechne vorher einen Leistungsänderungsvektor (PCP) und einen Spektrumsänderungsvektor (TSP) auf der Basis von Sprachdatensätzen und speichere sie als Leistungsänderungsvektor (PCP)-Daten und Spektrumsänderungs (TSP)-Daten.
- (2) Man gruppiere die PCP Daten&sub1; um ein PCP Codebuch zu schaffen.
- (3) Man vektorquantisiere die PCP Daten unter Verwendung des PCP Codebuchs, wodurch die Leistungscode-Daten geschaffen werden.
- (4) Man gruppiere die TSP Daten entsprechend den Frames, die der gleichen Leistungscode-Nummer aus den PCP Daten zugeordnet sind, so daß ein Spektrumsänderungsvektor (TSP)-Codebuch geschaffen wird. Diese Vorgehensweise wird so oft wiederholt, wie es Leistungscodes gibt.
- (5) Man vektorquantisiere die TSP Daten unter Verwendung des TSP Codebuchs, ermittelt vom entsprechenden Leistungscode, und erhalte dadurch Spektrumsänderungsvektor-Quantisierungscode (TSP-VQ-Code)-Daten.
- (6) Man schaffe eine Phonemtabelle, die eine Korrelation zwischen Phonemcode-Daten&sub1; die zuvor zugeordnet wurden, zu Sprachdaten, und den PCP- VQ-Code-Daten und TSP-VQ-Daten darstellt.
- Fig. 9 ist das Blockdiagramm, das den Aufbau des für die Durchführung des zweiten Phonem-Unterscheidungsverfahrens nützlichen Systems der vorliegenden Erfindung zeigt.
- In der Zeichnung sind der Akustikanalysator 110, der PCP Generator 120, die PCP-VQ-Einheit 130 und das PCP Codebuch 140 entweder gleich oder ähnlich dem Akustikanalysator 10, dem PCP Generator 20, der PCP-VQ-Einheit 30 und dem PCP Codebuch 40 in Beispiel 1 (Fig. 1), so daß deren Beschreibung hier ausgelassen werden kann.
- In einer Spektrum-VQ-Einheit 150 in diesem Ausführungsbeispiel wird das Vektorquantisieren des Spektrums Si (siehe Formel (1)] basierend auf Spektrum-Codebüchern 160, wie in Fig. 12 dargestellt, durchgeführt.
- Die Spektrum-Codebücher 160 bestehen aus Q Arten von Codebüchern, die aus zahlreichen Beispielen von Sprachdaten geschaffen werden und im vorhinein nach Sprechereigenschaften, nämlich Parameter wie Geschlecht, Alter, Sprachqualität und ähnliches klassifiziert werden. Weiterhin umfaßt jedes Codebuch Unter-Codebücher, die abhängig von Leistungsänderungsvektor- Quantisierungscodes (PCP-VQ-Codes) klassifiziert werden. Die Spektrum- Codebücher 160 bestehen nämlich aus Q Codebüchern, die jeweils M Unter- Codebücher umfassen.
- Gemäß des Spektrums VQ in diesem Ausführungsbeispiel, werden Q Unter-Codebücher gemäß eines PCP-VQ-Codes Ci ausgewählt, und Vektorquantisierung wird durchgeführt. Auf das q-te Unter-Codebuch, entsprechend dem PCP-VQ-Code Ci, wird Bezug genommen, und ein Spektrum- VQ-Code Z(q)i und VQ-Fehler V(q)i, die jeweils von den folgenden Formeln dargestellt werden, werden berechnet:
- wobei X(q, Ci)r das Spektrum des q-ten Unter-Codebuchs entsprechend dem PCP-VQ-Code Ci ist, r eine Codenummer, die jedem Spektrum zugeordnet ist, und R(q, Ci) die Größe des Unter-Codebuchs entsprechend dem PCI-VQ-Code Ci.
- In einem optimalen Spektrum-VQ-Codeselektor 170 wird die Summe Wq der VQ-Fehler V(q)i vom Startframe zum Endframe des Sprachsignals gemäß der folgenden Formel (12) berechnet, und die Codebuchnummer qm des Codebuchs, das Wq am kleinsten macht, wird durch die folgende Formel (13) ermittelt:
- Der Code, den man nach der Quantisierung des Spektrums Si durch das Codebuch entsprechend der Nummer qm erhält, ist ein optimaler Spektrum-VQ- Code Zi. Zi wird nämlich wie folgt definiert:
- Zi = Z(qm)i (14)
- In einer Phonem-Zähleinheit 180 werden der PCP-VQ-Code Ci, die optimale Codebuchnummer qm und der optimale Spektrum-VQ-Code Zi in ein Phonemsymbol L&sub1; umgewandelt. Diese Umwandlung wird durch das Tabellennachschlagverfahren wie in Beispiel 1 durchgeführt. Fig. 13 zeigt eine beispielhafte Phonem-Zähltabelle 190, die für jede optimale Codebuchnummer die Korrelation zwischen dem Leistungscode und dem optimalen Spektrum-VQ-Code und dem Phonemsymbol definiert. Dementsprechend ist das Phonemsymbol Li "a", wenn qm=1, Ci=1 und Zi=1 und "e", wenn qm=2, Ci=2 und Zi=2. Auf diese Weise wird das Eingangs-Sprachsignal in eine Abfolge von Phonemsymbolen umgewandelt und dann von einem Ausgangsanschluß 200 ausgegeben.
- Verschiedene Verfahren können für die Schaffung der Phonem- Zähltabelle angewendet werden. Ein Beispiel wird im nachfolgenden beschrieben.
- (1) Man gruppiere im vorhinein Sprachdaten, die von vielen Sprechern gesprochen worden sind, nach Eigenschaften, Geschlecht, Alter und Sprachqualität der Sprecher in mehrere Gruppen und ordne den Sprachdatengruppen einen Sprechergruppencode zu.
- (2) Man berechne Leistungsänderungsvektoren (PCPS) und Spektren für die Sprachdaten und speichere sie als PCP Daten (siehe Fig. 3) bzw. Spektrumdaten (siehe Fig. 11).
- (3) Man gruppiere die PCP Daten, um PCP Codebücher zu schaffen.
- (4) Man vektorquantisiere die PCP Daten unter Verwendung des PCP Codebuchs, und schaffe dadurch Leistungscodedaten.
- (5) Man klassifiziere die Spektrumdaten gemäß des Sprechergruppencodes in gruppierte Spektrumdaten.
- (6) Man klassifiziere die individuell gruppierten Spektrumdaten gemäß der Leistungscodes, wobei die gruppierten Spektrumdaten gruppiert werden, um Unter-Codebücher zu schaffen. Es sind die Spektrumcodebücher 150 (siehe Fig. 12), wo diese Unter-Codebücher zusammengesetzt werden.
- (7) Man vektorquantisiere die gruppierten Spektrumdaten unter Verwendung der Unter-Codebücher, die vom entsprechenden Leistungscode ermittelt werden, und erhält dadurch Spektrum-VQ-Codedaten.
- (8) Man stelle für jede der Gruppennummern eine Phonemtabelle 190 bereit, die die Korrelation unter den individuellen Codes von Phonemcodedaten, die zuvor den manuell bezeichneten Sprachdaten zugeordnet werden, den Spektrum-VQ-Codedaten und den Leistungscodes angeben.
- Es muß angemerkt werden, daß die vorliegende Erfindung nicht auf die oben genannten Ausführungsbeispiele beschränkt ist, sondern daß verschiedene Modifikationen möglich sind, die auf den Gegenstand der vorliegenden Erfindung, wie beansprucht, basieren.
Claims (4)
1. Phonem-Unterscheidungsverfahren, das folgende Schritte aufweist:
Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu
erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines
jeden Frames darstellen;
Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung
in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal-
Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;
Vektor-Quantisieren des Leistungsänderu ngsvektors unter Verwendung
eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs, um einen
Leistungsänderungsvektor-Quantisierungscode (PCP-VQ) zu erzeugen; und
Ausgeben eines Signals, das ein Phonem auf der Basis des
Leistu ngsänderungsvektor-Quantisierungscodes darstellt,
gekennzeichnet durch folgende Schritte:
Erzeugen eines Spektrumsänderungsvektors (TSP), der eine Änderung
im Sprachsignal-Spektrum mit der Zeit darstellt, von den Sprachsignal-Spektren
einer vorbestimmen Anzahl von aufeinanderfolgenden Frames; und
Vektor-Quantisieren des Spektrumsänderungsvektors unter Verwendung
eines Codebuchs (70), das in Abhängigkeit vom Leistungsänderungsvektor-
Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungsvektor-
Quantisierungscode (TSP-VQ) zu erzeugen,
und dadurch gekennzeichnet, daß
die Ausgabe eines Signals, das ein Phonem darstellt, auf der weiteren
Basis des Spektrumsänderungsvektor-Quantisierungscode ausgeführt wird.
2. Phonem-Unterscheidungsvorrichtung, die folgendes umfaßt:
eine Vorrichtung (10) zum Analysieren von Frames eines Eingangs-
Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des
Sprachsignais während eines jeden Frames darstellen;
eine Vorrichtung (20) zum Erzeugen eines Leistungsänderungsvektors
(PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus
den Sprachsignal-Leistungen einer vorbestimmten Anzahl von
aufeinanderfolgenden Frames;
eine Vorrichtung (30) zur Vektor-Quantisierung des
Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten
Leistungsänderungsvektor-Codebuchs (40), um einen Leistungsänderungsvektor-
Quantisierungscode (PCP-VQ) zu erzeugen; und
Vorrichtungen (80, 90,100) für die Ausgabe eines Signals, das ein
Phonem darstellt, auf der Basis des Leistungsänderungsvektor-
Quantisierungscodes,
gekennzeichnet durch
eine Vorrichtung (50) zur Erzeugung eines Spektrumsänderungsvektors,
der eine Änderung im Sprachsignal-Spektrum mit der Zeit darstellt, aus den
Sprachsignal-Spektren einer vorbestimmten Anzahl von aufeinanderfolgenden
Frames; und
eine Vorrichtung (60) zur Vektor-Quantisierung des
Spektrumsänderungsvektors unter Verwendung eines Codebuchs (70), das in
Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt
wurde, um einen Spektrumsänderungs-Quantisiemngscode (TSP-VQ) zu
erzeugen,
und dadurch gekennzeichnet, daß
die Vorrichtung für die Ausgabe eines Signals, das ein Phonem darstellt,
weiterhin empfänglich ist auf den Spektru msänderungsvektor-Quantisierungscode.
3. Phonem-Unterscheidungsverfahren, das folgende Schritte aufweist:
Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu
erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines
jeden Frames darstellen;
Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung
in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal-
Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;
Vektor-Quantisieren des Leistungsänderungsvektors unter Verwendung
eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs, um einen
Leistungsänderungsvektor-Quantisierungscode (PCP-VQ) zu erzeugen; und
Ausgeben eines Signals, das ein Phonem darstellt, auf der Basis des
Leistungsänderungsvektor-Quantisierungscodes;
gekennzeichnet durch folgenden Schritt:
Vektor-Quantisieren des Spektrumvektors für ein Frame unter
Verwendung einer Vielzahl von Spektrumsvektor-Codebüchern (160), die in
Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt
wurden, um eine Vielzahl von Spektrumsvektor-Quantisierungscodes und eine
Vielzahl von Quantisierungs-Fehlerwerten zu erzeugen,
und dadurch, daß das Signal, das ein Phonem darstellt, auf der weiteren
Basis des Spektrumsvektor-Quantisierungscode ausgegeben wird, der gemäß
einem optimalen Codebuch erzeugt wird,
wobei das optimale Codebuch das Spektrum-Codebuch ist, für das die
Summe der Quantisierungs-Fehlerwerte über die Zeit am geringsten ist.
4. Phonem-Unterscheidungsvorrichtung, die folgendes aufweist:
eine Vorrichtung (110) zum Analysieren von Frames eines Eingangs-
Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des
Sprachsignals während eines jeden Frames darstellen;
eine Vorrichtung (120) zum Erzeugen eines Leistungsänderungsvektors
(PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus
den Sprachsignal-Leistungen einer vorbestimmten Anzahl von
aufeinanderfolgenden Frames;
eine Vorrichtung (130) zum Vektor-Quantisieren des
Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten
Leistungsänderungsvektor-Codebuchs (140), um einen Leistungsänderungsvektor-
Quantisierungscode (PCP-VQ) zu erzeugen; und
Vorrichtungen (180, 190, 200) für die Ausgabe eines Signais, das ein
Phonem darstellt, auf der Basis des Leistungsänderungsvektor-
Quantisierungscodes;
gekennzeichnet durch
eine Vorrichtung (150) zum Vektor-Quantisieren des Spektrumsvektors
für ein Frame unter Verwendung einer Vielzahl von Spektrumsvektor-Codebüchern
(160), die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode
ausgewählt wurden, um eine Vielzahl von Spektrumsvektor-Quantisierungscodes
und eine Vielzahl von Quantisierungs-Fehlerwerten zu erzeugen; und
Vorrichtungen (180, 190, 200) für die Ausgabe eines Signais, das ein
Phonem darstellt, auf der weiteren Basis des Spektrumsvektor-
Quantisierungscodes, der gemäß einem optimalen Codebuch erzeugt wurde,
wobei das optimale Codebuch das Spektrumsvektor-Codebuch ist, das
durch eine Vorrichtung (170) identifiziert wird, um zu ermitteln, für welches
Spektrumsvektor-Codebuch die Summe der Quantisierungs-Fehlerwerte über die
Zeit am geringsten ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2242898A JPH04122995A (ja) | 1990-09-13 | 1990-09-13 | 音韻識別方法 |
JP2242897A JP3012994B2 (ja) | 1990-09-13 | 1990-09-13 | 音韻識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69128582D1 DE69128582D1 (de) | 1998-02-12 |
DE69128582T2 true DE69128582T2 (de) | 1998-07-09 |
Family
ID=26535972
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69128582T Expired - Fee Related DE69128582T2 (de) | 1990-09-13 | 1991-09-12 | Methode zur Phonemunterscheidung |
Country Status (3)
Country | Link |
---|---|
US (1) | US5202926A (de) |
EP (1) | EP0475759B1 (de) |
DE (1) | DE69128582T2 (de) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0573100A (ja) * | 1991-09-11 | 1993-03-26 | Canon Inc | 音声合成方法及びその装置 |
JPH0743598B2 (ja) * | 1992-06-25 | 1995-05-15 | 株式会社エイ・ティ・アール視聴覚機構研究所 | 音声認識方法 |
JPH08502603A (ja) * | 1993-01-30 | 1996-03-19 | コリア テレコミュニケーション オーソリティー | 音声合成及び認識システム |
US5577135A (en) * | 1994-03-01 | 1996-11-19 | Apple Computer, Inc. | Handwriting signal processing front-end for handwriting recognizers |
EP0703566A1 (de) * | 1994-09-23 | 1996-03-27 | Aurelio Oskian | Vorrichtung zur Spracherkennung |
US5640490A (en) * | 1994-11-14 | 1997-06-17 | Fonix Corporation | User independent, real-time speech recognition system and method |
JPH08179796A (ja) * | 1994-12-21 | 1996-07-12 | Sony Corp | 音声符号化方法 |
US5889891A (en) * | 1995-11-21 | 1999-03-30 | Regents Of The University Of California | Universal codebook vector quantization with constrained storage |
KR100434527B1 (ko) * | 1997-08-01 | 2005-09-28 | 삼성전자주식회사 | 벡터 테일러 급수를 이용한 음성 모델 보상 방법 |
US7769631B2 (en) * | 1999-08-17 | 2010-08-03 | Mcclung Iii Guy L | Business systems with price guarantee and display |
US6934678B1 (en) * | 2000-09-25 | 2005-08-23 | Koninklijke Philips Electronics N.V. | Device and method for coding speech to be recognized (STBR) at a near end |
US7143033B2 (en) * | 2002-04-03 | 2006-11-28 | The United States Of America As Represented By The Secretary Of The Navy | Automatic multi-language phonetic transcribing system |
US20050165604A1 (en) * | 2002-06-12 | 2005-07-28 | Toshiyuki Hanazawa | Speech recognizing method and device thereof |
CN1963917A (zh) * | 2005-11-11 | 2007-05-16 | 株式会社东芝 | 评价语音的分辨力、说话人认证的注册和验证方法及装置 |
US20170069306A1 (en) * | 2015-09-04 | 2017-03-09 | Foundation of the Idiap Research Institute (IDIAP) | Signal processing method and apparatus based on structured sparsity of phonological features |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4991216A (en) * | 1983-09-22 | 1991-02-05 | Matsushita Electric Industrial Co., Ltd. | Method for speech recognition |
US4741036A (en) * | 1985-01-31 | 1988-04-26 | International Business Machines Corporation | Determination of phone weights for markov models in a speech recognition system |
US4833712A (en) * | 1985-05-29 | 1989-05-23 | International Business Machines Corporation | Automatic generation of simple Markov model stunted baseforms for words in a vocabulary |
US4882755A (en) * | 1986-08-21 | 1989-11-21 | Oki Electric Industry Co., Ltd. | Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
US5012518A (en) * | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
-
1991
- 1991-09-12 EP EP91308334A patent/EP0475759B1/de not_active Expired - Lifetime
- 1991-09-12 DE DE69128582T patent/DE69128582T2/de not_active Expired - Fee Related
- 1991-09-12 US US07/757,964 patent/US5202926A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0475759B1 (de) | 1998-01-07 |
US5202926A (en) | 1993-04-13 |
EP0475759A2 (de) | 1992-03-18 |
EP0475759A3 (en) | 1993-04-21 |
DE69128582D1 (de) | 1998-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
DE69031284T2 (de) | Verfahren und Einrichtung zur Spracherkennung | |
DE69705830T2 (de) | Sprachverarbeitung | |
DE4397106B4 (de) | Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung | |
DE69128582T2 (de) | Methode zur Phonemunterscheidung | |
DE3884880T2 (de) | Billige Spracherkennungseinrichtung und Verfahren. | |
DE2953262C2 (de) | ||
DE102008017993B4 (de) | Sprachsuchvorrichtung | |
DE60000074T2 (de) | Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung | |
DE3878071T2 (de) | Sprachnormierung durch adaptive klassifizierung. | |
DE69420400T2 (de) | Verfahren und gerät zur sprechererkennung | |
DE69226594T2 (de) | Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt. | |
DE69619284T2 (de) | Vorrichtung zur Erweiterung der Sprachbandbreite | |
DE69421077T2 (de) | Wortkettenerkennung | |
DE69127961T2 (de) | Verfahren zur Spracherkennung | |
DE3878001T2 (de) | Spracherkennungseinrichtung unter anwendung von phonemermittlung. | |
DE2918533C2 (de) | ||
DE69707876T2 (de) | Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung | |
DE69029001T2 (de) | Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen | |
DE69416670T2 (de) | Sprachverarbeitung | |
DE69636209T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE69229124T2 (de) | Mehrteiliger expertsystem | |
DE10030105A1 (de) | Spracherkennungseinrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |