DE69128582T2 - Methode zur Phonemunterscheidung - Google Patents

Methode zur Phonemunterscheidung

Info

Publication number
DE69128582T2
DE69128582T2 DE69128582T DE69128582T DE69128582T2 DE 69128582 T2 DE69128582 T2 DE 69128582T2 DE 69128582 T DE69128582 T DE 69128582T DE 69128582 T DE69128582 T DE 69128582T DE 69128582 T2 DE69128582 T2 DE 69128582T2
Authority
DE
Germany
Prior art keywords
spectrum
vector
power
speech signal
change vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69128582T
Other languages
English (en)
Other versions
DE69128582D1 (de
Inventor
Kei Miki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2242898A external-priority patent/JPH04122995A/ja
Priority claimed from JP2242897A external-priority patent/JP3012994B2/ja
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Application granted granted Critical
Publication of DE69128582D1 publication Critical patent/DE69128582D1/de
Publication of DE69128582T2 publication Critical patent/DE69128582T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf Phonem-Unterscheidungsverfahren, die folgende Schritte aufweisen: Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen, Erzeugen eines Leistungsändewngsvektors, der eine Ändemng in der Sprachsignal-Leistung mit der Zeit darstellt, von den Sprachsignal-Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames, Vektorquantisieren des Leistungsändemngsvektors unter Verwendung eines empirisch ermittelten Leistungsändemngsvektor-Codebuchs, um einen Leistungsändemngsvektor- Quantisiemngscode zu erzeugen, und Ausgeben eines Signais, das ein Phonem auf der Basis des Leistungsändemngsvektor-Quantisierungscodes darstellt. Die vorliegende Erfindung bezieht sich auch auf eine Vorrichtung zur Durchführung solcher Verfahren.
  • Eines der heutzutage am intensivsten untersuchten Verfahren auf dem Gebiet der Spracherkennung ist das Phonem-Erkennungsverfahren. Der Begriff "Phonem-Erkennung" bedeutet Umwandlung eines Eingangs-Sprachsignals in eine Reihe von Phonemen, die im wesentlichen Aussprachesymbolen gleichen. Das in solch eine Reihe von Phonemen umgewandelte Sprachsignal wird dann unter Verwendung eines Wörterbuchs, Grammatikregeln u. ä. z. B. in eine am geeignetsten erscheinende Buchstabenfolge (z. B. Satz) umgewandelt.
  • Ein Verdienst des Verfahrens der Phonem-Unterscheidung liegt darin, daß die Ausdehnung von Vokabularen, erkennbaren Satztypen usw. wie gewünscht erzielt werden kann, indem man die Ebene der Akustikverarbeitung und die Ebene der Buchstabenfolgeverarbeitung voneinander trennt.
  • Ein Verfahren der Phonem-Unterscheidung wird in "Multi-Level Clustering of Acoustic Features for Phoneme Recognition Based on Mutual Information", Proc. ICASSP-89, Seiten 604-607 (Mai 1989) vorgeschlagen.
  • Ein Überblick über das herkömmliche Phonem-Unterscheidungsverfahren, das in der obigen Veröffentlichung beschrieben ist, wird nachfolgend beschrieben.
  • Gemäß des Phonem-Unterscheidungsverfahrens werden die Leistungen der individuellen Frames und die akustischen Parameter (LPC Mel-Cepstrum Koeffizienten) durch eine LPC-Analyse von Eingangs-Sprachsignalen erhalten. Im Anschluß an die nachfolgend beschriebene Berechnung von vier Quantisiemngscodes wird die Phonembezeichnung (die Abfolge von Phonemsymbolen) jedes Frames aus der Kombination dieser Quantisiemngscodes ermittelt.
  • (1) Hinsichtlich jedes Frames wird ein Leistungsändemngsvektor (PCP), der durch die Unterschiede zwischen der Leistung des betreffenden Frames und dessen vorhergehenden und nachfolgenden Frames gebildet wird, vektorquantisiert, wobei man einen Leistungsänderungsvektor-Code, der die Leistungsändemngsvektoren der Sprachsignalform anzeigt, erhält.
  • (2) Als akustische Parameter erhält man Cepstmm-Codes durch Vektorquantisieren der LPC Mel-Cepstrum Koeffizienten, während Codebücher, die vorab entsprechend den Leistungscodes klassifiziert wurden, verwendet werden.
  • (3) Der Gradient einer Fehlerquadrat-Approximationslinie der akustischen Parameter wird vektorquantisiert, um einen Regressionskoeffizienten zu ermitteln.
  • (4) Das Zeitfolge-Muster der Leistungscodes wird vektorquantisiert, um eine Leistungscodefolge zu erhalten.
  • Um ein hohes Maß an Phonem-Unterscheidung zu erhalten, ist es nötig, Parameter effektiv zu analysieren, die als verschiedene Schlüssel einer Stimme dienen. Wenn eine Person eine Stimme erkennt, wurde durch verschiedene Experimente bewiesen, daß die Veränderung der Intensität der Stimme und die Zeitvarianz ihres Spektrums - dynamische Informationen über die Stimme - zu wichtigen Schlüsseln werden, ganz zu schweigen von statischen Informationen über die Stimme, nämlich die Intensität der Stimme zu einem bestimmten Zeitpunkt und die klanglichen Eigenschaften (Spektrum der Stimme). Obwohl das oben beschriebene herkömmliche Phonem-Unterscheidungsverfahren Leistungsänderungen, einer der wichtigsten Parameter in der Phonem- Unterscheidung, in Form eines charakteristischen Leistungsänderungsvektors (PCP) analysiert und auch die statischen Informationen auf dem Spektrum in Betracht zieht, indem es sich auf akustische Parameter (LPC Mel-Cepstrum Koeffizienten) stützt, wurde in Verbindung mit Änderungen des Sprachspektrums nichts berücksichtigt, wobei diese Änderungen der wichtigste Schlüsselparameter zur Unterscheidung zwischen ähnlichen Phonemen sind. Das herkömmliche Phonem-Unterscheidungsverfahren beinhaltet nämlich das Problem, das seine Phonem-Unterscheidungsfähigkeit unzureichend ist, weil sie sich auf indirekte Auswertung durch eine Leistungscodefolge o. ä. stützt, oder auf eine ungefähre Auswertung durch den Gradienten der Fehlerquadrat-Approximationslinie der akustischen Parameter.
  • Wenn eine Person eine Stimme versteht&sub1; gruppiert sie die Sprachqualität mittels einer Reihe von Äußerungen, zusätzlich zu einer Beurteilung, die auf statischen Informationen über die Stimme basiert. Die Reihe der Äußerungen weist eine spezielle Spektrumstruktur auf, die von der Sprachqualität definiert wird, die dem Sprecher zu eigen ist, so daß die Spektrumstruktur anders ist, wenn sie von einem anderen Sprecher geäußert wird. Man benötigt daher ein sprecherunabhängiges Spracherkennungssystem, um diese Spektrumstruktur präzise analysieren zu können. Dieser Aspekt wurde jedoch überhaupt nicht berücksichtigt. Es gibt nämlich nur ein Codebuch, um die Eigenschaften der individuellen Spektren zu analysieren, so daß das Codieren aller Stimmen unter Verwendung dieses einzigen Codebuchs durchgeführt wird. Dies resultierte in einer häufigen Zuordnung einer Gruppe von Codes einer Kombination, die grundsätzlich niemals auftritt, wenn sie von einem einzelnen Sprecher geäußert wird, was ein Grund für die erfolglose Verbesserung in der Erkennungsleistung führt.
  • Weitere Informationen bezüglich Spracherkennungssysteme des Stands der Technik erhält man aus US-A4 882 755 und S. Furui, "On the use of hierarchical spectral dynamics in speech recognition", ICASSP April 1990.
  • Eine Aufgabe der vorliegenden Erfindung ist, ein Phonem- Unterscheidungsverfahren zu schaffen, das in der Fähigkeit, Phoneme zu unterscheiden, verbessert ist, indem es unmittelbar die Variationen eines jeden Sprachspektrums berücksichtigt, wobei diese Variationen die wichtigsten Schlüsselparameter für die Unterscheidung zwischen ähnlichen Phonemen sind. Weiterhin ist eine andere Aufgabe der vorliegenden Erfindung, ein Phonem- Unterscheidungsverfahren zu schaffen, das ein hohes Maß an Phonem- Unterscheidungsleistung in einem sprecherunabhängigen Spracherkennungssystem erreichen kann, indem es die Spektrumstruktur präzise einschätzt, die durch die Sprachqualität des Sprechers definiert wird.
  • Ein Verfahren gemäß eines ersten Aspekts der vorliegenden Erfindung ist gekennzeichnet durch die Schritte des Erzeugens eines Spektrumsänderungsvektors, der eine Änderung im Sprachsignalspektrum mit der Zeit darstellt, aus den Sprachsignalspektren einer vorherbestimmten Anzahl von aufeinanderfolgenden Frames; und des Vektorquantisieren des Spektrumsänderungsvektors unter Verwendung eines Codebuchs, das in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungsvektor-Quantisierungscode zu erzeugen, und dadurch, daß die Ausgabe eines ein Phonem darstellenden Signals auf der weiteren Basis des Spektrumsänderungsvektor-Quantisierungscode ausgeführt wird.
  • Ein Verfahren gemäß des ersten Aspekts der vorliegenden Erfindung analysiert Variationen in Sprachleistung in Form eines Leistungsänderungsvektors als dynamische Information über die Stimme, ganz zu schweigen von statischen Informationen über die Stimme, nämlich dem Unterschied in Sprachleistung oder -spektrum zu einem gegebenen Zeitpunkt. Weiterhin, nach grober Gruppierung durch einen solchen Leistungsänderungsvektor, wird eine genaue Gruppierung unter Verwendung des Spektrumsänderungsvektors durchgeführt, so daß die Stimme gemäß eines hierarchischen Prozesses erkannt wird. Dies ermöglichte es, eine effizientere und höhere Unterscheidungsleistung zu erreichen, als durch einzelne Verwendung von individuellen Merkmalen möglich gewesen wäre.
  • Ein Verfahren gemäß eines zweiten Aspekts der vorliegenden Erfindung ist gekennzeichnet durch den Schritt des Vektorquantisierens des Spektrumvektors für ein Frame unter Verwendung einer Vielzahl von Spektrumvektor-Codebüchern, die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurden, um eine Vielzahl von Spektrumvektor-Quantisierungscodes und eine Vielzahl von Quantisierungsfehlerwerten zu erzeugen, und dadurch, daß das ein Phonem darstellendes Signal auf der weiteren Basis des Spektrumvektor- Quantisierungscode ausgegeben wird, der gemäß eines optimalen Codebuchs erzeugt wurde, wobei das optimale Codebuch das Spektrumvektor-Codebuch ist, für das die Summe der Quantisierungsfehlerwerte über der Zeit am geringsten ist.
  • In einem Verfahren gemäß des zweiten Aspekts der vorliegenden Erfindung sind Mehrfach-Spektrum-Codebücher vorgesehen, die zuvor gemäß der Sprachstrukturen gruppiert wurden, und durch Vergleichen der Eingangsstimme mit jedem der Codebücher wird eine genaue Unterscheidung und Sprachstrukturbeurteilung durchgeführt. Es ist daher möglich, eine Erkennung für eine Stimme jeglicher Struktur durchzuführen, während ihre Spektrumstruktur präzise analysiert wird. Gemäß dieses Verfahrens wird, anstatt des Vorsehens von Mehrfach-Codebüchern für alle Merkmale, ein einziges Codebuch für Mustermerkmale mit niedrigerer Sprecherabhängigkeit benutzt, aber Mehrfach-Codebücher werden für Spektrumeigenschaften mit hoher Sprecherabhängigkeit eingesetzt. Durch Schaffen einer geeigneten Anzahl von Codebüchern gemäß der Sprecherabhängigkeit jedes Merkmals ist es möglich, nicht nur die Anzahl der zu verarbeitenden Daten zu reduzieren, sondern auch, dank des Wegfalls der Verarbeitung für unnötige Wörterbucheinträge, eine stabilere, präzisere Gruppierung durchzuführen, wobei es möglich gemacht wird, eine effiziente und hochwertige Phonem-Unterscheidungsleistung zu schaffen.
  • Die vorliegende Erfindung schafft auch Vorrichtungen zur Durchführung der Verfahren der vorliegenden Erfindung. Die Vorrichtungen weisen Einrichtungen auf, um jeden der Schritte des einen oder anderen Verfahrens durchzuführen.
  • Ausführungsbeispiele der vorliegenden Erfindung werden nun mittels Beispielen im Bezug auf die Begleitzeichnungen beschrieben werden, in denen:
  • Fig. 1 ein Blockdiagramm ist, das den Aufbau eines Systems eines ersten Ausführungsbeispiels der vorliegenden Erfindung zeigt;
  • Fig. 2 ein Diagramm ist, das ein Beispiel der Leistung der Eingangs- Sprachsignale veranschaulicht;
  • Fig. 3 ein Diagramm ist, das ein Beispiel der Leistungsänderung eines Eingangs-Sprachsignals darstellt;
  • Fig. 4 ein Diagramm ist, das ein Beispiel der Zeitvariation eines Frequenzspektrums zeigt;
  • Fig. 5 ein Diagramm ist, das ein Beispiel einer Spektrumsänderung zeigt, die man erhält, wenn ein Frequenzspektrum binärquantisiert wird;
  • Fig. 6 ein Diagramm ist, das ein Beispiel eines Leistungsft nderungsvektor-Codebuchs veranschaulicht;
  • Fig. 7 ein Diagramm ist, das ein Beispiel eines Spektrumsänderungsmuster-Codebuchs zeigt;
  • Fig. 8 ein Diagramm ist, das ein Beispiel einer Phonemtabelle zur Verwendung im ersten Ausführungsbeispiel zeigt;
  • Fig. 9 ein Blockdiagramm ist, das den Aufbau eines Systems eines zweiten Ausführungsbeispiels der vorliegenden Erfindung zeigt;
  • Fig. 10 ein Diagramm ist, das ein beispiel des Frequenzespektrums eines Eingangs-Sprachsignal veranschaulicht;
  • Fig. 11 ein Diagramm ist, das ein Beispiel von Spektrumdaten zeigt;
  • Fig. 12 ein Diagramm ist, das ein Beispiel eines Spektrum-Codebuchs zeigt; und
  • Fig. 13 ein Diagramm ist, das ein Beispiel einer Phonemtabelle zur Verwendung im zweiten Ausführungsbeispiel darstellt.
  • Beispiel 1
  • Das erste Ausführungsbeispiel dieser Erfindung wird im Bezug auf Fig. 1 bis Fig. 8 beschrieben werden.
  • Fig. 1 ist ein Blockdiagramm, das ein System zeigt, das in der Praxis des ersten Phonem-Unterscheidungsverfahrens nützlich ist.
  • In Fig. 1 wird das von einem nicht dargestellten Mikrophon aufgenommene Spektrum einer Stimme in einem Akustikanalysator 10 aus Sprachsignalen berechnet, die von einem Spracheingangsanschluß 1 eingegeben werden. Die Spektrumsextraktion kann unter Verwendung eines Verfahrens durchgeführt werden, das ein Band von Bandpaßfiltern mit aufeinanderfolgend höheren Zentralfrequenzen verwendet, ein Verfahren, das die Spektrumanalyse durch FFT (schnelle Fourier-Transformation) oder ein anderes Verfahren verwendet. Das Verfahren, das die Bank von Bandpaßfiltern benutzt, wird in diesem Ausführungsbeispiel eingesetzt.
  • Als Spektrum eingesetzt, erhält man Si durch logarithmisches Konvertieren von Bandfrequenzkomponenten, die durch die Bank von J Bandpaßfiltern mit verschiedenen Zentralfrequenzen extrahiert wurden, und durch Abtasten von diesen in kurzen Intervallen, genannt "Frames". Das Spektrum Si kann in Vektorform wie folgt ausgedrückt werden:
  • S&sub1; = (Si1, Si2, ..., Sij, ..., SiJ-1 SiJ) (1)
  • wobei i die Framenummer und j die Nummer des Bandpaßfilters ist. In der folgenden Beschreibung wird die Anfangsframenummer des Sprachsignals auf 0 gesetzt&sub1; während die Endframenummer des Sprachsignals auf 1 eingestellt wird.
  • Im Akustikanalysator 10 wird die Sprachleistung Pi eines jeden Frames auch gemäß der folgenden Formel berechnet:
  • In einem PCP Generator 20 wird ein Leistungsänderungsvektor (PCP) Pi, der durch die folgende Formel (3) dargestellt wird, berechnet durch Kombinieren der (2n+1) Sprachleistungen des i-ten Frames und der benachbarten n Frames, die dem i-ten Frame vorangehen bzw. folgen:
  • Pi = (Pi-n, Pi-n+1, ..., Pi-1, Pi, ..., Pi+n-1, Pi+n) (3)
  • Der PCP P wird in einer PCP-VQ-Einheit 30 mit Bezug auf ein PCP Codebuch 40 wie in Fig. 6 gezeigt, vektorquantisiert, so daß man einen Leistungsänderungsvektor-Quantisierungscode (PCP-VQ-Code) Ci gemäß der folgenden Formel erhält:
  • Hier zeigt d(Pi, Ym) die Entfernung zwischen dem PCP Pi und dem PCP
  • der Leistungscodenummer m an, und argmin bedeutet, die Leistungscodenummer zu ermitteln, die die geringste Entfernung ergibt. M ist die Größe eines PCP Codebuchs. Diese Leistungsänderungsvektor-Quantisierung (PCP-VQ) dient zur Einschätzung der Eingangs-Stimme aus der Form des Leistungsänderungsvektors.
  • Bei einem TSP Generator 50 wird ein Spektrumsänderungsvektor (TSP), der durch die folgende Formel dargestellt wird, dadurch geschaffen, daß die (2k+1) Spektren des i-ten Frames, dessen Spektrum Si ist, und die benachbarten k Frames, die dem i-ten Frame vorangehen, bzw. folgen, kombiniert werden;
  • T&sub1; = (Si-k, ..., Si-1, Si, Si+1, ..., Si+k) (6)
  • In einer TSP-VQ-Einheit 60 wird der TSP Ti basierend auf TSP Codebüchern 70, wie in Fig. 7 gezeigt, vektorquantisiert,. Die TSP Codebücher 70 bestehen aus M Codebüchem, die gemäß der Leistungscodes gespeichert sind.
  • Die Spektrumsänderungsvektor-Quantisierung dient zur Durchführung einer detaillierten Abschätzung, die auf genauen Eigenschaften eines Sprachsignals und deren Variationen im Gegensatz zu der ungefähren Schätzung in der Muster-Quantisierung basiert. Als erstes wird das TSP Codebuch entsprechend dem Leistungscode Ci von den TSP Codebüchern 70 ausgewählt. In anderen Worten ist dies gleichbedeutend mit einem Wechsel zu einem Wörterbuch, das im Hinblick auf die Ergebnisse der ungefähren Schätzung geeignet ist für eine genaue Unterscheidung. Vektorquantisierung wird unter Verwendung des so ausgewählten Codebuchs durchgeführt. Angenommen, daß der Leistungscode Ci ist, kann ein Spektrumsänderungsvektor-Quantisierungscode Zi durch die folgende Formel definiert werden:
  • wobei U(Ci)r dem Leistungscode Ci entspricht und ein Spektrumsänderungsvektor (TSP) ist, der aus (2k+1)*J Elementen besteht, wobei r eine Codenummer ist, die jedem Spektrumsänderungsvektor (TSP) zugeordnet ist, und R(Ci) der Größe des TSP Codebuchs entsprechend dem Leistungscode Ci entspricht.
  • In einer Phonem-Zähleinheit 80 werden der Leistungscode Ci und der Spektrumsänderungs-VQ-Code Zi in ein Phonemsymbol Li umgewandelt. Obwohl verschiedene Verfahren für diese Umwandlung angewendet werden könnten, wird hier das einfachste Tabellennachschlagverfahren beschrieben.
  • Der Aufbau einer für die o. g. Umwandlung nützlichen Phonem- Zähltabelle 90 wird in Fig. 8 dargestellt. Z. B. ist das Phonemsymbol Li "a", wenn Ci = 1 und Zi = 1, und "e", wenn Ci = 2 und Zi = 3. Auf diese Weise wird das Eingangs-Sprachsignal in eine Abfolge von Phonemsymbolen umgewandelt und dann von einer Ausgangsklemme 100 ausgegeben.
  • Verschiedene Verfahren können für die Schaffung der Phonem- Zähltabelle 90 angewendet werden. Ein Beispiel wird nachfolgend beschrieben.
  • (1) Man berechne vorher einen Leistungsänderungsvektor (PCP) und einen Spektrumsänderungsvektor (TSP) auf der Basis von Sprachdatensätzen und speichere sie als Leistungsänderungsvektor (PCP)-Daten und Spektrumsänderungs (TSP)-Daten.
  • (2) Man gruppiere die PCP Daten&sub1; um ein PCP Codebuch zu schaffen.
  • (3) Man vektorquantisiere die PCP Daten unter Verwendung des PCP Codebuchs, wodurch die Leistungscode-Daten geschaffen werden.
  • (4) Man gruppiere die TSP Daten entsprechend den Frames, die der gleichen Leistungscode-Nummer aus den PCP Daten zugeordnet sind, so daß ein Spektrumsänderungsvektor (TSP)-Codebuch geschaffen wird. Diese Vorgehensweise wird so oft wiederholt, wie es Leistungscodes gibt.
  • (5) Man vektorquantisiere die TSP Daten unter Verwendung des TSP Codebuchs, ermittelt vom entsprechenden Leistungscode, und erhalte dadurch Spektrumsänderungsvektor-Quantisierungscode (TSP-VQ-Code)-Daten.
  • (6) Man schaffe eine Phonemtabelle, die eine Korrelation zwischen Phonemcode-Daten&sub1; die zuvor zugeordnet wurden, zu Sprachdaten, und den PCP- VQ-Code-Daten und TSP-VQ-Daten darstellt.
  • Beispiel 2
  • Fig. 9 ist das Blockdiagramm, das den Aufbau des für die Durchführung des zweiten Phonem-Unterscheidungsverfahrens nützlichen Systems der vorliegenden Erfindung zeigt.
  • In der Zeichnung sind der Akustikanalysator 110, der PCP Generator 120, die PCP-VQ-Einheit 130 und das PCP Codebuch 140 entweder gleich oder ähnlich dem Akustikanalysator 10, dem PCP Generator 20, der PCP-VQ-Einheit 30 und dem PCP Codebuch 40 in Beispiel 1 (Fig. 1), so daß deren Beschreibung hier ausgelassen werden kann.
  • In einer Spektrum-VQ-Einheit 150 in diesem Ausführungsbeispiel wird das Vektorquantisieren des Spektrums Si (siehe Formel (1)] basierend auf Spektrum-Codebüchern 160, wie in Fig. 12 dargestellt, durchgeführt.
  • Die Spektrum-Codebücher 160 bestehen aus Q Arten von Codebüchern, die aus zahlreichen Beispielen von Sprachdaten geschaffen werden und im vorhinein nach Sprechereigenschaften, nämlich Parameter wie Geschlecht, Alter, Sprachqualität und ähnliches klassifiziert werden. Weiterhin umfaßt jedes Codebuch Unter-Codebücher, die abhängig von Leistungsänderungsvektor- Quantisierungscodes (PCP-VQ-Codes) klassifiziert werden. Die Spektrum- Codebücher 160 bestehen nämlich aus Q Codebüchern, die jeweils M Unter- Codebücher umfassen.
  • Gemäß des Spektrums VQ in diesem Ausführungsbeispiel, werden Q Unter-Codebücher gemäß eines PCP-VQ-Codes Ci ausgewählt, und Vektorquantisierung wird durchgeführt. Auf das q-te Unter-Codebuch, entsprechend dem PCP-VQ-Code Ci, wird Bezug genommen, und ein Spektrum- VQ-Code Z(q)i und VQ-Fehler V(q)i, die jeweils von den folgenden Formeln dargestellt werden, werden berechnet:
  • wobei X(q, Ci)r das Spektrum des q-ten Unter-Codebuchs entsprechend dem PCP-VQ-Code Ci ist, r eine Codenummer, die jedem Spektrum zugeordnet ist, und R(q, Ci) die Größe des Unter-Codebuchs entsprechend dem PCI-VQ-Code Ci.
  • In einem optimalen Spektrum-VQ-Codeselektor 170 wird die Summe Wq der VQ-Fehler V(q)i vom Startframe zum Endframe des Sprachsignals gemäß der folgenden Formel (12) berechnet, und die Codebuchnummer qm des Codebuchs, das Wq am kleinsten macht, wird durch die folgende Formel (13) ermittelt:
  • Der Code, den man nach der Quantisierung des Spektrums Si durch das Codebuch entsprechend der Nummer qm erhält, ist ein optimaler Spektrum-VQ- Code Zi. Zi wird nämlich wie folgt definiert:
  • Zi = Z(qm)i (14)
  • In einer Phonem-Zähleinheit 180 werden der PCP-VQ-Code Ci, die optimale Codebuchnummer qm und der optimale Spektrum-VQ-Code Zi in ein Phonemsymbol L&sub1; umgewandelt. Diese Umwandlung wird durch das Tabellennachschlagverfahren wie in Beispiel 1 durchgeführt. Fig. 13 zeigt eine beispielhafte Phonem-Zähltabelle 190, die für jede optimale Codebuchnummer die Korrelation zwischen dem Leistungscode und dem optimalen Spektrum-VQ-Code und dem Phonemsymbol definiert. Dementsprechend ist das Phonemsymbol Li "a", wenn qm=1, Ci=1 und Zi=1 und "e", wenn qm=2, Ci=2 und Zi=2. Auf diese Weise wird das Eingangs-Sprachsignal in eine Abfolge von Phonemsymbolen umgewandelt und dann von einem Ausgangsanschluß 200 ausgegeben.
  • Verschiedene Verfahren können für die Schaffung der Phonem- Zähltabelle angewendet werden. Ein Beispiel wird im nachfolgenden beschrieben.
  • (1) Man gruppiere im vorhinein Sprachdaten, die von vielen Sprechern gesprochen worden sind, nach Eigenschaften, Geschlecht, Alter und Sprachqualität der Sprecher in mehrere Gruppen und ordne den Sprachdatengruppen einen Sprechergruppencode zu.
  • (2) Man berechne Leistungsänderungsvektoren (PCPS) und Spektren für die Sprachdaten und speichere sie als PCP Daten (siehe Fig. 3) bzw. Spektrumdaten (siehe Fig. 11).
  • (3) Man gruppiere die PCP Daten, um PCP Codebücher zu schaffen.
  • (4) Man vektorquantisiere die PCP Daten unter Verwendung des PCP Codebuchs, und schaffe dadurch Leistungscodedaten.
  • (5) Man klassifiziere die Spektrumdaten gemäß des Sprechergruppencodes in gruppierte Spektrumdaten.
  • (6) Man klassifiziere die individuell gruppierten Spektrumdaten gemäß der Leistungscodes, wobei die gruppierten Spektrumdaten gruppiert werden, um Unter-Codebücher zu schaffen. Es sind die Spektrumcodebücher 150 (siehe Fig. 12), wo diese Unter-Codebücher zusammengesetzt werden.
  • (7) Man vektorquantisiere die gruppierten Spektrumdaten unter Verwendung der Unter-Codebücher, die vom entsprechenden Leistungscode ermittelt werden, und erhält dadurch Spektrum-VQ-Codedaten.
  • (8) Man stelle für jede der Gruppennummern eine Phonemtabelle 190 bereit, die die Korrelation unter den individuellen Codes von Phonemcodedaten, die zuvor den manuell bezeichneten Sprachdaten zugeordnet werden, den Spektrum-VQ-Codedaten und den Leistungscodes angeben.
  • Es muß angemerkt werden, daß die vorliegende Erfindung nicht auf die oben genannten Ausführungsbeispiele beschränkt ist, sondern daß verschiedene Modifikationen möglich sind, die auf den Gegenstand der vorliegenden Erfindung, wie beansprucht, basieren.

Claims (4)

1. Phonem-Unterscheidungsverfahren, das folgende Schritte aufweist:
Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen;
Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal- Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;
Vektor-Quantisieren des Leistungsänderu ngsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs, um einen Leistungsänderungsvektor-Quantisierungscode (PCP-VQ) zu erzeugen; und
Ausgeben eines Signals, das ein Phonem auf der Basis des Leistu ngsänderungsvektor-Quantisierungscodes darstellt,
gekennzeichnet durch folgende Schritte:
Erzeugen eines Spektrumsänderungsvektors (TSP), der eine Änderung im Sprachsignal-Spektrum mit der Zeit darstellt, von den Sprachsignal-Spektren einer vorbestimmen Anzahl von aufeinanderfolgenden Frames; und
Vektor-Quantisieren des Spektrumsänderungsvektors unter Verwendung eines Codebuchs (70), das in Abhängigkeit vom Leistungsänderungsvektor- Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungsvektor- Quantisierungscode (TSP-VQ) zu erzeugen,
und dadurch gekennzeichnet, daß
die Ausgabe eines Signals, das ein Phonem darstellt, auf der weiteren Basis des Spektrumsänderungsvektor-Quantisierungscode ausgeführt wird.
2. Phonem-Unterscheidungsvorrichtung, die folgendes umfaßt:
eine Vorrichtung (10) zum Analysieren von Frames eines Eingangs- Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignais während eines jeden Frames darstellen;
eine Vorrichtung (20) zum Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal-Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;
eine Vorrichtung (30) zur Vektor-Quantisierung des Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs (40), um einen Leistungsänderungsvektor- Quantisierungscode (PCP-VQ) zu erzeugen; und
Vorrichtungen (80, 90,100) für die Ausgabe eines Signals, das ein Phonem darstellt, auf der Basis des Leistungsänderungsvektor- Quantisierungscodes,
gekennzeichnet durch
eine Vorrichtung (50) zur Erzeugung eines Spektrumsänderungsvektors, der eine Änderung im Sprachsignal-Spektrum mit der Zeit darstellt, aus den Sprachsignal-Spektren einer vorbestimmten Anzahl von aufeinanderfolgenden Frames; und
eine Vorrichtung (60) zur Vektor-Quantisierung des Spektrumsänderungsvektors unter Verwendung eines Codebuchs (70), das in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurde, um einen Spektrumsänderungs-Quantisiemngscode (TSP-VQ) zu erzeugen,
und dadurch gekennzeichnet, daß
die Vorrichtung für die Ausgabe eines Signals, das ein Phonem darstellt, weiterhin empfänglich ist auf den Spektru msänderungsvektor-Quantisierungscode.
3. Phonem-Unterscheidungsverfahren, das folgende Schritte aufweist:
Analysieren der Frames eines Eingangs-Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen;
Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal- Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;
Vektor-Quantisieren des Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs, um einen Leistungsänderungsvektor-Quantisierungscode (PCP-VQ) zu erzeugen; und
Ausgeben eines Signals, das ein Phonem darstellt, auf der Basis des Leistungsänderungsvektor-Quantisierungscodes;
gekennzeichnet durch folgenden Schritt:
Vektor-Quantisieren des Spektrumvektors für ein Frame unter Verwendung einer Vielzahl von Spektrumsvektor-Codebüchern (160), die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurden, um eine Vielzahl von Spektrumsvektor-Quantisierungscodes und eine Vielzahl von Quantisierungs-Fehlerwerten zu erzeugen,
und dadurch, daß das Signal, das ein Phonem darstellt, auf der weiteren Basis des Spektrumsvektor-Quantisierungscode ausgegeben wird, der gemäß einem optimalen Codebuch erzeugt wird,
wobei das optimale Codebuch das Spektrum-Codebuch ist, für das die Summe der Quantisierungs-Fehlerwerte über die Zeit am geringsten ist.
4. Phonem-Unterscheidungsvorrichtung, die folgendes aufweist:
eine Vorrichtung (110) zum Analysieren von Frames eines Eingangs- Sprachsignals, um Vektoren zu erzeugen, die das Spektrum und die Leistung des Sprachsignals während eines jeden Frames darstellen;
eine Vorrichtung (120) zum Erzeugen eines Leistungsänderungsvektors (PCP), der eine Änderung in der Sprachsignal-Leistung mit der Zeit darstellt, aus den Sprachsignal-Leistungen einer vorbestimmten Anzahl von aufeinanderfolgenden Frames;
eine Vorrichtung (130) zum Vektor-Quantisieren des Leistungsänderungsvektors unter Verwendung eines empirisch bestimmten Leistungsänderungsvektor-Codebuchs (140), um einen Leistungsänderungsvektor- Quantisierungscode (PCP-VQ) zu erzeugen; und
Vorrichtungen (180, 190, 200) für die Ausgabe eines Signais, das ein Phonem darstellt, auf der Basis des Leistungsänderungsvektor- Quantisierungscodes;
gekennzeichnet durch
eine Vorrichtung (150) zum Vektor-Quantisieren des Spektrumsvektors für ein Frame unter Verwendung einer Vielzahl von Spektrumsvektor-Codebüchern (160), die in Abhängigkeit vom Leistungsänderungsvektor-Quantisierungscode ausgewählt wurden, um eine Vielzahl von Spektrumsvektor-Quantisierungscodes und eine Vielzahl von Quantisierungs-Fehlerwerten zu erzeugen; und
Vorrichtungen (180, 190, 200) für die Ausgabe eines Signais, das ein Phonem darstellt, auf der weiteren Basis des Spektrumsvektor- Quantisierungscodes, der gemäß einem optimalen Codebuch erzeugt wurde,
wobei das optimale Codebuch das Spektrumsvektor-Codebuch ist, das durch eine Vorrichtung (170) identifiziert wird, um zu ermitteln, für welches Spektrumsvektor-Codebuch die Summe der Quantisierungs-Fehlerwerte über die Zeit am geringsten ist.
DE69128582T 1990-09-13 1991-09-12 Methode zur Phonemunterscheidung Expired - Fee Related DE69128582T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2242898A JPH04122995A (ja) 1990-09-13 1990-09-13 音韻識別方法
JP2242897A JP3012994B2 (ja) 1990-09-13 1990-09-13 音韻識別方法

Publications (2)

Publication Number Publication Date
DE69128582D1 DE69128582D1 (de) 1998-02-12
DE69128582T2 true DE69128582T2 (de) 1998-07-09

Family

ID=26535972

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69128582T Expired - Fee Related DE69128582T2 (de) 1990-09-13 1991-09-12 Methode zur Phonemunterscheidung

Country Status (3)

Country Link
US (1) US5202926A (de)
EP (1) EP0475759B1 (de)
DE (1) DE69128582T2 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573100A (ja) * 1991-09-11 1993-03-26 Canon Inc 音声合成方法及びその装置
JPH0743598B2 (ja) * 1992-06-25 1995-05-15 株式会社エイ・ティ・アール視聴覚機構研究所 音声認識方法
JPH08502603A (ja) * 1993-01-30 1996-03-19 コリア テレコミュニケーション オーソリティー 音声合成及び認識システム
US5577135A (en) * 1994-03-01 1996-11-19 Apple Computer, Inc. Handwriting signal processing front-end for handwriting recognizers
EP0703566A1 (de) * 1994-09-23 1996-03-27 Aurelio Oskian Vorrichtung zur Spracherkennung
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
US5889891A (en) * 1995-11-21 1999-03-30 Regents Of The University Of California Universal codebook vector quantization with constrained storage
KR100434527B1 (ko) * 1997-08-01 2005-09-28 삼성전자주식회사 벡터 테일러 급수를 이용한 음성 모델 보상 방법
US7769631B2 (en) * 1999-08-17 2010-08-03 Mcclung Iii Guy L Business systems with price guarantee and display
US6934678B1 (en) * 2000-09-25 2005-08-23 Koninklijke Philips Electronics N.V. Device and method for coding speech to be recognized (STBR) at a near end
US7143033B2 (en) * 2002-04-03 2006-11-28 The United States Of America As Represented By The Secretary Of The Navy Automatic multi-language phonetic transcribing system
US20050165604A1 (en) * 2002-06-12 2005-07-28 Toshiyuki Hanazawa Speech recognizing method and device thereof
CN1963917A (zh) * 2005-11-11 2007-05-16 株式会社东芝 评价语音的分辨力、说话人认证的注册和验证方法及装置
US20170069306A1 (en) * 2015-09-04 2017-03-09 Foundation of the Idiap Research Institute (IDIAP) Signal processing method and apparatus based on structured sparsity of phonological features

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4991216A (en) * 1983-09-22 1991-02-05 Matsushita Electric Industrial Co., Ltd. Method for speech recognition
US4741036A (en) * 1985-01-31 1988-04-26 International Business Machines Corporation Determination of phone weights for markov models in a speech recognition system
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
US4882755A (en) * 1986-08-21 1989-11-21 Oki Electric Industry Co., Ltd. Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
US5012518A (en) * 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing

Also Published As

Publication number Publication date
EP0475759B1 (de) 1998-01-07
US5202926A (en) 1993-04-13
EP0475759A2 (de) 1992-03-18
EP0475759A3 (en) 1993-04-21
DE69128582D1 (de) 1998-02-12

Similar Documents

Publication Publication Date Title
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69031284T2 (de) Verfahren und Einrichtung zur Spracherkennung
DE69705830T2 (de) Sprachverarbeitung
DE4397106B4 (de) Schnelles auf einer Baumstruktur basierendes Verfahren zur Vektorquantisierung
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE2953262C2 (de)
DE102008017993B4 (de) Sprachsuchvorrichtung
DE60000074T2 (de) Linear prädiktive Cepstral-Merkmale in hierarchische Subbänder organisiert für die HMM-basierte Spracherkennung
DE3878071T2 (de) Sprachnormierung durch adaptive klassifizierung.
DE69420400T2 (de) Verfahren und gerät zur sprechererkennung
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE69619284T2 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69421077T2 (de) Wortkettenerkennung
DE69127961T2 (de) Verfahren zur Spracherkennung
DE3878001T2 (de) Spracherkennungseinrichtung unter anwendung von phonemermittlung.
DE2918533C2 (de)
DE69707876T2 (de) Verfahren und vorrichtung fuer dynamisch eingestelltes training zur spracherkennung
DE69029001T2 (de) Verfahren und Einrichtung zur Erkennung von Signalzeitfolgen mit von Signalvariationen unabhängigem Lernen
DE69416670T2 (de) Sprachverarbeitung
DE69636209T2 (de) Vorrichtung zur Sprachkodierung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE68924134T2 (de) Spracherkennungssystem.
DE69229124T2 (de) Mehrteiliger expertsystem
DE10030105A1 (de) Spracherkennungseinrichtung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee