DE3779897T2 - Verfahren und vorrichtung zur ableitung der formantfrequenzen aus einem teil eines sprachsignals. - Google Patents
Verfahren und vorrichtung zur ableitung der formantfrequenzen aus einem teil eines sprachsignals.Info
- Publication number
- DE3779897T2 DE3779897T2 DE8787202461T DE3779897T DE3779897T2 DE 3779897 T2 DE3779897 T2 DE 3779897T2 DE 8787202461 T DE8787202461 T DE 8787202461T DE 3779897 T DE3779897 T DE 3779897T DE 3779897 T2 DE3779897 T2 DE 3779897T2
- Authority
- DE
- Germany
- Prior art keywords
- polynomial
- zeros
- unit
- singular
- recursion step
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 29
- 238000004458 analytical method Methods 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 229930183217 Genin Natural products 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die Erfindung betrifft ein Verfahren zum Bestimmen von Formantfrequenzen aus einem Teil eines Sprachsignals innerhalb eines bestimmten Zeitintevalls, in dem
- - für aufeinanderfolgende Zeitpunkte innerhalb des Zeitintervalls ein Parameterwert in Form eines Autokorrelationskoeffizienten aus dem innerhalb des Zeitintervalls befindlichen Teil des Sprachsignals abgeleitet wird,
- - ein Polynom einer bestimmten Ordnung aus den Parameterwerten bestimmt wird,
- - die Formantfrequenzen aus den Wurzeln des bestimmten Polynoms abgeleitet werden.
- Die Erfindung bezieht sich ebenfalls auf eine Anordnung zum Durchführen dieses Verfahrens.
- Formanten sind in Wirklichkeit die Resonanzen der Stimmbänder und kennzeichnen sich durch besondere Stärke im Spektrum. Beim Sprechen erfahren die Stimmbänder ununterbrochen Formänderungen und daher ändern sich auch die Formanten hinsichtlich der Stelle auf der Frequenzachse und der Bandbreite. In einem Quellenfiltermodell für Spracherzeugung wird eine Beschreibung des Filters häufig in Termen von Formantfrequenzen und Bandbreiten verwendet. Die Sprachanalyse für die Philips' Sprachsynthesechips MEA 8000 und PCF 8200 bedient sich ebenfalls einer Formantbeschreibung des Sprachsignals, siehe das Literaturverzeichnis (1) und (2).
- Die Gründe für die Verwendung einer Formantbeschreibung sind folgende:
- - Es ist eine wirtschaftliche Codierung möglich,
- - Physikalisch auszuwertende Daten sind so beschaffen, daß Bearbeitung eine Einsicht gibt, beispielsweise die Verkettung von Diphtongsegmenten und die Aufbereitung für den Sprachsynthesechip.
- Obige Beschreibung gibt den Eindruk, als wäre das Sprachsignal immer mit Hilfe einer Anzahl von Formanten (= Resonanzen) beschreibbar. In diesem Fall umfaßt das Filter im Quellenfiltermodell nur Resonanzen (Allpolfilter). Beim Sprechen entspricht das Sprachproduktionssystem nicht immer diesem Modell: Es gibt Töne, für die das Modell weniger Formanten enthalten müßte, oder es gibt Töne, für die das Modell neben den Formanten ebenfalls Nullen umfassen müßte (d.h. Antiresonanzen: Dies ist ein Frequenzbereich, in dem eine mit der Resonanz kontrastierende Erscheinung auftritt, so daß das Signal keiner Resonanzaufschaukelung unterworfen ist, sondern markiert wird, und wobei es stellenweise wenig Stärke im Spektrum gibt). Jedoch sind in einem praktischen System die Struktur des Quellenfiltermodells und daher die Formantzahlen niedergelegt. Die Tatsache, daß das benutzte Modell nicht auf alle momentan auftretende Situationen anwendbar ist, ist Ursache, daß den Formanten bei Sprachsynthese eine operationelle Begriffsbestimmung gegeben werden muß. Das Sprachsynthesefilter enthält nur eine feste Formantzahl (und keine Nullen) und die zugeordnete Sprachanalyse hat die Aufgabe, die Modellparameter unabhängig davon zu suchen, ob das Modell für die Sprachproduktion geeignet ist.
- Eine Formantanalyse ist ausführlich bei (3) beschrieben. Bei dieser Formantanalyse treten zwei Probleme auf:
- - die vorgeschriebene Formantzahl wird nicht immer gefunden,
- - dann und wann versagt die Analyse aus zahlenmäßigen Gründen: Der benutzte Algorithmus konvergiert nicht immer.
- Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Anordnung zum Durchführen des Verfahrens zu schaffen, in denen die vorgeschriebene Zahl operationell definierter Formanten in allen Fällen und unter Verwendung eines in allen Fällen konvergierenden Algorithmus bestimmt werden kann.
- Zur Lösung dieser Aufgabe ist das erfindungsgemäße Verfahren dadurch gekennzeichnet, daß das Polynom ein singuläres Prädiktorpolynom mit allen Nullen auf dem Einheitskreis der Z-Ebene ist, daß das Polynom unter Verwendung eines abgeänderten Split-Levinson-Algorithmus erhalten wird, der aus einer Anzahl aufeinanderfolgender Rekursionsschritte besteht, wobei das in einem Rekursionsschritt bestimmte singuläre Prädiktorpolynom von einer höheren Ordnung ist als das in einem vorangehenden Rekursionsschritt bestimmte singuläre Prädiktorpolynom, und daß nach dem letzten Rekursionsschritt die Formantfrequenzen aus dem im letzten Rekursionsschritt erhaltenen singulären Prädiktorpolynom abgeleitet werden. Das Verfahren ist weiter noch dadurch gekennzeichnet, daß in einem Rekursionsschritt die Nullen des in dem Rekursionsschritt bestimmten singulären Prädiktorpolynoms unter Benutzung der im vorangehenden Rekursionsschritt berechneten Nullen abgeleitet werden, und nach dem letzten Rekursionsschritt die Formantfrequenzen aus den im letzen Rekursionsschritt erhaltenen Nullen abgeleitet werden. Die Bestimmung der Nullen des singulären Pradiktorpolynoms ist einfacher als die Bestimmung der Nullen entsprechend dem bekannten Verfahren. Die Nullen des mit dem bekannten Verfahren erhaltenen Polynoms werden innerhalb des Einheitskreises angebracht, während die Nullen eines singulären Prädiktorpolynoms auf dem Einheitskreis angebracht werden. Das Ergebnis davon ist, daß die Nullen auf einfachere Weise berechenbar sind, und daß immer ausreichend Nullen vorgefunden werden, so daß tatsächlich ein gutes Verfahren zum Bestimmen von Formantfrequenzen erhalten wird.
- Das Verfahren ist noch dadurch gekennzeichnet, daß für jede der auf diese Weise gefundenen Formantfrequenzen die zugeordnete Bandbreite bestimmt wird, wobei von den Parameterwerten und von den berechneten Formantfrequenzen mit Hilfe eines Minimisierungsalgorithmus ausgegangen wird. Alle erforderlichen Größen zum Erzeugen synthetischer Sprache werden dabei abgeleitet, wie bereits mit den zuvorgenannten Sprachchips MEA 8000 und PCF 8200 durchgeführt wurde.
- Die Anordnung zum Durchführen des Verfahrens enthält
- - eine Eingangsklemme zum Empfangen eines Sprachsignals,
- - eine erste Einheit zum Ableiten eines Parameterwerts in Form eines Autokorrelationskoeffizienten für innerhalb des Zeitintervalls befindliche aufeinanderfolgende Zeitpunkte aus dem innerhalb des Zeitintervalls befindlichen Teil des Sprachsignals, wobei diese Einheit einen mit der Eingangsklemme gekoppelten Eingang und einen Ausgang besitzt,
- - eine zweite Einheit zum Bestimmen eines Polynoms einer bestimmten Ordnung aus den Parameterwerten, mit einem an den Ausgang der ersten Einheit gekoppelten Eingang und einem Ausgang, und
- - eine dritte Einheit zum Ableiten der Formantfrequenzen aus den Wurzeln des bestimmten Polynoms, mit einem an den Ausgang der zweiten Einheit gekoppelten Eingang und einem Ausgang zum Ausgeben der Formantfrequenzen, und diese Anordnung ist dadurch gekennzeichnet, daß die zweite Einheit zum Durchführen eines Split-Levinson-Algorithmus in jedem Rekursionsschritt dient, mit dem ein singuläres symmtrisches Prädiktorpolynom aus den Parameterwerten abgeleitet wird, bei dem alle Nullen des singulären symmetrischen Prädiktorpolynoms sich auf dem Einheitskreis der Z-Ebene befinden, wobei das in einem Rekursionsschritt abgeleitete singuläre symmetrische Prädiktorpolynom von einer höheren Ordnung ist als das in einem vorangehenden Rekursionsschritt bestimmte singuläre Prädiktorpolynom, und daß die dritte Einheit zum Ableiten der Formantfrequenzen aus dem im letzten Rekursionsschritt erhaltenen singulären Prädiktorpolynom dient.
- Die zweite Einheit dient weiter ebenfalls zum Ableiten der Nullen des in diesem Rekursionsschritt bestimmten singulären Prädiktorpolynoms unter Benutzung der in dem vorangehenden Rekursionsschritt berechneten Nullen, und die dritte Einheit dient dabei zum Ableiten der Formantfrequenzen aus den im letzten Rekursionsschritt erhaltenen Nullen. Wenn neben den auf die beschriebene Weise erhaltenen Formantfrequenzen auch die Brandbreiten bestimmt werden müssen, kann die dritte Einheit dabei zum Bestimmen der zugeordneten Bandbreite für jede der so gefundenen Formantfrequenzen ausgehend von den Parameterwerten und den berechneten Formantfrequenzen mit Hilfe eines Minimisierungsalgorithmus dienen.
- Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnung näher erlautert. Es zeigen
- Fig. 1 Nullen des A-Filters aus der LPC-Analyse, die sich im Einheitskreis befinden, und Nullen des singulären Prädiktorpolynoms, die sich auf dem Einheitskreis befinden,
- Fig. 2 und 3 das Verhalten der für aufeinanderfolgende Rekursionsschritte im Split-Levinson-Algorithmus erhaltenen Nullen,
- Fig. 4 ein Ablaufdiagramm des Verfahrens,
- Fig. 5 ein Ablaufdiagramm des Programmabschnitts, in dem der Split- Levinson-Algorithmus angewendet wird.
- Fig. 6 eine Anordnung zur Durchführung des Verfahrens.
- Im bekannten Verfahren werden die Formanten durch das Berechnen eines Allpolfilters mit Hilfe der LPC-Analyse bestimmt, das aufeinanderfolgend in Abschnitten zweiter Ordnung analysiert wird. Die LPC-Analyse ist ein aus der Literatur bekanntes Verfahren, siehe beispielsweise Referenz (5). In der LPC-Analyse wird ein Teil eines Signals von ungefahr 25 ms genommen, durch ein Hamming-Fenster multipliziert und daraus werden die Autokorrelationskoeffizienten berechnet. Ein Polynom A(z) (1/A(z) = das Allpolfilter) einer vorgegebenen Ordnung wird jetzt mit dem sog. Levinson-Algorithmus bestimmt. Dieser ist ein Rekursivalgorithmus, in dem für jeden Rekursionsschritt ein A-Polynom berechnet wird, dessen Nullen innerhalb des Einheitskreises liegen.
- Aufeinanderfolgend:
- A&sub0;(z) = 1 (1.1)
- A&sub1;(z) = 1 + a1.1z&supmin;¹ (1.2)
- A&sub2;(x) = 1 + a2.1z&supmin;¹ + a2.2z&supmin;² (1.3)
- Am(z) = 1 + am.1z&supmin;¹ + ..... + am.mz-m (1.4)
- Bei jeder Rekursion ändert sich das A-Polynom vollständig. Die Tatsache, daß die Nullen sich immer innerhalb des Einheitskreises befinden, gewährleistet ein stabiles Synthesefilter und das ist das Ergebnis der Verwendung des Autokorrelationsverfahrens. Die Nullen dieses Polynoms sind konjugiert-komplexe Paare oder reelle Nullen, siehe Fig. 1. In Fig. 1 bezeichnen die offenen Kreise die konjugiert-komplexe Paare und die geschlossenen Kreise geben die wirklichen Nullen an. Die Null-Paare (einschließlich der reellen) können wie folgt geschrieben werden:
- N(z) = 1 +pz&supmin;¹ + qz&supmin;² (2)
- Wenn das A-Polynom A(z) geschrieben wird:
- A(z) = 1 + a&sub1;z&supmin;¹ + .... + amz-m (3)
- kann in Abschnitten zweiter Ordnung analysiert werden:
- Diese (pj, qj) Paare können mittels des sog. Bairstowschen Algorithmus abgetrennt werden, der aus den Handbüchern bekannt ist, siehe u.a. Referenz (6).
- Zugefügte komplexe Nullpaare stellen eine Resonanz (= Formant) dar und die pj, qj Zahlen geben die Formantfrequenz und die Bandbreite wie folgt an:
- pj = -2.exp (-πBjT) . cos (2πFjT) (5a)
- qj = exp (-2πBjT) (5b)
- worin T = 1/Fs die Abtastperiode ist, aus der Bj und Fj bestimmbar sind.
- Reelle Nullen können nicht in Formantdaten umgesetzt werden, weil sie keine Resonanz beschreiben, sondern eher das Spektrum einer bestimmten Flanke angeben.
- Die in der Einführung genannten zwei Probleme in der laufenden Formantbestimmung lassen sich jetzt besser formulieren:
- - das Vorhandensein reeller Nullen des A-Polynoms, so daß keine Formantfrequenz und Bandbreite bestimmbar sind,
- - das ab und zu auftretende Versagen des Bairstowschen Algorithmus aus Zahlenwertgründen, die nicht genau bekannt sind. Der Algorithmus iteriert dabei nach wie vor ohne Konversion.
- Der sog. Split-Levinson-Algorithmus wurde von Genin und Delsarte (4) entwickelt und eine seiner Eigenschaften ist, daß im Vergleich zum herkömmlichen Levinson-Algorithmus nahezu die Hälfte der Multiplikationen zur Durchführung einer LPC-Analyse erforderlich ist. Dies ist möglich, weil die sog. singulären Prädiktorpolynome jetzt statt der A-Polynome verwendet werden. Diese Prädiktorpolynome sind symmetrisch und daher befinden sich die Nullen auf dem Einheitskreis und allgemein gesagt bestehen diese Polynome also aus halbsoviel bedeutsamen Koeffizienten.
- Die vorteilhafte Eigenschaft dieses Algorithmus liegt in den Eigenschaften der singulären Prädiktorpolynome (SPP). Die SPP werden mit folgender Gleichung bestimmt
- Pk(z) = Ak-1(z) +z&supmin;¹ k-1(z) (6)
- worin Ak(z) das A-Polynom bei der k-ten Rekursion des normalen Levinson-Algorithmus ist, und wobei für k(z) gilt, daß
- z(z) = z-k . Ak (z&supmin;¹) (7)
- worin k(z) das reziproke Polynom von Ak(z) ist.
- Wie bereits erwähnt, sind diese SPP symmetrische Polynome und daher verfügen sie über Nullen, die sich auf dem Einheitskreis und nicht innerhalb dieses Kreises befinden, wie es bei Ak(z) der Fall ist.
- Diese SPP beziehen sich auch auf die Polynome, die eine Rolle in der LSP-Analyse spielen (Line Sprectrum Pairs) (7). Auf der Basis der Begriffsbestimmung und der Eigenschaften von Ak(z) kann für die SPP ein wiederkehrendes Verhältnis abgeleitet werden:
- Pk(z) = (1+z&supmin;¹) Pk-1(z) - αk-1 z&supmin;¹Pk-2(z) (8)
- worin αk-1 eine aus den vorgegebenen Autokorrelationskoeffizienten berechnete Zahl ist.
- Es ist bekannt (7), daß die Position der Nullen auf dem Einheitskreis dieser SPP und mit einer geradzahlig bewerteten Ordnung in der Nähe der Formantpositionen liegen, wie sie aus dem A-Polynom abgeleitet wurden. Diese Ähnlichkeit ist um so besser, wenn der Pol sich näher beim Einheitskreis befindet, oder mit anderen Worten die Bandbreite des Formanten ist kleiner. Erfindungsgemäß werden jetzt die Formantfrequenzen aus den Positionen der Nullen des singulären Prädiktorpolynoms auf dem Einheitskreis abgeleitet. Dies vereinfacht das Problem des Aufsuchens der Nullen des A-Polynoms, die sich irgendwo innerhalb des Einheitskreises befinden können, und des Aufsuchens der Nullen des singulären Prädiktorpolynoms, die sich auf dem Einheitskreis befinden, siehe die angekreuzten Punkte auf dem Einheitskreis in Fig. 1. Das Aufsuchen dieser Nullen des singulären Prädiktorpolynoms wird weiter vereinfacht, weil sich die Nullen in den aufeinanderfolgenden Rekursionsschritten ganz systematisch verschieben.
- Die Rekursionsschritte werden wie folgt durchlaufen. Im ersten Rekursionsschritt wird P&sub0;(z) = 1 genommen. Im zweiten Rekursionsschritt wird P&sub1;(z) = 1+z&supmin;¹ genommen. Dies folgt direkt aus der Formel (1.1), (6) und (7). Die Null np1.1 dieses Polynoms befindet sich an der Stelle z&supmin;¹ = -1 oder w = π, worin w das Argument der (komplexen) Null ist. Im dritten Rekursionsschritt wird P&sub2;(z) berechnet unter Verwendung nachstehender Gleichung (8):
- Pk(z) = (1+z&supmin;¹) Pk-1(z) - αk-1z&supmin;¹ Pk-2(z) (8)
- worin
- αk-1 = τk-1/τk-2 (9)
- τk-1 = (r&sub0;+rk-1) + (r&sub1;+rk-2) Pk-1.1 + ..... (10)
- und Pk.i aus der allgemeinen Gleichung für Pk(z) folgt, d.h.
- Pk(z) = 1+pk.1z&supmin;¹ + pk.2z&supmin;² + ... + Pk.1z-k+1 +z-k (11)
- oder
- P&sub2;(z) = 1 + p2.1z&supmin;¹ + z&supmin;²
- zum Berechnen vom P&sub2;(z) gilt also, daß
- pk-1.1 = pk-1.2 = .... = 0
- und also
- τ&sub1; = r&sub0; + r&sub1;
- Außerdem wird τ&sub0; = r&sub0;/2 gewählt.
- Daher wird P&sub2;(z)
- P&sub2;(z) = (1+z&supmin;¹)² - α&sub1;z&supmin;¹
- = 1 + (2-α&sub1;)z&supmin;¹ + z&supmin;²
- = z&supmin;¹{(2-α&sub1;) + (z&supmin;¹+z)}
- Wenn z = ejw substituiert wird, bedeutet dies, daß z+z&supmin;¹ = 2cos w ist, wobei P2(z) = e-jw {(2-α&sub1;) + 2cos w} ist.
- Das Polynom P&sub2;(z) zweiten Grades wird jetzt zu einem Polynom ersten Grades mit Nullen im Intervall (-1,+1) statt auf dem Einheitskreis reduziert.
- Es wird eine Null np2.1 gefunden, die sich im Intervall befindet, das von np1.1 (= -1) und +1 bestimmt wird, siehe Fig. 2.
- Danach wird P&sub3;(z) im vierten Rekursionsschritt unter Verwendung der Gleichungen (8), (9), (10) und (11) berechnet. Eine Gleichung wird in nachstehender Form vorgefunden:
- P&sub3;(z) = 1 + p3.1z&supmin;¹ + p3.1z&supmin;² + z&supmin;³
- = (1+z&supmin;¹) [1+(p3.1-1)z&supmin;¹ + z&supmin;²]
- Diese Gleichung kann durch 1+z&supmin;¹ geteilt werden, was eine Null np3.1 bei z&supmin;¹ = -1 oder bei w = π ergibt.
- Was übrigbleibt ist wieder ein Vergleich zweiten Grades, der umgesetzt werden kann, wie bei der Referenz zu P&sub2;(z) beschrieben ist. Dabei wird eine Null np3.2 gefunden, der sich im Intervall befindet, das durch np2.1 und +1 bestimmt wird, siehe Fig. 2.
- Danach wird P&sub4;(z) im fünften Rekursionsschritt unter Verwendung der Formeln (8), (9), (10) und (11) berechnet:
- P&sub4;(z) = 1 + p4.1z&supmin;¹ + p4.2z&supmin;² + p4.1z&supmin;³ + z&supmin;&sup4;
- = z&supmin;² (z² + p4.1z + p4.2 + p4.1z&supmin;¹ + z&supmin;²)
- = z&supmin;²[(z²+z&supmin;²) + p4.1 (z+z&supmin;¹) + p4.2]
- Wenn z = ejw wieder substituiert wird, so ist
- z + z&supmin;¹ = 2 cos w und zk + z-k = 2 cos kw
- P&sub4;(z) = e-2jw [2 cos 2w + 2p4.1 cos w + p4.2]
- Und dies läßt sich immer in Potenzen von y = cos w schreiben; in diesem Fall bei cos 2w = 2 cos²w-1.
- P&sub4;(z) = e-2jW [4y² + 2p4.1y + (p4.2&supmin;²)]
- Das Polynom P&sub4;(z) vierten Grades wird jetzt zu einem Polynom zweiten Grades mit Nullen beim Intervall (-1,+1) wiederum statt auf dem Einheitskreis reduziert. Insbesondere gibt es eine Null np4.1 zwischen np3.1 und np3.2 und gibt es eine Null np4.2 zwischen np3.2 und +1, siehe Fig. 2.
- In der Kurzfassung:
- Im Split-Levinson-Algorithmus sind die SPP in den aufeinanderfolgenden Rekursionsschritten wie folgt:
- k = 0 P&sub0;(z) = 1
- k = 1 P&sub1;(z) = 1 + z&supmin;¹
- k = 2 P&sub2;(z) = 1 + p2.1z&supmin;¹ + z&supmin;²
- k = 3 P&sub3;(z) = 1 + p3.1z&supmin;¹ + p3.1z&supmin;² + z&supmin;³
- = (1 + z&supmin;¹) (1 + (p3.1&supmin;¹)z&supmin;¹ + z&supmin;²)
- k = 4 P&sub4;(z) = 1 + p4.1z&supmin;¹ + p4.2z&supmin;² + p4.1z&supmin;³ + z&supmin;&sup4;
- und so weiter.
- Es ist eine Eigenschaft dieses SPP Pk(z), daß die Nullen von Pk(z) sich in einem Intervall befinden, das aus den Nullen von Pk-1(z) ableitbar ist. Siehe Fig. 2: Für k = 1 ist die Null np1.1 = -1, für k = 2 befindet sich die Null im Intervall (np1.1, +1). Für k = 3 ist eine Null np3.1 = -1 und die andere Null np3.2 befindet sich im Intervall (np2.1, +1), usw.
- Das Vorfinden einer Null in einem Intervall, bei dem bekannt ist, daß eine immer vorhanden ist, führt immer zum Erfolg. Im Algorithmus werden die Positionen der Nullen vom Start (von k = 3) bestimmt, siehe auch Fig. 3.
- Die Formantfrequenzen werden wie folgt aus den im letzten Rekursionsschritt bestimmten Nullen berechnet. Da eine Null np1,j die Länge der Projektion auf der Horizontalachse (siehe Fig. 1) des Einheitvektors nach einem gegebenen Punkt auf den Einheitskreis anzeigt, gilt:
- npi,j = cos (2π fj.T)
- worin T = 1/fs die Abtastperiode und fs die Abtastfrequenz sind.
- Daraus folgt, daß die Formantfrequenz
- fj = fs arc cos (npi,j) /2π ist,
- worin j im Bereich von 1 bis zu 1/2 M liegt und i gleich M ist. Die Zahl M wird durch die Anzahl der Formanten bestimmt, die innerhalb des zu analysierenden Frequenzbereichs erwartet wird. Wenn die Bandbreite des zu analysierenden Frequenzbereichs beispielsweise 5000 Hz beträgt, werden fünf Formanten für eine männliche Stimme und vier Formanten für eine weibliche Stimme innerhalb dieses Bereichs angebracht. In diesem Fall beträgt M 10 bzw. 8. Wenn die Bandbreite beispielsweise 8000 Hz beträgt, werden 8 Formanten für eine männliche Stimme und 6 Formanten für eine weibliche Stimme innerhalb dieses Frequenzbereichs angebracht. M beträgt jetzt 16 bzw. 12. Es ist klar, daß M also derart genommen wird, daß dieser Wert gleich dem Doppelten der erwarteten Anzahlen von Formanten innerhalb des Frequenzbereichs ist.
- Die Bandbreiteninformation in den auf diese Weise gefundenen Formantfrequenzen muß jetzt bestimmt werden. Dieses Problem wird durch die Verwendung einer Minimisierungstechnik gelöst, worin die Bandbreiten die Unbekannten sind. Dazu wird eine Wahl für jeden Formant aus der Tabelle möglicher Bandbreiten getroffen. Aus dieser Tabelle läßt sich ein A-Polynom berechnen, das geprüft werden kann, um herauszufinden, wie gut dieses Polynom mit dem ankommenden Signal übereinstimmt. Daher können wir also auch berechnen, welche Wahl aus der Tabelle am besten zum ankommenden Signal paßt. Die Passung zwischen einem a-Filter und dem ankommenden Signal läßt sich jetzt mittels der Autokorrelationskoeffizienten (bereits berechnet) bestimmen. Angenommen sei, daß A (z&supmin;¹) das a-Filter ist, das durch die Wahl eines Werts aus der verfügbaren Tabelle für alle noch unbekannten Bandbreiten gefunden wurde. Dabei beträgt der gemachte Fehler
- Dies läßt sich wie folgt reduzieren
- worin
- die die Autokorrelationskoeffizienten sind, die bereits berechnet wurden und ebenfalls als Eingang für den Split-Levinson-Algorithmus gedient haben.
- Im Minimisierungsalgorithmus wird das Minimum des Fehlers für die Bandbreite des ersten Formanten, danach für den zweiten Formanten usw. gesucht, und dann wieder für den ersten Formanten, usw. Dieser Vorgang wird wiederholt, bis die Bandbreitenwerte sich nicht mehr ändern. Die Werte für die Bandbreiten werden aus einer Tabelle mit einer vorgegebenen Quantisierung genommen. Diese Quantisierung wurde mit verschiedenen Schrittabmessungen geprüft, ohne daß die Konvergenz je fehlte. Die Reihenfolge, in der die Minimisierung durchgeführt wurde (in diesem Fall aufeinanderfolgend für die Formanten 1, 2, 3, 4 und 5) ist für die Geschwindigkeit der Konvergenz wichtig.
- In Fig. 4 ist ein Ablaufdiagramm für das erfindungsgemäße Verfahren dargestellt. Das Verfahren wird im Block 40 angefangen. Im Block 41 wird ein Teil des Sprachsignals in einem vorgegebenen Zeitintervall von beispielsweise 25 ms eingegeben. Das Signal wird unter dem Einfluß eines Hamming-Fensters verarbeitet. Darauf werden Autokorrelationskoeffizienten ri (i=0, ..., M), worin M « N ist, aus den dann erhaltenen Abtastungen S&sub1;, ... SN im Block 42 berechnet. Im Block 43 wird der Split-Levinson-Algorithmus verwendet, ausgehend von den Autokorrelationskoeffizienten ri. Nach einer Anzahl von Rekursionsschritten, d.h. M Schritten, im Split-Levinson- Algorithmus werden die Nullen npM.1, npM.2... npM. 1/2 M (M ist geradzahlig) gefunden. Danach werden die Formantfrequenzen f&sub1; ... fM/2 im Block 44 aus den im letzten Rekursionsschritt erhaltenen Nullen abgeleitet. Dabei werden die Bandbreiten B&sub1; bis BM/2 im Block 45 abgeleitet, und die Bandbreiten sind den Formantfrequenzen zugeordnet. Dabei kehrt das Programm über die Kette 46, 47 zum Block 41 zurück und es wird ein Sprachsignal aus einem Zeitintervall (von 25 ms) aufgenommen und über ein vorgegebenes Zeitintervall (von beispielsweise 10 ms) verschoben, und aus diesem Signal kann wiederum eine Gruppe von Formantfrequenzen mit den zugeordneten Bandbreiten abgeleitet werden. Das Programm wird also jeweils wiederholt, bis das vollständige Sprachsignal codiert ist. Das Programm endet dabei über 46 und 48.
- In Fig. 5 ist eine weitere Ausarbeitung des Blocks 43 nach Fig. 4 dargestellt. Fig. 5 zeigt ein Ablaufdiagramm des Split-Levinson-Algorithmus wie oben bereits beschrieben. Das Programm starte im Block 50. P&sub0;(z) und P&sub1;(z) werden im Block 51 bzw. 52 berechnet. Die Null von P&sub1;(z) np1,1 befindet sich an z&supmin;¹ = -1. Danach wird k = 2 genommen (Block 53) und das singuläre Prädiktorpolynom Pk(z) wird entsprechend der Formel (8) im Block 54 berechnet. Abhängig von der Frage, ob k geradzahlig oder ungeradzahlig ist (Block 55), werden die Nullen npk.1, npk.2 entweder in Übereinstimmung mit dem Block 56 oder in Übereinstimmung mit dem Block 57 bestimmt. Danach wird der Wert k um 1 erhöht (Block 58) und das Programm kehrt über 59 und die Kette 60 nach Block 54 zurück, um den folgenden Rekursionsschritt zu durchlaufen. Nach dem letzten Rekursionsschritt (k=M) führt das Programm über 59 nach dem Block 61, und das Programm wird beendet.
- In Fig. 6 ist ein Ausführungsbeispiel der erfindungsgemäßen Anordnung zur Durchführung des Verfahrens dargestellt. Es gelangt ein Sprachsignal an die Anordnung über die Eingangsklemme 65. In der ersten Einheit 66 wird ein Teil des innerhalb eines vorgegebenen Zeitintervalls befindlichen Sprachsignals zum Berechnen eines Parameterwerts verwendet, beispielsweise der Autokorrelationskoeffizient für aufeinanderfolgende Zeitpunkte innerhalb dieses Zeitintervalls. Diese Parameterwerte gelangen an eine zweite Einheit 67. Diese Einheit 67 benutzt den Split-Levinson- Algorithmus bei den gelieferten Parameterwerten. Die erhaltenen Nullen im letzten Rekursionsschritt des Split-Levinson-Algorithmus gelangen an die dritte Einheit 68, und leiten daraus Formantfrequenzen ab. Zusätzlich kann die dritte Einheit 68 zum Berechnen der zugeordneten Bandbreiten dienen. Die Ergebnisse gelangen an einen Ausgang 69 der dritten Einheit 68.
- Es sei bemerkt, daß verschiedene Abwandlungen des Verfahrens und der dargestellten Anordnung möglich sind, ohne aus dem Rahmen der Erfindung nach den beigefügten Ansprüchen herauszutreten. Tabelle Aufschriften in den Ablaufdiagrammen nach Fig. 4 und 5 Blocknummer Aufschrift Start Sprachsegment ableiten Autokorrelationskoeffizienten bestimmen Nullen im Split-Levinson-Algorithmus bestimmen Formantfrequenzen berechnen Entsprechende Bandbreiten berechnen Stopp Singuläre Prädiktorpolynome berechnen k geradzahlig ? Nullen bestimmen Zurückkehren
- (1) Philips' Elcoma technical publication Nr. 101(1983) MEA 8000 voice synthesizer:principles and interfacing
- (2) Philips's Elcoma technical publications Nr. 217 (1986). Speech synthesis: the complete approach with the PCF 8200.
- (3) Vogten, L.L.M. (1983) Analyse, zuinige kodering en resynthese van spraakgeluid. Dissertatie, Eindhoven.
- (4) Delsarte, P. and Genin, Y.V. (1986) The Split Levinson Algorithm. IEEE Trans. on ASSP, Vol. ASSP-34, Nr. 3, Juni 86, S. 470-478.
- (5) Markel, J.D. and Gray, A.H. (1976), Linear prediction of speech, Springer Verlag.
- (6) Hildebrand, F.B., Introduction to numerical analysis. McGraw Hill (1956).
- (7) Sugamura, N. and Itakura, F., Speech analysis and synthesis methods developed at ELL in NTT - From LPC to LSP, in Speech Communication Vol. 5, 1986, S. 199-215.
- (8) Chubb, D.W.J., A Comparative study of the robust properties of two formant trackers. Speech technology Jan/Febr 1984, S. 56-61.
- (9) Kang, G.S. and Fransen, J., Application of line spectrum pairs to low bit rate speech encoders. Proceedings of the ICASSP 85, March 26-29, 1985, S. 7.3.1...7.3.4.
Claims (6)
1. Verfahren zum Bestimmen von Formantfrequenzen aus einem Teil eines
Sprachsignals innerhalb eines bestimmten Zeitintervalls, in dem
- für aufeinanderfolgende Zeitpunkte innerhalb des Zeitintervalls ein
Parameterwert in Form eines Autokorrelationskoeffizienten aus dem innerhalb des
Zeitintervalls befindlichen Teil des Sprachsignals abgeleitet wird,
- ein Polynom einer bestimmten Ordnung aus den Parameterwerten bestimmt
wird,
- die Formantfrequenzen aus den Wurzeln des bestimmten Polynoms abgeleitet
werden,
dadurch gekennzeichnet, daß das Polynom ein singuläres Prädiktorpolynom mit allen
Nullen auf dem Einheitskreis der Z-Ebene ist, daß das Polynom unter Verwendung
eines abgeänderten Split-Levinson-Algorithmus erhalten wird, der aus einer Anzahl
aufeinanderfolgender Rekursionsschritte besteht, wobei das in einem Rekursionsschritt
bestimmte singuläre Prädiktorpolynom von einer höheren Ordnung ist als das in einem
vorangehenden Rekursionsschritt bestimmte singuläre Prädiktorpolynom, und daß nach
dem letzten Rekursionsschritt die Formantfrequenzen aus dem im letzten
Rekursionsschritt erhaltenen singulären Prädiktorpolynom abgeleitet werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß in einem
Rekursionsschritt die Nullen des in dem Rekursionsschritt bestimmten singulären
Prädiktorpolynoms unter Benutzung der im vorangehenden Rekursionsschritt
berechneten Nullen abgeleitet werden, und daß nach dem letzten Rekursionsschritt die
Formantfrequenzen aus den im letzten Rekursionsschritt erhaltenen Nullen abgeleitet
werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß für jede
der auf diese Weise gefundenen Formantfrequenzen die zugeordnete Bandbreite
bestimmt wird, wobei von den Parameterwerten und von den berechneten
Formantfrequenzen mit Hilfe eines Minimisierungsalgorithmus ausgegangen wird.
4. Anordnung zum Durchführen des Verfahrens nach einem oder mehreren
der vorangehenden Ansprüche, mit
- einer Eingangsklemme zum Empfangen eines Sprachsignals,
- einer ersten Einheit zum Ableiten eines Parameterwerts in Form eines
Autokorrelationskoeffizienten für innerhalb des Zeitintervalls befindliche
aufeinanderfolgende Zeitpunkte aus dem innerhalb des Zeitintervalls befindlichen Teil des
Sprachsignals, wobei diese Einheit einen mit der Eingangsklemme gekoppelten
Eingang und einen Ausgang besitzt,
- einer zweiten Einheit zum Bestimmen eines Polynoms einer bestimmten
Ordnung aus den Parameterwerten, mit einem an den Ausgang der ersten
Einheit gekoppelten Eingang und einem Ausgang, und
- einer dritten Einheit zum Ableiten der Formantfrequenzen aus den Wurzeln des
bestimmten Polynoms, mit einem an den Ausgang der zweiten Einheit
gekoppelten Eingang und einem Ausgang zum Ausgeben der Formantfrequenzen,
dadurch gekennzeichnet, daß die zweite Einheit zum Durchführen eines Split-
Levinson-Algorithmus in jedem Rekursionsschritt dient, mit dem ein singuläres
symmetrisches Prädiktorpolynom aus den Parameterwerten abgeleitet wird,
wobei alle Nullen des singulären symmetrischen Prädiktorpolynoms sich auf
dem Einheitskreis der Z-Ebene befinden, wobei das in einem Rekursionsschritt
abgeleitete singuläre symmetrische Prädiktorpolynom von einer höheren
Ordnung ist als das in einem vorangehenden Rekursionsschritt bestimmte
singuläre Prädiktorpolynom, und daß die dritte Einheit zum Ableiten der
Formantfrequenzen aus dem im letzten Rekursionsschritt erhaltenen singulären
Prädiktorpolynom dient.
5. Anordnung nach Anspruch 4 zum Durchführen des Verfahrens nach
Anspruch 2, dadurch gekennzeichnet, daß die zweite Einheit ebenfalls zum Ableiten der
Nullen des in diesem Rekursionsschritt bestimmten singulären Prädiktorpolynoms unter
Benutzung der im vorangehenden Rekursionsschritt berechneten Nullen dient, und daß
die dritte Einheit zum Ableiten der Formantfrequenzen aus den im letzten
Rekursionsschritt erhaltenen Nullen dient.
6. Anordnung nach Anspruch 4 zum Durchführen des Verfahrens nach
Anspruch 3, dadurch gekennzeichnet, daß die dritte Einheit auch zum Bestimmen der
zugeordneten Bandbreite für jede der auf diese Weise gefundenen Formantfrequenzen
dient, wobei von den Parameterwerten und von den berechneten Formantfrequenzen mit
Hilfe eines Minimisierungsalgorithmus ausgegangen wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL8603163A NL8603163A (nl) | 1986-12-12 | 1986-12-12 | Werkwijze en inrichting voor het afleiden van formantfrekwenties uit een gedeelte van een spraaksignaal. |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3779897D1 DE3779897D1 (de) | 1992-07-23 |
DE3779897T2 true DE3779897T2 (de) | 1993-01-14 |
Family
ID=19848988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE8787202461T Expired - Fee Related DE3779897T2 (de) | 1986-12-12 | 1987-12-09 | Verfahren und vorrichtung zur ableitung der formantfrequenzen aus einem teil eines sprachsignals. |
Country Status (6)
Country | Link |
---|---|
US (1) | US4945568A (de) |
EP (1) | EP0275584B1 (de) |
JP (1) | JPS63157200A (de) |
KR (1) | KR960003663B1 (de) |
DE (1) | DE3779897T2 (de) |
NL (1) | NL8603163A (de) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5321636A (en) * | 1989-03-03 | 1994-06-14 | U.S. Philips Corporation | Method and arrangement for determining signal pitch |
JP2969862B2 (ja) * | 1989-10-04 | 1999-11-02 | 松下電器産業株式会社 | 音声認識装置 |
SE468829B (sv) * | 1992-02-07 | 1993-03-22 | Televerket | Foerfarande vid talanalys foer bestaemmande av laempliga formantfrekvenser |
US6208959B1 (en) * | 1997-12-15 | 2001-03-27 | Telefonaktibolaget Lm Ericsson (Publ) | Mapping of digital data symbols onto one or more formant frequencies for transmission over a coded voice channel |
US6993480B1 (en) | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US6233552B1 (en) * | 1999-03-12 | 2001-05-15 | Comsat Corporation | Adaptive post-filtering technique based on the Modified Yule-Walker filter |
KR100511316B1 (ko) * | 2003-10-06 | 2005-08-31 | 엘지전자 주식회사 | 음성신호의 포만트 주파수 검출방법 |
KR100634526B1 (ko) * | 2004-11-24 | 2006-10-16 | 삼성전자주식회사 | 포만트 트래킹 장치 및 방법 |
US8050434B1 (en) | 2006-12-21 | 2011-11-01 | Srs Labs, Inc. | Multi-channel audio enhancement system |
US9847093B2 (en) * | 2015-06-19 | 2017-12-19 | Samsung Electronics Co., Ltd. | Method and apparatus for processing speech signal |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL188189C (nl) * | 1979-04-04 | 1992-04-16 | Philips Nv | Werkwijze ter bepaling van stuursignalen voor besturing van polen van een louter-polen filter in een spraaksynthese-inrichting. |
US4477925A (en) * | 1981-12-11 | 1984-10-16 | Ncr Corporation | Clipped speech-linear predictive coding speech processor |
US4536886A (en) * | 1982-05-03 | 1985-08-20 | Texas Instruments Incorporated | LPC pole encoding using reduced spectral shaping polynomial |
-
1986
- 1986-12-12 NL NL8603163A patent/NL8603163A/nl not_active Application Discontinuation
-
1987
- 1987-12-04 US US07/128,669 patent/US4945568A/en not_active Expired - Fee Related
- 1987-12-09 JP JP62309753A patent/JPS63157200A/ja active Pending
- 1987-12-09 DE DE8787202461T patent/DE3779897T2/de not_active Expired - Fee Related
- 1987-12-09 EP EP87202461A patent/EP0275584B1/de not_active Expired - Lifetime
- 1987-12-11 KR KR87014155A patent/KR960003663B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
US4945568A (en) | 1990-07-31 |
KR960003663B1 (en) | 1996-03-21 |
EP0275584B1 (de) | 1992-06-17 |
NL8603163A (nl) | 1988-07-01 |
EP0275584A1 (de) | 1988-07-27 |
DE3779897D1 (de) | 1992-07-23 |
JPS63157200A (ja) | 1988-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69032551T2 (de) | Einrichtung zur Sprachkodierung | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69029120T2 (de) | Stimmenkodierer | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE69724126T2 (de) | Audiosignalkodier- und dekodierverfahren und audiosignalkodierer und -dekodierer | |
DE69910240T2 (de) | Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals | |
DE69518452T2 (de) | Verfahren für die Transformationskodierung akustischer Signale | |
DE69838305T2 (de) | Orthogonalisierungssuche für die CELP basierte Sprachkodierung | |
DE69726525T2 (de) | Verfahren und Vorrichtung zur Vektorquantisierung und zur Sprachkodierung | |
DE3874427T2 (de) | Linearer praediktionsvocoder mit code-anregung. | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE69915400T2 (de) | Vorrichtung zur Kodierung und Dekodierung von Audiosignalen | |
DE69214969T2 (de) | Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte | |
DE68916944T2 (de) | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
EP1388147B1 (de) | Verfahren zur erweiterung der bandbreite eines schmalbandig gefilterten sprachsignals, insbesondere eines von einem telekommunikationsgerät gesendeten sprachsignals | |
DE69328410T2 (de) | Auf interpolation basierende, zeitveränderliche spektralanalyse für sprachkodierung | |
DE69528685T2 (de) | Vorrichtung zur Vektorquantifizierung | |
EP1016319B1 (de) | Verfahren und vorrichtung zum codieren eines zeitdiskreten stereosignals | |
DE3779897T2 (de) | Verfahren und vorrichtung zur ableitung der formantfrequenzen aus einem teil eines sprachsignals. | |
EP0414838A1 (de) | Verfahren zur übertragung eines signals. | |
DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE4491015C2 (de) | Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder | |
DE69324732T2 (de) | Selektive Anwendung von Sprachkodierungstechniken |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: PHILIPS ELECTRONICS N.V., EINDHOVEN, NL |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: KONINKLIJKE PHILIPS ELECTRONICS N.V., EINDHOVEN, N |
|
8339 | Ceased/non-payment of the annual fee |