DE60305907T2 - Verfahren zur modellierung von beträgen der oberwellen in der sprache - Google Patents

Verfahren zur modellierung von beträgen der oberwellen in der sprache Download PDF

Info

Publication number
DE60305907T2
DE60305907T2 DE60305907T DE60305907T DE60305907T2 DE 60305907 T2 DE60305907 T2 DE 60305907T2 DE 60305907 T DE60305907 T DE 60305907T DE 60305907 T DE60305907 T DE 60305907T DE 60305907 T2 DE60305907 T2 DE 60305907T2
Authority
DE
Germany
Prior art keywords
harmonic
values
frequencies
spectral values
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60305907T
Other languages
English (en)
Other versions
DE60305907D1 (de
Inventor
Tenkasi V. Naperville RAMABADRAN
Aaron M. Fishers SMITH
Mark A. Chicago JASIUK
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Mobility LLC
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Application granted granted Critical
Publication of DE60305907D1 publication Critical patent/DE60305907D1/de
Publication of DE60305907T2 publication Critical patent/DE60305907T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Electrostatic Charge, Transfer And Separation In Electrography (AREA)
  • Complex Calculations (AREA)

Description

  • BEREICH DER ERFINDUNG
  • Diese Erfindung bezieht sich auf Techniken zur parametrischen Kodierung oder Komprimierung von Sprachsignalen und inbesondere auf Techniken zur Modellierung von sprachharmonischen Werten.
  • HINTERGRUND DER ERFINDUNG
  • In vielen parametrischen Vocodern, wie beispielsweise Sinusoidal-Vocodern und "Multi-Band Excitation Vocoders", bilden die sprachharmonischen Werte einen wichtigen Parametersatz, mit dem Sprache synthetisiert wird. Im Fall von stimmhafter Sprache sind dies die Werte der Grundfrequenzharmonischen. Im Fall von stimmloser Sprache sind dies typischerweise die Werte der Harmonischen einer sehr niedrigen Frequenz (niedriger als oder gleich der niedrigsten Grundfrequenz). Bei gemischt-stimmhaft-stimmloser Sprache sind dies die Werte der Grundfrequenzharmonischen im Niedrigfrequenzband und die Harmonischen einer sehr niedrigen Frequenz im Hochfrequenzband.
  • Eine effiziente und genaue Abbildung der harmonischen Werte ist wichtig, um eine hohe Sprachqualität in parametrischen Vocodern sicherzustellen. Da sich die Grundfrequenz von Person zu Person, und sogar bei derselben Person, abhängig von der Äußerung ändert, variiert die Anzahl der Harmonischen, die zur Abbildung von Sprache notwendig sind. Wenn man eine Sprachbandbreite von 3,7 kHz, eine Abtastfrequenz von 8 kHz, und einen Grundfrequenzbereich zwischen 57 Hz und 420 Hz (Grundfrequenzdauerbereich: 19 bis 139) annimmt, kann die Anzahl von Sprachharmonischen zwischen 8 und 64 liegen. Diese variable Anzahl von harmonischen Werten macht ihre Abbildung zu einer ziemlichen Herausforderung.
  • Zur effizienten Abbildung der sprachharmonischen Werte wurden eine Reihe von Techniken entwickelt. Sie können grob in a) Direkte Quantisierung und b) Indirekte Quantisierung über ein Modell klassifiziert werden. Bei der direkten Quantisierung werden Skalar- oder (VQ) Vektorquantisierungsmethoden verwendet, um die harmonischen Werte direkt zu quantisieren. Ein Beispiel ist die "Non-Square Transform VQ technique", die in "Non-Square Transform Vector Quantization for Low-Rate Speech Coding", P. Lupini and V. Cuperman, Proceedings of the 1995 IEEE Workshop on Speech Coding for Telecommunications, Seite 87–88, September 1995 beschrieben ist. Bei dieser Methode wird der variable dimensionsharmonische (log.) Größenvektor in einen festen Dimensionsvektor transformiert, vektorquantisiert, und in einen variablen Dimensionsvektor zurücktransformiert. Ein anderes Beispiel ist die Variable Dimensions VQ- oder VDVQ-Technik, die in "Variable-Dimension Vector Quantization of Speech Spectra for Low-Rate Vocoders", A. Das, A. Rao, and A. Gersho, Proceedings of the IEEE Data Compression Conference, S. 420–429, April 1994, beschrieben ist. Bei dieser Methode weist das VQ-Codebuch hochauflösende Codevektoren der Dimension auf, die zumindest gleich der größten Dimension der zu quantisierenden (log.) Größenvektoren ist. Für jegliche gegebene Dimension werden die Codevektoren zuerst auf die richtige Dimension teilabgetastet und dann zur Quantisierung der (log.) Größenvektoren verwendet.
  • Bei der indirekten Quantisierung werden die harmonischen Werte zuerst mit einem anderen Parametersatz modelliert, und dann werden diese Modellparameter quantisiert. Ein Beispiel dieses Ansatzes kann in dem IMBE Vocoder gefunden werden, der in "APCO Project 25 Vocoder Description", TIA/EIA Interim Standard, Juli 1993, beschrieben ist. Die (log.) Werte der Harmonischen eines Sprachrahmens werden zuerst durch die quantisierten (log.) Werte vorhergesagt, die dem vorhergehenden Rahmen entsprechen. Die (Prädiktions- bzw. Vorhersage-)Fehlerwerte werden dann in sechs Gruppen aufgeteilt, und jede Gruppe wird durch eine Diskrete Kosinustransformation (DCT) transformiert. Der erste (oder DC) Koeffizient jeder Gruppe wird miteinander kombiniert und dann erneut mit einer weiteren Diskreten Kosinustransformation transformiert. Die Koeffizienten dieser zweiten Diskreten Kosinustransformation sowie die Koeffizienten höherer Ordnung der ersten sechs Diskreten Kosinustransformationen werden dann skalarquantisiert. Je nach der Anzahl der harmonischen Werte werden die Gruppengröße sowie die Bits, die den individuellen Diskreten Kosinustransformationskoeffizienten zugewiesen sind, verändert, wodurch die gesamte Anzahl von Bits konstant bleibt. Ein anderes Beispiel kann in dem "Sinusoidal Transform Vocoder" gefunden werden, der in "Low-Rate Speech Coding Based on the Sinusoidal Model", R. J. McAulay and T. F. Quatieri, Advances in Speech Signal Processing, Eds. S. Furui and M. M. Sondhi, S. 165–208, Marcel Dekker Inc. 1992, beschrieben ist. Zuerst wird eine Hüllkurve der harmonischen Werte erhalten, und ein (Mel-verzerrtes) Cepstrum dieser Hüllkurve berechnet. Dann wird die Cepstralabbildung gekürzt (sagen wir einmal, auf M Werte) und unter Verwendung einer Kosinustransformation in den Frequenzbereich zurücktransformiert. Die M Frequenzbereichswerte (als Kanalverstärkung bezeichnet) werden dann unter Verwendung von DPCM-Methoden (Differential Pulse Code Modulation = Differential-Puls-Code-Modulation) quantisiert.
  • Ein beliebtes Modell zur Abbildung der spektralen Einhüllenden der Sprache ist das Allpol-Modell, das typischerweise unter Verwendung von linearen Prädiktionsverfahren geschätzt wird. In der Literatur ist es bekannt, dass das Abstasten der spektralen Einhüllenden durch Grundfrequenzharmonische zu einer Verzerrung bei der Modellparameterschätzung führt. Zur Minimierung dieses Schätzungsfehlers wurden eine Reihe von Methoden entwickelt. Ein Beispiel solcher Methoden ist das Diskrete Allpol-Modellieren (DAP), das in "Discrete All-Pole Modeling", A. El-Jaroudi and J. Makhoul, IEEE Trans. on Signal Processing, Ausgabe 39, Nr. 2, S. 411–423, Februar 1991, beschrieben ist. Bei Annahme eines diskreten Satzes von Spektralabtastwerten (oder harmonischen Werte) verwendet diese Methode eine verbesserte Autokorrelationsabgleichungsbedingung, um die Allpol-Modellparameter über ein iteratives Verfahren zu erhalten. Ein anderes Beispiel ist die EILP-Technik (Envelope Interpolation Linear Predictive), die in "Spectral Envelope Sampling and Interpolation in Linear Predictive Analysis of Speech", H. Hermansky, H. Fujisaki and Y. Sato, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, S. 2.2.1–2.2.4, März 1984, beschrieben ist. Bei dieser Methode werden die harmonischen Werte zuerst unter Verwendung eines gemittelten parabolischen Interpolationsverfahrens interpoliert. Anschließend wird eine Inverse Diskrete Fouriertransformation angewandt, um die (interpolierte) Leistungsspektralhüllkurve in eine Autokorrelationssequenz zu transformieren. Die Allpol-Modellparameter, d. h. die Prädiktorkoeffizienten, werden dann unter Verwendung eines Standard-LP-Verfahrens, wie beispielsweise der Levinson-Durbin-Rekursion, berechnet.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Die als charakteristisch angesehenen neuen Eigenschaften der Erfindung sind in den Ansprüchen dargelegt. Die Erfindung selbst sowie die bevorzugte Verwendungsart, weitere Aufgaben und Vorteile hiervon werden jedoch mit Bezug auf die folgende ausführliche Beschreibung einer erläuternden Ausführungsform am besten verstanden werden, wenn sie zusammen mit den anliegenden Zeichnungen gelesen werden, in denen:
  • 1 ein Ablaufdiagramm einer bevorzugten Ausführungsform zur Modellierung von sprachharmonischen Werten gemäß der vorliegenden Erfindung ist;
  • 2 eine schematische Abbildung einer bevorzugten Ausführungsform eines Systems zur Modellierung von sprachharmonischen Werten gemäß der vorliegenden Erfindung ist;
  • 3 eine Kurve einer beispielhaften Sprachwellenform ist;
  • 4 eine Kurve des Spektrums der beispielhaften Sprachwellenform ist, die sprachharmonische Werte darstellt;
  • 5 eine Kurve einer Pseudo-Autokorrelationssequenz gemäß einem Aspekt der vorliegenden Erfindung ist; und
  • 6 eine Kurve einer Spektralhüllkurve ist, die gemäß der vorliegenden Erfindung berechnet wird.
  • BESCHREIBUNG DER ERFINDUNG
  • Während diese Erfindung in vielen verschiedenen Ausführungsformen umgesetzt werden kann, sind in den Zeichnungen nur eine oder mehrere spezifische Ausführungsformen ausgeführt, die hierbei ausführlich erläutert werden, wobei verstanden werden muss, dass die vorliegende Offenbarung als beispielhaft bezüglich der Richtlinien der Erfindung verstanden werden soll, und die Erfindung nicht auf die dargestellten und erläuterten spezifischen Ausführungsformen begrenzt ist. In der nachstehenden Beschreibung werden ähnliche Bezugsziffern zur Beschreibung derselben, ähnlichen oder entsprechenden Teile in den zahlreichen Darstellungen der Zeichnungen verwendet.
  • Die vorliegende Erfindung bietet ein Allpol-Modellierungsverfahren zur Abbildung von sprachharmonischen Werten. Das Verfahren verwendet einen interativen Ablauf, um die Modellierungsgenauigkeit im Vergleich zu früheren Techniken zu verbessern.
  • Das Verfahren der Erfindung wird als ein Iteratives, Interpolatives, Transformierungs-(oder IIT)-Verfahren bezeichnet.
  • 1 ist ein Ablaufdiagramm einer bevorzugten Ausführungsform eines Verfahrens zur Modellierung von sprachharmonischen Werten gemäß einer Ausführungsform der vorliegenden Erfindung. Nachdem mit Block 102 begonnen wurde, wird ein Rahmen von Sprachabtastwerten bei Block 104 transformiert, um das Spektrum des Sprachrahmens zu erhalten. Die Grundfrequenz und die zu modellierenden sprachharmonischen Werte werden bei Block 106 ermittelt. Die K harmonischen Werte werden mit {M1, M2, ..., MK} gekennzeichnet. Offensichtlich ist Mk >= 0 für k = 1, 2, ..., K. Gleichermaßen werden die harmonischen Frequenzen mit {ω1, ω2, ..., ωK} gekennzeichnet. Typischerweise sind die harmonischen Frequenzen Vielfache der Grundfrequenz ω1 für stimmhafte Sprache, d. h., ωk = k·ω1 für k = 1, 2, ..., K, aber das Verfahren selbst kann jeden beliebigen Satz von Frequenzen behandeln. Zu Transformierungszwecken wird eine Menge an festen Frequenzen {i·π/N} für i = 0, 1, ..., N definiert. Der Wert N wird so gewählt, dass er groß genug ist, um die spektralen Hüllkurveninformationen zu erfassen, die in den harmonischen Werten enthalten sind, sowie für die spektrale Einhüllende eine ausreichende Abtastauflösung, d. h. π/N bereitzustellen. Wenn beispielsweise die Anzahl der Harmonischen K von 8 bis 64 reicht, kann N mit 64 gewählt werden. Bevor die harmonischen Frequenzen in den Algorithmus eingegeben werden, werden die harmonischen Frequenzen in Block 108 modifiziert. Die modifizierten harmonischen Frequenzen werden mit {θ1, θ2, ..., θK} gekennzeichnet, die gemäß der linearen Interpolationsformel berechnet werden. θk = π/N + [(ωk – ω1)/(ωK – ω1)]·[(N – 2)·π/N],k = 1, 2, 3, ..., K.
  • Auf diese Weise wird ω1 auf π/N und ωk auf (N – 1)·π/N abgebildet. Mit anderen Worten, die harmonischen Frequenzen im Bereich von ω1 bis ωK werden modifiziert, um den Bereich von π/N bis (N – 1)·π/N abzudecken. Diese oben genannte Abbildung der ursprünglichen harmonischen Frequenzen auf die modifizierten harmonischen Frequenzen gewährleistet, dass alle festen Frequenzen, außer den Gleichstrom-(0)-und-Faltungs-(π)-Frequenzen durch Interpolation gefunden werden können. Andere Abbildungen können verwendet werden. In einer weiteren Ausführungsform wird keine Abbildung verwendet, und die spektralen Werte bei den festen Frequenzen werden durch Interpolation oder Extrapolation der ursprünglichen, d. h. unmodifizierten harmonischen Frequenzen gefunden.
  • In Block 110 werden die spektralen Größenwerte bei den festen Frequenzen durch Interpolation (und Extrapolation, wenn dies notwendig ist) der bekannten harmonischen Werte berechnet. Die spektralen Werte bei den festen Frequenzen werden mit {P0, P1, ..., PN} entsprechend den Frequenzen (i·π/N} für i = 0, 1, ..., N gekennzeichnet. Offensichtlich sind die Werte P1 und PN-1 durch M1 bzw. Mk gegeben. Die Werte bei den festen Frequenzen i·π/N, i = 2, 3, ..., N – 2 werden durch Interpolation der bekannten Werte bei den modifizierten harmonischen Frequenzen berechnet. Wenn beispielsweise i·π/N zwischen θk und θk+1 fällt, ist der Wert bei der i-ten festen Frequenz durch Pi = Mk + [((i·π/N) – θk)/(θk+1 – θk)]·(Mk+1 – Mk)gegeben.
  • Hier wurde die lineare Interpolation verwendet, aber andere Arten von Interpolation können verwendet werden, ohne sich dabei von der Erfindung zu entfernen. Die Werte P0 und PN bei den Frequenzen 0 und π werden durch Extrapolation berechnet. Ein einfaches Verfahren ist, P0 gleich P1 und PN gleich PN-1 zu setzen. Ein anderes Verfahren ist die Verwendung der linearen Extrapolation. Die Verwendung von P1 und P2 zur Berechnung von P0 ergibt P0 = 2·P1 – P2. Gleichermaßen erhalten wir PN = 2·PN-1 – PN-2, wenn PN-2 und PN-1 zur Berechnung von PN verwendet werden. Natürlich müssen P0 und PN ebenfalls zwingend größer oder gleich Null sein.
  • In der oben beschriebenen Ausführungsform ist für die Blöcke 108 und 110 der Wert von N für verschiedene K fest, und es gibt keine Garantie, dass die harmonischen Werte außer M1 und MK ein Teil des Satzes von Werten bei den festen Frequenzen, d. h. {P0, P1, ..., PN}, sein werden. In einer anderen Ausführungsform wird der Wert von N zu einer Funktion von K gemacht, d. h. N = (K – 1)·I + 2, wobei I >= 1 als der Interpolationsfaktor bezeichnet wird. Mit diesem Wert von N, wenn die harmonischen Frequenzen gemäß der linearen Interpolationsformel θk = π/N + [(ωk – ω1)/(ωK – ω1)]·[(N – 2)·π/N},k = 1, 2, 3, ..., K
    in Block 108 modifiziert werden, wird ω1 auf π/N, ω2 auf (I + 1)·π/N, ω3 auf (2·I + 1)·π/N und so weiter abgebildet, bis ωK auf ((K – 1)·I + 1)·π/N = (N – 1)·π/N abgebildet wird. Daher bilden die modifizierten Frequenzen {θ1, θ1, ..., θK} eine Teilmenge der festen Frequenzen {i·π/N}, i = 1, 2, ..., N. Wenn in Block 110 die spektralen Größenwerte bei den festgelegten Frequenzen berechnet werden, bilden die harmonischen Werte {M1, M2, ..., MK} dementsprechend eine Teilmenge der spektralen Werte bei den festen Frequenzen, d. h. {P0, P1, ..., PN}. In der bevorzugten Ausführungsform wird der Wert des Interpolationsfaktors I so gewählt, dass er 4 für (K < 12), 3 für (12 <= K < 16), 2 für (16 <= K < 24) und 1 für (K >= 24) ist.
  • In Block 112 wird eine inverse Transformation bei den Größenwerten bei den festen Frequenzen angewandt, um eine (Pseudo-)Autokorrelationssequenz zu erhalten. Wenn die Werte bei den festen Frequenzen {i·π/N}, i = 0, 1, ..., N gegeben sind, wird bei Annahme, dass die Frequenzbereichssequenz gleich ist, d. h. P–i = Pi, eine 2N-Punkt inverse diskrete Fouriertransformation (DFT) angewandt, um eine Autokorrelationssequenz zu berechnen. Da die Frequenzbereichssequenz reell und gerade ist, ist die entsprechende Zeitbereichssequenz ebenfalls reell und gerade, wie es für eine Autokorrelationssequenz der Fall sein sollte. Es sollte jedoch beachtet werden, dass es sich bei den Frequenzbereichswerten in der bevorzugten Ausführungsform eher um Größen als um Leistungs-(oder Energie-)werte handelt, und dass daher die Zeitbereichssequenz keine echte Autokorrelationssequenz ist. Daher wird sie als Pseudo-Autokorrelationssequenz bezeichnet. Das Grö ßenspektrum ist die Quadratwurzel des Leistungsspektrums und ist flacher. In einer weiteren Ausführungsform wird ein logarithmisches Größenspektrum verwendet, und in noch einer weiteren Ausführungsform kann das Wertespektrum auf einen Exponenten außer 1,0 erhöht werden.
  • Wenn N eine Potenz von 2 ist, kann ein schneller Fourier-Transformations-(FFT)-Algorithmus angewandt werden, um die 2N-Punkt inverse DFT zu berechnen. Es werden jedoch nur die ersten J + 1 Autokorrelationswerte benötigt, wenn J die Prädiktor-(oder Modell-)ordnung ist. Je nach dem Wert von J kann eine direkte Berechnung der inversen DFT effizienter als eine FFT sein. Man lässt {R0, R1, ..., RJ} die ersten J + 1 Werte der Pseudo-Autokorrelationssequenz kennzeichnen. Dann ist Rj durch
    Figure 00090001
    gegeben.
  • In Block 114 werden die Prädiktorkoeffizienten {a1, a2, ..., aJ} aus den J + 1 Pseudo-Autokorrelationswerten berechnet. Die Prädiktorkoeffizienten {a1, a2, ..., aJ} werden als Lösung der normalen Gleichnungen
    Figure 00090002
    berechnet.
  • In der bevorzugten Ausführungsform wird die Levinson-Durbin-Rekursion zur Lösung dieser Gleichungen angewandt, wie in "Discrete-Time Processing of Speech Signals", J. R. Deller, Jr., J. G. Proakis, and J. H. L. Hansen, Macmillan, 1993, beschrieben ist.
  • In Entscheidungsblock 116 wird eine Überprüfung durchgeführt, um festzustellen, ob weitere Iteration notwendig ist. Wenn dies nicht der Fall ist, wie durch den negativen Zweig vom Entscheidungsblock 116 dargestellt ist, endet das Verfahren bei Block 128. Die Prädiktorkoeffizienten {a1, a2, ..., aJ} parametrisieren die harmonischen Werte. Die Koeffizienten können mit Hilfe bekannter Kodierungstechniken kodiert werden, um eine kompakte Abbildung der harmonischen Werte zu erzeugen. In der bevorzugten Ausführungsform werden eine Sprachklasse, die Grundfrequenz und ein Verstärkungswert verwendet, um die Beschreibung des Sprachrahmens abzuschließen.
  • Wenn weitere Iteration notwendig ist, wie durch den positiven Zweig von Entscheidungsblock 116 dargestellt ist, wird die durch die Prädiktorkoeffizienten dargestellte spektrale Einhüllende in Block 118 abgetastet, um die modellierten Werte bei den modifizierten harmonischen Frequenzen zu erhalten. Man lässt A(z) = 1 + a1z–1 + a2z–2 + ... + aJz–J den Prädiktionsfehlerfilter kennzeichnen, wobei z die Standard-Z-Transformationsvariable ist. Die spektrale Einhüllende bei Frequenz ω ist dann (verstärkungskonstantengenau) durch 1,0/|A(z)|2 mit z = e gegeben. Um die modellierten Werte bei den modifizierten harmonischen Frequenzen θk, k = 1, 2, ..., K zu erhalten, wird die spektrale Einhüllende bei diesen Frequenzen abgetastet. Die resultierenden Werte werden mit {M 1, M 2, ... M K} gekennzeichnet.
  • Wenn die Frequenzbereichswerte, die zum Erhalt der Pseudo-Autokorrelationssequenz verwendet wurden, keine harmonischen Werte, sondern irgendeine Funktion der Werte sind, sind zusätzliche Operationen notwendig, um die modellierten Werte zu erhalten. Wenn logarithmische Größenwerte verwendet wurden, ist beispielsweise eine anti-logarithmische Operation notwendig, um die modellierten Werte nach dem Abtasten der spektralen Einhüllenden zu erhalten.
  • In Block 120 werden Skalierungsfaktoren bei den modifizierten harmonischen Frequenzen berechnet, um die modellierten Werte und die bekannten harmonischen Werte bei diesen Frequenzen anzugleichen. Vor der Berechnung der Skalierungsfaktoren ist es notwendig zu gewährleisten, dass die bekannten Werte und die modellierten Werte bei den modifizierten harmonischen Frequenzen auf irgendeine passende Art und Weise normalisiert werden. Ein einfacher Ansatz ist die Verwendung einer Energienormalisierung, d. h. Σ|Mk|2 = Σ|M k|2. Ein weiterer einfacher Ansatz ist es, die Spitzenwerte dazu zu zwingen, gleich zu sein, d. h. max({Mk}) = max({M k}). Welches Normalisierungsverfahren auch verwendet wird, dieselbe Normalisierung wird auf die modellierten Werte bei den festen Frequenzen angewendet.
  • Die K Skalierungsfaktoren werden dann als Sk = Mk/M k, k = 1, 2, ..., K berechnet. Wenn bei manchen k, Mk = 0, dann muss das entsprechende Sk gleich 1,0 sein.
  • In Block 122 werden die Skalierungsfaktoren bei den modifizierten harmonischen Frequenzen interpoliert, um die Skalierungsfaktoren bei den festen Frequenzen zu erhalten. Die Skalierungsfaktoren bei den festen Frequenzen (i·π/N), i = 0, 1, ..., N werden mit {T0, T1, ..., TN) gekennzeichnet. Die Werte T0 und TN werden auf 1,0 eingestellt. Die anderen Werte werden durch Interpolation der bekannten Werte bei den modifizierten harmonischen Frequenzen berechnet. Wenn i·π/N beispielsweise zwischen θk und θk+1 fällt, ist der Skalierungsfaktor bei der i-ten festen Frequenz durch Ti = Sk + [((i·π/N) – θk)/(θk+1 – θk)]·(Sk+1 – Sk),für i = 1, 2, ..., N – 1
    gegeben.
  • In Block 124 wird die spektrale Einhüllende abgetastet, um die modellierten Werte bei den festen Frequenzen (i·π/N), i = 0, 1, ..., N zu erhalten. Die modellierten Werte bei den festen Frequenzen werden mit {P 0, P 1, ..., P N} gekennzeichnet.
  • In Block 126 wird ein neuer Satz von Werten bei den festen Frequenzen durch Multiplikation der modellierten (und normalisierten) Werte bei diesen Frequenzen mit den entsprechenden Skalierungsfaktoren, d. h. Pi = P i·Ti, i = 0, 1, ..., N, berechnet.
  • Der Durchlauf kehrt dann zu Block 112 zurück, wo eine inverse Transformation auf einen neuen Satz von Werten bei den festen Frequenzen angewandt wird, und die Prädiktorkoeffizienten werden in Block 114 ermittelt.
  • Wenn der iterative Ablauf beendet ist, sind die in Block 114 erhaltenen Prädiktorkoeffizienten die benötigten Allpol-Modellparameter. Diese Parameter können unter Verwendung bekannter Methoden quantisiert werden. In einem entsprechenden Decoder werden die modellierten harmonischen Werte durch Abtasten der spektralen Einhüllenden bei den modifizierten harmonischen Frequenzen berechnet.
  • Für eine gegebene Modellordnung verbessert sich die Modelliergenauigkeit im Allgemeinen mit der Anzahl durchgeführter Iterationen. Der größte Teil der Steigerung wird jedoch nach einer einzelnen Iteration erreicht. Die Erfindung bietet ein Allpol-Modellierungsverfahren zur Abbildung eines Satzes von sprachharmonischen Werten. Das Verfahren verbessert die im Frequenzbereich verwendete Interpolationskurve durch einen iterativen Ablauf. Nachdem sie im Hinblick auf spektrale Verzerrung gemessen wurde, wurde festgestellt, dass die Modelliergenauigkeit dieses Verfahrens besser als früher bekannte Verfahren ist.
  • In der oben beschriebenen Ausführungsform wird angenommen, dass N > J + 1, wie es normalerweise der Fall ist. Die J Prädiktorkoeffizienten {a1, a2, ..., aJ) modellieren die N + 1 spektralen Werte bei den festen Frequenzen, d. h. {P0, P1, ..., PN}, und dadurch die K harmonischen Werte {M1, M2, ..., MK} mit einem gewissen Modellierfehler. Eine weitere Ausführungsform verwendet einen Wert von J derart, dass K <= J + 1. In dieser Ausführungsform ist es möglich, die harmonischen Werte exakt (innerhalb einer Ver stärkungskonstante) zu modellieren, wie im Folgenden erläutert ist. Wenn K < J + 1 werden einige pseudoharmonische Wertewerte (>= 0) addiert, so dass K = J + 1. N wird mit N = K – 1 = J gewählt, und die harmonischen Frequenzen werden so abgebildet, dass ω1 auf 0·π/N, ω2 auf 1·π/N, ω3 auf 2·π/N und so weiter, und schließlich ωk auf (K – 1)·π/N = π abgebildet wird. Auf diese Weise werden die harmonischen Werte {M1, M2, ..., MK} exakt auf den Satz {P0, P1, ..., PN} abgebildet. In Block 112 wird der Satz {P0, P1, ..., PN} über die inverse DFT, die umkehrbar ist, in den Satz {R0, R1, ..., RJ} transformiert. In Block 114 wird der Satz {R0, R1, ..., RJ} über die Levinson-Durbin-Rekursion, die innerhalb einer Verstärkungskonstante ebenfalls umkehrbar ist, in den Satz {a1, a2, ..., aJ} transformiert. Daher modellieren die Prädiktorkoeffizienten {a1, a2, ..., aJ} die harmonischen Werte {M1, M2, ..., MK} exakt innerhalb einer Verstärkungskonstante. Keine zusätzliche Iteration ist notwendig. In diesem Fall gibt es keinen Modellierfehler. Jegliche Kodierung, d. h. Quantisierung, der Prädiktorkoeffizienten kann zu einem Kodierungsfehler führen. Um die harmonischen Werte der Prädiktorkoeffizienten zu erhalten, werden die Prädiktorkoeffizienten {a1, a2, ..., aJ} über passende inverse Transformationen in {R0, R1, ..., RJ} transformiert, und dann werden {R0, R1, ..., RJ} in {P0, P1, ..., PN} transformiert, was {M1, M2, ..., MK} entspricht.
  • 2 stellt eine bevorzugte Ausführungsform eines Systems für die Modellierung von sprachharmonischen Werten gemäß einer Ausführungsform der vorliegenden Erfindung dar. Mit Bezug auf 2 hat das System einen Eingang 202 zum Empfang von Sprachrahmen, und einen Oberwellenanalysator 204 zur Berechnung der harmonischen Werte 206 und der harmonischen Frequenzen 208 der Sprache. Die harmonischen Frequenzen werden dann in den Frequenzmodifikator 210 transformiert, um modifizierte harmonische Frequenzen 212 zu erhalten. Die harmonischen Werte 206 und die modifizierten harmonischen Frequenzen 212 werden zu dem Interpolator 214 geleitet, wo die spektralen Werte bei den festen Frequenzen F = {0, π/N, 2π/N ..., π} (216) berechnet werden. Die spektralen Werte 218 bei den festen Frequenzen werden zu dem inversen Fou riertransformator 220 geleitet, wo eine inverse Transformation durchgeführt wird, um eine Pseudo-Autokorrelationssequenz 222 zu erhalten. Eine LP-Analyse der Pseudo-Autokorrelationssequenz wird mit dem LP-Analysator 224 durchgeführt, um die Prädiktorkoeffizienten 225 zu liefern. Die Prädiktionskoeffizienten 225 werden zu einem Koeffizientenquantisierer oder -kodierer 226 geleitet. Dies erzeugt die quantisierten Koeffizienten 228 für die Ausgabe. Die quantisierten Prädiktionskoeffizienten 228 (oder die Prädiktionskoeffizienten 225) und die modifizierten harmonischen Frequenzen 212 werden an den Spektrumsrechner 230 geliefert, welcher die modellierten Werte 232 bei den modifizierten harmonischen Frequenzen berechnet, indem die den Prädiktionskoeffizienten entsprechende spektrale Einhüllende abgetastet wird.
  • Die endgültigen Prädiktionskoeffizienten können vor dem Speichern oder der Übertragung quantisiert oder kodiert werden. Wenn das Sprachsignal durch Synthese wiederhergestellt wird, werden die quantisierten oder kodierten Koeffizienten verwendet. Dementsprechend werden in einer weiteren Ausführungsform ein Quantisierer oder Kodierer/Decoder auf die Prädiktionskoeffizienten 225 angewendet. Dies gewährleistet, dass das durch die quantisierten Koeffizienten erzeugte Modell so genau wie möglich ist.
  • Der Skalierungsrechner 234 berechnet aus den modellierten harmonischen Werten 232 und den tatsächlichen harmonischen Werten 206 einen Satz von Skalierungsfaktoren 236. Der Skalierungsrechner berechnet außerdem einen Verstärkungswert oder Normalisierungswert, wie oben mit Bezug auf 1 beschrieben ist. Die Skalierungsfaktoren 236 werden mit dem Interpolator 238 auf die festen Frequenzen 216 interpoliert, um die interpolierten Skalierungsfaktoren 240 zu erhalten.
  • Die quantisierten Prädiktionskoeffizienten 228 (oder die Prädiktionskoeffizienten 225) und die festen Frequenzen 216 werden ebenfalls dem Spektrumsrechner 242 zugeführt, welcher die model lierten Werte 244 bei den festen Frequenzen durch Abtasten der spektralen Einhüllenden berechnet.
  • Die modellierten Werte 244 bei den festen Frequenzen und die interpolierten Skalierungsfaktoren 240 werden in dem Multiplizierer 246 zusammen multipliziert, um das Produkt P.T, 248 zu erhalten. Das Produkt P.T wird zurück zu dem inversen Transformator 220 geleitet, so dass eine Iteration durchgeführt werden kann.
  • Wenn der Iterationsvorgang beendet ist, werden die quantisierten Prädiktorkoeffizienten 228 als Modellparameter zusammen mit der Sprachklasse, der Grundfrequenz und dem Verstärkungswert ausgegeben.
  • 3 bis 6 stellen Beispielergebnisse dar, die von einer Ausführungsform des Verfahrens der Erfindung erzeugt werden. 3 ist eine Kurve einer Sprachwellenform, die bei 8 kHz abgetastet wird. Die Sprache ist stimmhaft. 4 ist eine Kurve der Spektralwerte einer Sprachwellenform. Die Werte sind in Dezibel dargestellt. Die harmonischen Werte sind mit Kreisen an den Scheitelpunkten des Spektrums gekennzeichnet. Die umkreisten Werte sind die harmonischen Werte M. Die Grundfrequenz beträgt 102,5 Hz. 5 ist eine Kurve der Pseudo-Autokorrelationssequenz R. In diesem Beispiel ist N = 64. Die Prädiktorkoeffizienten werden aus R berechnet. 6 ist eine Kurve der spektralen Einhüllenden bei den festen Frequenzen, welche aus den Prädiktorkoeffizienten nach zahlreichen Iterationen berechnet wird. Die Ordnung des Prädiktors ist 14. In 6 sind ebenfalls Kreise dargestellt, welche die harmonischen Werte M kennzeichnen. Wie zu sehen ist, bietet die spektrale Einhüllende eine gute Approximation an die harmonischen Werte bei den harmonischen Frequenzen.
  • Tabelle 1 zeigt beispielhafte Ergebnisse, welche unter Verwendung einer 3-minütigen Sprachdatenbank von 32 Satzpaaren berechnet wurden. Die Datenbank wies 4 männliche und 4 weibliche Sprecher mit je 4 Satzpaaren auf. In den Ergebnissen sind nur stimm hafte Rahmen enthalten, da diese der Schlüssel zu einer guten Ausgabesprachqualität sind. In diesem Beispiel wurden 4258 Rahmen aus einer Gesamtmenge von 8726 Rahmen gesprochen. Jeder Rahmen war 22,5 ms lang. In der Tabelle wird die vorliegende Erfindung (ITT-Verfahren) mit dem Diskreten Allpol-Modell(DAP)-Verfahren für zahlreiche verschiedene Modellordnungen verglichen.
  • Figure 00160001
    TABELLE 1. Modellordnung vs. Mittlere Verzerrung (dB).
  • Die Verzerrung D in dB wird als
    Figure 00160002
    berechnet, wobei
    Figure 00160003
    Mk,i ist der k-te harmonische Wert des i-ten Rahmens und M k,i ist der k-te modellierte Wert des i-ten Rahmens. Sowohl die tatsächlichen als auch die modellierten Werte von jedem Rahmen werden zuerst normalisiert, so dass ihr logarithmisches Mittel gleich Null ist.
  • Die mittlere Verzerrung wird durch das iterative Verfahren der vorliegenden Erfindung verringert. Ein großer Teil der Verbesserung wird nach einer einzigen Iteration erreicht.
  • Diejenigen, die sich in der Technik auskennen, werden erkennen, dass die vorliegende Erfindung als Software umgesetzt werden könnte, die auf einem Prozessor läuft, oder durch Verwendung von Hardwarekomponentenäquivalenten, wie beispielsweise Sonderhardware und/oder zweckbestimmten Prozessoren, welche der Erfindung, wie sie beschrieben und beansprucht wurde, entsprechen. Gleichermaßen können gewöhnliche Computer, auf Mikroprozessoren basierende Computer, digitale Signalprozessoren, Microcontroller, zweckbestimmte Prozessoren, Anwenderschaltkreise, ASICS (Anwenderspezifische Schaltkreise) und/oder zweckbestimmte festverdrahtete Logik verwendet werden, um alternative äquivalente Ausführungsformen der vorliegenden Erfindung aufzubauen.
  • Während die Erfindung insbesondere mit Bezug auf eine bevorzugte Ausführungsform dargestellt und erläutert wurde, werden Fachleute in der Technik es verstehen, dass hierbei zahlreiche Veränderungen in Form und Detail gemacht werden können, ohne sich von dem Geist und Umfang der Erfindung zu entfernen. Insbesondere kann die Erfindung verwendet werden, um tonale Signale für andere Quellen als die Sprache zu modellieren. Die Frequenzkomponenten der tonalen Signale müssen nicht harmonisch verwandt, sondern können ungleichmäßig verteilt sein.
  • Während die Erfindung mit Bezug auf spezifische Ausführungsformen beschrieben wurde, werden Fachleuten in der Technik im Hinblick auf die vorangegangene Beschreibung viele Alternativen, Modifikationen, Permutationen und Variationen erkennen können. Dementsprechend ist es vorgesehen, dass die vorliegende Erfindung alle solchen Alternativen, Modifikationen und Variationen umfasst, die in den Umfang der anliegenden Ansprüche fallen.

Claims (15)

  1. Verfahren zur Modellierung eines Signals, welches durch einen Musterframe dargestellt ist, wobei das Verfahren die folgenden Schritte aufweist: a) Identifizieren (106) einer Vielzahl an harmonischen Frequenzen; b) Identifizieren (106) einer Vielzahl an harmonischen Werten, welche Spektralwerten des Signals an der Vielzahl von harmonischen Frequenzen entsprechen; c) Interpolieren (110) der Vielzahl an harmonischen Werten für den Erhalt einer Vielzahl an Spektralwerten an einer Menge festgelegter Frequenzen; d) Rücktransformieren (112) der Vielzahl an Spektralwerten für den Erhalt einer Pseudo-Autokorrelationssequenz; e) Berechnen (114) linearer Vorhersagekoeffizienten aus der Pseudo-Autokorrelationssequenz; f) Berechnen (118) harmonischer Modellwerte durch Abtasten einer Spektral-Oberwelle, welche durch die linearen Vorhersagekoeffizienten definiert ist; g) Berechnen (120) einer ersten Skalenwertmenge als das Verhältnis zwischen den harmonischen Werten und den harmonischen Modellwerten; h) Interpolieren (122) der ersten Skalenwertmenge für den Erhalt einer zweiten Skalenwertmenge an der Menge fester Frequenzen; i) Berechnen (124) von Modell-Spektralwerten an der Menge fester Frequenzen durch Abtasten der Spektral-Oberwelle, welche durch die linearen Vorhersagekoeffizienten an der Menge fester Frequenzen definiert ist; j) Multiplizieren (126) der Modell-Spektralwerte an der Menge fester Frequenzen mit der zweiten Skalenwertmenge zum Erhalt einer neuen Vielzahl an Spektralwerten; k) Rücktransformieren (112) der neuen Vielzahl an Spektralwerten zum Erhalt einer neuen Pseudo-Autokorrelationssequenz; und l) Berechnen (114) neuer linearer Vorhersagekoeffizienten aus der neuen Pseudo-Autokorrelationssequenz, wobei die Modellierung des Signals mit Hilfe der neuen linearen Vorhersagekoeffizienten erfolgt.
  2. Verfahren nach Anspruch 1, welches weiter folgende Schritte aufweist: Modifizieren der Vielzahl an harmonischen Frequenzen für den Erhalt einer Vielzahl an modifizierten harmonischen Frequenzen, dadurch gekennzeichnet, dass die Vielzahl an Spektralwerten an einer Menge fester Frequenzen durch Interpolation von der Vielzahl an modifizierten harmonischen Frequenzen zu der Menge fester Frequenzen berechnet wird.
  3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Menge fester Frequenzen Frequenzen außerhalb der Vielzahl an harmonischen Frequenzen einschließt, wobei das Verfahren weiter den folgenden Schritt aufweist: Berechnen von Spektralwerten an Frequenzen außerhalb der Vielzahl an harmonischen Frequenzen durch Extrapolation von der Vielzahl an harmonischen Frequenzen.
  4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Rücktransformation entweder eine schnelle Fourier-Rücktransformation oder eine diskrete Fourier-Rücktransformation ist.
  5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die linearen Vorhersagekoeffizienten unter Verwendung einer Levinson-Durbin-Rekursion berechnet werden.
  6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Modellierung des Signals weiter mit Hilfe einer Stimmklasse, einer Stimm- oder Tonhöhenfrequenz und eines Verstärkungswerts erfolgt.
  7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die linearen Vorhersagekoeffizienten für den Erhalt quantisierter linearer Vorhersagekoeffizienten quantisiert werden, und dass die harmonischen Modellwerte und Modell-Spektralwerte aus den quantisierten linearen Vorhersagekoeffizienten berechnet werden.
  8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die harmonischen Modellwerte normalisiert werden, damit sie entweder 1) die gleiche Quadratsumme wie die Vielzahl an harmonischen Werten und 2) den gleichen Spitzenwert wie die Vielzahl an harmonischen Werten aufweisen.
  9. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Interpolation der Vielzahl an harmonischen Werten für den Erhalt einer Vielzahl an Spektralwerten an einer Menge fester Frequenzen entweder das Verfahren der linearen oder der nicht-linearen Interpolation verwendet.
  10. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Interpolation der ersten Skalenwertmenge zum Erhalt einer zweiten Skalenwertmenge an der Menge fester Frequenzen entweder das Verfahren der linearen oder der nicht-linearen Interpolation verwendet.
  11. Verfahren zur Modellierung eines Signals nach Anspruch 1, dadurch gekennzeichnet, dass die Rücktransformation der Vielzahl an Spektralwerten die folgenden Schritte aufweist: i) Berechnen einer modifizierten Vielzahl an Spektralwerten an einer Menge fester Frequenzen, indem eine Modifikationsfunktion bei der Vielzahl an Spektralwerten an einer Menge fester Frequenzen angewendet wird; ii) Rücktransformieren der modifizierten Vielzahl an Spektralwerten zum Erhalt der Pseudo-Autokorrelationssequenz.
  12. Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass die Modifikationsfunktion entweder eine Logarithmusfunktion oder eine Gütefunktion ist.
  13. System, welches zur Modellierung eines Signals nach dem Verfahren gemäß einem der Ansprüche 1 bis 12 ausgelegt ist, wobei das System Folgendes aufweist: einen Eingang für den Empfang des Signals; eine Vorrichtung mit Verarbeitungsfunktion, welche alle folgenden Funktionen ausführt: Identifizieren der Vielzahl an harmonischen Werten; Identifizieren der Vielzahl an harmonischen Frequenzen des Signals; Interpolieren der Vielzahl an harmonischen Werten; Rücktransformieren der Vielzahl an Spektralwerten; Berechnen von harmonischen Modellwerten, Berechnen einer ersten Skalenwertmenge; Interpolieren der ersten Skalenwertmenge; Berechnen von Modell-Spektralwerten; Multiplizieren der Modell-Spektralwerten; Rücktransformieren der neuen Vielzahl an Spektralwerten; und Berechnen neuer linearer Vorhersage-Koeffizienten, und einen Ausgang zur Ausgabe der neuen linearen Vorhersage-Koeffizienten.
  14. Vorrichtung, welche zur Modellierung eines Signals gemäß dem Verfahren eines der Ansprüche 1 bis 12 ausgelegt ist, wobei die Vorrichtung von einem Computerprogramm gesteuert wird, das zumindest in einem Speicher, einem anwenderspezifischen integrierten Schaltkreis, einem digitalen Signalprozessor oder einem feldprogrammierbaren Gate-Array gespeichert ist, wobei das Computerprogramm betriebsbereit ist, um alle folgenden Funktionen auszuführen: Identifizieren der Vielzahl an harmonischen Werten; Identifizieren der Vielzahl an harmonischen Frequenzen des Signals, Interpolieren der Vielzahl an harmonischen Werten; Rücktransformieren der Vielzahl an Spektralwerten; Berechnen von harmonischen Modellwerten; Berechnen einer ersten Skalenwertmen ge; Interpolieren der ersten Skalenwertmenge; Berechnen von Modell-Spektralwerten; Multiplizieren der Modell-Spektralwerte; Rücktransformieren der neuen Vielzahl an Spektralwerten; und Berechnen neuer linearer Vorhersage-Koeffizienten.
  15. Instruktionen enthaltendes computerlesbares Medium, welches bei Betrieb auf einem Computer einen Modellierungsprozess an einer Vielzahl von harmonischen Werten bei einer Vielzahl von harmonischen Frequenzen gemäß einem der Ansprüche 1 bis 12 ausführt.
DE60305907T 2002-03-28 2003-02-14 Verfahren zur modellierung von beträgen der oberwellen in der sprache Expired - Lifetime DE60305907T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/109,151 US7027980B2 (en) 2002-03-28 2002-03-28 Method for modeling speech harmonic magnitudes
US109151 2002-03-28
PCT/US2003/004490 WO2003083833A1 (en) 2002-03-28 2003-02-14 Method for modeling speech harmonic magnitudes

Publications (2)

Publication Number Publication Date
DE60305907D1 DE60305907D1 (de) 2006-07-20
DE60305907T2 true DE60305907T2 (de) 2007-02-01

Family

ID=28453029

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60305907T Expired - Lifetime DE60305907T2 (de) 2002-03-28 2003-02-14 Verfahren zur modellierung von beträgen der oberwellen in der sprache

Country Status (7)

Country Link
US (1) US7027980B2 (de)
EP (1) EP1495465B1 (de)
AT (1) ATE329347T1 (de)
AU (1) AU2003216276A1 (de)
DE (1) DE60305907T2 (de)
ES (1) ES2266843T3 (de)
WO (1) WO2003083833A1 (de)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
JP4649888B2 (ja) * 2004-06-24 2011-03-16 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
KR100707184B1 (ko) * 2005-03-10 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
KR100653643B1 (ko) * 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치
KR100788706B1 (ko) 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
US20090048827A1 (en) * 2007-08-17 2009-02-19 Manoj Kumar Method and system for audio frame estimation
US8787591B2 (en) * 2009-09-11 2014-07-22 Texas Instruments Incorporated Method and system for interference suppression using blind source separation
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
KR101803410B1 (ko) * 2013-12-02 2017-12-28 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
WO2015163240A1 (ja) * 2014-04-25 2015-10-29 株式会社Nttドコモ 線形予測係数変換装置および線形予測係数変換方法
EP3139381B1 (de) * 2014-05-01 2019-04-24 Nippon Telegraph and Telephone Corporation Vorrichtung für eine periodische-kombinierte envelope-sequenz, verfahren für eine periodische-kombinierte envelope-sequenz, programm zur erzeugung von einer periodischen-kombinierten envelope-sequenz und aufzeichnungsmedium
GB2526291B (en) * 2014-05-19 2018-04-04 Toshiba Res Europe Limited Speech analysis
US10607386B2 (en) 2016-06-12 2020-03-31 Apple Inc. Customized avatars and associated framework
US10861210B2 (en) * 2017-05-16 2020-12-08 Apple Inc. Techniques for providing audio and video effects

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4771465A (en) 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5630011A (en) 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
KR100395190B1 (ko) * 1993-05-31 2003-08-21 소니 가부시끼 가이샤 신호 부호화 또는 복호화 장치, 및 신호 부호화 또는복호화 방법
JP3528258B2 (ja) 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6098037A (en) 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes
US6370500B1 (en) * 1999-09-30 2002-04-09 Motorola, Inc. Method and apparatus for non-speech activity reduction of a low bit rate digital voice message

Also Published As

Publication number Publication date
ES2266843T3 (es) 2007-03-01
AU2003216276A1 (en) 2003-10-13
EP1495465A4 (de) 2005-05-18
EP1495465B1 (de) 2006-06-07
US20030187635A1 (en) 2003-10-02
US7027980B2 (en) 2006-04-11
EP1495465A1 (de) 2005-01-12
ATE329347T1 (de) 2006-06-15
WO2003083833A1 (en) 2003-10-09
DE60305907D1 (de) 2006-07-20

Similar Documents

Publication Publication Date Title
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE112012002524B4 (de) Statistische Verbesserung von Sprachausgabe aus einem Text-To-Speech-Synthesesystem
DE60305907T2 (de) Verfahren zur modellierung von beträgen der oberwellen in der sprache
EP2022043B1 (de) Informationssignalcodierung
DE68907629T2 (de) Vektorquantisierung für eine Anordnung zur harmonischen Sprachcodierung.
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE69815242T2 (de) Verfahren zur Quantisierung der LPC Parameter mittels geschalteter prädiktiver Quantisierung
DE69724126T2 (de) Audiosignalkodier- und dekodierverfahren und audiosignalkodierer und -dekodierer
DE69826446T2 (de) Stimmumwandlung
DE69609099T2 (de) Verfahren zur Modifikation von LPC-Koeffizienten von akustischen Signalen
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE69838305T2 (de) Orthogonalisierungssuche für die CELP basierte Sprachkodierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69328410T2 (de) Auf interpolation basierende, zeitveränderliche spektralanalyse für sprachkodierung
EP3544003B1 (de) Vorrichtung und verfahren zum ermitteln eines schätzwerts
DE69620560T2 (de) Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen
EP1397799B1 (de) Verfahren und vorrichtung zum verarbeiten von zeitdiskreten audio-abtastwerten
DE69902480T2 (de) Verfahren zur quantisierung der parameter eines sprachkodierers
DE69017801T2 (de) Codierung unter Anwendung von beschränkter stochastischer Anregung.
DE69708191T2 (de) Vorrichtung zur Signalkodierung
DE69420683T2 (de) Kodierer für Sprachparameter
DE69611607T2 (de) Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: MOTOROLA MOBILITY, INC. ( N.D. GES. D. STAATES, US