DE69420683T2 - Kodierer für Sprachparameter - Google Patents

Kodierer für Sprachparameter

Info

Publication number
DE69420683T2
DE69420683T2 DE69420683T DE69420683T DE69420683T2 DE 69420683 T2 DE69420683 T2 DE 69420683T2 DE 69420683 T DE69420683 T DE 69420683T DE 69420683 T DE69420683 T DE 69420683T DE 69420683 T2 DE69420683 T2 DE 69420683T2
Authority
DE
Germany
Prior art keywords
spectrum
parameter
spectrum parameter
calculation unit
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69420683T
Other languages
English (en)
Other versions
DE69420683D1 (de
Inventor
Kazunori Ozawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE69420683D1 publication Critical patent/DE69420683D1/de
Publication of DE69420683T2 publication Critical patent/DE69420683T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

    HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf Sprachparameter-Codierer zum hochwertigen Codieren der Sprachsignal- Spektrumparameter bei niedrigen Bitraten.
  • Als Sprachparameter-Codierung, d. h. Codierung des Sprachsignal-Spektrumparameters bei niedrigen Bitraten wie etwa 2 kB/s, ist VQ-SQ bekannt gewesen: das Vektor- Skalar-Quantisierungsverfahren, das die LSP-Koeffizienten (Linienspektrumpaar-Koeffizienten) als Spektrumparameter verwendet. Was ein spezifisches Verfahren anbelangt, ist es möglich, zum Beispiel auf T. Moriya u. a., "Transform Coding of Speech using a Weighted Vector Quantizer", IEEE J. Sel. Areas, Commun., S. 425-431, 1988 (Literatur 1) Bezug zu nehmen. In diesem Verfahren wird der LSP-Koeffizient, der als Spektrumparameter für jeden Rahmen erhalten wird, einmal quantisiert und mit einem vorher gebildeten Vektorquantisierungs-Codebuch decodiert, wobei hierauf ein Fehlersignal zwischen dem ursprünglichen LSP und dem quantisierten decodierten LSP skalar quantisiert wird. Als das Vektorquantisierungs-Codebuch wird durch Training mit Bezug auf eine große Menge von Spektrumparameter-Datenbanken vorbereitend ein Codebuch derart gebildet,. daß es 2B (B ist die Anzahl der Bits für die Spektrumparameter-Quantisierung) verschiedene Code-Vektoren enthält. Was das Trainingsverfahren des Codebuches anbelangt, ist es möglich, zum Beispiel auf Linde u. a., "An Algorithm for Vector Quantization Design", IEEE Trans., COM-28, S. 84-95, 1980 (Literatur 2) Bezug zu nehmen.
  • Ferner gibt es als ein leistungsfähigeres wohlbekanntes Codierungs-Verfahren ein Vektorteilungs-Quantisierungsverfahren, bei dem die Dimensionen (zum Beispiel 10 Dimensionen) des LSP-Parameters in mehrere Teile (z. B. jeder von 5 Dimensionen) unterteilt werden, wobei ein Vektorquantisierungs-Codebuch für die Quantisierung jedes Teils durchsucht wird. Für die Einzelheiten dieses Verfahrens ist es möglich, zum Beispiel auf K. K. Paliwal u. a., "Efficient Vector Quantization of LPC Parameters at 24 Bits/Frame", IEEE Trans. Speech and Audio Processing, S. 3-14, 1993 (Literatur 3) Bezug zu nehmen.
  • Um die Bitrate der Spektrumparameter-Codierung auf 1 kB/s oder weniger zu vermindern, ist es erforderlich, die Bitanzahl der Spektrumparameter-Quantisierung auf 20 Bit pro Rahmen (bei einer Rahmenlänge von 20 ms) oder weniger zu vermindern, während die Verzerrung, die durch die Spektrumparameter-Quantisierung verursacht wird, innerhalb der Wahrnehmungsgrenze der Hörerfassung gehalten wird. In den Verfahren des Standes der Technik ist es wegen der fehlenden Widerspiegelung der Hörerfassungscharakteristiken durch das Verzerrungsmaß schwierig gewesen, so zu verfahren, was folglich zu einer großen Verschlechterung der Sprachqualität bei einer Verkleinerung der Bitanzahl der Quantisierung auf 20 oder weniger führte.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist eine Aufgabe der vorliegenden Erfindung, einen Sprachparameter-Codierer zu schaffen, der die obigen Probleme lösen und die Spektrumparameter bei einer Bitrate von 1 kB/s oder weniger mit einer verhältnismäßig kleinen Menge an Operationen und Speicherkapazität codieren kann.
  • Gemäß der vorliegenden Erfindung wird ein Sprachparameter-Codierer geschaffen, mit: einer Spektrumparameter-Berechnungseinheit zum Ableiten eines Spektrumparameters, der die Spektrumeinhüllende eines diskreten Eingangssprachsignals darstellt, durch Unterteilen dieses Signals in Rahmen, wovon jeder eine vorgegebene Zeitlänge besitzt, einer Gewichtungskoeffizient-Berechnungseinheit zum Ableiten eines einem Hörmaskierungs-Schwellenwert entsprechenden Gewichtungskoeffizienten durch Ableiten desselben aus dem Sprachsignal, und einer Spektrumparameter-Quantisierungseinheit zum Empfangen des Gewichtungskoeffizienten und des Spektrumparameters und zum Quantisieren des Spektrumparameters durch Durchsuchen eines Codebuches, um die Gewichtungsverzerrung auf der Grundlage des Gewichtungskoeffizienten zu minimieren.
  • Kang u. a., "Application of Line-Spectrum Pairs to Low- Bit-Rate Speech Encoders", ICASSP 85 Proceedings, März 1985, S. 244-247 offenbart einen Sprachparameter-Codierer, wie er im Anspruch 1 beansprucht wird, in dem jedoch der Gewichtungskoeffizient nicht von irgendeiner Hörmaskierungs-Schwelle abgeleitet wird.
  • Andere Aufgaben und Merkmale werden aus der folgenden Beschreibung unter Bezugnahme auf die beigefügte Zeichnung deutlich.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • Fig. 1 ist ein Blockschaltplan, der eine erste Ausführung des Sprachparameter-Codierers gemäß der vorliegenden Erfindung zeigt;
  • Fig. 2 zeigt eine Struktur der Gewichtungskoeffizient-Berechnungseinheit 150 in Fig. 1;
  • Fig. 3 ist ein Blockschaltplan, der eine zweite Ausführung der vorliegenden Erfindung zeigt;
  • Fig. 4 zeigt eine Struktur der Gewichtungskoeffizient-Berechnungseinheit 300 in Fig. 3; und
  • Fig. 5 ist ein Blockschaltplan, der eine dritte Ausführung der vorliegenden Erfindung zeigt.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGEN
  • Der Sprachparameter-Codierer gemäß einer Ausführung der vorliegenden Erfindung wird nun beschrieben. In der folgenden Beschreibung wird angenommen, daß als Spektrumparameter der LSP verwendet wird. Es ist jedoch ebensogut möglich, andere wohlbekannte Parameter zu verwenden, zum Beispiel den PARCOR, das Cepstrum, das Mel-Cepstrum usw. Was die Art und Weise des Ableitens vom LSP anbelangt, ist es möglich, auf Sugamura u. a., "Quantizer design in LSP speech analysis-synthesis", IEEE J. Sel. Areas, Commun., S. 432-440, 1988 (Literatur 4) Bezug zu nehmen.
  • Das Sprachsignal wird in Rahmen (von z. B. 20 ms) unterteilt, wobei der LSP in der Spektrumparameter-Berechnungseinheit abgeleitet wird. Ferner leitet die Gewichtungskoeffizient-Berechnungseinheit den Hörmaskierungs- Schwellenwert aus dem Sprachsignal für einen Rahmen ab, wobei sie aus derartigen Wertdaten einen Gewichtungskoeffizienten ableitet. Durch die Fourier-Transformation des Sprachsignals wird speziell das Leistungsspektrum abgeleitet, wobei die Leistungssumme mit Bezug auf das Leistungsspektrum für jede Frequenzgruppe abgeleitet wird. Was die unteren und oberen Grenzfrequenzen jeder Frequenzgruppe anbelangt, ist es möglich, auf E. Zwicker u. a., "Psychoacoustics", Springer-Verlag, 1990 (hier als Literatur 5 bezeichnet) Bezug zu nehmen. Dann berechnet die Einheit das Ausbreitungsspektrum durch Faltung der Ausbreitungsfunktion mit der Frequenzgruppenleistung. Dann berechnet sie durch Kompensation des Ausbreitungsspektrums durch einen vorgegebenen Schwellenwert für jede Frequenzgruppe das Maskierungs-Schwellenwertspektrum Pmi (i = 1, ..., B, wobei B die Anzahl der Frequenzgruppen ist). Was spezifische Beispiele für die Ausbreitungsfunktion und den Schwellenwert anbelangt, ist es möglich, auf J. Johnston u. a., "Transform coding of Audio Signals using Perceptual Noise Criteria", IEEE J. Sel. Areas in Commun., S. 314-323, 1988 (hier als Literatur 6 bezeichnet) Bezug zu nehmen. Die Transformation von Pmi in die lineare Frequenzachse wird ausgeführt, um als Gewichtungskoeffizient A(f) ausgegeben zu werden.
  • Die Spektrumparameter-Quantisierungseinheit quantisiert den Spektrumparameter, um die Gewichtungsquantisierungsverzerrung nach Formel (1) zu minimieren.
  • Dj = [A(fi)(fi - fij)]² (1)
  • Hier sind fi und fij der Eingangs-LSP-Parameter i-ten Grades bzw. der Code-Vektor j-ten Grades in einem Spektrumparameter-Codebuch einer vorgegebenen Anzahl von Bits, M ist der Grad des Spektrumparameters und A(fi) ist der Gewichtungskoeffizient, der z. B. durch Formel (2) ausgedrückt werden kann.
  • A(fi) = Q/Pm(fi) (2)
  • Q = Z [1/Pm(fi)] (3)
  • Ein Spektrumparameter-Codebuch wird unter Verwendung des in der Literatur 2 gezeigten Verfahrens im voraus entwickelt.
  • Beim Ableiten des Maskierungs-Schwellenwertes kann die Gewichtungskoeffizient-Berechnungseinheit gemäß der vorliegenden Erfindung anstelle des Ableitens des Leistungsspektrums durch die Fourier-Transformation des Sprachsignals die Leistungsspektrumeinhüllende durch die Fourier- Transformation der Spektrumparameter (zum Beispiel des linearen Vorhersagekoeffizienten) ableiten und dabei den Maskierungs-Schwellenwert aus der Leistungsspektrumeinhüllenden durch das obige Verfahren ableiten und dann den Gewichtungskoeffizienten ableiten.
  • Ferner ist es in der Spektrumparameter-Berechnungseinheit gemäß der vorliegenden Erfindung möglich, die lineare Transformation des Spektrumparameters auszuführen, um die Hörerfassungscharakteristiken vor der Quantisierung der Spektrumparameter in der obigen Art und Weise zu erfüllen. Was die Hörerfassungscharakteristiken anbelangt, ist es wohlbekannt, daß die Frequenzachse nichtlinear ist und daß die Auflösung für niedrigere Bänder höher und für höhere Bänder höher ist. Unter den wohlbekannten Verfahren der nichtlinearen Transformation, die derartige Charakteristiken erfüllt, befindet sich die Mel-Transformation. Was die Mel-Transformation der Spektrumparameter anbelangt, sind die Transformation von dem Leistungsspektrum und die Transformation von der Autokorrelationsfunktion wohlbekannt. Für die Einzelheiten dieser Verfahren ist es möglich, z. B. auf Strube u. a., "Linear prediction on a warped frequency scale", J. Acoust. Soc. Am., S. 1071-1076, 1980 (Literatur 7) Bezug zu nehmen.
  • Ferner ist es wohlbekannt, die direkte Mel-Transformation des LSP-Koeffizienten auszuführen. Mit Bezug auf den LSP, der mel-transformiert worden ist, wird die Quantisierung des Spektrumparameters durch Anwendung der Formeln (1) bis (3) ausgeführt. Hier wird mit Bezug auf den nichtlinear transformierten LSP ein Vektorquantisierungs-Codebuch im voraus durch Training gebildet. Für die Art und Weise der Bildung des Vektorquantisierungs-Codebuches ist es möglich, auf die oben angegeben Literatur 2 Bezug zu nehmen.
  • Fig. 1 ist ein Blockschaltplan, der eine erste Ausführung des Sprachparameter-Codierers gemäß der vorliegenden Erfindung zeigt. In Fig. 1 wird auf der Sendeseite ein Sprachsignal, das in einen Eingangsanschluß 100 eingegeben wird, für einen Rahmen (von z. B. 20 ms) in einem Pufferspeicher 110 gespeichert.
  • Eine Spektrumparameter-Berechnungseinheit 130 berechnet die linearen Vorhersagekoeffizienten αi (i = 1, ..., M, wobei M der Grad der Vorhersage ist) für einen vorgegebenen Grad P als Parameter, die eine Spektrumcharakteristik des Rahmensprachsignals X(n) darstellen, durch dessen wohlbekannte LPC-Analyse. Ferner führt sie die Transformation des linearen Vorhersagekoeffizienten in den LSP- Parameter fi gemäß der Literatur 4 aus.
  • Die Gewichtungskoeffizient-Berechnungseinheit 150 leitet einen Hörmaskierungs-Schwellenwert aus dem Sprachsignal ab, wobei sie ferner einen Gewichtungskoeffizient ableitet. Fig. 2 zeigt die Struktur der Gewichtungskoeffizient-Berechnungseinheit 150.
  • In Fig. 2 empfängt eine Fourier-Transformationseinheit 200 das Rahmensprachsignal und führt dessen Fourier- Transformation bei einer vorgegebenen Anzahl an Punkten durch die Multiplikation des Eingangs mit einer vorgegebenen Fensterfunktion (zum Beispiel Hamming-Fenster) aus. Eine Leistungsspektrum-Berechnungseinheit 210 berechnet das Leistungsspektrum P(w) für die Ausgabe der Fourier- Transformationseinheit 200 auf der Grundlage von Formel (4).
  • P(w) = Re[X(w)]² + Im[X(w)]² (4)
  • (w = 0, ..., π)
  • Hier sind Re[X(w)] und Im [X(w)] die Real- bzw. Imaginärteile des Spektrums im Ergebnis der Fourier- Transformation, wobei w die Kreisfrequenz ist. Eine Einheit 220 zur Berechnung des Spektrums des kritischen Bandes führt die Berechnung von Formel (5) unter Verwendung von P(w) aus.
  • Bi = P(w) (5)
  • Hier ist Bi das Frequenzgruppenspektrum des i-ten Bandes, wobei bli und bhi die unteren bzw. oberen Grenzfrequenzen der i-ten Frequenzgruppe sind. Für spezifische Frequenzen ist es möglich, auf die Literatur 5 Bezug zu nehmen.
  • Anschließend wird die Faltung der Ausbreitungsfunktion mit dem Frequenzgruppenspektrum auf der Grundlage der Formel (6) ausgeführt.
  • Ci = Bi sprd(j,i) (6)
  • Hier ist sprd(j,i) die Ausbreitungsfunktion, für spezifische Werte von ihr ist es möglich, auf die Literatur 4 Bezug zu nehmen, während bmax die Anzahl der Frequenzgruppen ist, die bis zur Kreisfrequenz enthalten sind. Die Einheit 220 zur Berechnung des Spektrums des kritischen Bandes stellt die Ausgabe Ci bereit.
  • Eine Maskierungs-Schwellenwertspektrum-Berechnungseinheit 230 berechnet das Maskierungs-Schwellenwertspektrum Thi auf der Grundlage der Formel (7).
  • Thi = CiTi (7)
  • Hier gilt
  • Ti = 10-(Oi/10) (8)
  • Oi = α(14,5 + i) + (1 - α)5,5 (9)
  • α = min[N(NG/R), 1,0] (10)
  • NG = 10 log&sub1;&sub0; [1 - ki²] (11)
  • Hier ist ki der K-Parameter des i-ten Grades, der in einem wohlbekannten Verfahren aus dem eingegebenen linearen Vorhersagekoeffizienten abzuleiten ist, M ist der Grad der linearen Vorhersageanalyse und R ist eine vorgegebene Konstante.
  • Das Maskierungs-Schwellenwertspektrum aus der Betrachtung des absoluten Schwellenwertes ist durch die Formel (12) gegeben.
  • Thi' = max[Thi, absthi] (12)
  • Hier ist absthi der absolute Schwellenwert in der i-ten Frequenzgruppe, für die es möglich ist, auf die Literatur 5 Bezug zu nehmen.
  • Eine Gewichtungskoeffizient-Berechnungseinheit 240 leitet mit der Transformation der Frequenzachse von der Burke- Achse zu der Hertz-Achse mit Bezug auf das Maskierungs- Schwellenwertspektrum Th·i (i = 1, ..., bmax) das Spektrum Pm(f) ab, wobei sie dann den Gewichtungskoeffizient A(f) auf der Grundlage der Formeln (2) und (8) ableitet und liefert.
  • Wieder in Fig. 1 empfängt die Spektrumparameter-Quantisierungseinheit 160 den LSP-Koeffizienten fi und den Gewichtungskoeffizienten A(f) von den Spektrumparameter- bzw. Gewichtungs-Berechnungseinheiten 130 bzw. 150, wobei sie den Index j des Code-Vektors zum Minimieren des Grades der Gewichtungsverzerrung auf der Grundlage der Formel (1) durch die Durchsuchung des Codebuches 170 liefert. In dem Codebuch 170 sind vorgegebene Sorten der LSP-Parameter-Code-Vektoren fi gespeichert (d. h., 2B Sorten, B ist die Bitanzahl des Codebuches).
  • Fig. 3 ist ein Blockschaltplan, der eine zweite Ausführung der vorliegenden Erfindung zeigt. In Fig. 3 arbeiten die Elemente, die durch Bezugszeichen gleich denjenigen in Fig. 1 bezeichnet sind, auf dieselbe Art und Weise wie diese, deshalb werden sie nicht beschrieben. Diese Ausführung weicht von der Ausführung nach Fig. 1 in einer Gewichtungskoeffizient-Berechnungseinheit 300 ab.
  • Fig. 4 zeigt die Gewichtungskoeffizient-Berechnungseinheit 300. In Fig. 4 führt eine Fourier-Transformationseinheit 310 nicht eine Fourier-Transformation des Sprachsignals x(n) sondern des Spektrumparameters (hier des nichtlinearen Vorhersagekoeffizienten αi) aus.
  • Fig. 5 ist ein Blockschaltplan, der eine dritte Ausführung der vorliegenden Erfindung zeigt. In dem Schaltplan der Spektrumparameter-Berechnungseinheit arbeiten die Elemente, die durch Bezugszeichen gleich denjenigen in Fig. 1 bezeichnet sind, auf dieselbe Art und Weise wie diese, deshalb werden sie nicht beschrieben. Diese Ausführung weicht von der Ausführung nach Fig. 1 in einer Spektrumparameter-Berechnungseinheit 400, einer Gewichtungskoeffizient-Berechnungseinheit 500 und einem Codebuch 410 ab.
  • Die Spektrumparameter-Berechnungseinheit 400 leitet die LSP-Parameter durch die nichtlineare Transformation des LSP-Parameters ab, um in Übereinstimmung mit den Hörerfassungscharakteristiken zu sein. Hier wird die Mel- Transformation als die nichtlineare Transformation verwendet, wobei der Mel-LSP-Parameter fmi und der lineare Vorhersagekoeffizient αi bereitgestellt werden.
  • Eine Gewichtungskoeffizient-Berechnungseinheit 500 leitet die Gewichtungskoeffizienten aus dem Maskierungs-Schwellenwertspektrum Th·i (i = 1, ..., bmax) ab. Zu diesem Zeitpunkt leitet sie das Spektrum Pm(fm) durch die Transformation der Frequenzachse von der Burke-Achse zu der Hertz-Achse ab, wobei sie den Gewichtungskoeffizienten A'(fm) durch Einsetzen dieses Spektrums in die Formeln (2) und (3) ableitet und liefert.
  • Die Gewichtungskoeffizient-Berechnungseinheit 500 kann die Fourier-Transformation nicht von dem Sprachsignal x(n) sondern von dem linearen Vorhersagekoeffizienten a1 ausführen. In dem Codebuch 170 wird durch Studieren mit Bezug auf die Mel-Transformations-LSP im voraus ein Codebuch entwickelt.
  • In den obigen Ausführungen ist es möglich, leistungsfähigere Verfahren für die Quantisierung der LSP-Parameter zu verwenden, zum Beispiel solche wohlbekannten Verfahren wie ein Mehrstufen-Vektorquantisierungsverfahren, ein Vektorteilungs-Quantisierungsverfahren in der Literatur 3, ein Verfahren, in dem die Vektorquantisierung nach der Vorhersage von der vorigen guantisierten LSP-Folge ausgeführt wird, und so weiter. Ferner ist es möglich die Matrixquantisierung, die Gitter- oder Trellis-Quantisierung, die endliche Vektorquantisierung usw. zu übernehmen. Für die Einzelheiten dieser Quantisierungsverfahren ist es möglich, auf Gray u. a., "Vector quantization", IEEE ASSP Mag., S. 4-29, 1984 (Literatur 8) Bezug zu nehmen. Ferner ist es möglich, andere wohlbekannte Parameter als den zu quantisierenden Spektrumparameter zu verwenden, wie z. B. den K-Parameter, das Cepstrum, das Mel- Cepstrum usw. Ferner ist es für die nichtlineare Transformation, die die Hörerfassungscharakteristiken darstellt, ebensogut möglich, andere Transformationsverfahren zu verwenden, zum Beispiel die Burke-Transformation. Für die Einzelheiten ist es möglich, auf die Literatur 5 Bezug zu nehmen. Ferner ist es für die Berechnung des Maskierungs-Schwellenwertspektrums ebensogut möglich, an dere wohlbekannte Verfahren zu verwenden. In der Gewichtungskoeffizient-Berechnungseinheit ist es möglich, eine Bandteilungsfiltergruppe anstelle der Fourier-Transformation zum Vermindern der Menge der Operationen zu verwenden. Ferner ist es wohlbekannt, daß die Hörerfassung empfindlicher für Frequenzfehler bei niedrigeren Frequenzen und weniger empfindlich bei höheren Frequenzen ist. Aufgrund dieser Tatsache ist es für den Gewichtungsverzerrungsgrad nach Formel (13) in der Durchsuchung des LSP- Codebuches möglich.
  • Dj = [A(fi)B(fi)(fi - fij)]² (13)
  • Wie oben beschrieben worden ist, wird gemäß der vorliegenden Erfindung für die Quantisierung des Spektrumparameters des Sprachsignals ein Gewichtungskoeffizient gemäß dem Hörmaskierungs-Schwellenwert abgeleitet, wobei die Quantisierung ausgeführt wird, um den Gewichtungsverzerrungsgrad zu minimieren. Folglich ist die Verzerrung weniger durch die Ohren wahrnehmbar, wobei es möglich ist, die Spektrumparameter-Quantisierung bei niedrigeren Bitraten als im Stand der Technik zu erhalten.
  • Ferner ist gemäß der vorliegenden Erfindung die Quantisierung mit dem Gewichtungsverzerrungsgrad nach der nichtlinearen Transformation des Spektrumparameters erreichbar, um in Übereinstimmung mit den Hörerfassungscharakteristiken zu sein und auf diese Weise eine weitere Verkleinerung der Bitrate zu erlauben.
  • Fachleuten werden Änderungen in der Konstruktion einfallen, wobei mehrere offensichtliche verschiedene Modifikationen und Ausführungen hergestellt werden können, ohne von dem Geltungsbereich der Erfindung, wie er beansprucht ist, abzuweichen. Die in der vorangehenden Beschreibung und der beigefügten Zeichnung dargelegte Materie wird nur zum Zweck der Erläuterung dargeboten. Es ist deshalb beabsichtigt, daß die vorangehende Beschreibung als erläuternd anstatt als einschränkend betrachtet wird.

Claims (5)

1. Sprachparameter-Codierer, mit:
einer Spektrumparameter-Berechnungseinheit (130, 400) zum Ableiten eines Spektrumparameters, der die Spektrumeinhüllende eines diskreten Eingangssprachsignals darstellt, durch Unterteilen dieses Signals in Rahmen, wovon jeder eine vorgegebene Zeitlänge besitzt;
eine Gewichtungskoeffizient-Berechnungseinheit (150, 500) zum Ableiten eines aus einem Hörmaskierungs- Schwellenwert abgeleiteten Gewichtungskoeffizienten durch Ableiten desselben aus dem Sprachsignal; und
eine Spektrumparameter-Quantisierungseinheit (160) zum Empfangen des Gewichtungskoeffizienten und des Spektrumparameters und zum Quantisieren des Spektrumparameters durch Durchsuchen eines Code-Buches, um die Gewichtungsverzerrung auf der Grundlage des Gewichtungskoeffizienten zu minimieren.
2. Sprachparameter-Codierer nach Anspruch 1, wobei die Gewichtungskoeffizient-Berechnungseinheit (150, 500) einen einem Hörmaskierungs-Schwellenwert entsprechenden Gewichtungskoeffizienten durch Ableiten desselben aus dem Spektrumparameter ableitet.
3. Sprachparameter-Codierer nach Anspruch 1, wobei die Spektrumparameter-Berechnungseinheit (400) eine nichtlineare Transformation des Spektrumparameters ausführt, um Höhercharakteristiken zu erfüllen.
4. Sprachparameter-Codierer nach Anspruch 2, wobei die Spektrumparameter-Berechnungseinheit (400) eine nichtlineare Transformation des Spektrumparameters ausführt, um Höhercharakteristiken zu erfüllen.
5. Sprachparameter-Codierer nach Anspruch 1, wobei die Spektrumparameter-Berechnungseinheit (130) eine lineare Transformation des Spektrumparameters ausführt, um Höhererfassungscharakteristiken zu erfüllen, bevor der Spektrumparameter quantisiert wird.
DE69420683T 1993-12-10 1994-12-09 Kodierer für Sprachparameter Expired - Fee Related DE69420683T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5310524A JPH07160297A (ja) 1993-12-10 1993-12-10 音声パラメータ符号化方式

Publications (2)

Publication Number Publication Date
DE69420683D1 DE69420683D1 (de) 1999-10-21
DE69420683T2 true DE69420683T2 (de) 2000-07-20

Family

ID=18006272

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69420683T Expired - Fee Related DE69420683T2 (de) 1993-12-10 1994-12-09 Kodierer für Sprachparameter

Country Status (5)

Country Link
US (1) US5666465A (de)
EP (1) EP0658876B1 (de)
JP (1) JPH07160297A (de)
CA (1) CA2137757C (de)
DE (1) DE69420683T2 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2842276B2 (ja) * 1995-02-24 1998-12-24 日本電気株式会社 広帯域信号符号化装置
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
EP0907258B1 (de) 1997-10-03 2007-01-03 Matsushita Electric Industrial Co., Ltd. Audiosignalkompression, Sprachsignalkompression und Spracherkennung
JP3351746B2 (ja) * 1997-10-03 2002-12-03 松下電器産業株式会社 オーディオ信号圧縮方法、オーディオ信号圧縮装置、音声信号圧縮方法、音声信号圧縮装置,音声認識方法および音声認識装置
JP3357829B2 (ja) * 1997-12-24 2002-12-16 株式会社東芝 音声符号化/復号化方法
CA2239294A1 (en) * 1998-05-29 1999-11-29 Majid Foodeei Methods and apparatus for efficient quantization of gain parameters in glpas speech coders
US6393399B1 (en) * 1998-09-30 2002-05-21 Scansoft, Inc. Compound word recognition
KR100474969B1 (ko) * 2002-06-04 2005-03-10 에스엘투 주식회사 음성신호 부호화를 위한 선 스펙트럼 계수의 벡터 양자화방법과 이를 위한 마스킹 임계치 산출 방법
US7693707B2 (en) 2003-12-26 2010-04-06 Pansonic Corporation Voice/musical sound encoding device and voice/musical sound encoding method
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
FR3049084B1 (fr) 2016-03-15 2022-11-11 Fraunhofer Ges Forschung Dispositif de codage pour le traitement d'un signal d'entree et dispositif de decodage pour le traitement d'un signal code
CN111862995A (zh) * 2020-06-22 2020-10-30 北京达佳互联信息技术有限公司 一种码率确定模型训练方法、码率确定方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1197619A (en) * 1982-12-24 1985-12-03 Kazunori Ozawa Voice encoding systems
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
EP0443548B1 (de) * 1990-02-22 2003-07-23 Nec Corporation Sprachcodierer
JP2808841B2 (ja) * 1990-07-13 1998-10-08 日本電気株式会社 音声符号化方式
JP3151874B2 (ja) * 1991-02-26 2001-04-03 日本電気株式会社 音声パラメータ符号化方式および装置
US5487086A (en) * 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding

Also Published As

Publication number Publication date
EP0658876A2 (de) 1995-06-21
EP0658876B1 (de) 1999-09-15
EP0658876A3 (de) 1997-08-13
JPH07160297A (ja) 1995-06-23
CA2137757C (en) 1998-11-24
CA2137757A1 (en) 1995-06-11
DE69420683D1 (de) 1999-10-21
US5666465A (en) 1997-09-09

Similar Documents

Publication Publication Date Title
DE69322313T2 (de) C.E.L.P. - Vocoder
DE69420683T2 (de) Kodierer für Sprachparameter
DE69214969T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hilfsinformationen zur Ausführung einer Suche in einem Kodebuch mit geringer Dichte
DE69420431T2 (de) Sprachkodierungssystem
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69718234T2 (de) Sprachkodierer
DE69900786T2 (de) Sprachkodierung
DE69619054T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE69838305T2 (de) Orthogonalisierungssuche für die CELP basierte Sprachkodierung
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE69232892T2 (de) Sprachkodierungssystem
DE69223335T2 (de) Sprachkodiersystem
DE69609099T2 (de) Verfahren zur Modifikation von LPC-Koeffizienten von akustischen Signalen
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE69328410T2 (de) Auf interpolation basierende, zeitveränderliche spektralanalyse für sprachkodierung
DE69426860T2 (de) Sprachcodierer und Verfahren zum Suchen von Codebüchern
DE69620560T2 (de) Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen
DE69708191T2 (de) Vorrichtung zur Signalkodierung
DE69902480T2 (de) Verfahren zur quantisierung der parameter eines sprachkodierers
DE69609089T2 (de) Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
DE69411407T2 (de) Vorrichtung zum Kodieren von Sprachspektrumparametern mit der kleinstmöglichen Bitzahl
DE69610915T2 (de) Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese
DE69420682T2 (de) Sprachdekodierer
DE69921066T2 (de) Verfahren und Vorrichtung zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee