EP0616315A1 - Dispositif de codage et de décodage numérique de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP - Google Patents

Dispositif de codage et de décodage numérique de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP Download PDF

Info

Publication number
EP0616315A1
EP0616315A1 EP94400525A EP94400525A EP0616315A1 EP 0616315 A1 EP0616315 A1 EP 0616315A1 EP 94400525 A EP94400525 A EP 94400525A EP 94400525 A EP94400525 A EP 94400525A EP 0616315 A1 EP0616315 A1 EP 0616315A1
Authority
EP
European Patent Office
Prior art keywords
delays
dictionary
ltp
segment
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP94400525A
Other languages
German (de)
English (en)
Inventor
Dominique Massaloux
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP0616315A1 publication Critical patent/EP0616315A1/fr
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation
    • G10L2019/0008Algebraic codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Definitions

  • the present invention relates to a device for digital coding and decoding of speech, a method of exploring a pseudo-logarithmic dictionary of LTP delays, and a method of LTP analysis.
  • a digital speech coding device consists, after sampling the analog signal, in performing the compression of the binary data of the digitized speech signal.
  • the decoding device performs the opposite operation and reproduces an analog signal different from the original signal, but as close as possible from a perceptual point of view.
  • a digital coding-decoding device for speech is characterized by the digital bit rate of the data to be transmitted between the coder and the decoder, the quality of the signal reconstituted at the decoder, and the complexity of the compression technique used.
  • Predictive coders are used for fairly low bit rates (4 to 16 kbit / s for a sampling frequency of 8 kHz) and good coding quality.
  • a predictive coder is composed of a short-term prediction module, a long-term prediction module, then a module performing the coding of the residual wave using a method of analysis by synthesis, as described in the article by P. Kroon and BS Atal entitled “Predictive Coding of Speech Using Analysis by Synthesis Techniques” (Advances in Speech Signal Processing, Ed. Furui S., Sondhi MM, pages 141-164, 1991 ).
  • This type of coding device is widely used, mainly in terrestrial or satellite transmission systems, or in storage applications.
  • long-term prediction module or LTP module Various embodiments of the long-term prediction module or LTP module, known to those skilled in the art, will now be reviewed.
  • the parameters p and ⁇ are determined by minimizing the energy of an error signal e (n) on a block of N samples of the signal x (n): x (n) represents the input signal itself s (n) or the LPC residue r (n).
  • x (n) represents the input signal itself s (n) or the LPC residue r (n).
  • This type of analysis can advantageously be replaced by a closed-loop analysis, anticipating the operation performed at the decoder to produce the synthesis signal (n).
  • the signal t (n) ("target") is expressed from the LPC residue r (n) and the signal p (n) obtained by prolonging the past excitation (n) by null samples:
  • closed loop analyzes use the signal (n) which is known, at the start of the analyzed block, only for n ⁇ 0, which means that the LTP analysis must be limited to the values ⁇ ⁇ N. This restriction decreases the effectiveness of a long-term predictor on high fundamental frequency voices (voices of women and children). This can be remedied by extrapolating the signal (n) for n ⁇ 0.
  • the subject of the invention is a digital speech coding and decoding device in which the operation of the long-term prediction module as defined in these various documents of the prior art is improved.
  • the invention proposes a device for digital coding and decoding of speech comprising, when coding: an LPC analysis module (short-term prediction), an LTP analysis module (long-term prediction) , a residual wave coding module using a synthesis analysis method; during decoding: a residual wave decoding module, an LTP synthesis module and an LPC synthesis module; characterized in that the LTP analysis module uses a delay dictionary with a pseudo-logarithmic structure in which the delays are arranged in ascending order; this dictionary being made up of Q adjacent segments, each one of a given resolution, the resolutions of the successive segments decreasing geometrically in a rational ratio k such that k> 1 while the number of elements L of each segment remains constant.
  • the interest of these nested precisions is to keep the relative precision over the delay almost constant, and hence the error in the periodicity of the signal due to sampling.
  • the invention also makes it possible to obtain a simple and efficient coding of the delay.
  • ⁇ i the last delay of the segment S i
  • ⁇ i the first delay of the segment S i
  • the size of the segments L is a multiple of K i L - 1 , the choice for ⁇ (0) of L / K l L-1 or of a sub-multiple of L / K l L -1, introducing a spacing regular delays explored in the first pass.
  • the present invention thus makes it possible to define a structure over the set of delays explored in the long-term prediction module, the set of delays thus structured being called in the invention "pseudo-logarithmic dictionary of LTP delays". It is known that maintaining great precision in LTP delays, when these delays increase, is useless from a perceptual point of view.
  • the pseudo-logarithmic dictionary of the invention exploits this idea and makes it possible to maintain the performance of uniform dictionaries for a lower bit rate: for example, it has been observed that the performance of the dictionary D, composed of 256 elements, was similar to those of all 960 delays obtained by uniformly sampling the same range of delays with a precision of 1/8, which represents a gain of more than 20% in throughput.
  • the pseudo-logarithmic structure in addition to organizing the previously stated concept, also makes it possible to establish a simple correspondence between the index of each delay of the pseudo-logarithmic dictionary and its value, facilitating the coding and decoding operations of the delay. No storage is necessary to find the delays in the dictionary.
  • the processing of the LTP module using the technique proposed in the invention is three times faster than that of the module using an optimized version of the reference technique.
  • This optimized version makes maximum use of the methods making it possible to reduce the complexity of the reference technique: if we compare the calculation times of the non-optimized version of the reference technique with those of the proposed technique, we obtain a higher gain at 11.
  • the present invention relates to a digital coding device for speech of the predictive coder type using a short-term prediction of the signal allowing the modeling of the formants, a long-term prediction intended to restore the fine structure of the spectrum, then a coding of the residual wave using a synthetic analysis method; a general description of this type of coder being provided in the article by Messrs Kroon and Atal cited above.
  • Short-term and long-term predictors are calculated by linear prediction methods known as LPC analysis ("Linear Prediction Coding") and LTP analysis (“Long Term Prediction”)
  • This coding device operates as follows:
  • the analog signal after conversion to digital, is segmented into frames of N o samples s (n). These samples are analyzed in the LPC module 13 by a conventional method of linear prediction. This module 13 produces the output of the PLPC parameters transmitted to the decoder and N o residual signal samples r (n).
  • the LTP module 15 accepts as input N samples of a signal x (n) which can come from a sub-segmentation of the signal s (n) itself or else from r (n).
  • a signal x (n) which can come from a sub-segmentation of the signal s (n) itself or else from r (n).
  • the LTP module can optionally also use the PLPC parameters (adaptive dictionary, perceptual filter). This module 15 produces the PLTP output parameters (quantized gain ⁇ and delay index i d ) and develops a long-term prediction signal p (n).
  • the residue coding module 14 performs the coding of the residual excitation.
  • the coding parameters of this excitation are transmitted to the decoder.
  • this module 14 includes a local decoder allowing the calculation of the synthesis (or reconstructed residual) excitation (n).
  • the residue decoding module 21 decodes the parameters P CODRES and calculates N samples of a signal u (n). This signal enters the module 22 together with the P LTP parameters which will be decoded there. After filtering u (n) by 1 / P (z), we obtain (n).
  • This signal then enters the module 23 which performs the decoding of the P LPC parameters and the filtering of (n) by 1 / A (z).
  • This module 23 outputs the N o samples of the synthesis signal (n), for a frame, which are converted to analog.
  • the present invention is located at the LTP module, the operation of which will now be described.
  • the LTP analysis module of the invention is based on the exploration of a dictionary of pseudo-logarithmic type delays.
  • An LTP analysis module of order 1 calculates the delay of the predictor P (z) which minimizes a certain error criterion.
  • the present invention combines all the time periods explored into a dictionary having a pseudo-logarithmic structure. These delays ⁇ are rational numbers, arranged in ascending order in the dictionary.
  • Each segment Si corresponds to a resolution R i , and if we call ⁇ i the last delay of the segment Si, the segment Si is formed as follows, as shown in FIGS. 3A and 3B:
  • the delay ⁇ i can possibly be fractional but the delays ⁇ j , must verify ⁇ j , R i integer i , j ' therefore for each segment S i , it is necessary and sufficient that ⁇ i .R i is integer.
  • D dictionary with 256 delays (8 bits) such as:
  • the signal x "(n) resulting from this filtering is then sub-sampled by a factor q, in a sub-sampler 32 to give y (n).
  • H (z) a windowed cardinal sine sampled by a factor Max (p, q).
  • finding the optimal delay means minimizing a criterion:
  • the second pass uses the complete criterion E '( ⁇ ) and must also be performed on all the segments: even for the segments i ⁇ i L tq ⁇ (i) ⁇ L, because E' ( ⁇ ) must be evaluated on the local extrema of N ( ⁇ ) selected in the first pass.
  • LTP analysis by adaptive dictionary very efficient, is also very complex, due to the presence of the closed loop on the one hand, and the perceptual filter on the other hand.
  • a variant of this analysis, reducing the intrinsic complexity of the process without degrading the subjective performance is proposed here: it is based on a modification of the expression (3) of the error signal whose energy is minimized (criterion E ( ⁇ ) to minimize).
  • the commutability of the linear filters is used and the interpolation filter is applied to the pre-filtered samples w (n) (this is however not applicable to samples using an extrapolated signal (n)).
  • the LTP module thus designed is integrated by way of example into the coding device presented above.
  • ETWO, ETW1, ETW2, ETW3 represented in FIGS. 8A, 8B, 8C and 8D, we have:
  • the search is carried out in two passes according to the principle described above.
  • the first pass, performed only on the digitizers N ( ⁇ 0 ), is very fast because it does not involve any interpolation operation.
  • the LTP module given here by way of example is integrated into the device presented above as a particularly advantageous embodiment of the present invention.
  • H (z) is an FIR (finite impulse response filter) of length 33.
  • P2S modules i , i 0 to 3 referenced respectively 50, 51, 52 and 53.
  • the P2S modules i , i 0 to 3 referenced respectively 50, 51, 52 and 53.
  • the outputs of the corresponding P1 Si modules in addition to the signals resw (n), w (n) and é ( n), we find the outputs of the corresponding P1 Si modules.
  • Each P2Si module maximizes criterion E (A) and outputs the delay A associated with the maximum criterion.
  • the delay value A from the second pass is the delay selected by the search module in the dictionary D.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

La présente invention concerne un dispositif de codage et décodage numériques de la parole comprenant, une prédiction à court terme (13), une prédiction à long terme (15) et une technique de codage de l'onde résiduelle utilisant une méthode d'analyse par synthèse (14). Le module d'analyse LTP utilise un dictionnaire de délais à structure pseudo-logarithmique dans lequel les délais sont rangés en ordre croissant; ce dictionnaire est constitué de segments, chacun d'une résolution donnée, les résolutions des segments successifs diminuant géométriquement dans un rapport k rationnel >1 ,tandis que le nombre d'éléments de chaque segment reste constant. L'invention définit l'emploi des délais λ éléments de ce dictionnaire en étendant les techniques d'analyse LTP à haute résolution temporelle. L'invention concerne également un procédé d'exploration rapide d'un tel dictionnaire pseudo-logarithmique de délais. Elle concerne également un procédé de mise en place d'un critère de sélection du délai en boucle fermée avec filtrage perceptuel. <IMAGE>

Description

    Domaine technique
  • La présente invention concerne un dispositif de codage et de décodage numériques de la parole, un procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et un procédé d'analyse LTP.
  • Etat de la technique antérieure
  • De manière connue, un dispositif de codage numérique de la parole consiste, après échantillonnage du signal analogique, à effectuer la compression des données binaires du signal de parole numérisé. Le dispositif de décodage effectue l'opération inverse et restitue un signal analogique différent du signal original, mais le plus voisin possible d'un point de vue perceptuel.
  • Un dispositif de codage-décodage numérique de la parole est caractérisé par le débit numérique des données à transmettre entre le codeur et le décodeur, la qualité du signal reconstitué au décodeur, et la complexité de la technique de compression mise en oeuvre.
  • Les codeurs prédictifs sont utilisés pour des débits assez faibles (de 4 à 16 kbits/s pour une fréquence d'échantillonnage de 8 kHz) et une bonne qualité de codage.
  • Ils intègrent des propriétés du signal de parole liées à sa production et d'autres liées à sa perception par un auditeur humain:
    • - Stationnarité locale du signal de parole: le signal de parole peut être prédit à partir de son passé récent (de 8 à 12 échantillons à 8 kHz) au moyen de paramètres évalués sur des fenêtres de 10 à 20 ms. Ces paramètres de prédiction à court terme, représentatifs de la fonction de transfert du conduit vocal, sont obtenus par des méthodes d'analyse "LPC" (Linear Prédiction Coding).
    • - Périodicité des sons voisés (par exemple: les voyelles): cette corrélation à plus long terme est due à la vibration des cordes vocales. La cadence de vibration (fréquence fondamentale) varie de 60 à 400 Hz selon les locuteurs. Une analyse "LTP" (Long Term Prediction) permet d'évaluer les paramètres d'un prédicteur à long terme exploitant cette particularité.
    • - Masquage du bruit par le signal: dans les fréquences voisines d'un maximum d'énergie du signal, l'oreille est moins sensible au bruit de codage. Cette propriété est exploitée par l'introduction d'un "filtre perceptuel" au codage de l'onde résiduelle issue des prédicteurs à court et long terme, et éventuellement à l'analyse LTP. Ce filtre permet de redistribuer le bruit dans les zones fréquentielles où il est masqué par le signal.
  • De manière classique, un codeur prédictif est composé d'un module de prédiction à court terme, un module de prédiction à long terme, puis un module effectuant le codage de l'onde résiduelle à l'aide d'une méthode d'analyse par synthèse, ainsi que décrit dans l'article de P. Kroon et B.S. Atal intitulé "Predictive Coding of Speech Using Analysis by Synthesis Techniques" (Advances in Speech Signal Processing, Ed. Furui S., Sondhi M.M., pages 141-164, 1991).
  • Selon le type de codage de l'onde résiduelle, on distingue plusieurs familles de codeurs: codeurs APC, Multipulse-Excited, CELP, ..., comme décrit dans l'article de P. Kroon et B.S. Atal.
  • Ce type de dispositif de codage est largement utilisé, essentiellement dans des systèmes de transmission par voie terrestre ou satellite, ou dans des applications de stockage.
  • Différentes réalisations du module de prédiction à long terme ou module LTP, connues de l'homme de l'art, vont être passées en revue à présent.
  • La forme générale d'un prédicteur à long terme d'ordre p est:
    Figure imgb0001
  • Le nombre p de coefficients de ce prédicteur varie généralement de 1 à 3. Si on considère le cas des prédicteurs du 1er ordre : P(Z)=1-pz-1.
  • A l'analyse, les paramètres p et λ sont déterminés par minimisation de l'énergie d'un signal d'erreur e(n) sur un bloc de N échantillons du signal x(n) :
    Figure imgb0002
    x(n) représente le signal d'entrée lui-même s(n) ou le résidu LPC r(n). Cette analyse dite "en boucle ouverte" est décrite dans l'article de B.S. Atal intitulé "Predictive Coding of Speech at Low Bit Rates" (IEEE Trans. Commun., COM-30, pages 600-614, avril 1982).
  • Ce type d'analyse peut être avantageusement remplacé par une analyse en boucle fermée, anticipant l'opération effectuée au décodeur pour produire le signal de ynthèse (n).
  • A la synthèse on obtient:
    Figure imgb0003

    (avec u(n) = signal d'excitation)
  • Si é (z) = 1 P(z)·u(z), alors é (n)=u(n)+β (n-λ) représente le signal résiduel reconstruit, ou excitation de synthèse du filtre LPC 1/A(z)
  • La modélisation du résidu r(n) par le signal (n) s'améliore lorsque l'on remplace le signal d'erreur e(n) de l'équation (1) par:
    Figure imgb0004

    comme par exemple le codeur "RPELTP" décrit dans l'article de P. Vary, K. Hellwig, C. Galand, M. Rosso, JP. Petit, D. Massaloux intitulé "Speech Codec for the European Mobile Radio System" (Globecom, pages 1065-1069, 1986).
  • Le prédicteur à long terme décrit dans l'article de W.B.Kleijn, D.J. Krasinski et R.H. Ketchum intitulé "An Efficient Stochastically Excited Linear Predictive Coding Algorithm for High Quality Low Bit Rate Transmission of Speech" (Speech Commun., vol VII, pages 305-316, 1988) adopte une philosophie "CELP" pour une analyse LTP effectuée également en boucle fermée. A chaque période est associée une forme d'onde uλ = (n-λ), n = 0 → N-1 dans un dictionnaire CELP. Ce dictionnaire mis à jour à chaque analyse LTP, est appelé "dictionnaire adaptif'. L'analyse LTP est remplacée par la recherche du code optimal dans le dictionnaire adaptatif, résolue par les équations classiques du CELP, ce qui revient à remplacer e(n) dans l'équation (1) et l'équation (2) par:
    Figure imgb0005

    avec hg(n)=r.i. du filtre perceptuel Hg(z) = Aγ1(z) Aγ2(z)A(z)) (lorsque l'on choisit γ1 = 1, γ2 = g, Hg(z) = 1 Ag(z)
  • Le signal t(n) ("target") s'exprime à partir du résidu LPC r(n) et du signal p (n) obtenu en prolongeant l'excitation passée (n) par des échantillons nuls :
    Figure imgb0006
  • On obtient alors pour e(n) l'expression :
    Figure imgb0007

    essentiellement différente de l'équation (2) par l'introduction du filtre perceptuel et de sa mémoire.
  • D'autre part, les analyses en boucle fermée utilisent le signal (n) qui n'est connu, au début du bloc analysé, que pour n < 0, ce qui impose de restreindre l'analyse LTP aux valeurs λ ≧ N. Cette restriction diminue l'efficacité d'un prédicteur à long terme sur les voix à fréquence fondamentale élevée (voix de femmes et d'enfants). On peut y remédier en extrapolant le signal (n) pour n≧0. Dans l'article de W.B. Kleijn, D.J. Krasinski et R.H. Ketchum cité précédemment, on utilise la périodicité supposée du signal pour chaque période candidate λ en remplaçant (n),n≧0 par (n - λ) si n < λ (ou (n*kλ) avec k = plus petit entier pour lequel n < kλ). Cependant, pour chaque période λ < N, il faut compléter avec N - λ valeurs, ce qui accroît la complexité de l'analyse LTP.
  • Un certain nombre d'algorithmes rapides décrits dans l'article de W.B. Kleijn, D.J. Krasinski et R.H. Ketchum intitulé "Fast Methods for the CELP Speech Coding Algorithm", (IEEE Trans. on ASSP, vol. 38, No 8, pages 1330-1341, Août 1990) ont été conçus pour accélérer les calculs dans le prédicteur à long terme, principalement dans le cadre de l'analyse par dictionnaire adaptatif, fondamentalement plus complexe. Ces algorithmes sont généralement perturbés par l'introduction d'éléments extrapolés de (n).
  • Un dernier point concerne la précision du prédicteur à long terme: pour un prédicteur d'ordre 1 avec délais λ entiers, la périodicité T recherchée est limitée aux multiples de la période d'échantillonnage Te. Deux méthodes ont été proposées permettant d'améliorer la précision sur T:
    • - augmenter l'ordre du prédicteur, ce qui bien sûr augmente la complexité de l'analyse, mais augmente aussi le nombre des gains à coder;
    • - utiliser un prédicteur à "haute résolution temporelle", comme décrit dans l'article de P. Kroon et B.S. Atal intitulé "Pitch Predictors with High Temporal Resolution" (Proc. ICASSP, pages 661-664, avril 1990). Cette technique fait intervenir des délais fractionnaires du type λ+ϕ/D avec λ ∈ N, ϕ = 0, 1, ..., D-1, par interpolation du signal passé analysé. L'interpolation est effectuée par suréchantillonnage suivi d'un filtrage passe-bas. Cette opération peut être efficacement mise en place au moyen d'une structure polyphasée, telle que décrite dans l'article de R.E. Crochiere et L.R. Rabiner intitulé "Interpolation and De- cimation of Digital Signais: A Tutorial Review" ("Proc. of the IEEE" vol. 69, No 3, mars 1981).
  • Le problème de la réunion des techniques d'extrapolation du signal é (n) et de prédiction à haute résolution temporelle est résolu par un processus récursif coûteux en complexité décrit dans la demande de brevet WO 91:03790 de I.A. Gerson, M.A. Jasiuk intitulée "Digital Speech Coder Having Improved Sub-Sample Resolution Long Term Predictor": pour chaque période fractionnaire λ+ϕ/D, les échantillons (n), n≧0 inconnus sont remplacés récursivement par des échantillons issus d'une interpolation du signal passé (n), n<0.
  • L'invention a pour objet un dispositif numérique de codage et de décodage de la parole dans lequel on améliore le fonctionnement du module de prédiction à long terme tel que défini dans ces différents documents de l'art antérieur.
  • Exposé de l'invention
  • L'invention propose, à cet effet, un dispositif de codage et de décodage numériques de la parole comprenant, au codage: un module d'analyse LPC (prédiction à court terme), un module d'analyse LTP (prédiction à long terme), un module de codage de l'onde résiduelle utilisant une méthode d'analyse par synthèse; au décodage: un module de décodage de l'onde résiduelle, un module de synthèse LTP et un module de synthèse LPC; caractérisé en ce que le module d'analyse LTP utilise un dictionnaire de délais à structure pseudo logarithmique dans lequel les délais sont rangés en ordre croissant; ce dictionnaire étant constitué de Q segments adjacents, chacun d'une résolution donnée, les résolutions des segments successifs diminuant géométriquement dans un rapport k rationnel tel que k > 1 tandis que le nombre d'éléments L de chaque segment reste constant.
  • L'intérêt de ces précisions emboîtées est de maintenir à peu près constante la précision relative sur le délai, et de là l'erreur sur la périodicité du signal due à l'échantillonnage. L'invention permet de plus d'obtenir un codage simple et efficace du délai.
  • Les résolutions des délais dans les différents segments du dictionnaire pseudo-logarithmique sont des rationnels R = p/q, p ∈ N, q ∈ N (N: ensemble des entiers naturels).
  • On a pour cela étendu les méthodes d'analyse à haute résolution temporelle évoquées (délais λ=λ1/R avec λ1, ∈ N, R ∈ N) au cas des résolutions fractionnaires (délais λ = λ1× qlp, λ1,q,p ∈N).
  • Avantageusement dans une première variante, le dictionnaire des délais est découpé en Q segments adjacents S,{i = 0 → Q - 1) comprenant chacun L délais. A chaque segment Si correspond une résolution Ri, les résolutions des segments successifs décroissant dans un rapport k rationnel donné (Ri= Ri-1/k). Si l'on appelle γi le dernier délai du segment Si, ce segment est formé des L délais λii-j/Ri, j=L-1→0 avec λj.Ri, entiers. La condition d'adjacence entre segments est assurée par γi-1 = γi- L/Ri,i = 1 → Q-1. Si l'on introduit λmax = dernier délai du dictionnaire et RQ-1= résolution du dernier segment, on montre qu'un tel dictionnaire est entièrement défini par la donnée des valeurs {Q,L,k,λmax,RQ-1} et la condition RQ-1max∈N.
  • Dans une seconde variante , le dictionnaire des délais est découpé en Q segments adjacents S,{i = 0 → Q - 1) comprenant chacun L délais. A chaque segment Si correspond une résolution Ri, les résolutions des segments successifs décroissant dans un rapport k rationnel donné (Ri = Ri-1/k). Si l'on appelle βi le premier délai du segment Si, ce segment est formé des L délais: λj = βi+jlRi,j=0→L-1 avec λj.Ri entiers. La condition d'adjacence entre segments est assurée par βi = βi-1 + L/Ri-i i = 1 → Q - 1. Si l'on introduit βQ-1 = 1 er délai du dernier segment et RQ-1= résolution du dernier segment, on montre qu'un tel dictionnaire est entièrement défini par la donnée des valeurs {Q,L,k,βQ-1,RQ-1} et la condition RQ-1Q-1 ∈N.
  • Avantageusement, le dispositif permet un codage du délai LTP simple et peu coûteux en stockage, du type,
    • - selon la première variante:
      Figure imgb0008
      avec
      Figure imgb0009
      et
      Figure imgb0010
    • - selon la seconde variante:
      Figure imgb0011
      avec
      Figure imgb0012
  • Avantageusement, une réalisation particulière de dictionnaire pseudo-logarithmique de délais tel que définis ci-dessus est le dictionnaire D, formé de délais fractionnaires, de résolution R = p > 1, ou entiers, que l'on peut décrire de la façon suivante: chaque segment Si,i = 0 → 3 de résolution R1 = 23- est formé des délais λ0- ϕ/Ri,ϕ = 0 → Ri -1, les délais λ0 entiers formant un sous-ensemble S0 i de Si comportant ni = 2i + 3 éléments:
    Figure imgb0013
  • Avantageusement, une procédure sous-optimale efficace d'exploration d'un dictionnaire pseudo-logarithmique des délais tel que défini dans la première ou la second variante de l'invention, tirant parti de sa structure particulière, permet de réduire considérablement la complexité de la recherche du meilleur délai :
    • - dans une première passe, on sélectionne K(i) maxima locaux du critère à maximiser parmi un ensemble restreint de α(i) délais de chaque segment Si;
    • - dans une seconde passe, on explore le dictionnaire de manière limitée au voisinage des valeurs sélectionnées dans la première passe.
  • Avantageusement la taille des segments L est un multiple de Ki L- 1, le choix pour α(0) de L/KlL-1 ou d'un sous-multiple de L/K l L-1, introduisant un espacement régulier des délais explorés dans la première passe.
  • Avantageusement, on introduit une simplification supplémentaire à la recherche de la première passe en remplaçant la maximisation de E'(λ) = N(λ)2 /D(λ),où N(λ) et D(λ) représentent respectivement le numérateur et le dénominateur du gain optimal associé à chaque délai λ, par celle de N(λ): on calcule donc les maxima locaux de l'intercorrélation N(λ), pour tous les segments i = 0 → Q - 1, dans la première passe.
  • L'invention propose également un procédé d'analyse LTP en boucle fermée avec filtrage perceptuel de performances équivalentes à l'analyse LTP par dictionnaire adaptatif et de complexité moindre, reposant sur l'expression suivante du signal d'erreur dont on minimise l'énergie:
    Figure imgb0014

    les points précédant le sous-bloc courant (tels que n<0 si le sous-bloc courant commence à n=0) étant les points (n-λ) (λ éventuellement fractionnaire, éventuellement extrapolé), et non (n), comme dans le cas du dictionnaire adaptatif.
  • La présente invention permet ainsi de définir une structure sur l'ensemble des délais explorés dans le module de prédiction à long terme, l'ensemble de délais ainsi structuré étant dénommé dans l'invention "dictionnaire pseudo-logarithmique de délais LTP". Il est connu que maintenir une grande précision sur les délais LTP, lorsque ces délais augmentent, est inutile d'un point de vue perceptuel. Le dictionnaire pseudo-logarithmique de l'invention exploite cette idée et permet de maintenir les performances de dictionnaires uniformes pour un débit moindre: à titre d'exemple, on a pu constater que les performances du dictionnaire D, composé de 256 éléments, étaient similaires à celles de l'ensemble des 960 délais obtenus en échantillonnant uniformément la même gamme de délais avec une précision de 1/8, ce qui représente un gain de plus de 20 % en débit.
  • La structure pseudo-logarithmique, outre qu'elle organise le concept précédemment énoncé, permet également d'établir une correspondance simple entre l'indice de chaque délai du dictionnaire pseudo-logarithmique et sa valeur, facilitant les opérations de codage et décodage du délai. Aucun stockage n'est nécessaire pour trouver les délais dans le dictionnaire.
  • Cette structure facilite de plus la conception d'un tel dictionnaire: un tel dictionnaire est en effet totalement défini par la donnée de quelques paramètres. Pour une application donnée, le choix de ces paramètres est gouverné par les contraintes de l'application. Il est alors simple de déterminer le ou les dictionnaire(s) pseudo-logarithmique(s) convenant à cette application.
  • La présente invention décrit en outre un procédé très peu complexe permettant la mise en place d'un module d'exploration d'un tel dictionnaire. Bien que sous optimale, une telle technique a montré des performances équivalentes à la recherche optimale. La réduction de complexité obtenue avec ce procédé est importante. Si l'on compare les temps de calcul dans un codeur de type CELP des deux techniques suivantes:
    • - technique de référence : analyse LTP par "codebook" adaptatif avec sélection du délai optimal par méthode d'autocorrélation comme définie dans l'article de messieurs Kleijn, Krasinski et Ketchum, intitulé "Fast Methods for the CELP Speech Coding Algorithm", cité plus haut;
    • - technique proposée dans l'invention: analyse LTP du type présenté selon la procédure sous optimale.
  • Bien que ne produisant pas les mêmes résultats, ces deux techniques ont été jugées d'une qualité subjective équivalente.
  • Sur un micro-ordinateur, le traitement du module LTP utilisant la technique proposée dans l'invention est trois fois plus rapide que celui du module utilisant une version optimisée de la technique de référence. Cette version optimisée exploite au maximum les méthodes permettant de diminuer la complexité de la technique de référence: si l'on compare les temps de calcul de la version non optimisée de la technique de référence à ceux de la technique proposée, on obtient un gain supérieur à 11.
  • Brève description des dessins
    • - Les figures 1Aet 1 B représentent le dispositif de codage et le dispositif de décodage de la parole selon l'invention; -la figure 2 représente une réalisation particulièrement intéressante du dispositif de codage représenté à la figure 1A ;
    • - la figure 3 illustre le fonctionnement d'un dictionnaire pseudo-logarithmique de délais ;
    • - la figure 4 illustre la procédure de calcul du signal x(n-λ), λ rationnel intervenant dans le module LTP ;
    • - la figure 5 montre, sur une séquence de parole réelle, l'évolution du critère E'(2,) lorsque parcourt le dictionnaire D ;
    • - la figure 6 détaille le dictionnaire D ;
    • - la figure 7 présente une procédure de codage et décodage des délais du dictionnaire D ;
    • la figure 8 décrit les modules de calcul du signal w (n-λ) intervenant dans la recherche du délai optimal de D;
    • - les figures 9 à 12 montrent le fonctionnement de cette recherche du délai dans le cadre de la réalisation du module LTP.
    Exposé détaillé des modes de réalisation
  • La présente invention concerne un dispositif numérique de codage de la parole de type codeur prédictif utilisant une prédiction à court terme du signal permettant la modélisation des formants, une prédiction à long terme destinée à restituer la structure fine du spectre, puis un codage de l'onde résiduelle à l'aide d'une méthode d'analyse par synthèse; une description générale de ce type de codeurs étant réalisée dans l'article de messieurs Kroon et Atal cité précédemment. Les prédicteurs à court terme et à long terme sont calculés par des méthodes de prédiction linéaire connues sous le nom d'analyse LPC ("Linear Prediction Coding") et analyse LTP ("Long Term Prédiction")
  • Les figures 1Aet 1 B représentent un dispositif numérique de codage et un dispositif numérique de décodage de la parole faisant l'objet de la présente invention. Le dispositif de codage comprend successivement:
    • - un capteur 10;
    • - un filtre 11 ;
    • - un convertisseur analogique/numérique 12 ;
    • - un module LPC 13;
    • - un module de codage de résidu ou CODRES 14 ;
    • - un module LTP 15 recevant en entrée le signal d'entrée ou le signal de sortie du module LPC 13: x(n) = s(n) ou r(n), et éventuellement le signal é (n), résiduel reconstruit issu du module CODRES 14.
  • Ce dispositif de codage fonctionne de la manière suivante:
  • Le signal analogique, après conversion en numérique, est segmenté en trames de No échantillons s(n). Ces échantillons sont analysés dans le module LPC 13 par une méthode classique de prédiction linéaire. Ce module 13 produit en sortie des paramètres PLPC transmis au décodeur et No échantillons de signal résiduel r(n).
  • Ensuite, le module LTP 15 accepte en entrée N échantillons d'un signal x(n) qui peut provenir d'une sous- segmentation du signal s(n) lui-même ou bien de r(n). Lorsque le module LPT 15 fonctionne en boucle fermée, il doit recevoir également en entrée des échantillons de résiduel reconstruit (ou "excitation de synthèse") issus par bouclage du module de codage de résidu 14. Le module LTP peut éventuellement utiliser aussi les paramètres PLPC (dictionnaire adaptatif, filtre perceptuel). Ce module 15 produit les paramètres de sortie PLTP (gain quantifié β et indice id du délai) et élabore un signal de prédiction à long terme p(n).
  • Ensuite, le module de codage de résidu 14 effectue le codage de l'excitation résiduelle. Les paramètres de codage de cette excitation sont transmis au décodeur. Lorsque nécessaire, ce module 14 comprend un décodeur local permettant le calcul de l'excitation de synthèse (ou résiduel reconstruit) (n) .
  • La figure 1 B présente le schéma du dispositif de décodage correspondant au dispositif de codage représenté sur la figure 1A. Ce dispositif de décodage comprend successivement:
    • - un module de démultiplexage 20;
    • - un module de décodage de résidu ou CODRES-1 21;
    • - un module de synthèse LTP (ou LTP-1) 22;
    • - un module de synthèse LPC (ou LPC-1) 23;
    • - un convertisseur numérique analogique 24;
    • - un filtre 25;
    • - un haut-parleur 26.
  • Le module de décodage de résidu 21 effectue le décodage des paramètres PCODRES et calcule N échantillons d'un signal u(n). Ce signal entre dans le module 22 conjointement avec les paramètres PLTP qui y seront décodés. Après filtrage de u(n) par 1/P(z), on obtient (n).
  • Ce signal entre alors dans le module 23 qui effectue le décodage des paramètres PLPC et le filtrage de (n) par 1/A(z). Ce module 23 produit en sortie les No échantillons du signal de synthèse (n), pour une trame, qui sont convertis en analogique.
  • Diverses réalisations du dispositif de l'invention étant possibles, on va considérer présent une réalisation particulièrement intéressante à titre d'exemple.
  • Cette réalisation représentée à la figure 2, donnée à titre d'exemple, a les particularités suivantes:
    • - l'analyse LTP (module 13), qui sera décrite plus en détail ultérieurement, est une analyse en boucle fermée, utilisant les signaux r(n) et (n) en entrée, avec un filtre perceptuel calculé à partir des paramètres PLPC fournis par le module LPC;
    • - codage de l'excitation résiduelle: les signaux r(n), p(n) et (n) entrent dans un module 14 de type CELP qui utilise une procédure classique de recherche dans un dictionnaire CELP pour quantifier le signal résiduel tel que décrit dans l'article de B.S. Atal cité précédemment. Un tel dictionnaire est formé par exemple de NF formes d'ondes aléatoires de statistiques gaussiennes. Les paramètres PLPC entrant dans le module CELP 14' permettent de calculer le filtre perceptuel W(z) = A(z)lAγ(z),(γ= 0.75).
  • Après sélection de la meilleure forme d'onde du dictionnaire, le module 14' produit les paramètres PCELP (gain quantifié et indice ic de la forme d'onde), et le signal résiduel reconstruit (n) = p(n) + γuic(n).
  • Pour une fréquence d'échantillonnage de 8kHz, la présente réalisation du dispositif effectue un codage du signal de parole au débit de 8 kbit/s, avec les caractéristiques suivantes:
    • Trame LPC : 24 ms (N = 192)
    • Sous trames : 4 ms (No = 32)
    • Débit LPC : 42 bits / trame (ordre 10)
    • Débit LTP : id:8 bits 11 x 6 bits / trame β: 3 bits
    • Excitation facteur d'échelle: 6 bits l trame indice CELP ic: 10bits gain γ : 3bits 13 × 6 bits trame (NF = 1024)
  • La présente invention se situe au niveau du module LTP dont le fonctionnement va être décrit à présent.
  • Le module d'analyse LTP de l'invention repose sur l'exploration d'un dictionnaire de délais de type pseudo-logarithmique.
  • Un module d'analyse LTP d'ordre 1, quel que soit le type d'analyse, calcule le délai du prédicteur P(z) qui minimise un certain critère d'erreur. La présente invention regroupe l'ensemble des délais explorés en un dictionnaire présentant une structure pseudo-logarithmique. Ces délais λ sont des nombres rationnels, rangés en ordre croissant dans le dictionnaire .
  • Le dictionnaire est découpé en Q segments adjacents Si(i =0→,Q-1) comprenant chacun L délais. Acha- que segment Si correspond une résolution Ri, et si on appelle γi le dernier délai du segment Si, le segment Si est formé de la façon suivante, comme représenté sur les figures 3A et 3B:
    Figure imgb0015
  • Le délai γi peut éventuellement être fractionnaire mais les délais λj, doivent vérifier λj,Ri entier i, j' donc pour chaque segment Si, il faut et il suffit que γi.Ri soit entier.
  • Les résolutions des segments successifs décroissent dans un rapport k rationnel donné:
    Figure imgb0016
  • La condition d'adjacente entre segments (figure 3B) est assurée par:
    Figure imgb0017
  • Si l'on appelle λmax le dernier délai du dictionnaire (λmax = λQ-1), on montre que la condition γi.Ri ∈N est réalisée pour tout i=0 à Q-1 si et seulement si :
    Figure imgb0018
  • Le dictionnaire est alors totalement défini par la donnée des valeurs {Q=nombre de segments, L=taille des segments, k=facteur de décroissance des résolutions, λmax=dernier délai du dictionnaire, RQ-1 = = résolution du dernier segment telle que l'équation (7) soit vérifiée}
  • On peut alors calculer λmin (premier délai du dictionnaire) par la formule :
    Figure imgb0019
  • et si on définit la longueur Ii des segments Si comme Ii = γii-1, on a alors (figure 3B):
    Figure imgb0020
  • La structure pseudo-logarithmique en base k du dictionnaire de délais apparaît dans les équations (5) et (8).
  • On peut construire un dictionnaire du même type en s'appuyant sur les premiers délais βi de chaque segment:
    Figure imgb0021
  • et en définissant la condition d'adjacence par (figure 3C) :
    Figure imgb0022
  • Il faut alors remplacer la donnée de λmax par celle de βQ-1 = premier délai du dernier segment, et la condition (7) par:
    Figure imgb0023
  • Bien que légèrement différent, ce dictionnaire est totalement équivalent à celui décrit en figure 3B.
  • Ces dictionnaires pseudo-logarithmiques de délais permettent un codage du délai simple et peu coûteux en stockage, du type :
    • code (λj)=L.i+j',
    • avec (λji-j/Ri)∈Si (voir equation(4)) et j'= L-1-j
  • pour un dictionnaire défini par les équations (4), (6) et (7).
  • Un codage du même type est réalisable pour un dictionnaire défini par les équations (4'), (6') et (7').
  • On va considérer ci-dessous un exemple donné de dictionnaire qui sera repris dans la suite de la description. Il constitue une réalisation particulièrement intéressante de la présente invention.
  • D=dictionnaire à 256 délais (8 bits) tel que:
    Figure imgb0024
  • Tous les types d'analyse LTP utilisent un critère à minimiser qui fait intervenir un signal x(n-λ) pour un certain délai λ et n=0 à N-1 (en boucle ouverte, x(n) représente s(n) ou r(n), et en boucle fermée (n)).
  • On va tout d'abord définir ce signal x(n-λ) dans le cas particulier où le délai λ est un rationnel:
    • En effet lorsque λ appartient au dictionnaire défini précédemment, il est de la forme λ=λ1/R tel que ;λ1 ∈N, R rationnel. R (résolution du segment qui contient λ) est un rationnel a priori quelconque, du type R=plq, p∈N et q∈N.
  • On définit x(n-λ), n = 0→N - 1 en étendant la technique décrite par P. Kroon au cas d'une résolution R= p/q rationnelle. On passe du signal x(n) au signal y(n) de résolution multipliée par x(plq) à l'aide de méthodes classiques d'interpolation de signal comme décrit dans l'article de messieurs Crochière et Rabiner cité plus haut.
  • Comme montré à la figure 4, le signal x(n) est d'abord suréchantillonné d'un facteur p dans un suréchan- tillonneur 30, produisant un signal x'(n) qui entre dans un filtre H(z) passe-bas 31 dont la fréquence de coupure est inférieure à fmax/Max(p,q)(fmax=fetchant/2). Le signal x"(n) issu de ce filtrage est ensuite sous-échantillonné d'un facteur q, dans un sous-échantillonneur 32 pour donner y(n).
  • On a donc:
    Figure imgb0025
    si
    Figure imgb0026
  • On peut aussi exprimer x"(n) par
    Figure imgb0027
    si
    Figure imgb0028
  • (On considère la notation E(x)=partie entière de x)
  • Pour un délai λ= λ1/R avec λ1 ∈N, on définit x(n - λ) par:
    Figure imgb0029
    Alors
    Figure imgb0030
  • On voit qu'il est intéressant de calculer à partir de (λ1q) les valeurs λ0∈N et ϕ∈{0,1,.....,p-1} telles que λ1q0P-ϕ:
    Figure imgb0031
    [La notation q=mod (p,n) signifie q= reste de p modulo n]
  • Alors :
    Figure imgb0032
  • En pratique, on choisit par exemple pour H(z) un sinus cardinal fenêtré et échantillonné d'un facteur Max(p,q). Les p filtres {hϕ(j),j=-I/p→Ilp}, ϕ=0→p-1 sont les filtres polyphasés construits à partir de H(z).
  • Lorsque p > q, on a alors ho défini par {ho(0)= 1, et h0(j)=0 si j≠0} et donc pour les valeurs de λ entières on trouve pour x(n - λ) le signal x(n) décalé de λ points.
  • Pour q = 1, on retrouve l'expression donnée précédemment dans le cadre de l'analyse LTP a haute résolution.
  • On décrit ci-dessous le procédé de recherche du délai optimum dans le dictionnaire pseudo-logarithmique défini dans la présente invention.
  • Quel que soit le type d'analyse LTP, la recherche du délai optimal revient à minimiser un critère:
    Figure imgb0033
  • Si l'on définit de façon générale e(n) comme : e(n) = v(n) - βx(n-λ), v(n) étant un signal connu indépendant de λ et x(n-λ) défini pour chaque délai λ candidat, les expressions de ces deux signaux dépendant du type d'analyse utilisé, alors la minimisation de E(λ) revient à maximiser:
    Figure imgb0034
  • La recherche du délai optimum nécessite le calcul, pour chaque délai λ. les deux quantités : 2
    Figure imgb0035
    (n).
  • N(λ) et D(λ) représentent respectivement le numérateur et le dénominateur du gain optimum β associé à chaque délai λ. Ces deux quantités interviennent dans E'(λ). Par exemple,lorsque β n'est pas quantifié en boucle, on a E'(λ)=N(λ)2/D(λ).
  • Dans tous les cas, l'évaluation de E'(λ) pour chaque délai λ est un processus nécessitant de nombreux calculs, en particulier lorsque l'on utilise des délais non entiers, et dans le cas d'analyses en boucle fermée, dès que l'on doit extrapoler le signal (n).
  • Diverses méthodes ont été proposées pour réduire la complexité de cette recherche:
    • - Analyse LTP à haute résolution : calcul des critères E'(λ0) tels que λ0 ∈N et interpolation des critères comme décrit dans l'article de P. Kroon et B.S. Atal cité précédemment. Cette méthode est une méthode approchée et reste relativement complexe.
    • - Dictionnaire adaptatif: prolongement de la sommation dans E'(λ) pour utiliser une méthode d'autocorré- lation telle que définie dans l'article de A. Le Guyader, D. Massaloux and J.P. Petit intitulé "Robust and Fast Code Excited Linear Predictive Coding of Speech Signals" (Proc. ICASSP, pages 120-123, Mai 1989), "Backward Filtering" pour le calcul des numérateurs tel que défini dans l'article de I.M. Trancoso et B.S. Atal intitulé "Efficient Procedures for Finding the Optimum Innovation in Stochastic Coders" (Proc. ICASSP, pages 2375-2378, avril 1986), récurrence dans le calcul des dénominateurs, comme décrit dans l'article de W.B. Kleijn, D.J. Krasinski et R.H. Ketchum intitulé "An Efficient Stochastically Excited Linear Predictive Coding Algorithm for High Quality Low Bit Rate Transmission of Speech" cité précédemment. Ces procédures sont cependant perturbées par l'introduction de signaux ((n) extrapolés et se compliquent avec l'usage de délais fractionnaires.
  • Il est donc intéressant de simplifier encore cette procédure de recherche, et dans le cadre du dictionnaire de délais de l'invention, de s'appuyer pour cela sur sa structure particulière.
  • Si l'on étudie l'évolution du critère E'(λ) pour λ variant dans un dictionnaire de délais de l'invention tel que défini précédemment, on constate que la courbe
    Figure imgb0036
    présente elle-même une structure pseudo-logarithmique et que ses maxima en sont relativement amortis: à titre d'exemple, la figure 5 montre l'évolution de E'n(λ) pour λ e dictionnaire D, sur une trame voisée d'un échantillon de parole. Cette étude suggère le fractionnement de la recherche en deux passes:
    • - dans une première passe : dans chaque segment Si, calcul du critère sur un nombre restreint α(i) de délais tel que Vi = 1→Q - 1, α(i) = ka(i-1). Sélection d'un certain nombre K(i) de maxima locaux pour chaque segment ;
    • - dans une seconde passe : exploration limitée au voisinage des extrema locaux sélectionnés dans la première passe, pour chaque segment.
  • Bien entendu, la progression α(i)= ka(i - 1) est limitée par L : si à partir de iL on a α(i)≧L alors α(i)=L pour i≧iL et la recherche sous-optimale en deux passes est remplacée par une recherche optimale (en une seule passe) pour les segments iL à Q-1.
  • Un cas est plus particulièrement intéressant: lorsque L est un multiple de ki L-1. Alors le choix pour a(0) de LIKi L-1 ou d'un sous-multiple de UKi L-1 introduit un espacement régulier des délais explorés dans la première passe. On montre que ces délais forment alors l'ensemble:
    Figure imgb0037

    le pas a étant égal à L/(R0α(0)).
  • Dans le cas particulier du dictionnaire D introduit plus haut, cette technique d'exploration en deux passes s'introduit de la manière suivante:
    • Pour ce dictionnaire L = 64, kQ-1 = 8, Ro = 8. Le choix a(0) = 8 permet d'explorer dans la première passe un sous-ensemble DO de D constitué de délais régulièrement espacés de D avec un pas a = 1 On montre que Yo = γ0 min + 7 et que DO est en fait formé des 120 délais entiers consécutifs {λ0 = λ0 minj,j = 0→119} extraits du dictionnaire D.
  • Il est possible d'introduire une simplification supplémentaire à la recherche de la première passe. On remplace la maximisation de E'(λ)= N(λ)2/D(λ) par celle de N(λ). La normalisation qu'apporte la division par D(λ) s'avère généralement superflue dans cette première passe par essence plus grossière que la recherche complète. On s'intéresse donc aux maxima locaux de l'intercorrélation N(λ), pour tous les segments i = 0→Q - 1, dans la première passe.
  • La deuxième passe utilise par contre le critère complet E'(λ) et doit être effectuée aussi sur tous les segments: même pour les segments i≧iLtq α(i)≧L, car il faut évaluer E'(λ) sur les extrema locaux de N(Â) sélectionnés dans la première passe.
  • L'analyse LTP par dictionnaire adaptatif, très performante, est aussi très complexe, du fait de la présence de la boucle fermée d'une part, et du filtre perceptuel d'autre part. Une variante de cette analyse, diminuant la complexité intrinsèque du processus sans en dégrader les performances subjectives est proposée ici: elle repose sur une modification de l'expression (3) du signal d'erreur dont on minimise l'énergie (critère E(λ) à minimiser).
  • On peut en effet conserver l'usage d'un filtre perceptuel sans souscrire entièrement à la philosophie "CELP" du dictionnaire adaptatif, en prenant:
    Figure imgb0038
  • Dans cette expression, le signal (n-λ)(λ éventuellement fractionnaire, éventuellement extrapolé) est continu au niveau de la frontière du sous-bloc: les points précédant le sous-bloc courant (tq n = 0→N -1) sont les points ( (n-λ),n<0), et non ( (n),n < 0), comme dans le cas du dictionnaire adaptatif.
  • L'intérêt de cette variante réside dans la possibilité de "préfiltrer" ((n) : le filtre perceptuel variant à la fréquence trame LPC, plusieurs analyses LTP étant pratiquées dans une trame LPC, un même échantillon filtré w (n) = hg(n)* w (n) sert à plusieurs analyses LTP.
  • En ce qui concerne les délais fractionnaires, on utilise la commutabilité des filtres linéaires et on applique le filtre d'interpolation aux échantillons préfiltrés w (n) (ceci n'est toutefois pas applicable aux échantillons utilisant un signal (n) extrapolé).
  • On va à présent décrire un exemple de réalisation particulièrement intéressant de la présente invention: le dictionnaire D cité précédemment est d'abord présenté en détail. L'exploration de ce dictionnaire est présentée avec la procédure accélérée décrite dans le cadre de l'analyse LTP définie ci-dessus.
  • Le module LTP ainsi conçu est intégré à titre d'exemple au dispositif de codage présenté plus haut.
  • Ce dictionnaire a été défini précédemment. Les délais y sont du type fractionnaire, de résolution R= p>1, ou entiers. On peut décrire D de la façon suivante (figure 6): chaque segment Si,i = 0→3 de résolution Ri = 23- est formé des délais λ0-ϕ/Ri,ϕ = 0→1, les délais λ0, entiers formant un sous-ensemble S0 i de Si comportant ni = 2i+3 éléments:
    Figure imgb0039
  • Un seul filtre d'interpolation H(z) est nécessaire pour l'ensemble du dictionnaire. On prend en pratique: h(i)=w(i).sin(iπ/8).(8/iπ), i = -1 → 1, w(i) étant une fonction de fenêtrage, et 1 étant un multiple de codage On définit les filtres:
    • hϕ(j) = h( - 1 + 8j + ϕ),j = 0→2J - 1 et ϕ = 1,2,...7.
  • Les algorithmes de codage et décodage des délais de ce dictionnaire D sont présentés à la figure 7 et implantés de façon simple à l'aide de décalages et opérateurs logiques, en utilisant la table des quatre valeurs µi (premier délai entier dans chaque segment). Le code décrit ici perturbe l'ordre naturel des délais dans le dictionnaire sans que cela change quoi que ce soit à la description qui précède.
    Figure imgb0040
  • On pose :
    Figure imgb0041
  • On a alors:
    • code λ = [iseg(2bits), λ'0(3 + iseg bits), ϕ'(3 - iseg bits)] = 8 bits L'analyse LTP utilise le critère modifié calculé à partir de l'équation (10) et fait donc intervenir un signal w (n-λ)=hg(n) (n-λ), n = 0 → N - 1, λ, éventuellement fractionnaire.
  • On connaît les signaux (n) et w (n) pour n < 0.
  • Selon les valeurs de λ, le calcul de w (n-λ) fait intervenir l'un des quatre procédés suivants :
    • Délai λ = λ0, entier ≧N : module ETWO 40 (voir figure 8A) w (n-λ0) est connu.
    • Délai λ = λ0, entier < N: module ETW1 41 (voir figure 8B) si n < λ0, w (n-λ0) est connu si λ0n<N: extrapolation de (n-λ0): (n-kλ0) avec k =plus petit entier avec n < kλ0, puis filtrage par Hg(z)
    • Délai λ=λ0 -ϕ/8 fractionnaire, λ0≧N+J : module ETW2 42 (voir figure 8C)
      Figure imgb0042
    • Délai λ =λ0 - ϕ/8 fractionnaire, λ0<N+J : module ETW3 43 (voir figure 8D) si n <λ0-J : w (n-λ) est calculé par l'équation (11) si λ0 - J≦n < N : é est complété récursivement par:
      Figure imgb0043
      puis é (n)= (n-λ) pour n=1→(N-1-λ0+J) w (n-λ) est ensuite obtenu filtrant (n-λ) par Hg(z).
  • Dans ces modules ETWO, ETW1, ETW2, ETW3 représentés aux figures 8A, 8B, 8C et 8D, on a:
    Figure imgb0044
    Figure imgb0045
  • La recherche s'effectue en deux passes suivant le principe décrit plus haut.
  • Ainsi que mentionné précédemment, le dictionnaire D a l'avantage de permettre (en choisissant a(0) = 8) la coïncidence entre l'ensemble des délais explorés dans la première et l'ensemble des délais entiers de D (c'est-à-dire
    Figure imgb0046
    dans la description précédente). La première passe, effectuée uniquement sur les numérateurs N(λ0), est très rapide car elle ne fait intervenir aucune opération d'interpolation.
  • Le choix de λ0 min = N-8 est particulièrement intéressant car il restreint au premier segment de D la nécessité d'extrapoler (n) dans la première passe.
  • Le module LTP donné ici à titre d'exemple s'intègre au dispositif présenté plus haut comme réalisation particulièrement intéressante de la présente invention.
  • On prend :λ0 min=N-8=24 et J=2:H(z) est un FIR (filtre à réponse impulsionnelle finie) de longueur 33.
  • Le nombre K(i) de maxima locaux que l'on retient dans chaque segment Si lors de la première passe de la recherche du délai est indiqué dans la table ci-dessous. Ces valeurs résultent de l'observation sur un certain nombre d'échantillons de parole, du nombre de maxima de N(λ0) qu'il est nécessaire de retenir pour s'assurer de la présence du délai optimal dans leur voisinage.
    Figure imgb0047
  • La procédure complète de recherche du délai dans D sur le présent exemple est décrite dans la figure 9.
  • Les signaux resw(n), w (n) et ê (n) entrent dans le module de recherche 45. On trouve en sortie de ce module 45 le délai A sélectionné et le critère E'(A) associé. Sur cette figure 9 on a la notation suivante:
    • A, E'(A) : délai A cherché et critère associé
    • [A, E'(A)]* : A et E'(A) sont éventuellement mis à jour.
  • On rappelle λ0 min=N-8
  • Les modules P1 Si,i=0 à 3 référencés respectivement 46, 47, 48 et 49 effectuent la première passe de la recherche sur les segments Si. Leur fonctionnement détaillé est illustré par la figure 10. Ces modules produisent en sortie K(i),i=0 à 3 (1 ou 2) valeurs de délais entiers λ1, sélectionnés et les valeurs d'intercorrélation N(λ1,) associées.
  • La deuxième passe de la recherche est décrite par les modules P2Si,i = 0 à 3 référencés respectivement 50, 51, 52 et 53. En entrée de ces modules, outre les signaux resw(n), w (n) et é (n), on trouve les sorties des modules P1 Si correspondants. Chaque module P2Si effectue la maximisation du critère E(A) et sort le délai A associé au critère maximum.
  • Les figures 12A, 12B, 12C et 12D montrent le fonctionnement des modules P2Si, qui utilisent les modules de sélection SELjj = 0 à 3 décrits respectivement par les figures 11A, 11 B, 11 Cet 11 D:
    • - SELO présente les calculs effectués pour un délai entier lorsqu'aucune extrapolation de w (n) n'est nécessaire;
    • - SEL1 présente les calculs effectués pour un délai entier avec extrapolation de w (n) ;
    • - SEL2 présente les calculs effectués pour un délai fractionnaire lorsqu'aucune extrapolation de w (n) n'est nécessaire;
    • - SEL3 présente les calculs effectués pour un délai fractionnaire avec extrapolation de w (n).
  • Les modules PS 55 calculent le produit scalaire
    Figure imgb0048
  • Les modules NORM 56 calculent l'énergie
    Figure imgb0049
  • Les modules COMP 57 calculent E'(λ) et sélectionnent A=λ, si e'(λ)>E'(A)
  • La valeur de délai A issue de la deuxième passe est le délai sélectionné par le module de recherche dans le dictionnaire D.

Claims (11)

1. Dispositif de codage et de décodage numériques de la parole comprenant, au codage: un module (13) d'analyse LPC (prédiction à court terme) un module (15) d'analyse LTP (prédiction à long terme), un module (14) de codage de l'onde résiduelle utilisant une méthode d'analyse par synthèse; au décodage: un module de décodage de l'onde résiduelle (21), un module de synthèse LTP (22) et un module de synthèse LPC (23); caractérisé en ce que le module d'analyse LTP utilise un dictionnaire de délais à structure pseudo-logarithmique dans lequel les délais sont rangés en ordre croissant; ce dictionnaire étant constitué de Q segments adjacents, chacun d'une résolution donnée, les résolutions des segments successifs diminuant géométriquement dans un rapport k rationnel tel que k > 1, tandis que le nombre d'éléments L de chaque segment reste constant.
2. Dispositif selon la revendication 1, caractérisé en ce que le dictionnaire des délais est découpé en Q segments adjacents Si(i = 0→Q-1) comprenant chacun L délais; en ce qu'une résolution Ri correspond à chaque segment Si, les résolutions des segments successifs décroissant dans un rapport k rationnel donné (Ri= Ri- 1/k); en ce qu'on.appelle γi le dernier délai du segment Si, ce segment étant formé des L délais λj = γi-j/Rij= L-1→0 avec λj.Ri, entiers; en ce que la condition d'adjacence entre segments est assurée par γi-i-L/Rii= 1 → Q - 1 ; en ce que λmax étant le dernier délai du dictionnaire et RQ- la résolution du dernier segment, un tel dictionnaire est entièrement défini par la donnée des valeurs {Q,L,k,λmax,RQ-1} et la condition RQ-1max eN.
3. Dispositif selon la revendication 1, caractérisé en ce que le dictionnaire des délais est découpé en Q segments adjacents Si(i= 0→Q-1) comprenant chacun L délais; en ce qu'une résolution Ri correspond à chaque segment Si, les résolutions des segments successifs décroissant dans un rapport k rationnel donné (Ri= Ri- 1/k); en ce qu'on appelle βi le premier délai du segment Si, ce segment étant formé des L délais λj=βi+j/Ri,j = 0→L-1 avec λj.Ri entiers; en ce que la condition d'adjacence entre segments est assurée par βi= βi-1+ L /Ri-1i=1=1→Q-1; en ce que βQ- étant le premier délai du dernier segment et RQ- la résolution du dernier segment, un tel dictionnaire est entièrement défini par la donnée des valeurs {Q,L,k,/βQ- 1,RQ- 1} et la condition RQ-1Q-1 eN.
4. Dispositif selon la revendication 2, caractérisé en ce qu'il utilise le codage suivant du délai LTP:
Figure imgb0050
avec
Figure imgb0051
et
Figure imgb0052
5. Dispositif selon la revendication 3, caractérisé en ce qu'il utilise le codage suivant du délai LTP:
Figure imgb0053
avec
Figure imgb0054
6. Dispositif selon la revendication 2, caractérisé en ce que dans le dictionnaire pseudo-logarithmique de délais LTP, chaque segment Si,i =0 → 3 de résolution Ri = 23- est formé des délais λ0- ϕ/Ri,ϕ = 0 → Ri -1, les délais λ0 entiers formant un sous-ensemble S0 i de Si comportant ni =2i+3 éléments :
Figure imgb0055
7. Procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP selon l'une quelconque des revendications précédentes, caractérisé en ce que dans une première passe, on sélectionne K(i) maxima locaux du critère à maximiser parmi un ensemble restreint de α(i) délais de chaque segment Si et dans une seconde passe, on explore le dictionnaire de manière limitée au voisinage des valeurs sélectionnées dans la première passe.
8. Procédé selon la revendication 7, caractérisé en ce que la taille des segments L étant un multiple de Ki L- 1, on choisit pour α(0) la valeur L/kI L-1 ou d'un sous-multiple de L/kI L-1 introduisant un espacement régulier des délais explorés dans la première passe.
9. Procédé selon la revendication 7, caractérisé en ce que l'on remplace dans la première passe la maximisation de E'(λ) = N(λ,)2/D(λ), où N(λ) et D(λ) représentent respectivement le numérateur et le dénominateur du gain optimal associé à chaque délai λ, par celle de N(λ).
10. Procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP selon la revendication 1, caractérisé en ce qu'on minimise l'énergie en considérant l'expression suivante du signal d'erreur :
Figure imgb0056
les points précédant le sous-bloc courant (tels que n < 0 si le sous-bloc courant commence à n=0) étant les points (n-λ) (λ éventuellement fractionnaire, éventuellement extrapolé).
11. Procédé d'analyse LTP en boucle fermée avec filtrage perceptuel, caractérisé en ce qu'on minimise l'énergie en considérant l'expression suivante du signal d'erreur:
Figure imgb0057
les points précédant le sous-bloc courant (tels n<0 si le sous-bloc courant commence à n=0) étant les points (n-λ) (λ éventuellement fractionnaire, éventuellement extrapolé).
EP94400525A 1993-03-12 1994-03-10 Dispositif de codage et de décodage numérique de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP Withdrawn EP0616315A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9302881A FR2702590B1 (fr) 1993-03-12 1993-03-12 Dispositif de codage et de décodage numériques de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP.
FR9302881 1993-03-12

Publications (1)

Publication Number Publication Date
EP0616315A1 true EP0616315A1 (fr) 1994-09-21

Family

ID=9444907

Family Applications (1)

Application Number Title Priority Date Filing Date
EP94400525A Withdrawn EP0616315A1 (fr) 1993-03-12 1994-03-10 Dispositif de codage et de décodage numérique de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP

Country Status (3)

Country Link
US (1) US5704002A (fr)
EP (1) EP0616315A1 (fr)
FR (1) FR2702590B1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5899966A (en) * 1995-10-26 1999-05-04 Sony Corporation Speech decoding method and apparatus to control the reproduction speed by changing the number of transform coefficients
EP1164578A2 (fr) * 1995-10-26 2001-12-19 Sony Corporation Procédé et dispositif de codage et décodage de la parole

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2729246A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
EP0788091A3 (fr) * 1996-01-31 1999-02-24 Kabushiki Kaisha Toshiba Procédé et dispositif de codage et décodage de parole
US6219641B1 (en) * 1997-12-09 2001-04-17 Michael V. Socaciu System and method of transmitting speech at low line rates
US6104994A (en) * 1998-01-13 2000-08-15 Conexant Systems, Inc. Method for speech coding under background noise conditions
JP2001109489A (ja) * 1999-08-03 2001-04-20 Canon Inc 音声情報処理方法、装置および記憶媒体
US6760698B2 (en) * 2000-09-15 2004-07-06 Mindspeed Technologies Inc. System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
CN112863539B (zh) * 2019-11-28 2024-04-16 科大讯飞股份有限公司 一种高采样率语音波形生成方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991003790A1 (fr) * 1989-09-01 1991-03-21 Motorola, Inc. Codeur de parole numerique a prediseur a long terme ameliore
EP0443548A2 (fr) * 1990-02-22 1991-08-28 Nec Corporation Codeur de parole
EP0523979A2 (fr) * 1991-07-19 1993-01-20 Motorola, Inc. Méthode et moyens pour le codage de la parole à faible débit

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61134000A (ja) * 1984-12-05 1986-06-21 株式会社日立製作所 音声分析合成方式
JP2903533B2 (ja) * 1989-03-22 1999-06-07 日本電気株式会社 音声符号化方式
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1991003790A1 (fr) * 1989-09-01 1991-03-21 Motorola, Inc. Codeur de parole numerique a prediseur a long terme ameliore
EP0443548A2 (fr) * 1990-02-22 1991-08-28 Nec Corporation Codeur de parole
EP0523979A2 (fr) * 1991-07-19 1993-01-20 Motorola, Inc. Méthode et moyens pour le codage de la parole à faible débit

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
KEMP ET AL.: "Multi-frame coding of LPC parameters at 600-800 bps", INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 91, vol. 1, 14 May 1991 (1991-05-14), TORONTO, ONTARIO, CA, pages 609 - 612, XP000245302, DOI: doi:10.1109/ICASSP.1991.150413 *
KLEIJN ET AL.: "Fast methods for the CELP speech coding algorithm", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. 38, no. 8, August 1990 (1990-08-01), NEW YORK, US, pages 1330 - 1342, XP000148377, DOI: doi:10.1109/29.57568 *
KROON ET AL.: "Pitch predictors with high temporal resolution", INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 90, vol. 2, 3 April 1990 (1990-04-03), ALBUQUERQUE, NM, US, pages 661 - 664 *
MARQUES ET AL.: "Pitch prediction with fractional delays in CELP coding", EUROPEAN CONFERENCE ON SPEECH COMMUNICATION AND TECHNOLOGY 89, vol. 2, 26 September 1989 (1989-09-26), PARIS, FR, pages 509 - 510 *
OZAWA: "A hybrid speech coding based on multi-pulse and CELP at 3.2kb/2", INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING 90, vol. 2, 3 April 1990 (1990-04-03), ALBUQUERQUE, NM, US, pages 677 - 680, XP000146860 *
PICARD ET AL.: "PCM code converter for two speech channels", NACHRICHTENTECHNISCHE ZEITSCHRIFT, vol. 33, no. 3, March 1980 (1980-03-01), DE, pages 150 - 155 *
REININGER ET AL.: "Prädiktive Sprachkodierung mit stochastischer Anregung", AEU ARCHIV FÜR ELEKTRONIK UND ÜBERTRAGUNGSTECHNIK, vol. 43, no. 5, September 1989 (1989-09-01), STUTTGART, DE, pages 307 - 312, XP000067790 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5899966A (en) * 1995-10-26 1999-05-04 Sony Corporation Speech decoding method and apparatus to control the reproduction speed by changing the number of transform coefficients
EP1164578A2 (fr) * 1995-10-26 2001-12-19 Sony Corporation Procédé et dispositif de codage et décodage de la parole
EP1164578A3 (fr) * 1995-10-26 2002-01-02 Sony Corporation Procédé et dispositif de codage et décodage de la parole

Also Published As

Publication number Publication date
US5704002A (en) 1997-12-30
FR2702590B1 (fr) 1995-04-28
FR2702590A1 (fr) 1994-09-16

Similar Documents

Publication Publication Date Title
EP0782128B1 (fr) Procédé d&#39;analyse par prédiction linéaire d&#39;un signal audiofréquence, et procédés de codage et de décodage d&#39;un signal audiofréquence en comportant application
EP1692689B1 (fr) Procede de codage multiple optimise
EP1145228B1 (fr) Codage de la parole periodique
EP0749626B1 (fr) Procede de codage de parole a prediction lineaire et excitation par codes algebriques
EP2254110B1 (fr) Dispositif de codage de signal stéréo, dispositif de décodage de signal stéréo et procédés associés
EP0428445B1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
EP0801790A1 (fr) Procede de codage de parole a analyse par synthese
WO1996021218A1 (fr) Procede de codage de parole a analyse par synthese
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
EP0685833B1 (fr) Procédé de codage de parole à prédiction linéaire
FR2784218A1 (fr) Procede de codage de la parole a bas debit
EP0616315A1 (fr) Dispositif de codage et de décodage numérique de la parole, procédé d&#39;exploration d&#39;un dictionnaire pseudo-logarithmique de délais LTP, et procédé d&#39;analyse LTP
US5812966A (en) Pitch searching time reducing method for code excited linear prediction vocoder using line spectral pair
WO2023165946A1 (fr) Codage et décodage optimisé d&#39;un signal audio utilisant un auto-encodeur à base de réseau de neurones
JPH09508479A (ja) バースト励起線形予測
FR2783651A1 (fr) Dispositif et procede de filtrage d&#39;un signal de parole, recepteur et systeme de communications telephonique
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP0796490B1 (fr) Methode et dispositif de prediction de signal pour un codeur de parole
EP1192618B1 (fr) Codage audio avec liftrage adaptif
EP1192621B1 (fr) Codage audio avec composants harmoniques
EP1194923B1 (fr) Procedes et dispositifs d&#39;analyse et de synthese audio
WO2002029786A1 (fr) Procede et dispositif de codage segmental d&#39;un signal audio
EP0454552A2 (fr) ProcédÀ© et dispositif de codage bas débit de la parole
EP1192620A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal
FR2980620A1 (fr) Traitement d&#39;amelioration de la qualite des signaux audiofrequences decodes

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE GB

17P Request for examination filed

Effective date: 19950223

17Q First examination report despatched

Effective date: 19980701

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 19990720