EP0685833B1 - Procédé de codage de parole à prédiction linéaire - Google Patents

Procédé de codage de parole à prédiction linéaire Download PDF

Info

Publication number
EP0685833B1
EP0685833B1 EP95401262A EP95401262A EP0685833B1 EP 0685833 B1 EP0685833 B1 EP 0685833B1 EP 95401262 A EP95401262 A EP 95401262A EP 95401262 A EP95401262 A EP 95401262A EP 0685833 B1 EP0685833 B1 EP 0685833B1
Authority
EP
European Patent Office
Prior art keywords
signal
state
short
quantization
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP95401262A
Other languages
German (de)
English (en)
Other versions
EP0685833A1 (fr
Inventor
Sophie Scott
William Navarro
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nortel Networks France SAS
Original Assignee
Matra Nortel Communications SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matra Nortel Communications SAS filed Critical Matra Nortel Communications SAS
Publication of EP0685833A1 publication Critical patent/EP0685833A1/fr
Application granted granted Critical
Publication of EP0685833B1 publication Critical patent/EP0685833B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Definitions

  • the present invention relates to a coding method linear prediction speech, in which a signal of speech digitized in successive frames is subjected to a analysis by synthesis to obtain, for each frame, quantification values of synthesis parameters used to reconstruct an estimate of the signal speech, analysis by synthesis including a prediction short-term linear speech signal to determine the coefficients of a short-term synthesis filter.
  • Low bit rate speech coders (typically 5 kbit / s for a sampling frequency of 8 kHz) give their best performance on signals presenting a "telephone" spectrum, that is to say in the 300-3400 band Hz and with a pre-emphasis in the frequencies high.
  • IRS Intermediate Reference System
  • This template has been defined for telephone handsets, both as input (microphone) than out (headphones).
  • the speech encoder input signal has a spectrum more "flat", for example when a hands-free installation is used, employing a frequency response microphone linear.
  • the usual vocoders are designed to be independent of the input with which they operate, and they are also not informed of the characteristics of this entry. If characteristic microphones different are likely to be connected to the vocoder, or more generally if the vocoder is likely to receive acoustic signals with different spectral characteristics, then there are cases where the vocoder is used sub-optimally.
  • a main purpose of this invention is to improve the performance of a vocoder by making them less dependent on spectral characteristics of the signal intended for it.
  • the invention provides a speech coding method of the type indicated at the beginning, in which a state is determined speech signal spectral among first and second states such that the signal contains proportionately less energy at low frequencies in the first state than in the second state, and we apply one or the other of two modes quantization to get quantization values coefficients of the following short-term synthesis filter the determined spectral state of the speech signal.
  • the detection of the spectral state allows to adapt the encoder to the characteristics of the input signal.
  • the performance of the encoder can be improved or, identical performance, we can reduce the number of bits necessary for coding.
  • the coefficients of the filter short-term synthesis are represented by a set of p frequency parameters of so-called ordered spectral lines "LSP parameters", p being the order of linear prediction.
  • LSP parameters ordered spectral lines
  • the distribution of these p LSP parameters can be analyzed to inform about the spectral state of the signal and to contribute upon detection of this state.
  • LSP parameters can be scalar or vector quantized.
  • the i-th LSP parameter is quantified by subdividing a variation interval included in a respective reference interval into 2 Ni segments, Ni being the number of coding bits devoted to the quantization of this parameter .
  • a first possibility is to use at least for the first ordered LSP parameters, reference intervals each chosen from two distinct intervals according to the determined spectral state of the speech signal.
  • An additional possibility is to give at least some numbers of coding bits Ni one or the other of two distinct values according to the determined spectral state of the speech signal, in order to effect a dynamic allocation of bits.
  • vector quantization differential we subdivide the set of p LSP parameters ordered in m groups of consecutive parameters, and, at least for the first group, we can perform a quantification differential with respect to an average vector chosen from two distinct vectors according to the determined spectral state of the speech signal.
  • the speech coder illustrated in FIG. 1A rests on the principle of analysis by synthesis. Its organization general is classic except for unit 8 of short term prediction and state detection unit 20 signal spectral.
  • the speech coder processes the amplified output signal from a microphone 5.
  • a low-pass filter 6 eliminates the frequency components of this signal above the upper limit (for example 4000 Hz) of the bandwidth processed by the coder .
  • the signal is then digitized by the analog-digital converter 7 which delivers the input signal S I in the form of successive frames of 10 to 30 ms consisting of samples taken at a rate of 8000 Hz for example.
  • the coefficients a i of this filter (1 ⁇ i ⁇ p) can be obtained by short-term linear prediction of the input signal, the number p designating the order of the linear prediction, which is typically equal to 10 for the narrowband speech.
  • the short-term prediction unit 8 determines estimates i of the coefficients a i which correspond to a quantification of these coefficients by quantization values q (a i ).
  • Each input signal frame S I is first subjected to the reverse filter 9 of transfer function A (z), then to a filter 10 of transfer function 1 / A (z / ⁇ ) where ⁇ denotes a predefined factor , generally between 0.8 and 0.9.
  • the combined filter thus constituted, of transfer function W (z) A (z) / A (z / ⁇ ), is a filter for perceptual weighting of the residual error of the coder.
  • the coefficients used in filters 9 and 10 are the estimates â i supplied by the short-term prediction unit 8.
  • the output R1 of the reverse filter 9 has a long-term periodicity, corresponding to the pitch of the speech.
  • the signal R1 is subjected to a reverse filter 11 of transfer function B (z) whose output R2 is supplied to the input of the filter 10.
  • the output S W of the filter 10 thus corresponds to the input signal S I cleared of its long-term correlation by the filter 11 of transfer function B (z), and weighted perceptually by the filters 9, 10 of combined transfer function W (z).
  • the filter 11 includes a subtractor whose input positive receives signal R1 and whose negative input receives a long-term estimate obtained by delaying the signal R1 of T samples and amplifying it.
  • the R1 signal as well that the long-term estimate are provided to a unit 13 which maximizes the correlation between these two signals to determine the optimal delay T and gain b.
  • Unit 13 explores all the whole and / or fractional values of the delay T between two terminals to select the one which maximizes the normalized correlation.
  • the gain b is deducted from the value of T, and is quantified by discretization, which leads to a quantization value q (b); the value quantized b and corresponding to this quantization value q (b) is that supplied as gain of the amplifier of the filter 11.
  • Speech synthesis in the coder is carried out in a closed loop comprising an excitation generator 12, a filter 14 having the same transfer function as the filter 10, a correlator 15, and a maximization unit 19 of the normalized correlation.
  • the nature of the excitation generator 12 makes it possible to distinguish between different types of coders with analysis by synthesis, according to the form of excitement.
  • MPLPC prediction analysis linear and multi-pulse excitation
  • CELP linear prediction analysis and vector excitation
  • the plaintiff used sequence excitation regular pulses or RPCELP, as described in his European patent application No. 0 347 307.
  • the excitation is represented by a input address k in a vector dictionary of excitation, and by an associated gain G.
  • the selected and amplified excitation vector is subjected to the filter 14 of transfer function 1 / A (z / ⁇ ), whose coefficients â i (1 ⁇ i ⁇ p) are provided by the short-term prediction unit 8 .
  • the resulting signal S W * is supplied to an input of the correlator 15, the other input of which receives the output signal S W of the filter 10.
  • the output of the correlator 15 consists of the normalized correlation which is maximized by the unit 19 , which amounts to minimizing the coding error.
  • the unit 19 selects the address k and the gain G of the excitation generator which maximize the correlation resulting from the correlator 15.
  • the maximization consists in determining the optimal address k, the gain G deducing from k.
  • the unit 19 operates a quantization by discretization of the digital value of the gain G, which leads to a quantization value q (G).
  • the quantized value G and corresponding to this quantization value q (G) is that which is supplied as the gain of the amplifier of the excitation generator 12.
  • the excitation vector selected in the dictionary of the generator 12, the associated gain G, the parameters b and T of the long-term filter 13, and the coefficients a i of the short-term prediction filter, to which is added a bit d state Y which will be described later, constitute the synthesis parameters, the quantization values of k, q (G), q (b), T, q (a i ), Y are transmitted to the receiver in order to reconstruct a estimation of the speech signal S I. These quantization values are combined on the same channel by the multiplexer 21 for transmission.
  • the associated decoder illustrated in FIG. 1B comprises a unit 50 which restores the quantized values k, G and, T, b and, â i on the basis of the quantization values received.
  • An excitation generator 52 identical to the generator 12 of the encoder receives the quantized values of the parameters k and G.
  • the output R and2 of the generator 52 (which is an estimate of R2) is subjected to the long-term prediction filter 53 of function of transfer 1 / B (z) whose coefficients are the quantized values of the parameters T and b.
  • the output R and1 of the filter 53 (which is an estimate of R1) is subjected to the short-term prediction filter 54 of transfer function 1 / A (z) whose coefficients are the quantized values of the parameters a i .
  • the resulting signal S and is the estimate of the input signal S I of the coder.
  • FIG. 2 shows an example of the constitution of the short-term prediction unit 8 of the coder.
  • the modeling coefficients a i are calculated for each frame, for example for the autocorrelation method.
  • Block 40 calculates the autocorrelations for 0 ⁇ j ⁇ p, n denoting the index of a sample of the current frame, and L the number of samples per frame.
  • the representation parameters thus obtained are quantized to reduce the number of bits necessary for their identification.
  • the two solid lines correspond to the framework of the IRS template, defined for microphones in CCITT Recommendation P48.
  • an IRS type microphone signal has a strong attenuation in the lower part of the spectrum (between 0 and 300 Hz) and a relative emphasis in the high frequencies.
  • a linear type signal provided by example through the microphone of a hands-free system presents a flatter spectrum, notably not having the strong attenuation at low frequencies (a typical example of such a linear type signal is illustrated by a line dashed on the diagram in Figure 3).
  • the detection device 20 comprises a high-pass filter 16 receiving the input acoustic signal S I and delivering a filtered signal S I '.
  • the filter 16 is typically a digital filter of the bi-quad type having an abrupt cutoff at 400 Hz.
  • the energies E1 and E2 contained in each frame of the acoustic input signal S I and of the filtered signal S I ' are calculated by two units 17, 18 each carrying out the sum of the squares of the samples of each frame which it receives.
  • the energy E1 of each frame of the input signal S I is sent to the input of a threshold comparator 25 which delivers a bit Z of value 0 when the energy E1 is less than a predetermined energy threshold, and of value 1 when the energy E1 is greater than the threshold.
  • the energy threshold is typically of the order of -38 dB relative to the signal saturation energy.
  • the comparator 25 serves to inhibit the determination of the state of the signal when the latter contains too little energy to be representative of the characteristics of the source. In this case, the determined state of the signal remains unchanged.
  • the energies E1 and E2 are sent to a digital divider 26 which calculates the ratio E2 / E1 for each frame.
  • This E2 / E1 ratio is sent to another threshold comparator 27 which delivers a bit X of value 0 when the E2 / E1 ratio is greater than a predetermined threshold, and of value 1 when the E2 / E1 ratio is less than the threshold.
  • This threshold on the E2 / E1 ratio is typically of the order of 0.93.
  • Bit X is representative of a signal condition on each frame.
  • the state bit Y is not taken directly equal to the condition bit X, but it results from a processing of successive condition bits X by a state determination circuit 29, which makes it possible to modify the determined state Y only after several successive frames show a signal condition X different from that corresponding to the previously determined state .
  • the operation of the state determination circuit 29 is illustrated in FIG. 5, where the upper timing diagram illustrates an example of evolution of the bit X supplied by the comparator 27.
  • the status bit Y (lower timing diagram) is initialized to 0 , because IRS characteristics are most frequently encountered.
  • variable V As soon as the variable V reaches a predetermined threshold (8 in the example considered), it is reset to 0 and the value of the bit Y is changed, so that it is determined that the signal has changed state.
  • a predetermined threshold 8 in the example considered
  • the signal is in state Y A up to frame M, in being Y B between frames M and N (change of signal source), then again in state Y A from frame N.
  • the above counting mode can for example be obtained by circuit 29 shown in FIG. 4.
  • This circuit includes a counter 32 on four bits, of which the bit most significant corresponds to the status bit Y, of which the three Least significant bits represent the counting variable V.
  • X and Y bits are supplied at the input of an OR gate EXCLUSIVE 33 whose output is addressed to the input incrementation of the counter 32 via a AND gate 34 whose other input receives the Z bit supplied by the threshold comparator 25.
  • the inverted output of the gate 33 is supplied to a decrementing input of the counter 32 via another AND gate 35 whose the other two inputs receive the Z bit respectively provided by comparator 25, and the output of an OR gate to three inputs 36 receiving the three least significant bits of the counter 32.
  • Counter 32 is arranged to split the pulses received on its decrement input when its least significant bit is 0 or when one at less than the next two bits is 1, as shown by the OR gate 37 in FIG. 4.
  • the circuit of determination 29 is not activated because AND gates 34, 35 prevent the value of counter 32 from being changed.
  • the status bit Y thus determined is supplied to the unit 8 short-term linear prediction to choose the mode for quantifying the coefficients of the synthesis filter at short term.
  • the parameters used to represent the coefficients a i of the short-term synthesis filter are the frequencies of spectral lines (LSF), or pairs of spectral lines (LSP). These parameters are known as having good statistical properties and as easily ensuring the stability of the synthesized filter (see N. Sugamura and F. Itakura: "Speech Analysis And Synthesis Method Developed At ECL In NTT: From LPC to LSP", Speech Communication, North Holland, Vol. 5, No. 2, 1986, pp. 199-215).
  • the LSP parameters are calculated by block 42 from the prediction coefficients a i obtained by block 41 by means of Chebyshev polynomials (see P. Kabal and RP Ramachandran: "The Computation Of Line Spectral Frequencies Using Chebyshev Polynomials", IEEE Trans. ASSP, Vol. 34, N ° 6, 1986 pp. 1419-1426). They can also be obtained directly from the autocorrelations of the signal, by the exploded Levinson algorithm (see P. Delsarte and Y. Genin: “The Split Levinson Algorithm", IEEE Trans. ASSP, Vol. 34, N ° 3, 1986).
  • Block 43 quantizes the LSF frequencies, or more precisely the cos2 ⁇ f i values, hereinafter called LSP parameters, comprised between -1 and +1, which simplifies the dynamic problems.
  • LSP parameters comprised between -1 and +1, which simplifies the dynamic problems.
  • the LSF frequency calculation method makes it possible to obtain them in the order of increasing frequencies, that is to say decreasing cosines.
  • m 3 independent vector quantifications, of dimensions respectively 3, 3 and 4, defining the LSP I groups (1,2,3), II (4,5,6) and III (7,8,9,10).
  • Each group is quantified in selecting from a respective quantification table prerecorded the vector presenting the Euclidean distance minimal with the parameters of this group.
  • For group I we define two quantization tables T I, 1 and T I, 2 disjoint with respective sizes 2 n1 and 2 n2 .
  • For group II two quantization tables T II, 1 and T II, 2 of respective sizes 2 p1 and 2 p2 having a common part are defined to reduce the necessary memory space.
  • For Group III defining a single quantization table T III size 2 q AD addresses I, AD II, AD III of the three vectors from three quantization tables for the three groups are the quantization values q (a i ) coefficients of the short-term synthesis filter, which are addressed to the multiplexer 21.
  • block 43 selects the tables T I, 2 and T II, 2 , the statistics of which are established to be representative of an input signal of linear type.
  • table T III is used in all cases, since the upper part of the spectrum is less sensitive to the differences between the IRS and linear characteristics.
  • the status bit Y is also supplied to the multiplexer 21.
  • a unit 45 calculates the estimates â i from the discretized values of the LSP parameters given by the three vectors selected.
  • the estimates â i thus obtained are supplied by the unit 45 to the short-term filters 9, 10 and 14 of the coder.
  • the same calculation is carried out by the restitution unit 50, the quantized cosine vectors being found from the quantization addresses AD I , AD II and AD III .
  • the decoder contains the same quantization tables as the coder, and their selection is made as a function of the status bit Y received.
  • the use of two families of quantification tables selected according to the spectral state Y has the advantage of provide better efficiency in terms of number of bits coding required. Indeed, the total number of bits used, for equal performance, for the quantification of parameters LSP in each case is less than the number of bits necessary when only one family of tables is used regardless of detection of the spectral state.
  • n1 8
  • block 43 can be arranged to perform differential vector quantization.
  • Each group of parameters I, II, III is then quantified differentially with respect to an average vector.
  • group I two distinct mean vectors V I, 1 and V I, 2 are defined and a table for quantifying the differences TD I.
  • group II two distinct mean vectors V II, 1 and V II, 2 are defined and a table for quantifying the differences TD II .
  • group III we define a single mean vector V III and a table for quantifying the differences TD III .
  • the average vectors V I, 1 and V II, 1 are established to be representative of an IRS type signal statistic, while the average vectors V I, 2 and V II, 2 are established to be representative of a statistic of linear type signals.
  • the advantage of this differential quantization is that it makes it possible to store, in the coder and in the decoder, only one quantization table per group.
  • the quantization values q (a i ) are the addresses of the three optimal difference vectors in the three tables, to which is added the bit Y determining which are the average vectors to be added to these difference vectors to restore the quantized LSP parameters.
  • each parameter is represented separately by the nearest quantized value.
  • cos2 ⁇ f i an upper bound M i and a lower bound m i , such that, on a large number of speech samples, approximately 90% of the encountered values of cos2 ⁇ f i are between m i and M i .
  • the reference interval between the two terminals is divided into 2 Ni equal segments, where Ni is the number of coding bits devoted to the quantization of the parameter cos2 ⁇ f i .
  • the frequency scheduling property f i is used to replace in certain cases the upper limit M i by the quantized value of the previous cosine c andos2 ⁇ f i-1 .
  • the quantization of cos2 ⁇ f i is carried out by subdividing the variation interval [m i , min ⁇ M i , c andos2 ⁇ f i-1 ⁇ ] into 2 Ni equal segments.
  • the detection of the spectral state of the signal makes it possible to define two families of reference intervals [m i, 1 , M i, 1 ] and [m i, 2 , M i, 2 ] for the first r parameters (1 ⁇ i ⁇ r ⁇ p).
  • Another possibility, which can supplement or replace the previous one, is to define for some of the parameters of the numbers of different Ni coding bits depending on whether the signal is IRS or linear. For a same total number of coding bits, one can in particular take lower Ni numbers in the IRS case than in the linear case for the first LSP parameters (the cosines the largest), since the dynamics of the first LSP parameters is reduced in the IRS case, the decrease in first Ni being offset by an increase in Ni relative to the last LSP parameters, which increases the fineness quantification of these latter parameters.
  • These different allocations of coding bits are stored at the both in the encoder and in the decoder, the LSP parameters can thus be found by examining the status bit Y.
  • the calculated LSP parameters can directly give a fairly precise idea of the spectral envelope of the speech signal.
  • the amplitude of the resonances located in the lower part of the spectrum is weaker than in the case linear. So, by analyzing the differences between the first consecutive LSF frequencies, it can be determined whether the signal input is more like IRS (large deviations) or linear (smaller deviations). This determination can be made for each signal frame to get the condition bit X which is then processed by a state determination circuit similar to circuit 29 of figure 4 to obtain the bit of state Y used by the quantization block 43.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

La présente invention concerne un procédé de codage de parole à prédiction linéaire, dans lequel un signal de parole numérisé en trames successives est soumis à une analyse par synthèse pour obtenir, pour chaque trame, des valeurs de quantification de paramètres de synthèse permettant de reconstituer une estimation du signal de parole, l'analyse par synthèse comprenant une prédiction linéaire à court terme du signal de parole pour déterminer les coefficients d'un filtre de synthèse à court terme.
Les codeurs de parole à bas débit (typiquement 5 kbit/s pour une fréquence d'échantillonnage de 8 kHz) actuels donnent leur meilleure performance sur des signaux présentant un spectre "téléphonique", c'est-à-dire dans la bande 300-3400 Hz et avec une préaccentuation dans les fréquences élevées. Ces caractéristiques spectrales correspondent au gabarit IRS (Intermediate Reference System) défini par le CCITT dans la Recommandation P48. Ce gabarit a été défini pour les combinés téléphoniques, aussi bien en entrée (microphone) qu'en sortie (écouteurs).
Cependant, il arrive de plus en plus fréquemment que le signal d'entrée d'un codeur de parole présente un spectre plus "plat", par exemple lorsqu'une installation mains libres est utilisée, employant un microphone à réponse en fréquence linéaire. Les vocodeurs habituels sont conçus pour être indépendants de l'entrée avec laquelle ils fonctionnent, et ils ne sont d'ailleurs pas informés des caractéristiques de cette entrée. Si des microphones de caractéristiques différentes sont susceptibles d'être raccordés au vocodeur, ou plus généralement si le vocodeur est susceptible de recevoir des signaux acoustiques présentant des caractéristiques spectrales différentes, il y a alors des cas où le vocodeur est utilisé de façon sous-optimale.
Dans ce contexte, un but principal de la présente invention est d'améliorer les performances d'un vocodeur en les rendant moins dépendantes des caractéristiques spectrales du signal qui lui est destiné.
L'invention propose un procédé de codage de parole du type indiqué au début, dans lequel on détermine un état spectral du signal de parole parmi des premier et second états tels que le signal contienne proportionnellement moins d'énergie aux basses fréquences dans le premier état que dans le second état, et on applique l'un ou l'autre de deux modes de quantification pour obtenir les valeurs de quantification des coefficients du filtre de synthèse à court terme suivant l'état spectral déterminé du signal de parole.
Ainsi, la détection de l'état spectral permet d'adapter le codeur aux caractéristiques du signal d'entrée. Les performances du codeur peuvent être améliorées ou, à performances identiques, on peut réduire le nombre de bits nécessaires au codage.
De préférence, les coefficients du filtre de synthèse à court terme sont représentés par un ensemble de p paramètres fréquentiels de lignes spectrales ordonnés, dits "paramètres LSP", p étant l'ordre de la prédiction linéaire. La distribution de ces p paramètres LSP peut être analysée pour renseigner sur l'état spectral du signal et contribuer à la détection de cet état.
Les paramètres LSP peuvent faire l'objet d'une quantification scalaire ou vectorielle. Dans le cas d'une quantification scalaire, on quantifie le i-ième paramètre LSP en subdivisant un intervalle de variation inclus dans un intervalle de référence respectif en 2Ni segments, Ni étant le nombre de bits de codage consacré à la quantification de ce paramètre. Une première possibilité est d'utiliser au moins pour les premiers paramètres LSP ordonnés, des intervalles de référence choisis chacun parmi deux intervalles distincts suivant l'état spectral déterminé du signal de parole. Une possibilité supplémentaire est de donner à certains au moins des nombres de bits de codage Ni l'une ou l'autre de deux valeurs distinctes suivant l'état spectral déterminé du signal de parole, pour effectuer une allocation dynamique de bits.
Dans le cas d'une quantification vectorielle directe, on subdivise l'ensemble des p paramètres LSP ordonnés en m groupes de paramètres consécutifs, et on peut quantifier au moins le premier groupe en sélectionnant dans une table de quantification un vecteur présentant une distance minimale avec les paramètres LSP dudit groupe, cette table étant choisie parmi deux tables de quantification distinctes suivant l'état spectral déterminé du signal de parole.
Dans le cas d'une quantification vectorielle différentielle, on subdivise l'ensemble des p paramètres LSP ordonnés en m groupes de paramètres consécutifs, et, au moins pour le premier groupe, on peut effectuer une quantification différentielle par rapport à un vecteur moyenne choisi parmi deux vecteurs distincts suivant l'état spectral déterminé du signal de parole.
D'autres particularités et avantages de la présente invention apparaítront dans la description ci-après d'exemples de réalisation préférés mais non limitatifs, en référence aux dessins annexés, dans lesquels :
  • les figures 1A et 1B sont des schémas synoptiques respectivement d'un codeur de parole à analyse par synthèse pour la mise en oeuvre de l'invention et d'un décodeur associé ;
  • la figure 2 est un schéma synoptique d'une unité de prédiction linéaire utilisable dans le codeur de la figure 1A ;
  • la figure 3 est un diagramme illustrant les caractéristiques d'un signal acoustique de type IRS et d'un signal de type linéaire ;
  • la figure 4 est un schéma d'un dispositif de détection de l'état spectral du signal, utilisable avec le codeur de la figure 1A ; et
  • la figure 5 montre des chronogrammes illustrant le mode de détection de l'état du signal par le dispositif de la figure 4.
Le codeur de parole illustré sur la figure 1A repose sur le principe de l'analyse par synthèse. Son organisation générale est classique sauf en ce qui concerne l'unité 8 de prédiction à court terme et l'unité 20 de détection de l'état spectral du signal.
Le codeur de parole traite le signal de sortie amplifié d'un microphone 5. Un filtre passe-bas 6 élimine les composantes fréquentielles de ce signal au-dessus de la limite supérieure (par exemple 4000 Hz) de la bande passante traitée par le codeur. Le signal est ensuite numérisé par le convertisseur analogique-numérique 7 qui délivre le signal d'entrée SI sous la forme de trames successives de 10 à 30 ms constituées d'échantillons prélevés à un cadence de 8000 Hz par exemple.
L'analyse par synthèse repose sur une modélisation du conduit vocal du locuteur par un filtre purement récursif de fonction de transfert H(z)= 1/A(z) où
Figure 00040001
Les coefficients ai de ce filtre (1 ≤ i ≤ p) peuvent être obtenus par prédiction linéaire à court terme du signal d'entrée, le nombre p désignant l'ordre de la prédiction linéaire, qui est typiquement égal à 10 pour de la parole à bande étroite. L'unité 8 de prédiction à court terme détermine des estimations âi des coefficients ai qui correspondent à une quantification de ces coefficients par des valeurs de quantification q(ai).
Chaque trame de signal d'entrée SI est d'abord soumise au filtre inverse 9 de fonction de transfert A(z), puis à un filtre 10 de fonction de transfert 1/A(z/γ) où γ désigne un facteur prédéfini, généralement compris entre 0,8 et 0,9. Le filtre combiné ainsi constitué, de fonction de transfert W(z) = A(z)/A(z/γ), est un filtre de pondération perceptuelle de l'erreur résiduelle du codeur. Les coefficients utilisés dans les filtres 9 et 10 sont les estimations âi délivrées par l'unité 8 de prédiction à court terme.
La sortie R1 du filtre inverse 9 possède une périodicité à long terme, correspondant à la hauteur tonale (pitch) de la parole. Dans l'exemple considéré, on modélise le filtre correspondant par une fonction de transfert de la forme 1/B(z) avec B(z) = 1 - bz-T. Le signal R1 est soumis à un filtre inverse 11 de fonction de transfert B(z) dont la sortie R2 est fournie à l'entrée du filtre 10. La sortie SW du filtre 10 correspond ainsi au signal d'entrée SI débarrassé de sa corrélation à long terme par le filtre 11 de fonction de transfert B(z), et pondéré perceptuellement par les filtres 9, 10 de fonction de transfert combinée W(z).
Le filtre 11 comprend un soustracteur dont l'entrée positive reçoit le signal R1 et dont l'entrée négative reçoit une estimation à long terme obtenue en retardant le signal R1 de T échantillons et en l'amplifiant. Le signal R1 ainsi que l'estimation à long terme sont fournis à une unité 13 qui maximise la corrélation entre ces deux signaux pour déterminer le retard T et le gain b optimaux. L'unité 13 explore toutes les valeurs entières et/ou fractionnaires du retard T entre deux bornes pour sélectionner celui qui maximise la corrélation normalisée. Le gain b se déduit de la valeur de T, et est quantifié par discrétisation, ce qui conduit à une valeur de quantification q(b) ; la valeur quantifiée b and correspondant à cette valeur de quantification q(b) est celle fournie comme gain de l'amplificateur du filtre 11.
La synthèse de parole dans le codeur s'effectue dans une boucle fermée comprenant un générateur d'excitation 12, un filtre 14 ayant la même fonction de transfert que le filtre 10, un corrélateur 15, et une unité 19 de maximisation de la corrélation normalisée.
La nature du générateur d'excitation 12 permet de distinguer entre différents types de codeur à analyse par synthèse, suivant la forme de l'excitation. On distingue ainsi les procédés de codage à analyse par prédiction linéaire et excitation multi-impulsionnelle (MPLPC), dont un exemple est donné dans le document EP-A-0 195 487, et les procédés de codage à analyse par prédiction linéaire et excitation vectorielle (CELP), réputés avoir de bonnes performances lorsqu'un faible débit binaire est requis, dont un exemple est donné dans l'article de Schroeder et Atal "Code Excited Linear Prediction (CELP) : High Quality Speech At Very Low Bits Rates", Proc. ICASSP, Mars 1985, pp. 937-940. Ces différentes façons de modéliser l'excitation sont utilisables dans le cadre de la présente invention. La demanderesse a utilisé une excitation par séquences d'impulsions régulières, ou RPCELP, telle que décrite dans sa demande de brevet européen N° 0 347 307. S'agissant d'un codeur de type CELP, l'excitation est représentée par une adresse d'entrée k dans un dictionnaire de vecteurs d'excitation, et par un gain associé G.
Le vecteur d'excitation sélectionné et amplifié est soumis au filtre 14 de fonction de transfert 1/A(z/γ), dont les coefficients âi (1 ≤ i ≤ p) sont fournis par l'unité 8 de prédiction à court terme. Le signal résultant SW* est fourni à une entrée du corrélateur 15, dont l'autre entrée reçoit le signal de sortie SW du filtre 10. La sortie du corrélateur 15 est constituée par la corrélation normalisée qui est maximisée par l'unité 19, ce qui revient à minimiser l'erreur de codage. L'unité 19 sélectionne l'adresse k et le gain G du générateur d'excitation qui maximisent la corrélation issue du corrélateur 15. La maximisation consiste à déterminer l'adresse k optimale, le gain G se déduisant de k. L'unité 19 opère une quantification par discrétisation de la valeur numérique du gain G, ce qui conduit à une valeur de quantification q(G). La valeur quantifiée G and correspondant à cette valeur de quantification q(G) est celle qui est fournie comme gain de l'amplificateur du générateur d'excitation 12. La corrélation maximisée prend en compte la pondération perceptuelle par la fonction de transfert W(z)=A(z)/A(z/γ), étant observé que cette fonction de transfert est appliquée au signal d'entrée SI par les filtres 9 et 10, ainsi qu'au signal synthétisé à partir du vecteur d'excitation, puisque le signal SW* peut être considéré comme résultant du vecteur d'excitation amplifié auquel sont appliquées successivement les fonctions de transfert H(z)=1/A(z) du filtre de synthèse à court terme, et W(z)=A(z)/A(z/γ) du filtre de pondération perceptuelle.
Le vecteur d'excitation sélectionné dans le dictionnaire du générateur 12, le gain G associé, les paramètres b et T du filtre à long terme 13, et les coefficients ai du filtre de prédiction à court terme, auxquels s'ajoute un bit d'état Y qui sera décrit plus loin, constituent les paramètres de synthèse dont les valeurs de quantification k, q(G), q(b), T, q(ai), Y sont émises vers le récepteur pour permettre de reconstituer une estimation du signal de parole SI. Ces valeurs de quantification sont réunies sur un même canal par le multiplexeur 21 en vue de l'émission.
Le décodeur associé illustré sur la figure 1B comprend une unité 50 qui restitue les valeurs quantifiées k, G and, T, b and, âi sur la base des valeurs de quantification reçues. Un générateur d'excitation 52 identique au générateur 12 du codeur reçoit les valeurs quantifiées des paramètres k et G. La sortie R and2 du générateur 52 (qui est une estimation de R2) est soumise au filtre de prédiction à long terme 53 de fonction de transfert 1/B(z) dont les coefficients sont les valeurs quantifiées des paramètres T et b. La sortie R and1 du filtre 53 (qui est une estimation de R1) est soumise au filtre de prédiction à court terme 54 de fonction de transfert 1/A(z) dont les coefficients sont les valeurs quantifiées des paramètres ai. Le signal résultant S and est l'estimation du signal d'entrée SI du codeur.
La figure 2 montre une exemple de constitution de l'unité 8 de prédiction à court terme du codeur. Les coefficients de modélisation ai sont calculés pour chaque trame, par exemple pour la méthode des autocorrélations. Le bloc 40 calcule les autocorrélations
Figure 00080001
pour 0 ≤ j ≤ p, n désignant l'indice d'un échantillon de la trame courante, et L le nombre d'échantillons par trame. De façon classique, ces autocorrélations permettent un calcul récursif des coefficients ai optimaux au moyen de l'algorithme de Levinson-Durbin (voir J. Makhoul: "Linear Prediction: A Tutorial Review", Proc. IEEE, Vol. 63, N°4, Avril 1975 pp. 561-580), qui peut s'exprimer de la façon suivante :
E(0) = R(0)
Pour i = 1 à p faire :
Figure 00080002
La solution finale obtenue par le bloc 41 est donnée par : ai = ai (p) pour 1 ≤ i ≤ p. Dans l'algorithme ci-dessus, la quantité E(p) est l'erreur résiduelle de la prédiction linéaire, et les quantités ki, comprises entre -1 et +1 sont appelées coefficients de réflexion.
En vue de la transmission des coefficients obtenus, on peut les représenter par différents paramètres à quantifier : les coefficients de prédiction eux-mêmes ai, les coefficients de réflexion ki, ou encore les rapports logarithmiques LAR donnés par : LARi = log10[(1+ki )/(1-ki )]
Les paramètres de représentation ainsi obtenus sont quantifiés pour réduire le nombre de bits nécessaires à leur identification.
L'invention propose de déterminer l'état spectral du signal de parole parmi un premier état YA (Y = 0, type IRS) et un second état YB (Y = 1, type linéaire) tels que le signal contienne proportionnellement moins d'énergie aux basses fréquences dans l'état YA que dans l'état YB, et d'appliquer l'un ou l'autre de deux modes de quantification distincts pour obtenir les valeurs de quantification des coefficients du filtre de synthèse à court terme suivant l'état spectral déterminé.
Sur la figure 3, les deux lignes en traits pleins correspondent à l'encadrement du gabarit IRS, défini pour des microphones dans la Recommandation P48 du CCITT. On voit qu'un signal de microphone de type IRS présente une forte atténuation dans la partie basse du spectre (entre 0 et 300 Hz) et une relative accentuation dans les hautes fréquences. En comparaison, un signal de type linéaire, fourni par exemple par le microphone d'une installation mains libres présente un spectre plus plat, n'ayant notamment pas la forte atténuation aux basses fréquences (un exemple typique d'un tel signal de type linéaire est illustré par une ligne en tirets sur le diagramme de la figure 3).
On tire parti de ces propriétés spectrales dans le dispositif de détection 20, représenté sur la figure 1A et détaillé sur la figure 4, qui délivre trame par trame le bit d'état Y.
Le dispositif de détection 20 comprend un filtre passe-haut 16 recevant le signal acoustique d'entrée SI et délivrant un signal filtré SI'. Le filtre 16 est typiquement un filtre numérique de type bi-quad ayant une coupure abrupte à 400 Hz. Les énergies E1 et E2 contenues dans chaque trame du signal acoustique d'entrée SI et du signal filtré SI' sont calculées par deux unités 17, 18 effectuant chacune la somme des carrés des échantillons de chaque trame qu'elle reçoit.
L'énergie E1 de chaque trame du signal d'entrée SI est adressée à l'entrée d'un comparateur à seuil 25 qui délivre un bit Z de valeur 0 lorsque l'énergie E1 est inférieure à un seuil d'énergie prédéterminé, et de valeur 1 lorsque l'énergie E1 est supérieure au seuil. Le seuil d'énergie est typiquement de l'ordre de -38 dB par rapport à l'énergie de saturation du signal. Le comparateur 25 sert à inhiber la détermination de l'état du signal lorsque celui-ci contient trop peu d'énergie pour être représentatif des caractéristiques de la source. Dans ce cas, l'état déterminé du signal reste inchangé.
Les énergies E1 et E2 sont adressées à un diviseur numérique 26 qui calcule le rapport E2/E1 pour chaque trame. Ce rapport E2/E1 est adressé à un autre comparateur à seuil 27 qui délivre un bit X de valeur 0 lorsque le rapport E2/E1 est supérieur à un seuil prédéterminé, et de valeur 1 lorsque le rapport E2/E1 est inférieur au seuil. Ce seuil sur le rapport E2/E1 est typiquement de l'ordre de 0,93. Le bit X est représentatif d'une condition du signal sur chaque trame. La condition X = 0 correspond aux caractéristiques IRS du signal d'entrée (état YA), et la condition X = 1 correspond aux caractéristiques linéaires (état YB). Pour éviter des changements d'état répétés et intempestifs à l'occasion des variations à court terme de l'excitation vocale, le bit d'état Y n'est pas pris directement égal au bit de condition X, mais il résulte d'un traitement des bits de condition successifs X par un circuit 29 de détermination d'état, qui permet de ne modifier l'état déterminé Y qu'après que plusieurs trames successives montrent une condition de signal X différente de celle correspondant à l'état précédemment déterminé.
Le fonctionnement du circuit 29 de détermination d'état est illustré sur la figure 5, où le chronogramme supérieur illustre un exemple d'évolution du bit X fourni par le comparateur 27. Le bit d'état Y (chronogramme inférieur) est initialisé à 0, car les caractéristiques IRS sont le plus fréquemment rencontrées. On calcule trame après trame une variable de comptage V initialement mise à 0. La variable V est incrémentée d'une unité chaque fois que la condition X du signal sur une trame diffère de celle correspondant à l'état déterminé Y (X = 1 et Y = 0, ou X = 0 et Y = 1). Dans le cas contraire (X = Y = 0 ou 1) la variable V est décrémentée de deux unités si elle est différente de 0 et de 1, décrémentée d'une unité si elle est égale à 1, et maintenue inchangée si elle est égale à 0. Dès que la variable V atteint un seuil prédéterminé (8 dans l'exemple considéré), on la remet à 0 et on change la valeur du bit Y, de sorte qu'on détermine que le signal a changé d'état. Ainsi, dans l'exemple représenté sur la figure 5, le signal est dans l'état YA jusqu'à la trame M, dans l'étant YB entre les trames M et N (changement de la source de signal), puis de nouveau dans l'état YA à partir de la trame N. Bien entendu, d'autres modes d'incrémentation et de décrémentation et d'autres valeurs de seuil seraient utilisables.
Le mode de comptage ci-dessus peut par exemple être obtenu par le circuit 29 représenté sur la figure 4. Ce circuit comprend un compteur 32 sur quatre bits, dont le bit de poids fort correspond au bit d'état Y, et dont les trois bits de poids faible représentent la variable de comptage V. Les bits X et Y sont fournis à l'entrée d'une porte OU EXCLUSIF 33 dont la sortie est adressée à l'entrée d'incrémentation du compteur 32 par l'intermédiaire d'une porte ET 34 dont l'autre entrée reçoit le bit Z fourni par le comparateur à seuil 25. Ainsi, la variable V est incrémentée lorsque X ≠ Y et Z = 1. La sortie inversée de la porte 33 est fournie à une entrée de décrémentation du compteur 32 par l'intermédiaire d'une autre porte ET 35 dont les deux autres entrées reçoivent respectivement le bit Z fourni par le comparateur 25, et la sortie d'une porte OU à trois entrées 36 recevant les trois bits de poids faible du compteur 32. Le compteur 32 est agencé pour dédoubler les impulsions reçues sur son entrée de décrémentation lorsque son bit de poids le plus faible vaut 0 ou lorsque l'un au moins des deux bits suivants vaut 1, comme schématisé par la porte OU 37 sur la figure 4. Ainsi, le compteur 32 est décrémenté (d'une unité si V = 1 et de deux unités si V > 1) lorsque X = Y et Z = 1 et V ≠ 0. Lorsque l'énergie du signal d'entrée est insuffisante, on a Z = 0 et le circuit de détermination 29 n'est pas activé car les portes ET 34, 35 empêchent de modifier la valeur du compteur 32.
Le bit d'état Y ainsi déterminé est fourni à l'unité 8 de prédiction linéaire à court terme pour choisir le mode de quantification des coefficients du filtre de synthèse à court terme.
Dans l'exemple préféré illustré sur la figure 2, les paramètres utilisés pour représenter les coefficients ai du filtre de synthèse à court terme sont les fréquences de lignes spectrales (LSF), ou paires de lignes spectrales (LSP). Ces paramètres sont connus comme ayant de bonnes propriétés statistiques et comme assurant aisément la stabilité du filtre synthétisé (voir N. Sugamura et F. Itakura : "Speech Analysis And Synthesis Method Developed At ECL In NTT : From LPC to LSP", Speech Communication, North Holland, Vol. 5, N° 2, 1986, pp. 199-215). Les paramètres LSP sont obtenus à partir des polynômes Q(z) et Q*(z) définis ci-dessous : Q(z) = A(z) + z-(p+1) x A(z-1) Q*(z) = A(z) - z-(p+1) x A(z-1)
On démontre que les racines complexes de ces deux polynômes sont sur le cercle unité et que, lorsqu'on parcourt le cercle unité, les racines de Q(z) alternent avec celles de Q*(z). Les p racines autres que z = +1 et z = -1 s'écrivent e2πjfi avec j2 = -1, les p fréquences fi étant définies comme les fréquences de lignes spectrales normalisées relativement à la fréquence d'échantillonnage. Les fréquences normalisées fi sont comprises entre 0 et 0,5 et sont ordonnées de façon que chaque paire de fréquences consécutives comprenne une fréquence correspondant à une racine de Q(z) et une fréquence correspondant à une racine de Q*(z). Dans cette modélisation, les lignes spectrales d'une paire encadrent un formant du signal de parole, et leur distance est inversement proportionnelle à l'amplitude de la résonance de ce formant.
Les paramètres LSP sont calculés par le bloc 42 à partir des coefficients de prédiction ai obtenus par le bloc 41 au moyen des polynômes de Chebyshev (voir P. Kabal et R.P. Ramachandran :"The Computation Of Line Spectral Frequencies Using Chebyshev Polynomials", IEEE Trans. ASSP, Vol. 34, N°6, 1986 pp. 1419-1426). Ils peuvent également être obtenus directement à partir des autocorrélations du signal, par l'algorithme de Levinson éclaté (voir P. Delsarte et Y.Genin : "The Split Levinson Algorithm", IEEE Trans. ASSP, Vol. 34, N°3, 1986).
Le bloc 43 effectue la quantification des fréquences LSF, ou plus précisément des valeurs cos2πfi, ci-après appelées paramètres LSP, comprises entre -1 et +1, ce qui simplifie les problèmes de dynamique. La méthode de calcul des fréquences LSF permet de les obtenir dans l'ordre des fréquences croissantes, c'est-à-dire des cosinus décroissants.
Il existe pour ces paramètres LSP deux grandes familles de méthodes de quantification : la quantification scalaire où chaque paramètre est représenté séparément par la valeur quantifiée la plus proche ; et la quantification vectorielle, qui s'effectue sur un ou plusieurs groupes de paramètres, pour chacun desquels on cherche dans un dictionnaire multidimensionnel le vecteur le plus approchant.
Dans le cas d'une quantification vectorielle pour une analyse LPC d'ordre p=10, on effectue par exemple m = 3 quantifications vectorielles indépendantes, de dimensions respectives 3, 3 et 4, définissant les groupes LSP I(1,2,3), II(4,5,6) et III(7,8,9,10). Chaque groupe est quantifié en sélectionnant dans une table de quantification respective préenregistrée le vecteur présentant la distance euclidienne minimale avec les paramètres de ce groupe.
Pour le groupe I, on définit deux tables de quantification TI,1 et TI,2 disjointes de tailles respectives 2n1 et 2n2. Pour le groupe II, on définit deux tables de quantification TII,1 et TII,2 de tailles respectives 2p1 et 2p2 ayant une partie commune pour réduire l'espace mémoire nécessaire. Pour le groupe III, on définit une table de quantification unique TIII de taille 2q Les adresses ADI, ADII, ADIII des trois vecteurs issus de trois tables de quantification relatives aux trois groupes constituent les valeurs de quantification q(ai) des coefficients du filtre de synthèse à court terme, qui sont adressées au multiplexeur 21. Le bloc 43, qui opère la quantification des paramètres LSP, sélectionne les tables TI,1 et TII,1 pour rechercher les vecteurs de quantification des groupes I et II lorsque Y = 0 (signal de type IRS). En conséquence, on construit les échantillons des tables TI,1 et TII,1 de façon que leurs statistiques soient optimisées pour la quantification d'un signal de type de IRS. Lorsque Y = 1 (état linéaire), le bloc 43 sélectionne les tables TI,2 et TII,2, dont la statistique est établie pour être représentative d'un signal d'entrée de type linéaire. Pour le groupe III, la table TIII est utilisée dans tous les cas, car la partie haute du spectre est moins sensible aux différences entre les caractéristiques IRS et linéaire. Le bit d'état Y est également fourni au multiplexeur 21.
Une unité 45 calcule les estimations âi à partir des valeurs discrétisées des paramètres LSP données par les trois vecteurs retenus. Les paramètres LSP cos2πfi permettent aisément de déterminer les coefficients du filtre de synthèse à court terme étant donné que
Figure 00150001
Figure 00150002
et A(z) = [Q(z)+Q*(z)]/2
Les estimations âi ainsi obtenues sont fournies par l'unité 45 aux filtres à court terme 9, 10 et 14 du codeur. Dans le décodeur, le même calcul est effectué par l'unité de restitution 50, les vecteurs de cosinus quantifiés étant retrouvés à partir des adresses de quantification ADI, ADII et ADIII. Le décodeur contient les mêmes tables de quantification que le codeur, et leur sélection s'effectue en fonction du bit d'état Y reçu.
Outre l'optimisation des performances du codeur, l'utilisation de deux familles de tables de quantification sélectionnées suivant l'état spectral Y a l'avantage de procurer une meilleure efficacité en termes de nombre de bits de codage requis. En effet, le nombre total de bits utilisés, à performance égale, pour la quantification des paramètres LSP dans chacun des cas est inférieur au nombre de bits nécessaires lorsqu'une seule famille de tables est utilisée indépendamment d'une détection de l'état spectral. Dans le cas typique où n1 = 8, n2 = 7, p1 = 9, p2 = 10 et q = 8, le nombre de bits nécessaires au codage des paramètres LSP vaut n1 + p1 + q + 1 = 26 lorsque Y = 0, et n2 + p2 + q + 1 = 26 lorsque Y = 1 (ce qui assure le même débit global), tandis que, pour obtenir une statistique aussi riche sans faire appel à l'état Y, il faudrait au moins n + p + q = 10 + 11 + 8 = 29 bits d'adressage.
En variante, le bloc 43 peut être agencé pour effectuer une quantification vectorielle différentielle. Chaque groupe de paramètres I, II, III est alors quantifié différentiellement par rapport à un vecteur moyenne. Pour le groupe I, on définit deux vecteurs moyenne distincts VI,1 et VI,2 et une table de quantification des différences TDI. Pour le groupe II, on définit deux vecteurs moyenne distincts VII,1 et VII,2 et une table de quantification des différences TDII. Pour le groupe III, on définit un unique vecteur moyenne VIII et une table de quantification des différences TDIII. Les vecteurs moyenne VI,1 et VII,1 sont établis pour être représentatifs d'une statistique de signaux de type IRS, tandis que les vecteurs moyenne VI,2 et VII,2 sont établis pour être représentatifs d'une statistique de signaux de type linéaire. Le bloc 43 opère la quantification différentielle des groupes I et II par rapport aux vecteurs VI,1 et VII,1 lorsque Y = 0 (état IRS) et par rapport aux vecteurs VI,2 et VII,2 lorsque Y = 1 (état linéaire). L'avantage de cette quantification différentielle est qu'elle permet de ne stocker, dans le codeur et dans le décodeur, qu'une seule table de quantification par groupe. Les valeurs de quantification q(ai) sont les adresses des trois vecteurs-différence optimaux dans les trois tables, auxquelles s'ajoute le bit Y déterminant quels sont les vecteurs moyenne à ajouter à ces vecteurs-différence pour restituer les paramètres LSP quantifiés.
Lorsqu'on procède à une quantification scalaire, chaque paramètre est représenté séparément par la valeur quantifiée la plus proche. On définit pour chaque paramètre LSP cos2πfi une borne supérieure Mi et une borne inférieure mi, telles que, sur un grand nombre d'échantillons de parole, environ 90% des valeurs rencontrées de cos2πfi soient comprises entre mi et Mi. L'intervalle de référence entre les deux bornes est divisé en 2Ni segments égaux, où Ni est le nombre de bits de codage consacré à la quantification du paramètre cos2πfi. Après avoir quantifié le premier paramètre LSP cos2πf1, on utilise la propriété d'ordonnancement des fréquences fi pour remplacer dans certains cas la borne supérieure Mi par la valeur quantifiée du cosinus précédent c andos2πfi-1. En d'autres termes, pour 1 < i ≤ p, on effectue la quantification de cos2πfi en subdivisant en 2Ni segments égaux l'intervalle de variation [mi, min{Mi, c andos2πfi-1}]. La quantification d'un paramètre LSP cos2πfi dans son intervalle de variation consiste à déterminer le nombre ni de Ni bits tel que cos2πfi soit dans le ni-ième segment de l'intervalle de référence (si cos2πfi < mi, on prend ni = 1).
La détection de l'état spectral du signal permet de définir deux familles d'intervalles de référence [mi,1,Mi,1] et [mi,2,Mi,2] pour les r premiers paramètres (1 ≤ i ≤ r ≤ p). La famille [mi,1,Mi,1] est établie statistiquement à partir d'échantillons de signaux de type IRS, et est sélectionnée pour procéder à la quantification lorsque Y = 0 (état IRS). La famille [mi,2,Mi,2] est établie statistiquement à partir d'échantillons de signaux de type linéaire et est sélectionnée pour procéder à la quantification lorsque Y = 1 (état linéaire). Ces deux familles sont mémorisées à la fois dans le codeur et dans le décodeur.
Une autre possibilité, qui peut compléter ou remplacer la précédente, consiste à définir pour certains des paramètres des nombres de bits de codage Ni différents suivant que le signal est de type IRS ou linéaire. Pour un même nombre total de bits de codage, on peut notamment prendre des nombres Ni plus faibles dans le cas IRS que dans le cas linéaire pour les premiers paramètres LSP (les cosinus les plus grands), étant donné que la dynamique des premiers paramètres LSP est réduite dans le cas IRS, la diminution des premiers Ni étant compensée par une augmentation des Ni relatifs aux derniers paramètres LSP, ce qui augmente la finesse de quantification de ces derniers paramètres. Ces différentes allocations des bits de codage sont mémorisées à la fois dans le codeur et dans le décodeur, les paramètres LSP pouvant ainsi être retrouvés en examinant le bit d'état Y.
En remplacement ou en complément du dispositif 20, on peut se servir des paramètres LSP calculés pour déterminer quel est l'état spectral Y du signal d'entrée. Ceci est illustré par le bloc 44 sur la figure 2. En effet, les lignes spectrales de chaque paire encadrent un formant du signal de parole, et leur distance est inversement proportionnelle à l'amplitude de la résonance. On voit qu'ainsi les paramètres LSP peuvent donner directement une idée assez précise de l'enveloppe spectrale du signal de parole. Dans le cas d'un signal de type IRS, l'amplitude des résonances situées dans la partie basse du spectre est plus faible que dans le cas linéaire. Ainsi, en analysant les écarts entre les premières fréquences LSF consécutives, on peut déterminer si le signal d'entrée est plutôt de type IRS (écarts grands) ou linéaire (écarts plus petits). Cette détermination peut s'effectuer pour chaque trame de signal pour obtenir le bit de condition X qu'on traite ensuite par un circuit de détermination d'état semblable au circuit 29 de la figure 4 pour obtenir le bit d'état Y utilisé par le bloc de quantification 43.

Claims (13)

  1. Procédé de codage de parole à prédiction linéaire, dans lequel un signal de parole (SI) numérisé en trames successives est soumis à une analyse par synthèse pour obtenir, pour chaque trame, des valeurs de quantification de paramètres de synthèse (ai,b,T,k,G) permettant de reconstituer une estimation (S and) du signal de parole, et on émet lesdites valeurs de quantification, l'analyse par synthèse comprenant une prédiction linéaire à court terme du signal de parole pour déterminer les valeurs de quantification des coefficients d'un filtre de synthèse à court terme, caractérisé en ce qu'on détermine un état spectral (Y) du signal de parole parmi des premier et second états (YA,YB) tels que le signal contienne proportionnellement moins d'énergie aux basses fréquences dans le premier état que dans le second état, et on applique l'un ou l'autre de deux modes de quantification pour obtenir les valeurs de quantification des coefficients du filtre de synthèse à court terme suivant l'état spectral déterminé (Y) du signal de parole.
  2. Procédé selon la revendication 1, caractérisé en ce qu'on ne modifie pas l'état déterminé (Y) du signal de parole lorsqu'il a une énergie inférieure à un seuil prédéterminé.
  3. Procédé selon la revendication 1 ou 2, caractérisé en ce qu'on détecte trame par trame si le signal est dans une première condition correspondant au premier état (YA) ou dans une seconde condition correspondant au second état (YB), et on détermine l'état (Y) du signal sur la base des conditions trame par trame (X), en ne modifiant l'état déterminé qu'après que plusieurs trames successives montrent une condition de signal différente de celle correspondant à l'état précédemment déterminé.
  4. Procédé selon la revendication 3, caractérisé en ce qu'on incrémente une variable de comptage (V) lorsque la condition (X) du signal sur une trame diffère de celle correspondant à l'état déterminé (Y) du signal, en ce qu'on décrémente cette variable de comptage (V) lorsque la condition du signal sur une trame est celle correspondant à l'état déterminé du signal sauf si cette variable vaut zéro, et en ce que, lorsque la variable de comptage (V) atteint un seuil prédéterminé, on la remet à zéro et on détermine que le signal a changé d'état.
  5. Procédé selon la revendication 3 ou 4, caractérisé en ce qu'on soumet le signal de parole (SI) à un filtrage passe-haut, on compare l'énergie (E2) du signal filtré passe-haut (SI') à celle (E1) du signal non filtré pour déterminer trame par trame si le signal est dans la première condition, pour laquelle l'énergie du signal filtré passe-haut est supérieure à une fraction prédéterminée de l'énergie du signal non filtré, ou dans la seconde condition, pour laquelle l'énergie du signal filtré passe-haut est inférieure à la fraction prédéterminée de l'énergie du signal non filtré.
  6. Procédé selon la revendication 3 ou 4, caractérisé en ce que les coefficients (ai) du filtre de synthèse à court terme sont représentés par un ensemble de fréquences de lignes spectrales (fi), et en ce qu'on analyse la distribution des fréquences de lignes spectrales dans chaque trame du signal de parole (SI) pour détecter si le signal est dans la première ou la seconde condition.
  7. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que les coefficients (ai) du filtre de synthèse à court terme sont représentés par un ensemble de p paramètres fréquentiels de lignes spectrales ordonnés (cos2πfi), subdivisé en m groupes de paramètres fréquentiels consécutifs, p étant l'ordre de la prédiction linéaire à court terme et m étant un nombre entier supérieur ou égal à 1, et en ce qu'au moins le premier groupe est quantifié différentiellement par rapport à un vecteur moyenne choisi parmi deux vecteurs distincts (VI,1,VI,2) suivant l'état spectral déterminé (Y) du signal de parole.
  8. Procédé selon la revendication 7, caractérisé en ce que le nombre m est égal à 3, et en ce que chacun des deux premiers groupes de paramètres fréquentiels consécutifs est quantifié différentiellement par rapport à un vecteur moyenne respectif choisi parmi deux vecteurs distincts respectifs suivant l'état spectral déterminé (Y) du signal de parole.
  9. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que les coefficients (ai) du filtre de synthèse à court terme sont représentés par un ensemble de p paramètres fréquentiels de lignes spectrales ordonnés (cos2πfi), subdivisé en m groupes de paramètres fréquentiels consécutifs, p étant l'ordre de la prédiction linéaire à court terme et m étant un nombre entier supérieur ou égal à 1, et en ce qu'au moins le premier groupe est quantifié en sélectionnant dans une table de quantification un vecteur présentant une distance minimale avec les paramètres fréquentiels dudit groupe, cette table de quantification étant choisie parmi deux tables distinctes (TI,1, TI,2) suivant l'état spectral déterminé (Y) du signal de parole.
  10. Procédé selon la revendication 9, caractérisé en ce que le nombre m est égal à 3, et en ce que chacun des deux premiers groupes de paramètres fréquentiels consécutifs est quantifié en sélectionnant dans une table de quantification respective un vecteur présentant une distance minimale avec les paramètres fréquentiels dudit groupe, chacune des deux tables de quantification relatives aux deux premiers groupes étant choisie parmi deux tables distinctes respectives suivant l'état spectral déterminé (Y) du signal de parole.
  11. Procédé selon la revendication 10, caractérisé en ce que les deux tables de quantification distinctes (TI,1, TI,2) relatives au premier groupe sont disjointes, et en ce que les deux tables de quantification distinctes (TII,1, TII,2) relatives au second groupe présentent une partie commune.
  12. Procédé selon l'une quelconque des revendications 1 à 6, caractérisé en ce que les coefficients (ai) du filtre de synthèse à court terme sont représentés par un ensemble de p paramètres fréquentiels de lignes spectrales ordonnés (cos2πfi), p étant l'ordre de la prédiction linéaire à court terme, en ce qu'on quantifie chacun de ces p paramètres en subdivisant un intervalle de variation ([mi,min{Mi, c andos2πfi-1}]) inclus dans un intervalle de référence respectif ([mi,Mi]) en 2Ni segments, Ni étant le nombre de bits de codage consacré à la quantification de ce paramètre, et en ce qu'on utilise, au moins pour les premiers paramètres ordonnés, des intervalles de référence choisis chacun parmi deux intervalles distincts ([mi,1,Mi,1], [mi,2,Mi,2]) suivant l'état spectral déterminé (Y) du signal de parole.
  13. Procédé selon l'une quelconque des revendications 1 à 6 ou la revendication 12, caractérisé en ce que les coefficients (ai) du filtre de synthèse à court terme sont représentés par un ensemble de p paramètres fréquentiels de lignes spectrales ordonnés (cos2πfi), p étant l'ordre de la prédiction linéaire à court terme, en ce qu'on quantifie chacun de ces p paramètres en subdivisant un intervalle de variation ([mi,min{Mi, c andos2πfi-1}]) inclus dans un intervalle de référence respectif ([mi,Mi]) en 2Ni segments, Ni étant le nombre de bits de codage consacré à la quantification de ce paramètre, et en ce qu'on donne à certains au moins des nombres de bits de codage Ni l'une ou l'autre de deux valeurs distinctes suivant l'état spectral déterminé (Y) du signal de parole.
EP95401262A 1994-06-03 1995-05-31 Procédé de codage de parole à prédiction linéaire Expired - Lifetime EP0685833B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9406825A FR2720850B1 (fr) 1994-06-03 1994-06-03 Procédé de codage de parole à prédiction linéaire.
FR9406825 1994-06-03

Publications (2)

Publication Number Publication Date
EP0685833A1 EP0685833A1 (fr) 1995-12-06
EP0685833B1 true EP0685833B1 (fr) 2000-04-26

Family

ID=9463861

Family Applications (1)

Application Number Title Priority Date Filing Date
EP95401262A Expired - Lifetime EP0685833B1 (fr) 1994-06-03 1995-05-31 Procédé de codage de parole à prédiction linéaire

Country Status (4)

Country Link
US (1) US5642465A (fr)
EP (1) EP0685833B1 (fr)
DE (1) DE69516455T2 (fr)
FR (1) FR2720850B1 (fr)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08179796A (ja) * 1994-12-21 1996-07-12 Sony Corp 音声符号化方法
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JP3196595B2 (ja) * 1995-09-27 2001-08-06 日本電気株式会社 音声符号化装置
JPH09230896A (ja) * 1996-02-28 1997-09-05 Sony Corp 音声合成装置
JP3094908B2 (ja) * 1996-04-17 2000-10-03 日本電気株式会社 音声符号化装置
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US7379865B2 (en) * 2001-10-26 2008-05-27 At&T Corp. System and methods for concealing errors in data transmission
KR20050049103A (ko) * 2003-11-21 2005-05-25 삼성전자주식회사 포만트 대역을 이용한 다이얼로그 인핸싱 방법 및 장치
JP4975829B2 (ja) * 2007-12-25 2012-07-11 パナソニック株式会社 超音波診断装置
PT3364411T (pt) 2009-12-14 2022-09-06 Fraunhofer Ges Forschung Dispositivo de quantização de vetor, dispositivo de codificação de voz, método de quantização de vetor e método de codificação de voz
US9093068B2 (en) * 2010-03-23 2015-07-28 Lg Electronics Inc. Method and apparatus for processing an audio signal
CN103928031B (zh) * 2013-01-15 2016-03-30 华为技术有限公司 编码方法、解码方法、编码装置和解码装置
RU2713852C2 (ru) 2014-07-29 2020-02-07 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8500843A (nl) 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.

Also Published As

Publication number Publication date
US5642465A (en) 1997-06-24
EP0685833A1 (fr) 1995-12-06
FR2720850A1 (fr) 1995-12-08
DE69516455D1 (de) 2000-05-31
FR2720850B1 (fr) 1996-08-14
DE69516455T2 (de) 2001-01-25

Similar Documents

Publication Publication Date Title
EP0685833B1 (fr) Procédé de codage de parole à prédiction linéaire
EP0782128B1 (fr) Procédé d&#39;analyse par prédiction linéaire d&#39;un signal audiofréquence, et procédés de codage et de décodage d&#39;un signal audiofréquence en comportant application
EP0127718B1 (fr) Procédé de détection d&#39;activité dans un système de transmission de la voix
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
EP0768770B1 (fr) Procédé et dispositif de création d&#39;un bruit de confort dans un système de transmission numérique de parole
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
EP1692689B1 (fr) Procede de codage multiple optimise
FR2522179A1 (fr) Procede et appareil de reconnaissance de paroles permettant de reconnaitre des phonemes particuliers du signal vocal quelle que soit la personne qui parle
FR2639459A1 (fr) Procede de traitement du signal et appareil de formation de donnees issues d&#39;une source sonore
EP0428445B1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
FR2690551A1 (fr) Procédé de quantification d&#39;un filtre prédicteur pour vocodeur à très faible débit.
EP0195441B1 (fr) Procédé de codage à faible débit de la parole à signal multi-impulsionnel d&#39;excitation
EP0616315A1 (fr) Dispositif de codage et de décodage numérique de la parole, procédé d&#39;exploration d&#39;un dictionnaire pseudo-logarithmique de délais LTP, et procédé d&#39;analyse LTP
EP2589045B1 (fr) Codage/décodage prédictif linéaire adaptatif
EP0685836B1 (fr) Procédé et dispositif de prétraitement d&#39;un signal acoustique en amont d&#39;un codeur de parole
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP1605440A1 (fr) Procédé de séparation de signaux sources à partir d&#39;un signal issu du mélange
EP1192621B1 (fr) Codage audio avec composants harmoniques
Moreau Predictive speech coding at low bit rates: a unified approach
EP0454552A2 (fr) ProcédÀ© et dispositif de codage bas débit de la parole
FR2737360A1 (fr) Procedes de codage et de decodage de signaux audiofrequence, codeur et decodeur pour la mise en oeuvre de tels procedes
FR2760285A1 (fr) Procede et dispositif de generation d&#39;un signal de bruit pour la sortie non vocale d&#39;un signal decode de la parole
FR2741743A1 (fr) Procede et dispositif pour l&#39;amelioration de l&#39;intelligibilite de la parole dans les vocodeurs a bas debit
WO2001003119A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): DE ES GB IT NL SE

17P Request for examination filed

Effective date: 19951228

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: MATRA NORTEL COMMUNICATIONS

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

17Q First examination report despatched

Effective date: 19990803

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE ES GB IT NL SE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20000426

Ref country code: ES

Free format text: THE PATENT HAS BEEN ANNULLED BY A DECISION OF A NATIONAL AUTHORITY

Effective date: 20000426

RIC1 Information provided on ipc code assigned before grant

Free format text: 7G 10L 19/04 A, 7G 10L 101:10 Z

REF Corresponds to:

Ref document number: 69516455

Country of ref document: DE

Date of ref document: 20000531

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20000601

ITF It: translation for a ep patent filed
NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: SE

Payment date: 20010419

Year of fee payment: 7

REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20020601

EUG Se: european patent has lapsed
PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20040528

Year of fee payment: 10

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20050414

Year of fee payment: 11

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES;WARNING: LAPSES OF ITALIAN PATENTS WITH EFFECTIVE DATE BEFORE 2007 MAY HAVE OCCURRED AT ANY TIME BEFORE 2007. THE CORRECT EFFECTIVE DATE MAY BE DIFFERENT FROM THE ONE RECORDED.

Effective date: 20050531

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20051201

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20060531

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20060531