EP1125283A1 - Procede de quantification des parametres d'un codeur de parole - Google Patents

Procede de quantification des parametres d'un codeur de parole

Info

Publication number
EP1125283A1
EP1125283A1 EP99946281A EP99946281A EP1125283A1 EP 1125283 A1 EP1125283 A1 EP 1125283A1 EP 99946281 A EP99946281 A EP 99946281A EP 99946281 A EP99946281 A EP 99946281A EP 1125283 A1 EP1125283 A1 EP 1125283A1
Authority
EP
European Patent Office
Prior art keywords
filters
transmitted
parameters
frame
pitch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP99946281A
Other languages
German (de)
English (en)
Other versions
EP1125283B1 (fr
Inventor
Philippe Thomson-CSF Prop. Intel. GOURNAY
Frédéric Thomson-CSF Prop. Intel. CHARTIER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thomson CSF SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson CSF SA filed Critical Thomson CSF SA
Publication of EP1125283A1 publication Critical patent/EP1125283A1/fr
Application granted granted Critical
Publication of EP1125283B1 publication Critical patent/EP1125283B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Definitions

  • the present invention relates to a speech coding method. It applies in particular to the production of vocoders at very low speed, of the order of 1200 bits per second and implemented for example in satellite communications, internet telephony, static answering machines, voice pagers etc. ..
  • the objective of these vocoders is to make it possible to reconstruct a signal which is as close as possible in the sense of the perception by the human ear of the original speech signal, using the lowest possible bit rate.
  • vocoders use a fully parameterized model of the speech signal.
  • the parameters used relate to voicing which describes the periodic nature of voiced sounds or the random nature of unvoiced sounds, the fundamental frequency of voiced sounds still known by the English term "PITCH", the time evolution of the energy as well as the spectral envelope of the signal to excite and configure the synthesis filters.
  • the filtering is carried out by a digital filtering technique with linear prediction.
  • These different parameters are estimated periodically on the speech signal, from one to several times per frame from 10 to 30 ms, depending on the parameters and the coders. They are developed at the level of an analysis device and are generally transmitted remotely towards a synthesis device.
  • the field of low bit rate speech coding has long been dominated by a 2400 bit / s coder known as LPC 1 0. A description of this coder, as well as a lower bit variant can be found in the articles entitled:
  • MELP The new federal standard at 2400 bits / s, published in the journal IEEE International ConfEstion on Acoustics, Speech, and Signal Processing, Kunststoff, April 1 997, pp. 1,591 - 1,594.
  • a first technique is that of the segmental vocoder, two variants of which are those described by MM. B. Mouy, P. de la Noue and G. Goudezeune already cited, and that described by MY Shoham entitled "Very low complexity interpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1 .2 to 2.4 K bps", published in IEEE International ConfInterpolative speech coding at 1
  • a second technique is that used in phonetic vocoders, which combine the principles of recognition and synthesis.
  • the activity in this field is rather at the basic research stage, the targeted speeds are generally much lower than 1200 bits / s (typically 50 to 200 bits / s) but the quality obtained is rather poor and there is often has no speaker recognition.
  • a description of these types of vocoders can be found in the article by MM. J. Cernocky, G. Baudoin, G. Choliet, entitled: "Segmentai vododer - Going beyond the phonetic approch” published in IEE International ConfInterai vododer - Going beyond the phonetic approch” published in IEE International ConfInterference on Acoustics, Speech, and Signal Processing, Seattle, May 1 2 - 1 5 1 998, pp. 605 - 698.
  • the subject of the invention is a method of coding and decoding speech for voice communications using a very low bit rate vocoder comprising an analysis part for coding and transmission of the parameters of the speech signal and a part synthesis for the reception and decoding of the transmitted parameters and the reconstruction of the speech signal by using linear prediction synthesis filters of the type consisting in analyzing the parameters, describing the pitch, voicing transition frequency, energy, and the spectral envelope of the speech signal, by cutting the speech signal into successive frames of determined length, characterized in that it consists in grouping the parameters over N consecutive frames to form a super-frame, in performing vector quantization of the frequencies of transition of voicing during each super-frame, by transmitting without degradation only the configuratio ns most frequent and by replacing the least frequent configurations by the closest configuration in terms of absolute error among the most frequent, to code the pitch by scalarly quantifying only one value for each superframe, to code energy by selecting only a reduced number of values by group
  • FIG. 1 a mixed excitation model of a typical vocoder
  • FIG. 2 a functional diagram of the "analysis" part of an HSX type vocoder used for implementing the invention.
  • FIG. 3 a functional diagram of the synthesis part of a vocoder of HSX type used for the implementation of the invention.
  • Figure 4 the main steps of the method according to the invention put in the form of a flowchart.
  • FIG. 5 a table showing the distribution of the configurations of the voicing transition frequencies for three consecutive frames.
  • FIG. 6 a vector quantization table of the voicing transition frequencies usable for implementing the invention.
  • FIG. 7 a list in the form of a table of selection and interpolation diagrams implemented in the invention for the coding of the energy of the speech signal.
  • FIG. 8 a list in the form of a table of selection and interpolation / extrapolation diagrams for the encoding of LPC filters with linear prediction.
  • FIG. 9 a table of allocation of the bits necessary for the coding of a vocoder of HSX type at 1200 bits / s according to the invention.
  • the method according to the invention uses a vocoder of the type known by the English abbreviation HSX of "Harmony Stochastic Excitation ", as the basis for the creation of a good quality vocoder at 1200 bits / s.
  • the method according to the invention relates to the encoding of the parameters which makes it possible to reproduce at best with a minimum bit rate the entire complexity of the speech signal.
  • an HSX vocoder is a linear prediction vocoder which uses in its synthesis part a simple mixed excitation model, in which a periodic pulse train excites low frequencies and a noise level excites high frequencies a synthetic LPC filter.
  • FIG. 1 describes the principle of generation of the mixed excitation which comprises two filtering channels. The first channel 1 ⁇ is excited by a periodic pulse train performs low pass filtering and the second channel 1 2 excited by a stochastic noise signal performs high pass filtering. The cutoff or transition frequency fc of the filters of the two channels is the same and has a variable position over time. The filters of the two channels are complementary.
  • a summator 2 adds the signals supplied by the two channels.
  • a gain amplifier 3 g adjusts the gain of the first filtering channel so that the excitation signal obtained at the output of the summator 2 is flat spectrum.
  • FIG. 2 A functional diagram of the vocoder analysis part is shown in Figure 2.
  • the speech signal is first filtered by a high pass filter 4 and then segmented into 22.5 ms frames, comprising 1 80 samples taken at 8 KHz frequency.
  • Two analyzes by linear prediction are performed in 5 on each of the frames.
  • the semi-whitened signal obtained is filtered into four sub-bands.
  • a robust pitch 8 tracker uses the first sub-band.
  • the transition frequency fc between the low frequency band of the voiced sounds and the high frequency band of the sounds unvoiced is determined by the voicing rate measured at 9 in the four sub-bands.
  • the energy is measured and coded in step 1 0 in a pitch-synchronous manner, 4 times per frame.
  • the performance of the pitch tracker and the voicing analyzer 9 can be greatly improved when their decision is delayed by a frame, the resulting parameters, coefficients of synthesis filters, pitch, voicing, transition frequency and energy are coded with a delay frame.
  • the excitation signal of the synthesis filter is formed in the manner already represented in FIG. 1 by the sum of a harmonic signal and a random signal whose the spectral envelopes are complementary.
  • the harmonic component is obtained by passing a train of pulses to the pitch period in a precalculated bandpass filter 1 1.
  • the random component is obtained from a generator 1 2 combining an inverse Fourier transform and a temporal overlap.
  • the LPC synthesis filter 1 4 is interpolated 4 times per frame.
  • the perceptual filter 1 5 coupled to the filter output 1 4 makes it possible to obtain a better reproduction of the nasal characteristics of the original speech signal.
  • the automatic gain control device ensures that the pitch-synchronous energy of the output signal is equal to that which has been transmitted.
  • the method according to the invention takes place in five main steps referenced from 1 7 to 21 in FIG. 4.
  • the step 1 7 groups together the vocoder frames by N frames to form a super frame.
  • a value of N equal to 3 can be chosen because it achieves a good compromise between the possible reduction of the bit rate and the delay introduced by the quantification process.
  • it is compatible with current interleaving and error correcting coding techniques.
  • the voicing transition frequency is coded in step 18 by vector quantization using only four frequency values, 0.750.2000 and 3625 HZ for example. Under these conditions, 6 bits at the rate of 2 bits per frame are sufficient to code each of the frequencies and transmit exactly the voicing configuration of the three frames of a super frame.
  • certain voicing configurations are reproduced only very rarely, it can be considered that they are not necessarily characteristic of the evolution of the normal speech signal, since they do not seem to participate in intelligibility or in the quality of speech. speech restored. This is the case for example when a frame is completely voiced from 0 Hz to 3625 Hz and it is between two completely unvoiced frames.
  • the table in FIG. 5 shows a distribution of voicing configuration over three successive frames, calculated on a database of 1 23 1 58 speech frames.
  • the 32 least frequent configurations account for only 4% of all the frames, partially or totally voiced.
  • the degradation obtained by replacing each of these configurations with the closest, in terms of absolute error, of the 32 most represented configurations is imperceptible. This shows that it is possible to save a bit by vectoring the voicing transition frequency over a super frame.
  • a vector quantization of the voicing configurations is shown in the table referenced 22 in FIG. 6. Table 22 is organized so that the mean square error produced by an error on an address bit is minimal.
  • the pitch coding is executed in step 1 9. It implements a 6-bit scalar quantizer, with a range of samples from 1 6 to 1 48, and a uniform quantization step on a logarithmic scale. A single value is transmitted for three consecutive frames. The calculation of the value to be quantified from the three pitch values and the procedure for recovering the three pitch values from the value quantified, differ according to the value of the voicing transition frequencies of the analysis. The process is as follows:
  • the decoded pitch is fixed at an arbitrary value, ie, for example, 45 samples for each of the frames of the super frame.
  • the quantized value is the value of pitch of the last frame of the current super frame which is then considered as a target value.
  • the decoded value of the pitch for the third frame of the current superframe is the quantized target value, and the values of the pitch decoded for the first two frames of the current superframe are recovered by linear interpolation between the value transmitted for the previous superframe and the quantized target value.
  • Pitch used (2) 1, 005 * Decoded Pitch (2)
  • Pitch used (3) 1, 000 * Decoded Pitch (3)
  • the advantage of performing a scalar quantization of the pitch values is that it limits the problem of propagation of errors on the binary train.
  • the coding schemes 2 and 3 are close enough to each other to be insensitive to bad decoding of the voicing frequency.
  • the energy is encoded in step 20. It takes place in the manner shown in the table referenced 23 in FIG. 7 using a vector quantization method of the type described in the article by RM Gray , entitled “Vector Quantization", published in the IEEE ASP Magazine, vol. 1, pp 4-29, April 1 984. Twelve energy values numbered from 0 to 1 1 are calculated for each super-frame by the analysis part and only six energy values among the twelve are transmitted. This leads to construct two vectors of three values by the analysis part. Each vector is quantized on six bits. Two bits are used to transmit the selection scheme number used. During the decoding in the synthesis part, the energy values which have not been quantified are recovered by interpolation.
  • the coding of the coefficients modeling the envelope of the speech signal takes place by vector quantization in step 21.
  • This coding makes it possible to determine the coefficients of the digital filters used in the synthesis part.
  • Six LPC filters with 1 0 coefficients numbered from 0 to 5 are calculated at each superframe by the analysis part and only 3 filters among the 6 are transmitted.
  • the six vectors are transformed into six vectors of 10 pairs of LSF spectral lines following for example the process described in the article by M F. ITAKURA, entitled "Line Spectrum Representation of Linear Predictive Coefficients" and published in the Journal Acoustique Sociaty America , vol.57, P.S35, 1 975.
  • the spectral line pairs are encoded by a technique similar to that used for energy coding.
  • the process consists in selecting three LPC filters, and in quantifying each of the vectors over 18 bits using for example an open loop predictive vector quantizer, with a prediction coefficient equal to 0.6, of type SPLIT -VQ relating to two sub-packets of 5 consecutive LSFs to which each is allocated 9 bits. Two bits are used to transmit the number of the selection scheme used.
  • an LPC filter is not quantized, its value is estimated from that of the LPC filters quantized by linear interpolation for example, or by extrapolation by duplication for example of the previous LPC filter.
  • a vector quantization process by packets could be constituted as described in the article by MM KK PALIWAL, BS.
  • ATAL titled "Efficient Vector Quantization of LPC Parameters at 24 bits / frame" and published in IEEE transaction on Speech and Audio Processing, Vol.1, January 1 993.
  • the allocation of the bits for the transmission of the LSF parameters, of the energy, of the pitch and of the voicing which results from the coding method implemented by the invention is represented in the table of FIG. 9 in the context of a 1200 bit / s vocoder in which the parameters are coded every 67.5 ms; 81 bits are available in each super frame to encode the signal parameters. These 81 bits break down into 54 LSF bits, 2 bits for decimating the LSF scheme, twice 6 bits for energy, 6 bits for pitch and 5 bits for voicing.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Devices For Executing Special Programs (AREA)
  • Executing Machine-Instructions (AREA)
  • Machine Translation (AREA)

Abstract

Le procédé consiste à regrouper (17) les paramètres sur N trames consécutives pour former une super-trame, à effectuer une quantification vectorielle (18) des fréquences de transition du voisement au cours de chaque super-trame, en ne transmettant sans dégradation que les configurations les plus fréquentes et en remplaçant les configurations les moins fréquentes par la configuration la plus proche en terme d'erreur absolue parmi les plus fréquentes, à coder le pitch (19) en ne quantifiant scalairement qu'une seule valeur du pitch pour chaque super-trame, à coder l'énergie (20) en ne sélectionnant qu'un nombre réduit de valeurs en regroupant ces valeurs en sous paquets quantifiés par quantification vectorielle, à coder par quantification vectorielle (21) les paramètres d'enveloppe spectrale en ne sélectionnant qu'un nombre déterminé de filtres, les paramètres non transmis étant reconstruits par interpolation ou extrapolation à partir des paramètres des filtres transmis. Application: vocodeurs.

Description

PROCEDE DE QUANTIFICATION DES PARAMETRES D'UN CODEUR DE PAROLE
La présente invention concerne un procédé de codage de la parole. Elle s'applique notamment à la réalisation de vocodeurs à très bas débit, de l'ordre de 1 200 bits par seconde et mis en oeuvre par exemple dans les communications par satellite, la téléphonie sur internet, les répondeurs statiques, les pageurs vocaux etc ..
L'objectif de ces vocodeurs est de permettre de reconstruire un signal qui soit le plus proche possible au sens de la perception par l'oreille humaine du signal de parole d'origine, en utilisant un débit binaire le plus faible possible.
Pour atteindre cet objectif les vocodeurs utilisent un modèle totalement paramétré du signal de parole. Les paramètres utilisés concernent le voisement qui décrit le caractère périodique des sons voisés ou le caractère aléatoire de sons non voisés, la fréquence fondamentale des sons voisés encore connue sous le vocable anglo-saxon "PITCH", l'évolution temporelle de l'énergie ainsi que l'enveloppe spectrale du signal pour exciter et paramétrer les filtres de synthèse. Généralement le filtrage est réalisé par une technique de filtrage numérique à prédiction linéaire. Ces différents paramètres sont estimés périodiquement sur le signal de parole, de une à plusieurs fois par trame de 1 0 à 30 ms, selon les paramètres et les codeurs. Ils sont élaborés au niveau d'un dispositif d'analyse et sont généralement transmis à distance en direction d'un dispositif de synthèse. Le domaine du codage de la parole à bas débit a longtemps été dominé par un codeur à 2 400 bits/s connu sous la désignation LPC 1 0. Une description de ce codeur, ainsi que d'une variante à plus bas débit peut être trouvée dans les articles intitulés :
"Parameters and coding characteristics that must be common to assure interoperabiiity of 2 400 bps linear prédictive encoded speech", NATO Standard STANAG - 41 98 - Ed 1 , 1 3 February 1 984 et dans l'article de MM. B.Mouy, D de la Noue et G. Goudezeune, intitulé "NATO STANAG 4479 : A standard for an 800 bps vocoder and channel coding in HF-ECCM System", publié dans IEEE International Conférence on Acoustics, Speech, and Signal Processing, Détroit, May 1 955, pp. 480- 483.
Bien que parfaitement intelligible, la parole reproduite par ce vocodeur, est d'assez mauvaise qualité, de sorte que son usage est limité à des applications bien spécifiques, principalement professionnelles et militaires. Ces dernières années le domaine du codage de la parole à bas débit a connu un grand nombre d'innovations, grâce à l'introduction de nouveaux modèles connus respectivement sous les abréviations MBE, PWI et MELP. Une description du modèle MBE peut être trouvée dans l'article de MM. D.W. Griffin and J.S. Lim, intitulé "Multiband Excitation Vocoders", publié dans la revue IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 36, n° 8, pp. 1 223-1 235, 1 988.
Celle du modèle PWI peut être trouvée dans l'article de MM . W.B. Kleijn and J. Haogen, intitulé "Waveform Interpolation for Coding and Synthesis" dans la revue Speech Coding and Synthesis édité par W.B. Kleijn et KK. Paliwal, Elsevier 1 995.
Enfin, une description du modèle MELP peut être trouvée dans l'article de MM. L.M. Supplée, R.P. Cohn, J.S. Collura, and A.V. McCree, intitulé "MELP : The new fédéral standard at 2 400 bits/s, publié dans la revue IEEE International Conférence on Acoustics, Speech, and Signal Processing, Munich, April 1 997, pp. 1 591 - 1 594.
La qualité de la parole restituée par ces modèles à 2400 bits/s est devenue acceptable pour un grand nombre d'applications civiles et commerciales. Mais pour les débits inférieurs à 2 400 bits/s (typiquement 1 200 bits/s ou moins) la parole restituée présente une qualité insuffisante et pour pallier cet inconvénient d'autres techniques ont été mises en oeuvre. Une première technique est celle du vocodeur segmentai, dont deux variantes sont celles décrites par MM . B. Mouy, P. de la Noue and G . Goudezeune déjà citée, et de celle décrite par M. Y. Shoham intitulée "Very low complexity interpolative speech coding at 1 .2 to 2.4 K bps", publié dans IEEE International Conférence on Acoustics, Speech, and Signal Processing, Munich, April 1 997, pp 1 599 - 1 602. Mais à ce jour, aucun vocodeur segmentai n'a été jugé de qualité suffisante pour des applications civiles et commerciales.
Une deuxième technique est celle mise en oeuvre dans les vocodeurs phonétiques, qui combinent des principes de reconnaissance et de synthèse. L'activité dans ce domaine se situe plutôt au stade de la recherche fondamentale, les débits visés sont généralement très inférieurs à 1 200 bits/s (typiquement 50 à 200 bits/s) mais la qualité obtenue est plutôt mauvaise et il n'y a souvent pas de reconnaissance du locuteur. Une description de ces types de vocodeurs peut être trouvée dans l'article de MM. J. Cernocky, G. Baudoin, G . Choliet, ayant pour titre : "Segmentai vododer - Going beyond the phonetic approch" publié dans IEE International Conférence on Acoustics, Speech, and Signal Processing, Seattle, May 1 2 - 1 5 1 998, pp. 605 - 698.
Le but de l'invention est de pallier les inconvénients cités. A cet effet, l'invention a pour objet un procédé de codage et de décodage de la parole pour les communications vocales utilisant un vocodeur à très bas débit comportant une partie analyse pour le codage et la transmission des paramètres du signal de parole et une partie synthèse pour la réception et le décodage des paramètres transmis et la reconstruction du signal de parole par utilisation de filtres de synthèse à prédiction linéaire du type consistant à analyser les paramètres, décrivant le pitch, la fréquence de transition de voisement, l'énergie, et l'enveloppe spectrale du signal de parole, en découpant le signal de parole en trames successives de longueur déterminée caractérisé en ce qu'il consiste à regrouper les paramètres sur N trames consécutives pour former une super-trame, à effectuer une quantification vectorielle des fréquences de transition du voisement au cours de chaque super-trame, en ne transmettant sans dégradation que les configurations les plus fréquentes et en remplaçant les configurations les moins fréquentes par la configuration la plus proche en terme d'erreur absolue parmi les plus fréquentes, à coder le pitch en ne quantifiant scalairement qu'une seule valeur pour chaque super-trame, à coder l'énergie en ne sélectionnant qu'un nombre réduit de valeurs en regroupant ces valeurs en sous paquets quantifiés par quantification vectorielle, les valeurs d'énergie non transmises étant récupérées dans la partie synthèse par interpolation ou extrapolation à partir des valeurs transmises, à coder par quantification vectorielle les paramètres d'enveloppe spectrale pour l 'encodage des filtres de synthèse à prédiction linéaire en ne sélectionnant qu'un nombre déterminé de filtres, les paramètres non transmis étant reconstruits par interpolation ou extrapolation à partir des paramètres des filtres transmis.
D'autres caractéristiques et avantages de l'invention apparaîtront à l'aide de la description qui suit faite en regard des dossiers annexés qui représentent : La figure 1 un modèle d'excitation mixte d'un vocodeur type
HSX utilisé pour la mise en oeuvre de l'invention.
La figure 2 un schéma fonctionnel de la partie "analyse" d'un vocodeur de type HSX utilisé pour la mise en oeuvre de l'invention.
La figure 3 un schéma fonctionnel de la partie synthèse d'un vocodeur de type HSX utilisé pour la mise en oeuvre de l'invention.
La figure 4 les étapes principales du procédé selon l'invention mises sous la forme d'un organigramme.
La figure 5 un tableau montrant la répartition des configurations des fréquences de transition de voisement pour trois trames consécutives.
La figure 6 une table de quantification vectorielle des fréquences de transition de voisement utilisable pour la mise en oeuvre de l'invention.
La figure 7 une liste sous forme de tableau de schémas de sélection et d'interpolation mise en oeuvre dans l'invention pour le codage de l'énergie du signal de parole.
La figure 8 une liste sous forme d'un tableau de schémas de sélection et d'interpolation/extrapolation pour l'encodage des filtres LPC à prédiction linéaire. La figure 9 un tableau d'allocation des bits nécessaires au codage d'un vocodeur de type HSX à 1 200 bits/s selon l'invention.
Le procédé selon l'invention met en oeuvre un vocodeur de type connu sous l'abréviation anglo-saxonne HSX de "Harmonie Stochastic Excitation", comme base pour la réalisation d'un vocodeur de bonne qualité à 1 200 bits/s.
Une description de ce type de vocodeur peut être trouvée dans l'article de MM. C. Laflamme, R. Salami, R. Matmti et J.P. Adoul, ayant pour titre "Harmonie Stochastic Excitation (HSX) speech coding below 4 k. bits/s" et publié dans IEEE International Conférence on Acoustics, and
Signal Processing, Atlanta, May 1 996, pp.204- 207.
Le procédé selon l'invention porte sur l'encodage des paramètres qui permet de reproduire au mieux avec un minimum de débit toute la complexité du signal de parole.
Comme schématisé à la figure 1 un vocodeur HSX est un vocodeur à prédiction linéaire qui utilise dans sa partie synthèse un modèle d'excitation mixte simple, dans lequel un train d'impulsion périodique excite les fréquences basses et un niveau de bruit excite les fréquences hautes d'un filtre LPC de synthèse. La figure 1 décrit le principe de génération de l'excitation mixte qui comporte deux voies de filtrage. La première voie 1 ι est excitée par un train d'impulsion périodique effectue un filtrage passe bas et la deuxième voie 1 2 excitée par un signal de bruit stochastique effectue un filtrage passe haut. La fréquence de coupure ou de transition fc des filtres des deux voies est la même et a une position variable dans le temps. Les filtres des deux voies sont complémentaires. Un sommateur 2 additionne les signaux fournis par les deux voies. Un amplificateur 3 de gain g ajuste le gain de la première voie de filtrage pour que le signal d'excitation obtenu en sortie du sommateur 2 soit à spectre plat.
Un diagramme fonctionnel de la partie analyse du vocodeur est représenté à la figure 2. Pour effectuer cette analyse le signal de parole est d'abord filtré par un filtre passe haut 4 pour être ensuite segmenté en trames de 22,5 ms, comportant 1 80 échantillons prélevés à la fréquence 8 KHz. Deux analyses par prédiction linéaire sont effectuées en 5 sur chacune des trames. Aux étapes 6 et 7 le signal semi blanchi obtenu est filtré en quatre sous bandes. Un suiveur de pitch 8 robuste exploite la première sous bande. La fréquence de transition fc entre la bande de fréquence basse des sons voisés et la bande de fréquence haute des sons non voisés est déterminée par le taux de voisement mesuré en 9 dans les quatre sous bandes. Enfin, l'énergie est mesurée et codée à l'étape 1 0 de manière pitch-sychrone, 4 fois par trame.
Comme les performances du suiveur de pitch et de l'analyseur de voisement 9 peuvent être grandement améliorées lorsque leur décision est retardé d'une trame, les paramètres résultant, coefficients des filtres de synthèse, pitch, voisement, fréquence de transition et énergie sont codés avec une trame de retard.
Dans la partie synthèse du vocodeur HSX qui est représenté à la figure 3, le signal d'excitation du filtre de synthèse est formé de la manière déjà représentée à la figure 1 par la somme d'un signal harmonique et d'un signal aléatoire dont les enveloppes spectrales sont complémentaires. La composante harmonique est obtenue en passant un train d'impulsions à la période pitch dans un filtre passe bande précalculé 1 1 . La composante aléatoire est obtenue à partir d'un générateur 1 2 combinant une transformée de Fourier inverse et un recouvrement temporel. Le filtre LPC de synthèse 1 4 est interpolé 4 fois par trame. Le filtre perceptuel 1 5 couplé en sortie de filtre 1 4 permet d'obtenir une meilleure restitution des caractéristiques nasales du signal de parole originel. Enfin le dispositif de contrôle automatique de gain permet d'assurer que l'énergie pitch-synchrone du signal de sortie est égale à celle qui a été transmise.
Avec un débit aussi bas que 1 200 bits/s, il n'est pas possible d'encoder de façon précise toutes les 22,5 ms les 4 paramètres pitch, fréquence de transition de voisement, énergie et coefficients des deux filtres LPC à 1 0 coefficients par trame.
Pour exploiter au mieux les caractéristiques temporelles de l'évolution des paramètres qui comportent des périodes de stabilité entrecoupées de variations rapides, le procédé selon l'invention se déroule en cinq étapes principales référencées de 1 7 à 21 sur la figure 4. L'étape 1 7 regroupe les trames vocodeurs par N trames pour former une super trame. A titre indicatif une valeur de N égale à 3 peut être choisie car elle réalise un bon compromis entre la réduction possible du débit binaire et le retard introduit par le procédé de quantification. D'autre part, elle est compatible avec les techniques d'entrelacement et de codage correcteur d'erreurs actuelles.
La fréquence de transition de voisement est codée à l'étape 1 8 par quantification vectorielle en utilisant uniquement quatre valeurs de fréquence, 0,750,2000 et 3625 HZ par exemple. Dans ces conditions 6 bits à raison de 2 bits par trame sont suffisants pour coder chacune des fréquences et transmettre exactement la configuration de voisement des trois trames d'une super trame. Toutefois comme certaines configurations de voisement ne se reproduisent que très rarement, on peut considérer qu'elles ne sont pas forcément caractéristiques de l'évolution du signal de parole normal, car elles ne semblent pas participer à l'intelligibilité, ni à la qualité de la parole restituée. C'est le cas par exemple lorsque une trame est totalement voisée de 0 Hz jusqu'à 3 625 Hz et qu'elle est comprise entre deux trames totalement non voisées.
Le tableau de la figure 5 retrace une répartition de configuration de voisement sur trois trames successives, calculées sur une base de données de 1 23 1 58 trames de parole. Dans ce tableau les 32 configurations les moins fréquentes comptent pour seulement 4% de toutes les trames, partiellement ou totalement voisées. La dégradation obtenue en remplaçant chacune de ces configurations par la plus proche, en terme d'erreur absolue, des 32 configurations les plus représentées est imperceptible. Ceci montre qu'il est possible d'économiser un bit en quantifiant vectoriellement la fréquence de transition de voisement sur une super trame. Une quantification vectorielle des configurations de voisement est montrée dans le tableau référencé 22 sur la figure 6. Le tableau 22 est organisé de sorte que l'erreur quadratique moyenne produite par une erreur sur un bit d'adressage soit minimale.
Le codage du pitch s'exécute à l'étape 1 9. Il met en oeuvre un quantificateur scalaire sur 6 bits, avec une plage d'échantillons de 1 6 à 1 48, et un pas de quantification uniforme sur une échelle logarithmique. Une seule valeur est transmise pour trois trames consécutives. Le calcul de la valeur à quantifier à partir des trois valeurs de pitch et la procédure permettant de récupérer les trois valeurs de pitch à partir de la valeur quantifiée, diffèrent selon la valeur des fréquences de transition de voisement de l'analyse. Le processus est le suivant:
1 . Lorsque aucune trame n'est voisée, les 6 bits sont positionnés à zéro, le pitch décodé est fixé à une valeur arbitraire soit, par exemple, à 45 échantillons pour chacune des trames de la super trame.
2. Lorsque la dernière trame de la super-trame précédente et les trois trames de la super trame courante sont voisées, c'est à dire, lorsque la fréquence de transition de voisement est supérieure strictement à zéro, la valeur quantifiée est la valeur du pitch de la dernière trame de la super trame courante qui est alors considérée comme une valeur cible. Au décodeur la valeur décodée du pitch pour la troisième trame de la super-trame courante est la valeur cible quantifiée, et les valeurs du pitch décodés pour les deux premières trames de la super-trame courante sont récupérées par interpolation linéaire entre la valeur transmise pour la super-trame précédente et la valeur cible quantifiée.
3. Pour toutes les autres configurations de voisement, c'est la valeur pondérée du pitch sur les trois trames de la super-trame courante qui est quantifiée. Le facteur de pondération est proportionnel à la fréquence de transition de voisement pour la trame considérée suivant la relation :
^T Pitch(i)* voisement(i)
Valeur Moyenne Pondérée = — T voisement(i) i=l-3 Au décodeur la valeur du pitch décodée pour les trois trames de la super-trame courante est égale à la valeur moyenne pondérée quantifiée. De plus dans les cas 2 et 3, un léger trémolo est appliqué systématiquement aux valeurs du pitch utilisées en synthèse pour les trames 1 , 2 et 3 pour améliorer le naturel de la parole restituée en évitant la génération de signaux trop fortement périodiques, suivant par exemple les relations : Pitch utilisé (1 ) = 0,995 * Pitch Décodé ( 1 )
Pitch utilisé (2) = 1 ,005 * Pitch Décodé (2) Pitch utilisé (3) = 1 ,000 * Pitch Décodé (3) L'intérêt de procéder à une quantification scalaire des valeurs de pitch est qu'il limite le problème de propagation des erreurs sur le train binaire. De plus les schémas de codage 2 et 3 sont suffisamment proches l'un de l'autre pour être insensibles aux mauvais décodages de la fréquence de voisement.
L'encodage de l'énergie est effectué à l'étape 20. Il a lieu de la façon représentée dans le tableau référencé 23 sur la figure 7 en utilisant une méthode de quantification vectorielle du type de celle décrite dans l'article de RM Gray, ayant pour titre "Vector Quantization", publié dans la revue IEEE ASP Magazine, vol. 1 , pp 4-29, avril 1 984. Douze valeurs d'énergie numérotées de 0 à 1 1 sont calculées à chaque super-trame par la partie analyse et seulement six valeurs d'énergie parmi les douze sont transmises. Ceci conduit à construire deux vecteurs de trois valeurs par la partie analyse. Chaque vecteur est quantifié sur six bits. Deux bits sont utilisés pour transmettre le numéro de schéma de sélection utilisé. Lors du décodage dans la partie synthèse, les valeurs de l'énergie qui n'ont pas été quantifiées sont récupérées par interpolation.
Seuls quatre schémas de sélection sont autorisés comme le montre le tableau de la figure 7. Ces schémas sont optimisés afin d'encoder au mieux, soit les vecteurs de 1 2 énergies stables, soit ceux pour lesquels l'énergie varie rapidement au cours des trames 1 , 2, et 3. Dans la partie analyse le vecteur d'énergie est encodé selon chacun des quatre schémas, et le schéma effectivement transmis est ceiui qui minimise l'erreur quadratique totale. Dans ce processus les bits donnant le numéro du schéma transmis ne sont pas considérés comme sensibles, puisque qu'une erreur sur leur valeur ne fait qu'altérer légèrement l'évolution temporelle de la valeur de l'énergie. De plus la table de quantification vectorielle des énergies est organisée pour que l'erreur quadratique moyenne produite par une erreur sur un bit d'adressage soit minimale.
Le codage des coefficients modélisant l'enveloppe du signal de parole a lieu par quantification vectorielle à l'étape 21 . Ce codage permet de déterminer les coefficients des filtres numériques utilisés dans la partie synthèse. Six filtres LPC à 1 0 coefficients numérotés de 0 à 5 sont calculés à chaque super-trame par la partie analyse et seulement 3 filtres parmi les 6 sont transmis. Les six vecteurs sont transformés en six vecteurs de 1 0 paires de raies spectrales LSF suivant par exemple le processus décrit dans l'article de M F. ITAKURA, intitulé " Line Spectrum Représentation of Linear Prédictive Coefficients" et publié dans le Journal Acoustique Sociaty America, vol.57, P.S35, 1 975. Les paires de raies spectrales sont encodée par une technique similaire à celle mise en oeuvre pour le codage de l'énergie. Le processus consiste à sélectionner trois filtres LPC, et à quantifier chacun des vecteurs sur 1 8 bits en utilisant par exemple un quantificateur vectoriel prédictif en boucle ouverte, avec un coefficient de prédiction égal à 0,6, de type SPLIT -VQ portant sur deux sous-paquets de 5 LSF consécutives auxquels il est alloué à chacun 9 bits. Deux bits sont utilisés pour transmettre le numéro du schéma de sélection utilisé. Au niveau du décodeur lorsqu'un filtre LPC n'est pas quantifié, sa valeur est estimée à partir de celle des filtres LPC quantifiés par interpolation linéaire par exemple, ou par extrapolation par duplication par exemple du filtre LPC précédent. A titre d'exemple un processus de quantification vectorielle par paquets pourra être constitué de la façon décrite dans l'article de MM K.K. PALIWAL, BS. ATAL, ayant pour titre "Efficient Vector Quantization of LPC Parameters at 24 bits/frame" et publié dans IEEE transaction on Speech and Audio Processing, Vol.1 , Janvier 1 993.
Comme indiqué dans le tableau référencé 24 sur la figure 8, seuls quatre schémas de sélection sont autorisés. Ces schémas permettent de coder au mieux, soit les zones pour lesquelles l'enveloppe spectrale est stable, soit les zones pour lesquelles l'enveloppe spectrale varie rapidement au cours des trames 1 , 2, ou 3. L'ensemble des filtres LPC est alors codé selon chacun des quatre schémas, et le schéma effectivement transmis est celui qui minimise l'erreur quadratique totale. De manière similaire au codage de l'énergie, les bits donnant le numéro du schéma ne sont pas à considérer comme sensibles, puisque une erreur sur leur valeur ne fait qu'altérer légèrement l'évolution temporelle des filtres LPC. De plus les tables de quantification vectorielle des LSF sont organisées dans la partie synthèse de sorte que l'erreur quadratique moyenne produite par une erreur sur un bit d'adressage soit minimum.
L'allocation des bits pour la transmission des paramètres LSF, de l'énergie, du pitch et du voisement qui résulte de la méthode de codage mise en oeuvre par l'invention est représentée dans le tableau de la figure 9 dans le cadre d'un vocodeur à 1 200 bits/s dans lequel les paramètres sont codés toutes les 67,5 ms; 81 bits étant disponibles à chaque super trame pour encoder les paramètres du signal. Ces 81 bits se décomposent en 54 bits LSF, 2 bits pour la décimation du schéma des LSF, 2 fois 6 bits pour l'énergie, 6 bits pour le pitch et 5 bits pour le voisement.

Claims

REVENDICATIONS
1 . Procédé de codage et de décodage de la parole pour les communications vocales utilisant un vocodeur à très bas débit comportant une partie analyse (4,....1 0) pour le codage et la transmission des paramètres du signal de parole et une partie synthèse (1 1 , ....1 6) pour la réception et le décodage des paramètres transmis et la reconstruction du signal de parole par utilisation de filtres de synthèse à prédiction linéaire du type consistant à analyser les paramètres, décrivant le pitch (8), la fréquence de transition de voisement (9), l'énergie ( 1 0), et l'enveloppe spectrale (5) du signal de parole, en découpant le signal de parole en trames successives de longueur déterminée caractérisé en ce qu'il consiste à regrouper (1 7) les paramètres sur N trames consécutives pour former une super-trame, à effectuer une quantification vectorielle (1 8) des fréquences de transition du voisement au cours de chaque super-trame, en ne transmettant sans dégradation que les configurations les plus fréquentes et en remplaçant les configurations les moins fréquentes par la configuration la plus proche en terme d'erreur absolue parmi les plus fréquentes, à coder le pitch (1 9) en ne quantifiant scalairement qu'une seule valeur du pitch pour chaque super-trame, à coder l'énergie (20) en ne sélectionnant qu'un nombre réduit de valeurs en regroupant ces valeurs en sous paquets quantifiés par quantification vectorielle, les valeurs d'énergie non transmises étant récupérées dans la partie synthèse par interpolation ou extrapolation à partir des valeurs transmises, à coder par quantification vectorielle (21 ) les paramètres d'enveloppe spectrale pour l'encodage des filtres de synthèse à prédiction linéaire en ne sélectionnant qu'un nombre déterminé de filtres, les paramètres non transmis étant reconstruits par interpolation ou extrapolation à partir des paramètres des filtres transmis.
2. Procédé selon la revendication 1 caractérisé en ce que la valeur quantifiée du pitch est soit la dernière valeur du pitch des zones stables entièrement voisées, soit une valeur moyenne pondérée par la fréquence de transition de voisement dans les zones qui ne sont pas entièrement voisées.
3. Procédé selon la revendication 2 caractérisé en ce qu'il consiste lorsque la valeur de pitch est la dernière d'une super-trame, à reconstituer les autres valeurs par interpolation.
4. Procédé selon la revendication 3 caractérisé en ce que la valeur du pitch utilisée dans la partie synthèse est celle du pitch décodé modifié par un coefficient de multiplication pour produire un léger trémolo dans la parole reconstituée.
5. Procédé selon l'une quelconque des revendications 1 à 4 caractérisé en ce que les paramètres sont regroupés sur un nombre N = 3 de trames consécutives.
6. Procédé selon la revendication 5 caractérisé en ce que les fréquences de voisement sont au nombre de 4 et sont codées vectoriellement à l'aide d'une table de quantification (22) comportant 32 configurations de fréquences groupées par 3.
7. Procédé selon l'une quelconque des revendications 5 et 6 caractérisé en ce qu'il consiste à mesurer l'énergie 4 fois par trame, seulement 6 valeurs parmi les 1 2 d'une super-trame étant transmises (23) sous la forme de deux vecteurs de 3 valeurs.
8. Procédé selon la revendication 7 caractérisé en ce qu'il consiste à coder l'énergie (23) suivant quatre schémas regroupant chacun deux vecteurs, un premier schéma lorsque les douze vecteurs d'énergie dans la super-trame sont stables, les schémas restants étant définis pour chacune des trames, et à transmettre le schéma qui minimise l'erreur quadratique totale.
9. Procédé selon la revendication 8 caractérisé en ce que :
- dans le premier schéma seules les valeurs d'énergie numérotées 1 , 3, et 5 du premier vecteur et celles numérotées 7, 9, 1 1 du deuxième vecteur sont transmises,
- dans le deuxième schéma seules les valeurs d'énergies numérotées 0, 1 , et 2 du premier vecteur et celles numérotées 3, 7, et 1 1 du deuxième vecteur sont transmises, - dans le troisième schéma seules les valeurs d'énergies numérotées 1 , 4 5 du premier vecteur et celles numérotées 6, 7, et 1 1 du deuxième vecteur sont transmises,
- et dans le quatrième schéma seules les valeurs d'énergies numérotées 2, 5 et 8 du premier vecteur et celles numérotées 9, 1 0 et
1 1 du deuxième vecteur sont transmises.
1 0. Procédé selon l'une quelconque des revendications 1 à 9 caractérisé en ce qu'il consiste à effectuer la sélection des paramètres d'encodage des filtres de prédiction linéaire suivant quatre schémas pour encoder au mieux soit les zones pour lesquelles l'enveloppe spectrale est stable, soit les zones pour lesquelles l'enveloppe spectrale varie rapidement au cours des trames 1 , 2, ou 3 d'une super trame.
1 1 . Procédé selon la revendication 1 0 caractérisé en ce qu'il consiste à utiliser (24) dans la partie synthèse 6 filtres à prédiction linéaire à 1 0 coefficients numérotés de 0 à 5 et à transmettre :
- dans un premier schéma que les coefficients des filtres 1 , 3, et 5 lorsque l'enveloppe spectrale est stable,
- dans un deuxième schéma correspondant à la première trame que les coefficients des filtres 0, 1 et 4, - dans un troisième schéma correspondant à la deuxième trame que les coefficients des filtres 2, 3 et 5,
- dans un quatrième schéma correspondant à la troisième trame que les coefficients des filtres 1 , 4 et 5, le schéma effectivement transmis étant celui qui minimise l'erreur quadratique totale, les coefficients des filtres non transmis étant calculés dans la partie synthèse par interpolation ou extrapolation.
1 2. Procédé selon l'une quelconque des revendications 1 à 1 1 caractérisé en ce que les coefficients LSF des filtres de synthèse sont codés sur un nombre de 54 bits auquel est ajouté deux bits pour la transmission des schémas de décimation, l'énergie est codée avec un nombre de 2 fois 6 bits auquel est ajouté 2 bits pour la transmission des schémas de décimation, le pitch est codé sur un nombre de 6 bits et la fréquence de transition de voisement est codée sur un nombre de 5 bits soit au total 81 bits pour des super-trames de 67,5 ms.
EP99946281A 1998-10-06 1999-10-01 Procede de quantification des parametres d'un codeur de parole Expired - Lifetime EP1125283B1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR9812500 1998-10-06
FR9812500A FR2784218B1 (fr) 1998-10-06 1998-10-06 Procede de codage de la parole a bas debit
PCT/FR1999/002348 WO2000021077A1 (fr) 1998-10-06 1999-10-01 Procede de quantification des parametres d'un codeur de parole

Publications (2)

Publication Number Publication Date
EP1125283A1 true EP1125283A1 (fr) 2001-08-22
EP1125283B1 EP1125283B1 (fr) 2002-08-07

Family

ID=9531246

Family Applications (1)

Application Number Title Priority Date Filing Date
EP99946281A Expired - Lifetime EP1125283B1 (fr) 1998-10-06 1999-10-01 Procede de quantification des parametres d'un codeur de parole

Country Status (13)

Country Link
US (1) US6687667B1 (fr)
EP (1) EP1125283B1 (fr)
JP (1) JP4558205B2 (fr)
KR (1) KR20010075491A (fr)
AT (1) ATE222016T1 (fr)
AU (1) AU768744B2 (fr)
CA (1) CA2345373A1 (fr)
DE (1) DE69902480T2 (fr)
FR (1) FR2784218B1 (fr)
IL (1) IL141911A0 (fr)
MX (1) MXPA01003150A (fr)
TW (1) TW463143B (fr)
WO (1) WO2000021077A1 (fr)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
FR2815457B1 (fr) * 2000-10-18 2003-02-14 Thomson Csf Procede de codage de la prosodie pour un codeur de parole a tres bas debit
KR100355033B1 (ko) * 2000-12-30 2002-10-19 주식회사 실트로닉 테크놀로지 선형예측 분석을 이용한 워터마크 삽입/추출 장치 및 그방법
CA2388439A1 (fr) * 2002-05-31 2003-11-30 Voiceage Corporation Methode et dispositif de dissimulation d'effacement de cadres dans des codecs de la parole a prevision lineaire
US7668712B2 (en) 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7707034B2 (en) 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
US7177804B2 (en) 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
CN101009096B (zh) * 2006-12-15 2011-01-26 清华大学 子带清浊音模糊判决的方法
WO2008092473A1 (fr) * 2007-01-31 2008-08-07 Telecom Italia S.P.A. Procédé et système personnalisables de reconnaissance d'émotions
KR101317269B1 (ko) 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
CA2972808C (fr) * 2008-07-10 2018-12-18 Voiceage Corporation Quantification de filtre a codage predictif lineaire a reference multiple et dispositif et procede de quantification inverse
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
US9465836B2 (en) * 2010-12-23 2016-10-11 Sap Se Enhanced business object retrieval
JP6201043B2 (ja) 2013-06-21 2017-09-20 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法
JP7130878B2 (ja) * 2019-01-13 2022-09-05 華為技術有限公司 高分解能オーディオコーディング

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5255339A (en) * 1991-07-19 1993-10-19 Motorola, Inc. Low bit rate vocoder means and method
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
DE69724819D1 (de) * 1996-07-05 2003-10-16 Univ Manchester Sprachkodier- und dekodiersystem
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6094629A (en) * 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0021077A1 *

Also Published As

Publication number Publication date
DE69902480D1 (de) 2002-09-12
DE69902480T2 (de) 2003-05-22
JP2002527778A (ja) 2002-08-27
TW463143B (en) 2001-11-11
JP4558205B2 (ja) 2010-10-06
FR2784218A1 (fr) 2000-04-07
ATE222016T1 (de) 2002-08-15
MXPA01003150A (es) 2002-07-02
AU768744B2 (en) 2004-01-08
AU5870299A (en) 2000-04-26
WO2000021077A1 (fr) 2000-04-13
US6687667B1 (en) 2004-02-03
FR2784218B1 (fr) 2000-12-08
IL141911A0 (en) 2002-03-10
KR20010075491A (ko) 2001-08-09
EP1125283B1 (fr) 2002-08-07
CA2345373A1 (fr) 2000-04-13

Similar Documents

Publication Publication Date Title
EP1125283B1 (fr) Procede de quantification des parametres d'un codeur de parole
JP4112027B2 (ja) 再生成位相情報を用いた音声合成
EP1509903B1 (fr) Procede et dispositif de masquage efficace d'effacement de trames dans des codec vocaux de type lineaire predictif
US6260009B1 (en) CELP-based to CELP-based vocoder packet translation
EP1145228B1 (fr) Codage de la parole periodique
ES2380962T3 (es) Procedimiento y aparato para codificación de baja tasa de transmisión de bits de habla sorda de alto rendimiento
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
EP1692689B1 (fr) Procede de codage multiple optimise
JP2011123506A (ja) 可変レートスピーチ符号化
TW200912897A (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
JP2004310088A (ja) 半レート・ボコーダ
FR2596936A1 (fr) Systeme de transmission d'un signal vocal
EP1597721B1 (fr) Transcodage 600 bps a prediction lineaire avec excitation mixte (melp)
Meuse A 2400 bps multi-band excitation vocoder
US6535847B1 (en) Audio signal processing
EP4088277B1 (fr) Codage de la parole utilisant une interpolation variant dans le temps
US6801887B1 (en) Speech coding exploiting the power ratio of different speech signal components
WO2005114653A1 (fr) Procede de quantification d'un codeur de parole a tres bas debit
Drygajilo Speech Coding Techniques and Standards
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP0987680A1 (fr) Traitement de signal audio

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20010316

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: THALES

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

17Q First examination report despatched

Effective date: 20011010

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020807

Ref country code: IE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020807

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020807

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020807

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20020807

REF Corresponds to:

Ref document number: 222016

Country of ref document: AT

Date of ref document: 20020815

Kind code of ref document: T

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: FRENCH

REF Corresponds to:

Ref document number: 69902480

Country of ref document: DE

Date of ref document: 20020912

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20021001

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20021031

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20021031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20021107

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20021107

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 20021025

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20021122

NLV1 Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act
PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20030228

BERE Be: lapsed

Owner name: *THALES

Effective date: 20021031

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20030501

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: IE

Ref legal event code: FD4D

Ref document number: 1125283E

Country of ref document: IE

26N No opposition filed

Effective date: 20030508

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20031031

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20031031

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 18

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20170925

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20170927

Year of fee payment: 19

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20171024

Year of fee payment: 19

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: FR

Payment date: 20180928

Year of fee payment: 20

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 69902480

Country of ref document: DE

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20181001

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20190501

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20181001

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20181001