EP0481895B1 - Procédé de transmission, à bas débit, par codage CELP d'un signal de parole et système correspondant - Google Patents

Procédé de transmission, à bas débit, par codage CELP d'un signal de parole et système correspondant Download PDF

Info

Publication number
EP0481895B1
EP0481895B1 EP91402774A EP91402774A EP0481895B1 EP 0481895 B1 EP0481895 B1 EP 0481895B1 EP 91402774 A EP91402774 A EP 91402774A EP 91402774 A EP91402774 A EP 91402774A EP 0481895 B1 EP0481895 B1 EP 0481895B1
Authority
EP
European Patent Office
Prior art keywords
vector
vectors
values
dictionary
basis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
EP91402774A
Other languages
German (de)
English (en)
Other versions
EP0481895A2 (fr
EP0481895A3 (en
Inventor
Renaud Di Francesco
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP0481895A2 publication Critical patent/EP0481895A2/fr
Publication of EP0481895A3 publication Critical patent/EP0481895A3/fr
Application granted granted Critical
Publication of EP0481895B1 publication Critical patent/EP0481895B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0007Codebook element generation

Definitions

  • the invention relates to a method of transmission, at low speed, by CELP coding of a speech signal and to the corresponding system.
  • CELP Code Excited Linear Prediction
  • This technique for coding digital samples representing the speech signal is a hybrid coding technique in which the speech signal is modeled by linear prediction filters and residues of this prediction.
  • the CELP coders as shown schematically in FIG. 1a and 1b, exhaustively test all the elements of a list of waveforms. The waveform providing the best synthesis of the signal is retained, and its index, or characteristic address, is transmitted to the decoder. This method is called synthesis analysis.
  • the list of waveforms stored in the encoder and the decoder is called a dictionary.
  • CELP coder The quality of a CELP coder depends closely on the dictionary chosen, on the method of determination-modeling of the linear prediction filters used, these two parameters constituting two degrees of freedom, not independent, making it possible to adapt a particular CELP coder to the needs of 'a specific application.
  • Such a CELP coding technique is suitable for low bit rate coding applications (between 4 to 24 kbits / s).
  • bit rate coding applications between 4 to 24 kbits / s.
  • the digital signal to be analyzed, transmitted and reconstructed is divided into blocks, or frames.
  • Each block comprising L values is considered as a vector of a vector space of dimension L.
  • the current excitation signal constituted by a vector v, read in the dictionary of waveforms, must minimize a criterion of perceptual distortion of the form: min ⁇ -Hv ⁇ 2 , in which ⁇ denotes a target signal derived from the original signal O to be transmitted after perceptual weighting and H denotes a matrix of dimension LxL of impulse response derived from the product of the transfer functions of the synthesis filter and the perceptual weighting.
  • each reference vector vi is associated with an adaptive gain value gk taken from a dictionary of gain values G, which allows, following application of the gain gk to the vector vi to form a vector v k , i , to satisfy the aforementioned minimum distortion criterion.
  • Such an operating mode therefore does not make it possible to take into account, as a reference vector, the totality of the possibilities of combinations of the ternary values of the components of the reference vectors, the minimization of the distortion criterion not being able in all cases to be optimal.
  • document EP-A-0 379 296 describes a method of transmitting a low-speed speech signal, of the CELP type. This method implements a process for calculating the minimum quadratic deviation of an initial vector and a reference vector from a vector dictionary factorized into the product of two dictionaries of basic and gain vectors. The gain is separated in amplitude and in sign and the calculation process consists in finding three indices satisfying the minimum quadratic error criterion.
  • the object of the present invention is to remedy the abovementioned drawbacks, in order in particular to bring about a simplification of the calculations by the introduction as reference vector, into the dictionary of reference vectors, or directions, of almost all the combinations of the n-ary values of the components of the vectors, n being an odd number.
  • Another object of the present invention is the implementation, prior to the conventional process of applying an adaptive gain to each of the reference vectors, of a correction process by applying a scale factor, introducing the distribution of the energy of the excitation signal as a function of the frequency spectrum thereof, in order to take account of the non-uniformity of the energy distribution of the signal in the frequency domain.
  • Another object of the present invention is finally the implementation of a low-speed transmission method of a speech signal in which each reference vector, constituting the excitation signal, can be regenerated at the level of a decoder from the only index or address values of the optimal reference vector satisfying the minimum distortion criterion at the level of the coder, which has the effect of considerably simplifying and reducing the manufacturing costs of the aforementioned decoders.
  • the method for transmitting a low bit rate speech signal comprises a process for coding digital speech samples by code-excited linear prediction to generate a code signal, a process for transmitting the code signal and a process for decoding the received code signal.
  • the coding process corresponds to a process in which a waveform is represented by a block of samples comprising L sample values and constituting an initial vector (o) of dimension L is represented, from a filter of synthesis, by a reference waveform selected from a dictionary of reference waveforms each forming a reference vector (v) on criterion of minimum quadratic deviation of the initial vector (o) with respect to the waveform or reference vector (v), min ⁇ -Hv ⁇ 2 , where ⁇ represents a target vector obtained by perceptual weighting of the initial vector (o) and H a LxL dimension matrix of impulse response from the product of the synthesis filter and the linear perceptual weighting.
  • n / 2 corresponds to the integer division of n by 2.
  • H. ⁇ i.yi> and all the energies perceptual ⁇ Hy ⁇ 2 , which allows to attribute to the initial vector (o) the corresponding optimal reference vector v k *, i * , with v k *, i * gk * . ⁇ i * .yi *, this vector of optimal reference being represented by the only values of index k *, i * satisfying the criterion min ⁇ -gk.H. ⁇ i.yi ⁇ 2 .
  • the process of transmission at low speed of a speech signal consists in transmitting, as code signal, the only values of the indices k *, i * representative of each optimal reference vector v k *, i * .
  • the process of decoding a coded speech signal transmitted at low bit rate according to a code signal is remarkable in that, in order to ensure the decoding of the code signal, this process consists in discriminating the values of the indices k *, i * constituting the code signal, in decomposing the value of the index i *, representative of the optimal reference vector, in base n to regenerate the corresponding base vector yi *, to be carried out, from the value of the index i *, of the scale factor ⁇ i * and of the corresponding adaptive gain gk *, a correction of the corresponding regenerated base vector to constitute the regenerated reference vector vk *, i *.
  • a synthesis filtering operation is performed on the regenerated reference vector vk *, i * to generate the reconstructed speech signal.
  • the method which is the subject of the invention comprises a process for coding digital speech samples by linear prediction excited by codes. This process generates a code signal.
  • the method further includes a process for transmitting the code signal and a process for decoding the received code signal.
  • the coding process corresponds to a process in which a waveform represented by a block of samples comprising L values of samples, or frames, constitutes an initial vector denoted by o of dimension L, this vector being represented, and the corresponding waveform, from a synthesis filter by a reference waveform, denoted v, selected from a dictionary of reference waveforms each forming an abovementioned reference vector.
  • the selection is made on the criterion of minimum quadratic deviation of the initial vector o vis-à-vis the waveform or reference vector v, this criterion written: min ⁇ -Hv ⁇ 2 .
  • represents a target vector obtained by perceptual weighting of the initial vector o and H represents a matrix of dimension LxL of impulse response resulting from the product of the synthesis filter and from the aforementioned linear perceptual weighting.
  • the coding process is such that the selection criterion consists in establishing a dictionary factored into the product of a first dictionary Yn of basic vectors denoted yi.
  • Each basic vector is a basic vector of n-ary form, that is to say that the components yi (j) of these basic vectors, with j ⁇ [O, L-1], can take n values discrete different.
  • each basic vector yi is corrected by a scale factor ⁇ i taking into account the distribution of the excitation energy in the frequency domain of the signal.
  • the scale factors ⁇ i are determined from of a database, experimentally, the database being constituted by recording significant speech samples over several hours for example and for several speakers of the same language of expression or of several distinct languages, l experience showing that the diversity of languages of expression only intervenes at the second level in the determination of the aforementioned scale factors ⁇ i.
  • the scale factors vi are determined for each corresponding base vector yi by a process of identification of each base vector yi on a delocalized sequence of L successive recursive speech samples from the database , sorting the lowest adaptation coefficients and averaging a number u of identification or adaptation coefficients to obtain the corresponding scale factor vi associated with the aforementioned basic vector yi.
  • the factorized dictionary previously mentioned also consists of a second dictionary constituting the aforementioned product, this second dictionary being denoted G (y) and being formed by a dictionary of gains gk.
  • each scale factor coefficient vi is representative of the distribution of excitation energy in the frequency domain of a speech signal.
  • this optimal reference vector is represented by the only values of the parameters of index k *, i * satisfying the aforementioned criterion: min ⁇ -gk.H. ⁇ i.yi ⁇ 2 .
  • the minimum value of the quadratic deviation min ⁇ -gk.H. ⁇ i.yi ⁇ 2 is evaluated by selecting the corresponding gain element gk from the second dictionary G (y) making it possible to minimize the difference
  • where g checks the relation: g
  • the dictionary Yn of basic vectors yi of n-ary form [-n / 2, ..., O, ... n / 2] of dimension L includes all the basic vectors whose L components have for value the aforementioned n-values, with the exception of the null vector.
  • the index i of the basic vectors is taken equal to the value in base n of each base vector after transcoding the values [-n / 2 ..., O, ... n / 2] into values corresponding (0,1,2, ... n). It will thus be understood that the basic vectors yi of n-ary form are arranged as a function of their index i, this index i having for value the value in base n of each vector.
  • the set of basic vectors yi constituting the dictionary Yn is defined from n / 2.L impulse vectors of which only one component yi (j) of order j, with j ⁇ [O, L-1 ], is equal to -1, -2, ... -n / 2.
  • FIGS. 3a and 3b operator cells have been shown respectively making it possible to generate, from the previously defined pulse vectors and from sub-dictionaries constituted by the pulse vector considered and the related vectors corresponding to each pulse vector, the complete dictionary comprising the collection of all of the sub-dictionaries.
  • Each operator as represented in FIG. 3a comprises an operator called delay operator R whose transfer function is denoted Z +1 , according to the classical notation of transform into Z, a symmetrizer operator denoted Sy which has the function of multiplying the components of all the vectors presented at its entry by the value +1, by the value O then by the value -1 and a summator, noted S, receiving the output of the delay operator R and the symmetrizer Sy.
  • the summator S receives the output of the delay operator R via a switch I, in position F, or the zero vector [0,0,0,0,0] of dimension L in position O.
  • the operators represented in FIG. 3a are constituted by a single operator represented in 1), 2) and 3) at different stages of the processing process to generate the basic vectors yi of the abovementioned dictionary Yn.
  • the initial pulse or pulse vector ⁇ L-1 is present at the input of the delay operator R
  • the symmetrizer Sy is then supplied by a sub-dictionary noted DO ⁇ which is initially formed by the above-mentioned pulse vector ⁇ L-1.
  • Sy balancer delivers a sub-dictionary symmetrical noted DO ⁇ , as shown in FIG.
  • the pulse vector ⁇ L-2 is associated with the sub-dictionary D1 formed by the related vectors y1, y2, y3 with the pulse vector ⁇ L-2 and by the pulse vector to initial L-1 forming the basic vector y0, as well as the zero vector.
  • point 2 the summator S
  • the operator making it possible to generate the basic vectors yi is such that the latter receives the impulse vector at the level of the delay operator R at Lm, at the symmetrizer Sy, the dictionary denoted D m-1 formed recursively like the dictionary D1, the summator S as represented in point 2 of FIG. 3a then delivering from the above-mentioned pulse vector ⁇ Lm-1 delivered by the delay operator R or the zero vector and by the sub-dictionary D m-1 ⁇ the Dm dictionary.
  • the * represented at the level of the components yi (j) for the processing process of level m correspond to values 0, -1 or +1 when the vectors are ternary vectors.
  • the * represent values between -n / 2 and + n / 2, under the conditions previously mentioned.
  • the total ternary dictionary, sum or union of all the sub-dictionaries of intermediate level m, up to L can be obtained for the only positive or negative values of the components yi (j) , the dictionary total can then be obtained by symmetrization through a symmetrization operator such as Sy.
  • this operator is such that the impulse responses of the system H at the relative time 0, 1, 2, L-1, that is to say the values h 0 , h 1 , h L-2 , h L-1 are applied to the aforementioned operator.
  • the symmetrization operator Sy multiplies the elements of S L-1 (Dm-1) by +1, 0, -1 and realizes, as described above, the union of the distinct elements obtained.
  • FIGS. 5a and 5b A schematic diagram of the numbering and calculation process of the different entities implemented by the selection criterion in accordance with the object of the present invention will be described in connection with FIGS. 5a and 5b.
  • the elementary decryption cell is represented in Figure 5b from the pulse vectors noted not-1, ⁇ 0 and ⁇ 1. It will be noted that the summation of the pulse vectors e Frankfurts1, ⁇ 0 and ⁇ -1 amounts to replacing the last coordinate of the incident base vector by the component values +1, O or -1.
  • FIGS. 5a and 5b the architecture as represented in FIGS. 5a and 5b is that of a linear structure of ternary graphs. For an n-ary structure we get an n-ary graph.
  • the global graph for obtaining the energies is traversed from right to left, the initial energy E (0) being equal to SL-1 (0) 2 .
  • the elementary cell constituting the graph represented in FIG. 5c is represented in FIG. 5d.
  • each reference vector v k *, i * can advantageously be weighted by a factor of predicted level, noted a.
  • This predicted level factor a is representative of the average energy of the excitation signal estimated on at least three successive previous excitation vectors.
  • the previous expression is then calculated by filtering the expression 2x / ⁇ by the matrix transposed from the matrix H, ie H t .
  • the calculation process as represented by the operator in FIG. 6 allows, in a manner analogous to the calculation of the partial responses S L-1 (yi) previously described, to obtain the quantities x'0, x'Lm-1, x'L-2 and therefore the aforementioned scalar products, the null vector being replaced by the null value.
  • each scale factor vi can be determined from a plurality N of frames, from a speech signal database, the scale factor ⁇ i for each base vector yi being chosen so as to make the filter residue of the aforementioned frames minimal for the frame considered. It will be recalled that several processes for determining each scale factor vi can be envisaged.
  • the table of the scale factors vi is given below by the table of 121 values of the scale factors.
  • the first value multiplies (-1, -1, -1, -1, -1) ..., the last (0,0,0,0, -1).
  • the transmission of speech at low speed is effected by the only transmission, as code signal, of the values of the indices k * and i * representative of each reference vector v k *, i * .
  • the transmission can be carried out using conventional transmission protocols in which a redundancy of the information transmitted is introduced in order to ensure transmission at a rate substantially zero error.
  • the value i * can be transmitted either by direct numbering or by retrograde numbering, or according to a translated numbering whose translation table is known to the coder as well as to the decoder.
  • the decoding process consists in discriminating in 1000 the values of the indices k * and i * constituting the code signal and then in decomposing into 1001 the value of the index i * representative of the optimal reference vector in base n in order to regenerate the corresponding base vector yi *.
  • the decoding process consists in carrying out a synthesis filtering operation 1003 of the reference vector to generate the reconstructed speech signal.
  • each reference vector v k *, i * before the synthesis filtering is weighted by a predicted level factor ⁇ which is estimated on at least three excitation vectors successive previous.
  • the determination of the predicted level ⁇ will not be described in detail since it corresponds to the level of the process of decoding the operations normally known to those skilled in the art.
  • FIGS. 8 and 9 A more detailed description of a system for transmitting a low bit rate speech signal in accordance with the object of the present invention will be described in conjunction with FIGS. 8 and 9.
  • the coding circuit comprises a generator 1 of a first dictionary Yn of basic vectors yi of n-ary shape of dimension L, the components of these vectors, as mentioned previously, being able to take the values between -n / 2 to n / 2.
  • the generator of the dictionary Yn can advantageously be constituted by calculating means comprising the operators as described in FIGS. 3a, 3b for example and / or a storage circuit which can be constituted by a random access memory associated with this circuit computer or by ROM.
  • the read only memory is associated with a fast sequencer which makes it possible to carry out a successive reading of the basic vectors yi according to the indices in direct or retrograde numbering as described previously.
  • the coding circuit as represented in FIG. 8 comprises a circuit 2 correcting the basic vectors yi by a scale factor ⁇ i.
  • a fast multiplexer denoted MUX makes it possible successively to read the corresponding values of the corrected base vector yi ⁇ and deliver this value corresponding to a circuit 3 generator of a second adaptive gain dictionary gk.
  • the generator circuit 3 of the second dictionary G (y) may advantageously include an amplifier circuit, denoted 30, connected to a table of values gk constituting the aforementioned second dictionary.
  • the coding circuit which is the subject of the present invention also comprises an amplifier circuit 4 which makes it possible to apply to each reference vector v k, i the level prediction coefficient a as defined above. in the description.
  • the coding circuit object of the present invention then comprises, arranged in cascade, the synthesis filter noted 5 and the perceptual weighting filter noted 6 of transmission H as described previously in the description.
  • a summator 7 makes it possible to receive on the one hand the original signal via a same perceptual weighting filter 6 after inversion of the difference of the signals delivered by the algebraic summator 7, allowing the application on the signal thus obtained from the minimum distortion criterion.
  • the coding circuit which is the subject of the present invention comprises a circuit for calculating the minimum distortion 8 which comprises a first calculating circuit 80 of the product 2 gk ⁇ x / ⁇
  • the first calculator circuit 80 delivers a first calculation result r1.
  • a second calculator circuit 81 makes it possible to calculate the energy of the perceptually reconstructed and weighted vector, this energy being of the form gk 2 ⁇ H. ⁇ i.yi ⁇ 2 .
  • the computer circuits 80 and 81 can be constituted by program modules whose calculation graphs have been explained in FIGS. 4 and 5 a) to d) respectively.
  • the second calculation circuit 81 delivers a second calculation result denoted r2.
  • a comparator 83 makes it possible to compare the value of the calculation results r1 and r2 which makes it possible to determine by discrimination of the values of the indices i and k, the indices i * and k * for which the criterion of minimum of the quadratic difference is satisfied .
  • the discrimination of the indices i * and k * is carried out for example by a sorting program noted 84 in FIG. 8.
  • the values of the indices k * and i * are then delivered, these indices being representative of the corresponding reference vector v k * , i * .
  • FIG. 8 also shows the transmission circuit according to the subject of the present invention, this transmission circuit making it possible to deliver as a code signal representative of the speech signal the only values of the indices k * and i *.
  • This transmission circuit does not have any particular characteristic insofar as it can in fact be constituted by a transmission system of conventional type used in the devices for transmitting speech signals by coding of CELP type of the prior art.
  • FIG. 9 A more detailed description of a decoding circuit allowing the implementation of the method which is the subject of the invention is shown in FIG. 9.
  • the decoding circuit comprises a module 10 for discriminating the values of the indices i *, k * of the code signal received, the code signal being of course transmitted according to a particular protocol which does not enter into the object of the present invention.
  • the discrimination circuit 10 thus effecting a parallel series transformation of the information relating to the indices i *, k *
  • the decoding circuit comprises a circuit n-base decomposition of the value of the index i *.
  • the decoding circuit as shown in FIG. 9 comprises a table of the adaptive gain values gk denoted 11, which, on reception of the value of the index k *, makes it possible to deliver the corresponding adaptive gain value gk *.
  • This circuit 11 can advantageously consist of a read-only memory in which the adaptive gain values gk are stored.
  • a generator circuit 12 of the scale factor ⁇ i * is provided.
  • This circuit can consist of a read only memory forming a look-up table, which with the value i * makes correspond the value ⁇ i *.
  • the decoding circuit comprises a circuit 13 generating the regenerated base vector by decomposition into base n of the value of the index i *.
  • a circuit 14 corresponds to the value i * by transcoding the components in base n of the value of the index i *, the value [-n / 2, ..., 0, ... n / 2], which makes it possible to generate a regenerated reference vector v k *, i * of the product of the vector regenerated base and product A.
  • a synthesis filter 15 allows starting from the regenerated reference vector to generate the reconstructed speech signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • L'invention est relative à un procédé de transmission, à bas débit, par codage CELP d'un signal de parole et au système correspondant.
  • La technique de codage de signaux de parole selon le processus de codage CELP ("Code Excited Linear Prediction" : prédiction linéaire excitée par codes) est actuellement utilisée et a fait l'objet de nombreux travaux. Cette technique de codage d'échantillons numériques représentant le signal de parole est une technique de codage hybride dans laquelle le signal de parole est modélisé par des filtres de prédiction linéaire et des résidus de cette prédiction. De manière générale, les codeurs CELP, ainsi que représenté de manière schématique en figure la et 1b, essaient de façon exhaustive tous les éléments d'une liste de formes d'onde. La forme d'onde réalisant la meilleure synthèse du signal est retenue, et son indice, ou adresse caractéristique, est transmis au décodeur. Cette méthode est appelée analyse par synthèse. La liste des formes d'onde, mémorisée au niveau du codeur et du décodeur est appelée dictionnaire.
    La qualité d'un codeur CELP dépend étroitement du dictionnaire choisi, de la méthode de détermination-modélisation des filtres de prédiction linéaire utilisés, ces deux paramètres constituant deux degrés de liberté, non indépendants, permettant d'adapter un codeur CELP particulier aux besoins d'une application déterminée.
    Une telle technique de codage CELP convient aux applications de codage à bas débit (compris entre 4 à 24 kbits/s). Pour une description plus détaillée de ce type de codage, on pourra utilement se reporter à l'article intitulé "A robust and fast CELP coder at 16 Kbits/s" publié par A. LE GUYADER, D. MASSALOUX et F. ZURCHER, CNET Lannion France, dans la revue Speech Communication n°7, 1988.
  • De manière générale, dans ce type de codeur, décodeur, le signal numérique à analyser, transmettre et reconstituer, est découpé en blocs, ou trames. Chaque bloc comprenant L valeurs est considéré comme un vecteur d'un espace vectoriel de dimension L. Le signal d'excitation courant constitué par un vecteur v, lu dans le dictionnaire des formes d'onde, doit minimaliser un critère de distorsion perceptuel de la forme :
    min ∥χ-H.v∥2, dans lequel χ désigne un signal cible issu du signal original O à transmettre après pondération perceptuelle et H désigne une matrice de dimension LxL de réponse impulsionnelle issue du produit des fonctions de transfert du filtre de synthèse et de la pondération perceptuelle. On rappellera que la pondération perceptuelle a pour objet, relativement au bruit de codage, analogue à un bruit blanc, de relativiser dans le domaine fréquentiel la contribution de ce dernier au signal perçu effectivement. La matrice H est une matrice triangulaire de la forme :
    Figure imgb0001
    Au cours du processus de codage, à chaque vecteur de référence vi est associée une valeur de gain adaptatif gk prise parmi un dictionnaire de valeurs de gain G, ce qui permet, suite à application du gain gk au vecteur vi pour former un vecteur vk,i, de satisfaire au critère de distorsion minimale précité.
  • Afin de diminuer la complexité des calculs, très nombreux en fonction de la dimension L des vecteurs et du débit du signal de parole, on a, dans certains travaux, proposé d'utiliser comme vecteur de référence, afin de réaliser le signal d'excitation, des vecteurs dont les composantes n'ont pour valeur que les valeurs +1, O ou -1, le dictionnaire des vecteurs étant alors constitué sous forme de dictionnaire de vecteurs ternaires. Une telle utilisation dans un processus de codage de type CELP de vecteurs ternaires de ce type a été mentionnée dans la demande de brevet européen EP 0 347 307 publiée le 20.12.1989.
    Toutefois, dans un tel processus de codage, on notera que tous les vecteurs de référence contiennent nécessairement la même énergie. En outre, la recherche de la séquence ou vecteur de référence optimum ne peut être réduite au calcul de produits purement scalaires que dans le cas où l'auto-corrélation est elle-même normalisée et présente des termes nuls dont l'écartement correspond aux composantes non nulles des séquences ou vecteurs de référence.
  • Un tel mode opératoire ne permet donc pas de prendre en compte, comme vecteur de référence, la totalité des possibilités des combinaisons des valeurs ternaires des composantes des vecteurs de référence, la minimalisation du critère de distorsion ne pouvant dans tous les cas être optimale.
  • Enfin, le document EP-A-0 379 296 décrit un procédé de transmission d'un signal de parole à bas débit, de type CELP. Ce procédé met en oeuvre un processus de calcul du minimum d'écart quadratique d'un vecteur initial et d'un vecteur de référence à partir d'un dictionnaire de vecteurs factorisé en produit de deux dictionnaires de vecteurs de base et de gains. Le gain est séparé en amplitude et en signe et le processus de calcul consiste à trouver trois indices satisfaisant le critère d'erreur quadratique minimum.
  • La présente invention a pour objet de remédier aux inconvénients précités, afin, notamment, d'apporter une simplification des calculs par l'introduction comme vecteur de référence, dans le dictionnaire des vecteurs de référence, ou directions, de la quasi-totalité des combinaisons des valeurs n-aires des composantes des vecteurs, n étant un nombre impair.
  • Un autre objet de la présente invention est la mise en oeuvre, préalablement au processus classique d'application d'un gain adaptatif à chacun des vecteurs de référence, d'un processus de correction par application d'un facteur d'échelle, introduisant la répartition de l'énergie du signal d'excitation en fonction du spectre fréquentiel de ce dernier, afin de tenir compte de la non-uniformité de la distribution d'énergie du signal dans le domaine des fréquences.
  • Un autre objet de la présente invention est enfin la mise en oeuvre d'un procédé de transmission à bas débit d'un signal de parole dans lequel, chaque vecteur de référence, constituant le signal d'excitation, peut être régénéré au niveau d'un décodeur à partir des seules valeurs d'indice ou d'adresse du vecteur de référence optimal satisfaisant au critère de minimum de distorsion au niveau du codeur, ce qui a pour effet de simplifier considérablement et de réduire les coûts de fabrication des décodeurs précités.
  • Le procédé de transmission d'un signal de parole à bas débit selon la présente invention comporte un processus de codage d'échantillons numériques de parole par prédiction linéaire excitée par codes pour engendrer un signal de code, un processus de transmission du signal de code et un processus de décodage du signal de code reçu. Le processus de codage correspond à un processus dans lequel une forme d'onde est représentée par un bloc d'échantillons comportant L valeurs d'échantillons et constituant un vecteur initial (o) de dimension L est représenté, à partir d'un filtre de synthèse, par une forme d'onde de référence sélectionnée parmi un dictionnaire de formes d'onde de référence formant chacune un vecteur de référence (v) sur critère d'écart quadratique minimum du vecteur initial (o) vis-à-vis de la forme d'onde ou vecteur de référence (v), min ∥χ-H.v∥2, où χ représente un vecteur cible obtenu par pondération perceptuelle du vecteur initial (o) et H une matrice de dimension LxL de réponse impulsionnelle issue du produit du filtre de synthèse et de la pondération perceptuelle linéaire. Ce processus est remarquable en ce que ce critère de sélection consiste à établir un dictionnaire factorisé en produit d'un premier dictionnaire Yn, n=2m+1 entier impair, m étant un nombre entier non nul, de vecteurs de base yi, de forme n-aire, de dimension L, dont chaque valeur des composantes, yi(j), peut prendre une valeur appartenant à l'ensemble Im des entiers relatifs consécutifs compris entre -m et m, soit Im = { -m,-m+1, ...,-1,0,1,...,m-1,m} constituant un ensemble à n=2m+1 éléments, chacun de ces vecteurs de base étant multiplié par un facteur d'échelle vi tenant compte de la distribution de l'énergie d'excitation dans le domaine de fréquence du signal, et d'un deuxième dictionnaire G(y) de gains gk, de façon à représenter ainsi le dictionnaire de formes d'ondes ou vecteurs de référence, chaque vecteur de référence vérifiant la relation vk,i=gk.vi.yi. On notera que la valeur n/2 correspond à la division entière de n par 2. La valeur minimum de l'écart quadratique ∥χ-gk.H.νi.yi∥2 est alors établie par le calcul du maximum de C(gk,νi.yi) = 2 gk <χ|H.νi.yi> - gk2 ∥H.νi.yi∥2 par le calcul de tous les produits scalaires <χ|H.νi.yi> et de toutes les énergies perceptuelles ∥H.y∥2, ce qui permet d'attribuer au vecteur initial (o) le vecteur de référence optimal correspondant vk*,i*, avec vk*,i* = gk*.νi*.yi*, ce vecteur de référence optimal étant représenté par les seules valeurs d'indice k*,i* satisfaisant au critère min ∥χ-gk.H.νi.yi∥2.
  • Le processus de transmission à bas débit d'un signal de parole, selon la présente invention, consiste à transmettre, comme signal de code, les seules valeurs des indices k*,i* représentatifs de chaque vecteur de référence optimal vk*,i*.
  • Le processus de décodage d'un signal de parole codé transmis à bas débit selon un signal de code, conformément à l'objet de la présente invention, est remarquable en ce que, afin d'assurer le décodage du signal de code, ce processus consiste à discriminer les valeurs des indices k*,i* constituant le signal de code, à décomposer la valeur de l'indice i*, représentatif du vecteur de référence optimal, en base n pour régénérer le vecteur de base correspondant yi*, à effectuer, à partir de la valeur de l'indice i*, du facteur d'échelle νi* et du gain adaptatif gk* correspondants, une correction du vecteur de base correspondant régénéré pour constituer le vecteur de référence régénéré vk*,i*. Une opération de filtrage de synthèse est effectuée sur le vecteur de référence régénéré vk*,i* pour engendrer le signal de parole reconstruit.
  • Le procédé objet de la présente invention, les processus de codage, de transmission et de décodage et le système et circuits de codage, de transmission et de décodage permettant la mise en oeuvre de ce procédé, trouvent avantageusement application à la transmission de signaux de parole à bas débit, notamment entre mobiles par exemple.
  • L'invention sera mieux comprise à la lecture de la description ci-après et à l'observation des dessins dans lesquels, outre les figures la et 1b relatives à l'art antérieur,
    • la figure 2 représente au point a) d'une part les étapes de traitement dans un processus de codage conforme à l'objet de la présente invention, et au point b) d'autre part les opérations effectuées, sur les vecteurs de base, dans les étapes représentées au point a), pour des vecteurs n-aires,
    • la figure 3a représente aux points 1, 2 et 3 les modules de traitement de vecteurs impulsion constituant des vecteurs de base privilégiés, dans un traitement de type récursif permettant d'engendrer un premier dictionnaire de vecteurs de base,
    • la figure 3b représente successivement les opérations effectuées sur les vecteurs de base pour engendrer, de manière itérative, le premier dictionnaire de vecteurs de base précité, dans un cas particulier où n=3, les vecteurs de base étant des vecteurs ternaires,
    • la figure 4 représente de manière analogue à la figure 3a, 3b un processus de calcul de la réponse impulsionnelle pour tous les vecteurs ternaires yi excitant le filtre de synthèse et le filtre de pondération perceptuelle en cascade présentant la fonction de transfert H,
    • la figure 5 représente en ses différents points a), b), c) et d) des graphes représentatifs des processus de calcul des énergies perceptuelles des vecteurs ternaires à partir des réponses partielles impulsionnelles de la fonction de transfert H,
    • la figure 6 représente des graphes représentatifs des processus de calcul des produits scalaires,
    • la figure 7 représente un organigramme des étapes de traitement des valeurs d'indice optimal k*,i* reçus au cours du processus de décodage,
    • la figure 8 représente un schéma synoptique d'un circuit de codage dans un système de transmission de parole à bas débit conforme à l'objet de la présente invention,
    • la figure 9 représente un schéma synoptique d'un circuit de décodage dans un système de transmission de parole à bas débit conforme à l'objet de la présente invention.
  • Le procédé de transmission d'un signal de parole à bas débit, objet de la présente invention, sera tout d'abord décrit en liaison avec les figures 2 a et b.
  • Selon la figure 2 précitée, le procédé objet de l'invention comporte un processus de codage d'échantillons numériques de parole par prédiction linéaire excité par codes. Ce processus permet d'engendrer un signal de code. Le procédé comporte en outre un processus de transmission du signal de code et un processus de décodage du signal de code reçu.
  • Selon la figure 2 précitée, le processus de codage correspond à un processus dans lequel une forme d'onde représentée par un bloc d'échantillons comportant L valeurs d'échantillons, ou trames, constitue un vecteur initial noté o de dimension L, ce vecteur étant représenté, et la forme d'onde correspondante, à partir d'un filtre de synthèse par une forme d'onde de référence, notée v, sélectionnée parmi un dictionnaire de formes d'onde de référence formant chacune un vecteur de référence précité. La sélection est effectuée sur critère d'écart quadratique minimum du vecteur initial o vis-à-vis de la forme d'onde ou vecteur de référence v, ce critère s'écrivant :
    min ∥χ-H.v∥2.
  • Dans cette relation, χ représente un vecteur cible obtenu par pondération perceptuelle du vecteur initial o et H représente une matrice de dimension LxL de réponse impulsionnelle issue du produit du filtre de synthèse et de la pondération perceptuelle linéaire précitée.
  • Selon le procédé objet de la présente invention, le processus de codage est tel que le critère de sélection consiste à établir un dictionnaire factorisé en produit d'un premier dictionnaire Yn de vecteurs de base notés yi. Chaque vecteur de base est un vecteur de base de forme n-aire, c'est-à-dire que les composantes yi(j) de ces vecteurs de base, avec j ∈ [O, L-1], peuvent prendre n valeurs discrètes différentes. D'une manière générale, chaque valeur des composantes yi(j) peut prendre une valeur comprise dans l'ensemble Im des entiers relatifs consécutifs compris entre -m et m, soit Im = {-m,-m+1, ...,-1,0,1,...,m-1,m} constituant un ensemble à n=2m+1 éléments.
  • Selon une caractéristique avantageuse du procédé objet de la présente invention, chaque vecteur de base yi est corrigé par un facteur d'échelle νi tenant compte de la distribution de l'énergie d'excitation dans le domaine de fréquence du signal. On notera que, de la manière la plus générale, les facteurs d'échelle νi sont déterminés à partir d'une base de données, de manière expérimentale, la base de données étant constituée par un enregistrement d'échantillons de parole significatifs sur plusieurs heures par exemple et pour plusieurs locuteurs d'une même langue d'expression ou de plusieurs langues distinctes, l'expérience montrant que la diversité des langues d'expression n'intervient qu'au second degré dans la détermination des facteurs d'échelle νi précités. Une description plus détaillée d'une table des facteurs d'échelles vi pour des vecteurs ternaires de dimension L=5 sera donnée ultérieurement dans la description.
  • On notera simplement que selon ce principe les facteurs d'échelles vi sont déterminés pour chaque vecteur de base yi correspondant par un processus d'identification de chaque vecteur de base yi sur une séquence délocalisée de L échantillons de parole successifs récursifs de la base de données, tri des coefficients d'adaptation les plus faibles et moyennisation d'un nombre u de coefficients d'identification ou d'adaptation pour obtenir le facteur d'échelle vi correspondant associé au vecteur de base yi précité.
  • Le dictionnaire factorisé précédemment mentionné est également constitué par un deuxième dictionnaire constituant le produit précité, ce deuxième dictionnaire étant noté G(y) et étant formé par un dictionnaire de gains gk. Le dictionnaire factorisé constitue ainsi un dictionnaire de formes d'onde ou de vecteurs de référence. Chaque vecteur de référence vérifie ainsi la relation vk,i = gk.νi.yi.
  • On notera bien entendu, ainsi que représenté sur la figure 2a, que l'opération de correction effectuée par l'application du facteur d'échelle vi ne constitue pas une simple pondération des composantes yi(j) de chaque vecteur de base yi car chaque coefficient de facteur d'échelle vi est représentatif de la distribution de l'énergie d'excitation dans le domaine de fréquence d'un signal de parole.
  • Ainsi qu'on l'a représenté au point a) de la figure 2, le procédé objet de l'invention consiste alors à établir la valeur minimum de l'écart quadratique ∥χ-gk.H.νi.yi∥2 par le calcul d'une fonction notée : C (gk,νi.yi) = 2 gk <χ|H.νi.yi> - gk 2 ∥H.νi.yi∥ 2
    Figure imgb0002
    par calcul de tous les produits scalaires <χ|H.vi.yi> et de toutes les énergies perceptuelles ∥H.y∥2.
  • Le calcul précité permet alors d'attribuer au vecteur initial o le vecteur de référence optimal correspondant noté vk*,i*, avec Vk*,i* = gk*.νi*.yi*. Bien entendu, conformément à un objet particulièrement intéressant de la présente invention, ce vecteur de référence optimal est représenté par les seules valeurs des paramètres d'indice k*,i* satisfaisant au critère précité :
    min ∥χ-gk.H.νi.yi∥2.
  • Une description plus détaillée des opérations effectuées au niveau de chaque vecteur de base yi, ces vecteurs de base étant des vecteurs n-aires de dimension L dont les composantes yi(j) ont pour valeur au plus la valeur n/2 ou éventuellement -n/2, par valeurs entières et par incrément de 1, sera donnée en liaison avec le point b) de la figure 2.
  • Au point b) précité, on a représenté successivement les vecteurs de base notés yO, y1, yi, yK avec K = (nL-3)/2, chaque composante ayant pour valeur l'une des valeurs de la forme n-aire. On a ensuite représenté la correction par application du facteur d'échelle νi, lequel, pour les raisons précédemment mentionnées, ne constitue pas une simple pondération analogue à l'application adaptative du gain gk, à chaque valeur des composantes yi(j) des vecteurs de base yi étant appliqué le facteur d'échelle vi correspondant déterminé dans les conditions précédemment mentionnées. Sur le même point b) on a enfin représenté l'application du gain adaptatif gk, chaque composante yi(j) des vecteurs de base yi étant alors multipliée par le produit gk.νi.
  • On comprendra bien sûr que, dans la mise en oeuvre du processus de codage tel que représenté aux points a) et b) de la figure 2 précédemment mentionnée, la valeur minimum de l'écart quadratique min ∥χ-gk.H.νi.yi∥2 est évaluée par sélection de l'élément de gain gk correspondant du deuxième dictionnaire G(y) permettant de rendre minimum la différence |g-gk*| où g vérifie la relation : g = <χ|H.νi.yi> ∥H.νi.yi∥ 2
    Figure imgb0003
  • Une description plus détaillée de l'arrangement des vecteurs de base yi pour constituer le dictionnaire ou premier dictionnaire Yn de dimension L de vecteurs de base yi sera maintenant donnée en liaison avec les figures 3a et 3b.
  • De manière générale, on comprendra que le dictionnaire Yn de vecteurs de base yi de forme n-aire [-n/2, ...,O,...n/2] de dimension L comprend tous les vecteurs de base dont les L composantes ont pour valeur les valeurs n-aires précitées, à l'exception du vecteur nul. De manière générale, l'indice i des vecteurs de base est pris égal à la valeur en base n de chaque vecteur de base après transcodage des valeurs [-n/2...,O,...n/2] en valeurs correspondantes (0,1,2,...n). On comprendra ainsi que les vecteurs de base yi de forme n-aire sont arrangés en fonction de leur indice i, cet indice i ayant pour valeur la valeur en base n de chaque vecteur.
  • On comprendra également que l'ensemble des vecteurs de base yi constituant le dictionnaire Yn est défini à partir des n/2.L vecteurs impulsion dont une seule composante yi(j) d'ordre j, avec j ∈ [O,L-1], est égale à -1, -2, ... -n/2. A chaque vecteur impulsion sont associés les vecteurs de base apparentés présentant des valeurs de composantes d'ordre q ≤ j identique, chaque vecteur apparenté à un vecteur impulsion de rang q, avec q = j pour yi(j) différent de O, étant obtenu par combinaison linéaire du vecteur impulsion de rang j=q et des vecteurs impulsion ou apparentés de rang j=q' supérieur.
  • Une description plus détaillée de la mise en oeuvre du dictionnaire des vecteurs de base yi dans le cas de vecteurs ternaires et de la manière d'engendrer ces vecteurs de base sera donnée en liaison avec les figures 3a et 3b, des vecteurs de base de dimension L et de forme n-aire pouvant être engendrés selon le même principe sans sortir du cadre de l'objet de la présente invention.
  • Sur les figures 3a et 3b on a représenté respectivement des cellules opérateurs permettant d'engendrer, à partir des vecteurs impulsion précédemment définis et de sous-dictionnaires constitués par le vecteur impulsion considéré et les vecteurs apparentés correspondant à chaque vecteur impulsion, le dictionnaire complet comprenant la réunion de l'ensemble de tous les sous-dictionnaires.
  • Chaque opérateur tel que représenté en figure 3a comprend un opérateur dit opérateur de retard R dont la fonction de transfert est notée Z+1, selon la notation classique de transformée en Z, un opérateur symétriseur noté Sy lequel a pour fonction de multiplier les composantes de tous les vecteurs présentés à son entrée par la valeur +1, par la valeur O puis par la valeur -1 et un sommateur, noté S, recevant la sortie de l'opérateur de retard R et du symétriseur Sy. Le sommateur S reçoit la sortie de l'opérateur de retard R par l'intermédiaire d'un commutateur I, en position F, ou le vecteur nul [0,0,0,0,0] de dimension L en position O. Les opérateurs représentés en figure 3a sont constitués par un seul et même opérateur représenté en 1), 2) et 3) à des étapes différentes de processus de traitement pour engendrer les vecteurs de base yi du dictionnaire Yn précité.
  • En début de processus de génération des vecteurs de base yi, tel que représenté au point 1) de la figure 3a, l'impulsion initiale ou vecteur d'impulsion δ L-1 est présente à l'entrée de l'opérateur de retard R. Le symétriseur Sy est alors alimenté par un sous-dictionnaire noté DO ¯
    Figure imgb0004
    lequel est constitué initialement par le vecteur impulsion δ L-1 précité. Le symétriseur Sy délivre un sous-dictionnaire symétrique noté DO ¯
    Figure imgb0005
    , tel que représenté en figure 3b, et le sommateur S, lequel reçoit le vecteur impulsion δ L-2 délivré par l'opérateur de retard R, vecteur impulsion de rang q = L-2, ou le vecteur nul, et le sous-dictionnaire symétrique DO ¯
    Figure imgb0006
    , délivre en sortie le dictionnaire D1 constitué par les vecteurs de base y0, y1, y2 et y3. On notera bien sûr, ainsi que représenté en figure 3b, qu'au vecteur impulsion δ L-2 est associé le sous-dictionnaire D1 formé par les vecteurs apparentés y1, y2, y3 au vecteur impulsion δ L-2 et par le vecteur impulsion à L-1 initial formant le vecteur de base y0, ainsi que le vecteur nul. Bien entendu, et de manière récursive ainsi que représenté au point 2) de la figure 3a, l'opérateur permettant d'engendrer les vecteurs de base yi est tel que celui-ci reçoit au niveau de l'opérateur de retard R le vecteur impulsion à L-m, au niveau du symétriseur Sy, le dictionnaire noté D m-1 formé récursivement comme le dictionnaire D1, le sommateur S tel que représenté au point 2 de la figure 3a délivrant alors à partir du vecteur impulsion δ L-m-1 précité délivré par l'opérateur de retard R ou du vecteur nul et par le sous-dictionnaire D m-1 ¯
    Figure imgb0007
    le sous dictionnaire Dm.
  • Par itération il est ainsi possible et de manière récursive d'engendrer à partir de l'ensemble des vecteurs impulsion, tel que précédemment décrit, les vecteurs apparentés et les sous-dictionnaires correspondants puis finalement le dictionnaire complet. On notera que, sur la figure 3b, les * représentés au niveau des composantes yi(j) pour le processus de traitement de niveau m correspondent à des valeurs 0, -1 ou +1 lorsque les vecteurs sont des vecteurs ternaires. Bien entendu, dans le cas de vecteurs n-aires les * représentent des valeurs comprises entre -n/2 et +n/2, dans les conditions précédemment mentionnées.
  • On notera que le dictionnaire ternaire total, somme ou réunion de tous les sous-dictionnaires de niveau intermédiaire m, jusqu'à L peut être obtenu pour les seules valeurs positives ou négatives des composantes yi(j), le dictionnaire total pouvant alors être obtenu par symétrisation par l'intermédiaire d'un opérateur de symétrisation tel que Sy.
  • De la même manière, le calcul de la réponse partielle à un instant t = L-1, c'est-à-dire à un instant relatif correspondant à l'occurrence du vecteur impulsion δ L-1, du système H constitué par le filtre de synthèse et par le filtre de pondération perceptuelle excité par les vecteurs de base ternaire yi peut être décrit à l'aide des opérateurs précédents. La réponse partielle à l'instant t = L-1 est notée SL-1(yi).
  • Au niveau du premier opérateur de calcul, noté 1 sur la figure 4, cet opérateur est tel que les réponses impulsionnelles du système H au temps relatif 0, 1, 2, L-1 c'est-à-dire les valeurs h0, h1, hL-2, hL-1 sont appliquées à l'opérateur précité.
  • On rappelle que l'opérateur SL-1 représente ici aussi l'addition à chaque élément hL-m-1 ou à la valeur zéro de toutes les réponses partielles à t = L-1 des vecteurs du dictionnaire symétrisé délivré par le symétriseur Sy de niveau m.
  • On obtient ainsi SL-1(Dm) ensemble des réponses t = L-1 des vecteurs de Dm.
  • L'opérateur de symétrisation Sy multiplie les éléments de SL-1(Dm-1) par +1, 0, -1 et réalise, ainsi que décrit précédemment, la réunion des éléments distincts obtenus. Enfin, le dernier opérateur représenté en 3 à la figure 4 fournit la réponse à t = L-1 des vecteurs ternaires yi dont la première coordonnée est -1.
  • On notera que la réponse du système linéaire de la matrice H aux vecteurs ternaires qui lui sont appliqués peut donc être réalisée selon la même architecture que précédemment en appliquant la transformation linéaire H à chaque noeud de cette architecture.
  • Les énergies perceptuelles des vecteurs ternaires peuvent alors se déduire des seules réponses partielles précédemment décrites à t = L-1.
  • En effet, : la réponse de la matrice H à l'excitation par un vecteur yi s'écrit :
    Figure imgb0008
  • En effet, par définition la réponse à l'instant relatif t = L-1, notée SL-1(yi) est la coordonnée d'ordre L-1 de Hyi.
  • Cependant, on peut écrire :
    Figure imgb0009
    et
    Figure imgb0010
  • On notera que y'i et y"i ont même norme et l'on peut démontrer, en notant z-1 l'opérateur de retard élémentaire, la relation ci-après : ∥y'i∥ 2 = ∥y"i∥ 2 = ∥H.z -1 yi∥ 2
    Figure imgb0011
    ∥H.yi∥ 2 = S L-1 (yi) 2 + ∥H.z -1 yi∥ 2
    Figure imgb0012
  • Cependant, si yi appartient à Dm, z-1.yi appartient à Dm-1.
  • Un processus itératif permet donc de calculer les énergies perceptuelles pour D0 puis D1 puis DL-1. La valeur initiale est pour D0=δ L-1, c'est-à-dire le vecteur impulsion précédemment représenté en figure 3, h0 2.
  • Un schéma de principe du processus de numérotation et de calcul des différentes entités mises en oeuvre par le critère de sélection conformément à l'objet de la présente invention sera décrit en liaison avec les figures 5a et 5b.
  • De manière générale, ainsi que représenté en figure 5a, les vecteurs de base yi ainsi que déjà décrit précédemment peuvent être engendrés selon le graphe de génération globale à raison de 3° = 1 vecteur est engendré au niveau 0, le vecteur y0, 31 sont engendrés au niveau 1, les vecteurs y1, y2, y3 et ainsi de suite, 3L-1 vecteurs de base au niveau L-1.
  • La cellule élémentaire de détriplement est représentée en figure 5b à partir des vecteurs impulsion notés θ-1, θ0 et θ1. On notera que la sommation des vecteurs d'impulsion θ1, θ0 et θ-1 revient à remplacer la dernière coordonnée du vecteur de base incident par les valeurs de composantes +1, O ou -1.
  • On notera que l'architecture telle que représentée en figure 5a et 5b est celle d'une structure linéaire de graphes ternaires. Pour une structure n-aire on obtient un graphe n-aire.
  • Il est également possible d'obtenir une réalisation pratique de calcul de l'expression ∥H.yi∥2 = SL-1(yi)2 + ∥H.z-1yi∥2 grâce à l'architecture analogue ci-après. Cette architecture sera décrite en liaison avec les figures 5c et 5d.
  • On appelle E(i) l'expression E(i) = ∥H.yi∥2.
  • Ainsi qu'on l'a représenté en figure 5c le graphe global pour l'obtention des énergies est parcouru de droite à gauche, l'énergie initiale E(0) étant égale à SL-1(0)2.
  • La cellule élémentaire constitutive du graphe représenté en figure 5c est représentée en figure 5d.
  • On notera que la numérotation des vecteurs, c'est-à-dire l'affectation de leur indice i de vecteurs de base, peut correspondre soit à une numérotation rétrograde, tout indice p de la numérotation directe d'un vecteur ternaire vérifiant la relation correspondante en numérotation p' rétrograde p' = 3L-p-1. On comprendra bien entendu que l'ensemble des calculs peut être effectué soit avec la numérotation directe soit avec la numérotation rétrograde cette dernière étant préférée. Il est ensuite possible de transmettre les valeurs d'indice rétrograde par exemple ou les valeurs d'indice direct sur la ligne de transmission ainsi qu'il sera décrit ultérieurement dans la description.
  • On notera en outre, conformément aux pratiques antérieures en matière de codage de type CELP, que préalablement au filtrage de synthèse chaque vecteur de référence vk*,i* peut avantageusement être pondéré par un facteur de niveau prédit, noté a. Ce facteur de niveau prédit a est représentatif de l'énergie moyenne du signal d'excitation estimé sur au moins trois vecteurs excitation antérieurs successifs. Une telle opération sur les composantes yi(j) de chaque vecteur de référence ne sera pas décrite car elle correspond à une opération connue de l'homme de métier.
  • Une description plus détaillée d'un processus de calcul des produits scalaires de la forme <2χ|H.yi> où χ = x/σ pour tous les vecteurs de base yi sera maintenant décrite en liaison avec la figure 6.
  • On notera qu'en fait, compte tenu du facteur de niveau prédit σ introduit effectivement dans le processus de codage objet de la présente invention, il s'agit en fait de calculer l'expression <2x/σ|H.yi> pour tous les vecteurs ternaires yi.
  • L'expression précédente est alors calculée en filtrant l'expression 2x/σ par la matrice transposée de la matrice H, soit Ht.
  • Cette expression s'écrit : <2x/σ|H.yi> = <H t .(2x/σ)|yi>
    Figure imgb0013
  • En posant x' =
    Figure imgb0014
  • On peut obtenir l'expression <x'|yi> pour les vecteurs yi de base ternaire de la façon ci-après : on calcule l'expression : - <H t (2x/σ)|yi> = F(yi).
    Figure imgb0015
  • Le processus de calcul tel que représenté grâce à l'opérateur en figure 6 permet, de manière analogue au calcul des réponses partielles S L-1(yi) précédemment décrit, d'obtenir les quantités x'0, x'L-m-1, x'L-2 et donc les produits scalaires précités, le vecteur nul étant remplacé par la valeur nulle.
  • En ce qui concerne la détermination et l'attribution du facteur d'échelle νi à chacun des vecteurs de base yi on rappelle que chaque facteur d'échelle vi peut être déterminé à partir d'une pluralité N de trames, à partir d'une base de données de signal de parole, le facteur d'échelle νi pour chaque vecteur de base yi étant choisi de façon à rendre minimum pour la trame considérée le résidu de filtrage des trames précitées. On rappellera que plusieurs processus de détermination de chaque facteur d'échelle vi peuvent être envisagés.
  • A titre d'exemple non limitatif, dans le cas de vecteurs de base de type ternaire et de dimension L=5 le tableau des facteurs d'échelle vi est donné ci-dessous par la table des 121 valeurs des facteurs d'échelle. La première valeur multiplie (-1,-1,-1,-1,-1) ..., la dernière (0,0,0,0,-1).
    1.50, 1.66, 1.77, 1.28, 1.46, 1.36, 0.86, 2.47, 1.68, 1.51, 1.12, 1.04, 1.38, 1.86, 1.51, 4.23, 3.47, 1.96, 1.25, 2.28, 0.77, 2.50, 3.51, 0.87, 1.11, 1.16, 0.95, 1.29, 1.23, 1.85, 1.34, 1.55, 1.60, 1.51, 1.44, 1.21, 1.45, 1.95, 1.45, 1.73, 4.06, 1.73, 1.32, 1.39, 2.43, 1.38, 4.62, 1.35, 1.92, 2.15, 1.44, 2.20, 1.95, 1.07, 0.88, 1.56, 1.48, 1.33, 1.64, 1.70, 1.44, 3.33, 1.10, 1.89, 0.80, 2.07, 1.27, 1.57, 3.82, 1.28, 1.31, 1.34, 1.94, 1.86, 1.25, 1.06, 2.15, 1.39, 0.89, 1.24, 1.32, 1.17, 1.45, 0.57, 1.28, 2.00, 4.88, 2.14, 2.98, 2.24, 1.23, 1.66, 1.41, 1.82, 3.44, 1.14, 3.15, 3.91, 1.60, 0.95, 1.74, 1.50, 1.12, 2.98, 1.16, 1.23, 1.34, 1.00, 2.06, 2.52, 4.52, 1.93, 2.89, 3.21, 1.39, 2.44, 2.38, 4.55, 3.00, 2.49, 3.17
  • Les valeurs optimales des indices k* et i* ayant été déterminées et numérotées de façon directe ou de façon rétrograde ainsi que décrit précédemment dans la description, en ce qui concerne notamment la valeur des indices i, la transmission de parole à bas débit est effectuée par la seule transmission, comme signal de code, des valeurs des indices k* et i* représentatifs de chaque vecteur de référence vk*,i*.
  • En ce qui concerne la transmission des indices k* et i* précités on notera que la transmission peut être effectuée à l'aide de protocoles de transmission classique dans lesquels une redondance de l'information transmise est introduite afin d'assurer une transmission à taux d'erreur sensiblement nul. On comprendra bien sur que la valeur i* peut être transmise soit en numérotation directe soit en numérotation rétrograde, soit selon une numérotation traduite dont la table de traduction est connue du codeur comme du décodeur.
  • Une description plus détaillée du processus de décodage des informations transmises, c'est-à-dire du signal de code ainsi transmis conformément au procédé objet de l'invention, sera maintenant donnée en liaison avec la figure 7.
  • Conformément à la figure 7 précitée, le processus de décodage consiste à discriminer en 1000 les valeurs des indices k* et i* constituant le signal de code puis à décomposer en 1001 la valeur de l'indice i* représentatif du vecteur de référence optimal en base n afin de régénérer le vecteur de base correspondant yi*.
  • La régénération du vecteur de base yi* est effectuée en 1002 à partir de la valeur de l'indice i* et du facteur d'échelle νi* correspondant, une correction du vecteur de base correspondant régénéré étant effectuée pour constituer le vecteur de référence vk*,i* = νi*,yi*.
  • Suite à l'opération précitée, le processus de décodage consiste à effectuer une opération de filtrage de synthèse 1003 du vecteur de référence pour engendrer le signal de parole reconstruit.
  • On notera bien sûr que, de même que dans le cas du processus de codage, dans le processus de codage du procédé objet de la présente invention, chaque vecteur de référence vk*,i* préalablement au filtrage de synthèse est pondéré par un facteur de niveau prédit σ lequel est estimé sur au moins trois vecteurs excitation antérieurs successifs. La détermination du niveau prédit σ ne sera pas décrite en détail car elle correspond au niveau du processus de décodage des opérations normalement connues de l'homme du métier.
  • Une description plus détaillée d'un système de transmission d'un signal de parole à bas débit conforme à l'objet de la présente invention sera décrit en liaison avec les figures 8 et 9.
  • Selon la figure 8, le circuit de codage comporte un générateur 1 d'un premier dictionnaire Yn de vecteurs de base yi de forme n-aire de dimension L, les composantes de ces vecteurs, ainsi que mentionné précédemment, pouvant prendre les valeurs comprises entre -n/2 à n/2. On notera bien entendu que le générateur du dictionnaire Yn peut avantageusement être constitué par des moyens calculateurs comportant les opérateurs tels que décrits en figures 3a, 3b par exemple et/ou un circuit de mémorisation lequel peut être constitué par une mémoire vive associée à ce circuit calculateur ou par une mémoire morte. Dans ce cas, la mémoire morte est associée à un séquenceur rapide lequel permet d'effectuer une lecture successive des vecteurs de base yi selon les indices en numérotation directe ou rétrograde ainsi que décrit précédemment.
  • En outre, le circuit de codage tel que représenté en figure 8 comprend un circuit 2 correcteur des vecteurs de base yi par un facteur d'échelle νi. Le circuit correcteur peut être constitué par une table de valeurs mémorisées en mémoire morte, ce circuit correcteur permettant d'engendrer un vecteur de base corrigé noté yi ¯
    Figure imgb0016
    = νi.yi pour chaque vecteur de base yi. Un multiplexeur rapide noté MUX permet successivement de lire les valeurs correspondantes du vecteur de base corrigé yi ¯
    Figure imgb0017
    et de délivrer cette valeur correspondante à un circuit 3 générateur d'un deuxième dictionnaire de gain adaptatif gk. De manière classique, le circuit 3 générateur du deuxième dictionnaire G(y) peut comporter avantageusement un circuit amplificateur, noté 30, relié à une table des valeurs gk constituant le deuxième dictionnaire précité. Ainsi, le circuit générateur 3 du deuxième dictionnaire G(y) délivre les vecteurs de référence vk,i = gk.νi.yi.
  • On notera bien sûr que le circuit de codage objet de la présente invention comporte également un circuit amplificateur 4 lequel permet d'appliquer à chaque vecteur de référence vk,i le coefficient de prédiction de niveau a tel que celui-ci a été défini précédemment dans la description.
  • En outre, et de manière classique, le circuit de codage objet de la présente invention comporte ensuite disposés en cascade le filtre de synthèse noté 5 et le filtre de pondération perceptuelle noté 6 de transmission H ainsi que décrit précédemment dans la description. Un sommateur 7 permet de recevoir d'une part le signal d'origine par l'intermédiaire d'un même filtre de pondération perceptuelle 6 après inversion de la différence des signaux délivrés par le sommateur 7 sommateur algébrique, permettant l'application sur le signal ainsi obtenu du critère de distorsion minimum.
  • Dans ce but, le circuit de codage objet de la présente invention comprend un circuit de calcul du minimum de distorsion 8 lequel comprend un premier circuit calculateur 80 du produit 2 gk<x/σ|H.νi.yi> dans lequel l'expression <x/σ|H.νi.yi> désigne le produit scalaire du vecteur cible x et du vecteur reconstitué et pondéré perceptuellement obtenu par le produit de la matrice H et du vecteur de base corrigé νi.yi. Le premier circuit calculateur 80 délivre un premier résultat de calcul r1.
  • Un deuxième circuit calculateur 81 permet d'effectuer le calcul de l'énergie du vecteur reconstitué et pondéré perceptuellement, cette énergie étant de la forme gk2∥H.νi.yi∥2.
  • On notera que les circuits calculateurs 80 et 81 peuvent être constitués par des modules de programme dont les graphes de calcul ont été explicités en figures 4 et 5 a) à d) respectivement. Le deuxième circuit de calcul 81 délivre un deuxième résultat de calcul noté r2. Un comparateur 83 permet de comparer la valeur des résultats de calcul r1 et r2 ce qui permet de déterminer par discrimination des valeurs des indices i et k, les indices i* et k* pour lesquels le critère de minimum de l'écart quadratique est satisfait. La discrimination des indices i* et k* est effectuée par exemple par un programme de tri noté 84 sur la figure 8. Les valeurs des indices k* et i* sont alors délivrées, ces indices étant représentatifs du vecteur de référence correspondant vk*,i*.
  • Sur la figure 8, on a également représenté le circuit de transmission conforme à l'objet de la présente invention, ce circuit de transmission permettant de délivrer en tant que signal de code représentatif du signal de parole les seules valeurs des indices k* et i*. Ce circuit de transmission ne présente pas de caractéristique particulière dans la mesure où il peut en fait être constitué par un système de transmission de type classique utilisé dans les dispositifs de transmission de signaux de parole par codage de type CELP de l'art antérieur.
  • Une description plus détaillée d'un circuit de décodage permettant la mise en oeuvre du procédé objet de l'invention est représentée en figure 9.
  • Conformément à la figure précitée, le circuit de décodage comporte un module 10 de discrimination des valeurs des indices i*,k* du signal de code reçu, le signal de code étant transmis bien entendu selon un protocole particulier lequel n'entre pas dans l'objet de la présente invention. En outre, le circuit de discrimination 10 effectuant ainsi une transformation série parallèle des informations relatives aux indices i*,k*, le circuit de décodage comporte un circuit de décomposition en base n de la valeur de l'indice i*.
  • On comprendra bien sûr que parallèlement l'indice k* est traité. Dans ce but, le circuit de décodage tel que représenté en figure 9 comprend une table des valeurs de gain adaptatif gk notée 11, laquelle, sur réception de la valeur de l'indice k*, permet de délivrer la valeur de gain adaptatif correspondant gk*. Ce circuit 11 peut être avantageusement constitué par une mémoire morte dans laquelle les valeurs de gain adaptatif gk sont mémorisées.
  • En outre, un circuit générateur 12 du facteur d'échelle νi* est prévu. Ce circuit peut consister en une mémoire morte formant une table de consultation, laquelle à la valeur i* fait correspondre la valeur νi*. Un circuit multiplicateur 12a permet d'engendrer un coefficient produit A = σ.gk*.νi* à partir des valeurs νi*,gk* et du coefficient de niveau prédit σ.
    Ainsi qu'on l'a représenté également en figure 9, le circuit de décodage comprend un circuit 13 générateur du vecteur de base régénéré
    Figure imgb0018
    par décomposition en base n de la valeur de l'indice i*. Dans ce but, un circuit 14 fait correspondre à la valeur i* par transcodage des composantes en base n de la valeur de l'indice i*, la valeur [-n/2,...,0,...n/2], ce qui permet d'engendrer un vecteur de référence régénéré vk*,i* du produit du vecteur
    Figure imgb0018
    de base régénéré et du produit A.
  • Un filtre de synthèse 15 permet à partir du vecteur de référence régénéré
    Figure imgb0020
    d'engendrer le signal de parole reconstruit.
  • Le fonctionnement du circuit de décodage tel que représenté en figure 9 peut être résumé de la façon ci-après selon un fonctionnement préférentiel.
  • La double multiplication réalisée au niveau du multiplicateur 12 donne un facteur d'amplitude noté A = σ.gk*.νi*.
  • Si l'indice i* du vecteur ternaire transmis correspond à la numérotation rétrograde on désigne par :
    i' = (3L-3)/2 - i* et on effectue la synthèse du vecteur d'excitation ou vecteur de référence reconstitué vk*,i* comme suit :
    • étape courante (j,t),
    • si j modulo 3 vaut 0 alors vk*,i* (L-1-t) = -A
    • si j modulo 3 vaut 1 alors vk*,i* (L-1-t) = O
    • si j modulo 3 vaut 2 alors vk*,i* (L-1-t) = A
    où vk*,i* (L-1-t) représente la composante de vk*,i* à l'ordre L-1-t.
  • On notera que j est divisé par 3, division entière, et t est augmenté de 1, addition de 1 à un nombre entier. On initialise la première étape par j=i' et t=O.
  • Bien entendu, on répète l'étape courante jusqu'à ce que t=L-1 inclus.
  • Si au contraire i* provient d'une numérotation directe, ainsi que décrit précédemment, alors i'=i et les opérations sur j modulo 3 sont effectuées comme précédemment mentionné.
  • On a ainsi décrit un procédé et un système de transmission de la parole à bas débit particulièrement performant dans la mesure où un avantage important réside dans le fait que le dictionnaire Yn n'a pas à être mémorisé au niveau du décodeur. Ainsi seuls les indices du vecteur de référence sont transmis au décodeur, un calcul permettant en temps réel de reconstituer le vecteur de référence correspondant ce qui permet un gain de ressource de mémoire au niveau de chaque décodeur utilisé. En outre et en raison des processus de génération des vecteurs de base, des processus de calcul des produits scalaires et des énergies perceptuelles, il n'est pas non plus nécessaire de mémoriser les vecteurs de base au niveau du codeur, ce qui permet un gain substantiel en matériel de mise en oeuvre.
  • On comprendra également que les algorithmes de calcul décrits dans la description de l'objet de la présente invention permettent d'obtenir une très grande rapidité de calcul de par la rationalisation des opérations de calcul utilisés, et une simplification des matériels nécessaires à leur mise en oeuvre.
  • On notera enfin que le procédé et le système de transmission d'un signal de parole codé à bas débit objet de la présente invention ont été décrits dans le cas où le codage de type CELP met en oeuvre des vecteurs de base de type n-aire, le nombre n n'étant en principe pas limité. Bien entendu, un mode de réalisation préférentiel a été donné dans le cas où n=3, les vecteurs de base étant ainsi des vecteurs ternaires.
  • Toutefois un mode de réalisation basé sur le même principe a pu être réalisé pour des vecteurs pour lesquels n=5. Le dictionnaire Yn est alors réalisé à partir d'un alphabet à cinq symboles, les valeurs obtenues étant par exemple, de manière non limitative, le symbole 0, le symbole 0,5 et le symbole 1 plus les symboles symétriques -0,5 et -1, ce qui peut être ramené à des valeurs entières quelconques par changement d'échelle.
  • Dans la mise en oeuvre d'un dictionnaire à cinq symboles, on a pu ainsi réaliser un procédé et un système de transmission à débit variable pouvant atteindre jusqu'à 24 Kbits par seconde.

Claims (12)

  1. Procédé de transmission d'un signal de parole à bas débit comportant un processus de codage d'échantillons numériques de parole par prédiction linéaire excitée par codes, pour engendrer un signal de code, un processus de transmission du signal de code et un processus de décodage de signal de code reçu, le processus de codage correspondant à un processus dans lequel une forme d'onde représentée par un code d'échantillons comportant L valeurs d'échantillons et constituant un vecteur initial (o) de dimension L est représenté, à partir d'un filtre de synthèse, par une forme d'onde de référence sélectionnée parmi un dictionnaire de formes d'onde de référence formant chacune un vecteur de référence (v) sur critère d'écart quadratique minimum dudit vecteur initial (o) vis-à-vis de ladite forme d'onde ou vecteur de référence (v), min ∥χ-H.v∥2, où χ représente un vecteur cible obtenu par pondération perceptuelle dudit vecteur initial (o) et H représente une matrice de dimension LxL de réponse impulsionnelle issue du produit du filtre de synthèse et de la pondération perceptuelle linéaire, ledit critère de sélection consistant :
    - à établir un dictionnaire factorisé en produit d'un premier dictionnaire Yn, n=2m+1 entier impair, m étant un nombre entier non nul, de vecteurs de base yi, de dimension L, dont chaque valeur des composantes, yi(j), peut prendre une valeur appartenant à l'ensemble Im des entiers relatifs consécutifs compris entre -m et m, soit Im = {-m,-m+1, ...,-1,0,1,...,m-1,m} constituant un ensemble à n=2m+1 éléments, chacun de ces vecteurs de base étant multiplié par un facteur d'échelle vi associé tenant compte de la distribution de l'énergie d'excitation dans le domaine de fréquence du signal, et d'un deuxième dictionnaire G(y) de gains gk adaptatifs, de façon à représenter ainsi le dictionnaire de formes d'ondes ou vecteurs de référence, chaque vecteur de référence vérifiant la relation vk,i=gk.νi.yi,
    - à établir la valeur minimum de l'écart quadratique ∥χ-gk.H.νi.yi∥2 par le calcul du maximum de C(gk,νi.yi) = 2 gk <χ|H.νi.yi> - gk2 ∥H.νi.yi∥2 par calcul de tous les produits scalaires <χ|H.νi.yi> et de toutes les énergies perceptuelles ∥H.y∥2, ce qui permet d'attribuer au vecteur initial (o) le vecteur de référence optimal correspondant vk*,i* avec vk*,i* = gk*.νi*.yi*, ce vecteur de référence optimal étant représenté par les seules valeurs des paramètres d'indice (k*,i*) satisfaisant au critère min ∥χ-gk.H.νi.yi∥2.
  2. Procédé selon la revendication 1, caractérisé en ce que ladite valeur minimum de l'écart quadratique min ∥χ-gk.H.νi.yi∥2 est évaluée par sélection de l'élément de gain gk correspondant du deuxième dictionnaire G(y) permettant de rendre minimum la différence |g - gk*| où g vérifie la relation : g = <χ|H.νi.yi> ∥H.νi.yi∥ 2
    Figure imgb0021
  3. Procédé selon l'une des revendications 1 ou 2, caractérisé en ce que ledit premier dictionnaire Yn, n=2m+1 de vecteurs de base yi, de forme n-aire [-n/2,...,0,...n/2] de dimension L comprend tous les vecteurs de base dont les L composantes ont pour valeur l'une des valeurs [-n/2,..., 0,...n/2] à l'exception du vecteur nul, l'indice i des vecteurs de base étant pris égal à la valeur en base n de chaque vecteur de base après transcodage des valeurs [-n/2,...,0,...n/2] en valeur correspondante [0,1,2,...n).
  4. Procédé selon la revendication 3, caractérisé en ce que l'ensemble des vecteurs de base yi constituant ledit dictionnaire Yn est défini à partir des n/2.L vecteurs impulsion, dont une seule composante yi(j) d'ordre j avec j ∈ [O,L-1] est égal à -1, -2, ...,-n/2, à chaque vecteur impulsion étant associés les vecteurs de base apparentés présentant des valeurs de composante d'ordre q ≤ j identiques, chaque vecteur apparenté à un vecteur impulsion de rang q avec q = j pour yi(j) ≠ O étant obtenu par combinaison linéaire dudit vecteur impulsion de rang q et des vecteurs impulsion ou apparentés de rang q supérieur.
  5. Procédé selon l'une des revendications 1 à 4, caractérisé en ce que pour chaque vecteur de base yi, le facteur d'échelle νi qui lui est associé est déterminé expérimentalement, à partir d'une pluralité N de trames constituées par L valeurs de signal de parole et formant une base de données, le facteur d'échelle νi pour chaque vecteur de base yi étant choisi de façon à rendre minimum, pour la trame considérée, le résidu de filtrage desdites trames.
  6. Procédé selon la revendication 1, caractérisé en ce que, afin d'assurer la transmission du signal de parole à bas débit, le processus de transmission consiste à transmettre comme signal de code les seules valeurs des indices (k*, i*) représentatives de chaque vecteur de référence vk*,i* .
  7. Procédé selon la revendication 1 et 2, caractérisé en ce que, afin d'assurer le décodage du signal de code, ce procédé consiste :
    - à discriminer (1000) les valeurs des indices k*, i* constituant le signal de code,
    - à décomposer (1001) la valeur de l'indice i*, représentatif du vecteur de référence optimal en base n pour régénérer le vecteur de base correspondant yi*,
    - à effectuer (1002), à partir de la valeur de l'indice i* et du facteur d'échelle νi* correspondants, une correction du vecteur de base correspondant régénéré pour constituer le vecteur de référence vk*,i* = νi*.yi*,
    - à effectuer une opération de filtrage de synthèse (1003) du vecteur de référence pour engendrer le signal de parole reconstruit.
  8. Procédé selon l'une des revendications précédentes, caractérisé en ce que préalablement au filtrage de synthèse, chaque vecteur de référence vk*,i* est pondéré (1004) par un facteur de niveau prédit σ représentatif de l'énergie moyenne du signal d'excitation estimé sur au moins trois vecteurs excitation antérieurs successifs.
  9. Système de transmission d'un signal de parole à bas débit comportant un circuit de codage d'échantillons numériques de parole par prédiction linéaire excitée par codes pour engendrer un signal de code, un circuit de transmission de ce signal de code, et un circuit de décodage du signal de code transmis, le circuit de codage comprenant un filtre de synthèse permettant de représenter une forme d'onde constituée par un bloc de L échantillons constituant un vecteur initial (o) de dimension L, par une forme d'onde de référence sélectionnée parmi un dictionnaire de formes d'onde de référence formant chacune un vecteur de référence (v) sur critère d'écart quadratique minimum dudit vecteur initial (o) vis-à-vis de la forme d'onde ou vecteur de référence (v), des moyens de pondération perceptuelle dudit vecteur initial (o) pour engendrer un vecteur cible χ à partir dudit vecteur initial (o), ledit critère d'écart quadratique minimum du vecteur initial (o) vis-à-vis de ladite forme d'onde ou vecteur de référence (v) étant de la forme min ∥χ-H.v∥2 où H représente une matrice de dimension LxL de réponse impulsionnelle issue du produit dudit filtre de synthèse et de ladite pondération perceptuelle linéaire, ledit circuit de codage, afin de mettre en oeuvre ledit critère de sélection, comportant :
    - des moyens (1) générateurs d'un premier dictionnaire Yn, n=2m+1 entier impair, m étant un nombre entier non nul, de vecteurs de base yi de dimension L, dont chaque valeur des composantes yi (j) peut prendre une valeur appartenant à l'ensemble Im des entiers relatifs consécutifs compris entre -m et m, soit Im = {-m,-m+1, ...,-1,0,1,...,m-1,m} constituant un ensemble à n=2m+1 éléments,
    - des moyens (2) multiplicateurs de chacun desdits vecteurs de base yi par un facteur d'échelle νi associé, ce facteur d'échelle tenant compte de la distribution de l'énergie d'excitation dans le domaine de fréquence du signal, lesdits moyens correcteurs permettant d'engendrer un vecteur de base corrigé yi ¯
    Figure imgb0022
    = νi.yi pour chaque valeur de base yi,
    - des moyens (3) générateurs d'un deuxième dictionnaire G(y) de gains adaptatifs gk, comprenant des moyens (30) multiplicateurs permettant à partir desdits vecteurs de base corrigés yi ¯
    Figure imgb0023
    et des valeurs de gain gk d'engendrer lesdits vecteurs de référence vk,i=gk.νi.yi,
    - des premiers moyens (80) de calcul du produit 2gk<χ|H.νi.yi> où <χ|H.νi.yi> désigne le produit scalaire dudit vecteur cible χ et du vecteur reconstitué pondéré perceptuellement obtenu par le produit de la matrice H et du vecteur de base corrigé νi.yi, lesdits premiers moyens de calcul délivrant un premier résultat de calcul (r1),
    - des deuxièmes moyens (81) de calcul de l'énergie du vecteur reconstitué pondéré perceptuellement gk2∥H.νi.yi∥2, lesdits deuxièmes moyens de calcul délivrant un deuxième résultat de calcul (r2),
    - des moyens (82) de comparaison desdits premiers et deuxièmes résultats de calcul, ce qui permet de déterminer, par discrimination des valeurs des indices i,k, les indices i* et k* pour lesquels le critère de minimum de l'écart quadratique est satisfait, le vecteur de référence correspondant vk*,i* avec vk*,i* = gk*.νi*.yi* étant représenté par les seules valeurs des indices k*, i* satisfaisant au critère min ∥χ-gk.H.νi.yi∥2.
  10. Système selon la revendication 9, caractérisé en ce que le circuit de transmission permet la transmission, en tant que signal de code représentatif du signal de parole, des seules valeurs des indices k* et i*.
  11. Système selon la revendication 9, caractérisé en ce que le circuit de décodage comprend :
    - des moyens (10) de discrimination des valeurs des indices i*,k* du signal de code reçu,
    - des moyens (11) générateurs d'un dictionnaire G(y) de gains adaptatifs gk* à partir des valeurs k* discriminées,
    - des moyens (12) générateurs du facteur d'échelle νi* correspondant,
    - des moyens (12a) multiplicateurs pour engendrer un coefficient produit σ.gk*.vi* à partir des valeurs i*, gk* et d'un coefficient de niveau prédit σ,
    - des moyens (13) de décomposition en base n de la valeur d'indice i*,
    - des moyens (14) générateurs du vecteur de base régénéré
    Figure imgb0024
    correspondant à la valeur i* par transcodage des composantes en base n de la valeur d'indice i*, à chaque valeur n,...,2,1,0 d'expression en base n de la valeur d'indice i* étant associée respectivement la valeur [-n/2,...,0,...,n/2] ce qui permet d'engendrer un vecteur de référence régénéré
    Figure imgb0025
    , un filtre de synthèse permettant à partir du vecteur de référence régénéré
    Figure imgb0025
    d'engendrer le signal de parole reconstruit.
  12. Système selon l'une des revendications 9 à 11, caractérisé en ce que ledit circuit de codage, respectivement du décodage, comporte en outre, en amont du filtre de synthèse, un circuit de correction du vecteur de référence vk*,i* respectivement vecteur de référence régénéré
    Figure imgb0025
    par un facteur de niveau prédit représentatif de l'énergie moyenne du signal d'excitation estimé sur au moins trois vecteurs excitation antérieurs successifs.
EP91402774A 1990-10-19 1991-10-17 Procédé de transmission, à bas débit, par codage CELP d'un signal de parole et système correspondant Expired - Lifetime EP0481895B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR9012980A FR2668288B1 (fr) 1990-10-19 1990-10-19 Procede de transmission, a bas debit, par codage celp d'un signal de parole et systeme correspondant.
FR9012980 1990-10-19

Publications (3)

Publication Number Publication Date
EP0481895A2 EP0481895A2 (fr) 1992-04-22
EP0481895A3 EP0481895A3 (en) 1992-08-12
EP0481895B1 true EP0481895B1 (fr) 1997-12-10

Family

ID=9401407

Family Applications (1)

Application Number Title Priority Date Filing Date
EP91402774A Expired - Lifetime EP0481895B1 (fr) 1990-10-19 1991-10-17 Procédé de transmission, à bas débit, par codage CELP d'un signal de parole et système correspondant

Country Status (5)

Country Link
US (1) US5226085A (fr)
EP (1) EP0481895B1 (fr)
JP (1) JP3130348B2 (fr)
DE (1) DE69128407T2 (fr)
FR (1) FR2668288B1 (fr)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2658794B2 (ja) * 1993-01-22 1997-09-30 日本電気株式会社 音声符号化方式
WO1994025959A1 (fr) * 1993-04-29 1994-11-10 Unisearch Limited Utilisation d'un modele auditif pour ameliorer la qualite ou reduire le debit binaire de systemes de synthese de la parole
FR2722631B1 (fr) * 1994-07-13 1996-09-20 France Telecom Etablissement P Procede et systeme de filtrage adaptatif par egalisation aveugle d'un signal telephonique numerique et leurs applications
JP3058028B2 (ja) * 1994-10-31 2000-07-04 三菱電機株式会社 画像符号化データ再符号化装置
SE504010C2 (sv) * 1995-02-08 1996-10-14 Ericsson Telefon Ab L M Förfarande och anordning för prediktiv kodning av tal- och datasignaler
DE19516106C2 (de) * 1995-05-05 2003-04-03 Philips Corp Intellectual Pty Verfahren zum Bestimmen von Referenzwerten
US5864813A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for harmonic enhancement of encoded audio signals
US6477496B1 (en) 1996-12-20 2002-11-05 Eliot M. Case Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one
US6782365B1 (en) 1996-12-20 2004-08-24 Qwest Communications International Inc. Graphic interface system and product for editing encoded audio data
US5845251A (en) * 1996-12-20 1998-12-01 U S West, Inc. Method, system and product for modifying the bandwidth of subband encoded audio data
US6516299B1 (en) 1996-12-20 2003-02-04 Qwest Communication International, Inc. Method, system and product for modifying the dynamic range of encoded audio signals
US6463405B1 (en) 1996-12-20 2002-10-08 Eliot M. Case Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband
US5864820A (en) * 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US7536298B2 (en) * 2004-03-15 2009-05-19 Intel Corporation Method of comfort noise generation for speech communication
JP4993676B2 (ja) * 2006-09-01 2012-08-08 キヤノン株式会社 画像符号化装置及び画像符号化方法
CN101430879B (zh) * 2007-11-05 2011-08-10 华为技术有限公司 一种多速率语音频编码的方法
PT2515299T (pt) 2009-12-14 2018-10-10 Fraunhofer Ges Forschung Dispositivo de quantificação vetorial, dispositivo de codificação de voz, método de quantificação vetorial e método de codificação de voz

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8302985A (nl) * 1983-08-26 1985-03-18 Philips Nv Multipulse excitatie lineair predictieve spraakcodeerder.
NL8500843A (nl) * 1985-03-22 1986-10-16 Koninkl Philips Electronics Nv Multipuls-excitatie lineair-predictieve spraakcoder.
US4944013A (en) * 1985-04-03 1990-07-24 British Telecommunications Public Limited Company Multi-pulse speech coder
IT1195350B (it) * 1986-10-21 1988-10-12 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
DE68923771T2 (de) * 1988-12-23 1995-12-14 Nec Corp Sprachübertragungssystem unter Anwendung von Mehrimpulsanregung.
CA2005115C (fr) * 1989-01-17 1997-04-22 Juin-Hwey Chen Codeur predictif lineaire excite par code a temps de retard bref pour les signaux vocaux ou audio
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
CA2010830C (fr) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Regles de codage dynamique permettant un codage efficace des paroles au moyen de codes algebriques

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Academic Publishers, Dordrecht, NL; R.A. SALAMI: "Binary pulse excitation: a novel approach to low complexity CELP coding" *

Also Published As

Publication number Publication date
FR2668288A1 (fr) 1992-04-24
EP0481895A2 (fr) 1992-04-22
FR2668288B1 (fr) 1993-01-15
DE69128407T2 (de) 1998-06-04
US5226085A (en) 1993-07-06
EP0481895A3 (en) 1992-08-12
JPH04264500A (ja) 1992-09-21
JP3130348B2 (ja) 2001-01-31
DE69128407D1 (de) 1998-01-22

Similar Documents

Publication Publication Date Title
EP0481895B1 (fr) Procédé de transmission, à bas débit, par codage CELP d&#39;un signal de parole et système correspondant
EP0608174B1 (fr) Systeme de codage-décodage prédictif d&#39;un signal numérique de parole par transformée adaptative à codes imbriqués
EP0511095B1 (fr) Procédé et dispositif de codage-décodage d&#39;un signal numérique
FR2742568A1 (fr) Procede d&#39;analyse par prediction lineaire d&#39;un signal audiofrequence, et procedes de codage et de decodage d&#39;un signal audiofrequence en comportant application
EP1994531A2 (fr) Codage/decodage perfectionnes d&#39;un signal audionumerique, en technique celp
EP0428445B1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
EP0519802A1 (fr) Procédé de synthèse vocale à l&#39;aide d&#39;ondelettes
FR2702075A1 (fr) Procédé de génération d&#39;un filtre de pondération spectrale du bruit dans un codeur de la parole.
EP1232492B1 (fr) Reseau neuronal et son application pour la reconnaissance vocale
FR2880724A1 (fr) Procede et dispositif de codage optimise entre deux modeles de prediction a long terme
CA2108663C (fr) Procede et dispositif de filtrage pour la reduction des preechos d&#39;un signal audio-numerique
EP0616315A1 (fr) Dispositif de codage et de décodage numérique de la parole, procédé d&#39;exploration d&#39;un dictionnaire pseudo-logarithmique de délais LTP, et procédé d&#39;analyse LTP
EP0347307B1 (fr) Procédé de codage et codeur de parole à prédiction linéaire
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP0734013B1 (fr) Determination d&#39;un vecteur d&#39;excitation dans un codeur CELP
EP1605440A1 (fr) Procédé de séparation de signaux sources à partir d&#39;un signal issu du mélange
FR2751776A1 (fr) Procede d&#39;extraction de la frequence fondamentale d&#39;un signal de parole
EP0796490B1 (fr) Methode et dispositif de prediction de signal pour un codeur de parole
EP1194923B1 (fr) Procedes et dispositifs d&#39;analyse et de synthese audio
EP1192618B1 (fr) Codage audio avec liftrage adaptif
EP1192621B1 (fr) Codage audio avec composants harmoniques
EP3934282A1 (fr) Procédé de conversion d&#39;un premier ensemble de signaux représentatifs d&#39;un champ sonore en un second ensemble de signaux et dispositif électronique associé
FR2689292A1 (fr) Procédé et système de reconnaissance vocale à réseau neuronal.
EP0812070A1 (fr) Procédé et dispositif de codage en compression d&#39;un signal numérique
EP0696110A1 (fr) Procédé et dispositif de codage et de décodage sonore par compression fréquentielle, notamment pour application à une mémoire de masse sonore

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): DE GB

PUAL Search report despatched

Free format text: ORIGINAL CODE: 0009013

AK Designated contracting states

Kind code of ref document: A3

Designated state(s): DE GB

17P Request for examination filed

Effective date: 19920910

17Q First examination report despatched

Effective date: 19950606

GRAG Despatch of communication of intention to grant

Free format text: ORIGINAL CODE: EPIDOS AGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAH Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOS IGRA

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): DE GB

REF Corresponds to:

Ref document number: 69128407

Country of ref document: DE

Date of ref document: 19980122

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 19980209

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20080926

Year of fee payment: 18

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20081030

Year of fee payment: 18

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20100501

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20091017