EP0428445A1 - Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit - Google Patents

Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit Download PDF

Info

Publication number
EP0428445A1
EP0428445A1 EP90403195A EP90403195A EP0428445A1 EP 0428445 A1 EP0428445 A1 EP 0428445A1 EP 90403195 A EP90403195 A EP 90403195A EP 90403195 A EP90403195 A EP 90403195A EP 0428445 A1 EP0428445 A1 EP 0428445A1
Authority
EP
European Patent Office
Prior art keywords
coefficients
configuration
bits
filters
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP90403195A
Other languages
German (de)
English (en)
Other versions
EP0428445B1 (fr
Inventor
Pierre-André Laurent
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thales SA
Original Assignee
Thomson CSF SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson CSF SA filed Critical Thomson CSF SA
Publication of EP0428445A1 publication Critical patent/EP0428445A1/fr
Application granted granted Critical
Publication of EP0428445B1 publication Critical patent/EP0428445B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Definitions

  • the present invention relates to a method and a device for coding predictive filters for very low bit rate vocoders.
  • LPC10 linear predictive coding
  • LPC10 is the abbreviation in the English language of "Linear predictive coding, order 10”.
  • speech takes place by exciting by means of a periodic signal or by a noise source a filter whose function is to give the frequency spectrum of the signal a waveform close to that of the original speech signal.
  • bit rate 2400 bits per second
  • bit stream is split into 22.5 millisecond frames comprising 54 bits, 41 of which are used to adapt the transfer function of the filter.
  • a known method of reduction of bit rate consists in compressing the 41 bits associated with a filter into 10 to 12 bits which represent the number of a predefined filter, belonging to a dictionary of 2 10 to 2 12 different filters, this filter being the one which is closest to the original filter.
  • This method has however a first major drawback which is to require the construction of a dictionary of filters whose content depends closely on the set of filters used to constitute it by conventional data techniques ("clustering") and thus this method is not perfectly suited to the actual sound recording conditions.
  • a second drawback of this method is that, for its implementation, it requires a very large memory size to store the dictionary (2 10 to 2 12 packets of coefficients). Correlatively the computation times become important because it is necessary to search in the dictionary for the filter closest to the original filter. Finally, this process does not make it possible to satisfactorily reproduce stable sounds. This is due to the fact that even for a stationary sound the LPC analysis never selects in practice twice the same original filter but chooses successively in the dictionary of close but distinct filters.
  • the predictor filter remains stable and is as close as possible to the original predictor filter.
  • unstable parts transition, unvoiced sound
  • the predictor transmitted does not need to be a faithful copy of the original predictor.
  • the object of the invention is to overcome the aforementioned drawbacks.
  • the subject of the invention is a method of coding filters for predicting very low bit rate vocoders of the type in which the voice signal is divided into binary frames of determined duration, characterized in that it consists in grouping the frames in packets of successive frames, to associate respectively with each frame contained in a packet a predictor filter, and to quantify the coefficients of each predictor filter by taking account of the stable or non-stable configuration of the voice signal.
  • the speech synthesizer shown in FIG. 1 comprises, in a known manner, a predictor filter 1 coupled by its input E 1 to a periodic signal generator 2 and to a noise generator 3 through a switch 4 and an amplifier to variable gain 5 connected in series.
  • the switch 4 couples the input of the predictor filter 1 to the output of the periodic signal generator 2 or to the output of the noise generator 3 depending on whether or not the sound is to be reproduced.
  • the amplitude of the sound is controlled by the amplifier 5.
  • the filter 1 reproduces on its output S a speech signal as a function of prediction coefficients applied to its input E 2 . Unlike what is shown in FIG.
  • the speech synthesizers to which the method and the coding device of the invention apply must include three predictor filters 1 adapted to each group of three successive 22.5 ms frames of the speech signal according to the stable or non-stable state of the sound to be synthesized.
  • the number of possible configurations can be extended to a maximum of 8 or 16.
  • the definition of the filters is established according to steps 1 to 6 of the method represented by the flowchart in FIG. 2.
  • the autocorrelation coefficients R i , k of the signal are calculated according to a relation of the form: where S in is a sample n of the signal in frame i and W n denotes the weighting window.
  • the calculation of the reflection coefficients of the lattice predictor filter corresponding to the preceding coefficients Ri (k) is carried out in application of a standard algorithm for example, of the known algorithm of LEROUX-GUEGUEN or SCHUR.
  • the coefficients R ik are transformed into coefficients K ij where j is a positive integer taking the successive values from 1 to 10.
  • the coefficients k whose values are included by definition between -1 and + 1 are transformed into modified coefficients which evolve between "-infinity” and "+ infinity” and which take into account the fact that the quantification of the coefficients k must be faithful when they have an absolute value close to 1 and a value which can be coarser when they are close to 0 for example.
  • the coefficients L ij are quantified along n j bits each in a non-uniform manner, taking into account the distribution of the coefficients to give a value L ij according to a distribution law represented by the histogram of L ij of Figure 4.
  • step 5 the values of Lis in turn used to calculate coefficients K ij according to the relation
  • the total prediction error is then equal to E2 and the algorithm of the method in fact amounts to considering the three frames as a single frame of duration three times greater.
  • the coefficients L1 to L10 can then be quantified with, for example 5.5,4,4,4,3,2,2,2,2 bits respectively, or 33 bits in total.
  • the prediction error is equal to Es 2 + E 3 2 which amounts to considering that frames 1 and 2 are grouped into a single frame of double duration, frame 3 remaining unchanged. It is then possible to quantify the coefficients Li to L 10 on frames 1 and 2 with respectively 5,4,4,3,3,2,2,2,0,0 bits (25 bits in total, the coefficients Lg and L 10 not being transmitted), and their variation to obtain those of the third frame using 3,2,2,1,0,0,0,0,0 bits respectively (8 bits in total), that is to say 33 bits for the three frames.
  • the same quantification method is used but by coding the predictor of frames 2 and 3 and the differential for frame 1.
  • the data bus 14 connects the elements delay 12 1 to 12 3 and the calculation device 13 has four calculation chains referenced from 15 1 to 15 4 .
  • Calculating channels January 15 to March 15 comprises a summing device respectively or 16, to 16 3 which is connected to the delay elements 12, 12 3 to calculate the coefficients R 4d, R 5d and R 6d following the four configurations described previously.
  • the outputs of the summing devices 16 1 to 16 3 are connected to devices 17, 17 3 respectively for calculating the coefficients L 4j , K 4j ; Sj K, L 5j and 6j K and L 6j.
  • the coefficients 4j L L L 5d 6d are respectively transmitted to quantizing devices 18, to 18 3 to calculate the coefficients L ij in accordance with the fourth method step.
  • the calculation chain 15 4 comprises connected to the data bus 14 a separate quantization device 184 of the coefficients L ij .
  • the coefficients L ij obtained at the output of the quantization device 18 4 are applied to a total error calculation device 19 4 to calculate the total error according to the relation E, 2 + E 2 2 + E 3 2 defined above.
  • Each of the outputs of the total error calculation devices 19, to 19 4 of the calculation chains 15 1 to 15 4 are applied to the respective inputs of a total search device of minimum 20.
  • each of the outputs of the quantization device 18 1 to 18 4 supplying the coefficients L ij , are applied to a switching device 21 controlled by the output of the minimum total error search device 20 to select coefficients L ij to be transmitted which correspond to l total minimum error calculated by the device 20.
  • the output of the device comprises 35 bits, 33 bits representing the values of the coefficients L ij obtained at the output of the switching device 21 and 2 bits representing one of the four configurations possible indicated by the minimum total error finding device 20.
  • the invention is not limited to the examples which have just been described and that it can receive other variant embodiments depending in particular on the coefficients which are applied to the filters which may be different from the coefficients L ij defined above and of the number of these coefficients which can be different from 10. It is also clear that the invention can still be applied for definitions of packets of frames comprising numbers different from three frames or filtering configurations different from four and that these variants must naturally lead to total numbers of quantization bits different from (33 + 2) bits with a distribution by different configuration.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

Le procédé consiste à découper le signal vocal en trames binaires de durée déterminée pour les regrouper (121 ... 123) en paquets de trames successives en associant à chaque trame d'un paquet un filtre prédicteur et à quantifier (181 ... 183) les coefficients de chaque filtre prédicteur en tenant compte (20,21) de la configuration stable ou non stable du signal vocal. Application : codage de la parole.

Description

  • La présente invention concerne un procédé et un dispositif de codage de filtres prédicteurs pour vocodeurs très bas débit.
  • Parmi les méthodes de numération de la parole à bas débit la méthode la plus connue est celle du codage prédictif linéaire LPC10, où LPC10 est l'abréviation dans le langage anglo-saxon de "Linear predictive coding, order 10" Suivant cette méthode la synthèse de la parole a lieu en excitant au moyen d'un signal périodique ou par une source de bruit un filtre dont la fonction est de donner au spectre en fréquence du signal une forme d'onde proche de celle du signal de parole d'origine.
  • La majeure partie du débit, qui est de 2400 bits par seconde, est consacrée à la transmission des coefficients du filtre. Pour cela le train binaire est découpé en trames de 22,5 millisecondes comportant 54 bits dont 41 sont utilisés pour adapter la fonction de transfert du filtre.
  • Un procédé connu de réduction de débit consiste à comprimer les 41 bits associés à un filtre en 10 à 12 bits qui représentent le numéro d'un filtre prédéfini, appartenant à un dictionnaire de 210 à 212 filtres différents, ce filtre étant celui qui est le plus proche du filtre d'origine. Ce procédé présente cependant un premier inconvénient majeur qui est de nécessiter la construction d'un dictionnaire de filtres dont le contenu dépend étroitement du jeu des filtres utinisés pour le constituer par des techniques classiques de données ("clustering") et de la sorte ce procédé n'est pas parfaitement bien adapté aux conditions de prise de son réelles. Un deuxième inconvénient de ce procédé est qu'il exige pour sa mise en oeuvre une taille de mémoire très importante pour stocker le dictionnaire (210 à 212 paquets de coefficients). Corrélativement les temps de calcul deviennent importants du fait qu'il faut rechercher dans le dictionnaire le filtre le plus proche du filtre original. Enfin ce procédé ne permet pas de reproduire de façon satisfaisante des sons stables. Ceci est dû au fait que même pour un son stationnaire l'analyse LPC ne sélectionne jamais en pratique deux fois de suite le même filtre original mais choisit successivement dans le dictionnaire des filtres proches mais distincts.
  • De même qu'en télévision où la reconstruction d'une image colorée dépend essentiellement de la qualité du signal de luminance et non pas de celle du signal de chrominance qui peut de ce fait être transmis avec une définition moindre, il apparaît aussi suffisant en synthèse de parole de ne bien reproduire que le contour de l'énergie du signal vocal, sa coloration (voisement, forme de spectre) revêtant une importance moindre pour sa reconstruction. De ce fait, dans les procédés connus de synthèse de la parole le processus de recherche de spectres basé sur l'évolution de la distance minimale qui sépare les spectres de la parole d'origine (du locuteur) et de la parole synthétique ne sont pas pleinement justifiés.
  • Par exemple, différents exemplaires du son "A" prononcés par différents locuteurs, ou enregistrès dans des conditions différentes peuvent avoir une distance spectrale élevée mais resteront toujours des "A" pouvant être reconnus en tant que tels, et s'il y a ambiguïté, traduite par une possibilité de confusion avec un son proche, l'auditeur pourra toujours rectifier de lui-même grâce au contexte. En fait, l'expérience montre qu'en ne consacrant pas plus d'une trentaine de bits aux coefficients du filtre prédicteur au lieu de 41, la qualité de restitution reste satisfaisante même si un auditeur entraîné peut perce voir une différence légère entre les sons synthétisés avec des coefficients prédicteurs définis sur 30 ou 41 bits. D'autre part, comme la transmission a lieu à distance et que le destinataire n'a pas de ce fait la possibilité de faire cette différence, il apparaît suffisant que l'auditeur puisse reconnaître correctement le son synthétisé.
  • Egalement il apparaît important que dans les parties stables du signal (voyelles) le filtre prédicteur reste stable et soit aussi proche que possible du filtre prédicteur d'origine. Par contre dans les parties instables (transition, son non voisé) le prédicteur transmis n'a pas besoin d'être une copie fidèle du prédicteur d'origine.
  • Le but de l'invention est de pallier les inconvénients précités.
  • A cet effet, l'invention a pour objet un procédé de codage de filtres prédicteurs de vocodeurs très bas débit du type dans lequel le signal vocal est découpé en trames binaires de durée déterminée caractérisé en ce qu'il consiste à regrouper les trames par paquets de trames successives, à associer respectivement à chaque trame contenue dans un paquet un filtre prédicteur, et à quantifier les coefficients de chaque filtre prédicteur en tenant compte de la configuration stable ou non stable du signal vocal.
  • D'autres caractéristiques et avantages de l'invention apparaîtront ci-après à la lecture de la description qui suit faite en regard des dessins annexés qui représentent :
    • - la figure 1 un schéma de principe d'un synthétiseur de parole de l'art connu ;
    • - la figure 2 une mise sous forme de tableaux des quatre codages possibles des filtres prédicteurs du vocodeur selon l'invention ;
    • - la figure 3 un organigramme pour illustrer le calcul de l'erreur de prédiction des filtres prédicteurs mis en oeuvre par l'invention ;
    • - la figure 4 un graphe de transformation des coefficients de réflexion des filtres prédicteurs ;
    • - la figure 5 la loi de quantification des coefficients de réflexion des filtres transformés par le graphe de la figure 3 ;
    • - la figure 6 un dispositif pour la mise en oeuvre du procédé selon l'invention.
  • Le synthétiseur de parole représenté à la figure 1 comporte de façon connue un filtre prédicteur 1 couplé par son entrée E1 à un générateur de signal périodique 2 et à un générateur de bruit 3 au travers d'un commutateur 4 et d'une amplificateur à gain variable 5 reliés en série. Le commutateur 4 couple l'entrée du filtre prédicteur 1 à la sortie du générateur de signal périodique 2 ou à la sortie du générateur de bruit 3 suivant la nature voisée ou non du son à restituer. L'amplitude du son est commandée par l'amplificateur 5. la filtre 1 restitue sur sa sortie S un signal de parole en fonction de coefficients de prédiction appliqués sur son entrée E2. A la différence de ce qui est représenté à la figure 1 les synthétiseurs de parole auxquels s'appliquent le procédé et le dispositif de codage de l'invention doivent comporter trois filtres prédicteurs 1 adaptés à chaque groupe de trois trames de 22,5 ms successives du signal de parole suivant l'état stable ou non stable du son à synthétiser. Cette organisation permet, par exemple, de réduire le débit de 2400 bits par seconde à 800 bits par seconde, en regroupant les trames par paquets de 3 x 22,5 = 67,5 millisecondes de 54 bits dans lesquels 30 à 35 bits sont utilisés pour décrire par exemple les 10 coefficients prédicteurs des trois filtres successifs nécessaires à la mise en oeuvre de la méthode de codage LPC10 décrite précédemment, et deux bits parmi ceux-ci sont utilisés pour définir la configuration à donner aux trois filtres à générer suivant la nature stable ou non du signal vocal à générer. Dans le tableau de la figure 2 où sont consignées les quatre configurations possibles des trois filtres, à l'état 00 des deux bits de configuration correspond une première configuration où les trois filtres prédicteurs sont identiques pour les trois trames du signal vocal. Pour la deuxième configuration les bits de configuration ont la valeur 01 et seuls les deux premiers filtres des trames 1 et 2 sont identiques. Dans la troisième configuration, correspondant aux bits de configuration 10 seuls les deux derniers filtres des trames 2 et 3 sont identiques. Enfin dans la quatrième configura tion, correspondant aux bits de configuration 11, les trois filtres des trames 1 et 3 sont différents. Naturellement ce mode de configuration n'est pas unique et il est tout aussi possible en restant dans le cadre de l'invention à définir le nombre de trames dans un paquet par un nombre quelconque. Cependant pour des commodités de réalisation ce nombre pourra être compris entre 2 et 4 inclusivement. Dans ces cas naturellement le nombre de configurations possibles pourra être étendu à 8 ou 16 au maximum. La définition des filtres est établie suivant les étapes 1 à 6 du procédé représenté par l'organigramme de la figure 2. Selon une première étape du procédé portant la référence 5 sur l'organigramme les coefficients d'autocorrélation R;,k du signal sont calculés suivant une relation de la forme :
    Figure imgb0001
    où Sin est un échantillon n du signal dans la trame i et Wn désigne la fenêtre de pondération. A la deuxième étape référencée 6 le calcul des coefficients de réflexion du filtre prédicteur en treillis correspondant aux coefficients Ri(k) précédent est effectué en application d'un algorithme standard par exemple, de l'algorithme connu de LEROUX-GUEGUEN ou SCHUR. A cette étape, les coefficients Rik sont transformés en coefficients Kij où j est un entier positif prenant les valeurs successives de 1 à 10. A la troisième étape portant la référence 7 les coefficients k dont les valeurs sont comprises par définition entre -1 et + 1 sont transformés en des coefficients modifiés qui évoluent entre "-l'infini" et "+l'infini" et qui tiennent compte du fait que la quantification des coefficients k doit être fidèle lorsqu'ils ont une valeur absolue proche de 1 et une valeur qui peut être plus grossière lorsqu'ils sont voisins de 0 par exemple. Chaque coefficient Kij est par exemple transformé suivant une relation de la forme
    Figure imgb0002
    dont le graphe est représenté à la figure 3 ou encore suivant les relations (Lij = Kij| 1- |Kij|) ; (Lij = arc cos Kij) ; (Lij = arc sin Kij) ou encore en application de la méthode de calcul des coefficients LSP décrite dans l'article de George S. Kang an Lawrence, J. Fransen du Naval Research Laboratory Washington DC 20375 1985 ayant pour titre "Application of line spectrum pairs to low bit rate speech encoder". A la quatrième étape représentée en 8 les coefficients Lij sont quantifiés suivant nj bits chacun de façon non uniforme en tenant compte de la répartition des coefficients pour donner une valeur Lij suivant une loi de répartition représentée par l'histogramme des Lij de la figure 4. A l'étape 5 les valeurs de Lisent à leur tour utilisées pour calculer des coefficients Kijsuivant la relation
    Figure imgb0003
  • Ces valeurs Kijreprésentent les valeurs quantifiées des coefficients de prédiction à partir desquels les coefficients d'un prédicteur Ai(z)peuvent être déduits par des relations de récurrence définies comme suit :
    Figure imgb0004
    Figure imgb0005
    pour p = 1, 2, ... 10.
    Figure imgb0006
  • Enfin A la dernière étape représentée en 10 le calcul de l'énergie de l'erreur de prédiction est effectué en application de la relation suivante
    Figure imgb0007
    ou encore
    Figure imgb0008
    avec
    Figure imgb0009
    Figure imgb0010
  • Pour compléter l'algorithme il suffit alors de tester les quatre différentes configurations décrites précédemment en intercalant entre la première et la deuxième étape du procédé une étape supplémentaire tenant compte des configurations possibles pour ne retenir finalement que la configuration pour laquelle l'erreur de prédiction totale obtenue est minimale (sommée sur les trois trames).
  • Dans la première configuration le même filtre est utilisé pour les trois trames. On utilise alors pour le déroulement des étapes 2 à 6 un quatrième filtre fictif unique qui est calculé à partir des coefficients R4j donnés par la relation
    Figure imgb0011
    avec j variant de 0 à 10.
  • L'erreur de prédiction totale est alors égale à E2 et l'algorithme du procédé revient en fait à considérer les trois trames comme une seule trame de durée trois fois supérieure.
  • Les coefficients L1 à L10 peuvent alors être quantifiés avec par exemple 5,5,4,4,4,3,2,2,2,2 bits respectivement, soit 33 bits au total.
  • Selon la deuxième configuration, dans laquelle un même filtre est utilisé pour les trames 1 et 2, l'algorithme est exécuté avec des valeurs des coefficients R5j et R3j d'autocorrélation définis comme suit : R5,j = R1,j + R2,j où j prend successivement les valeurs de 1 à 10 pour les deux premières trames et R3,j (j variant de 1 à 10) pour la dernière trame.
  • L'erreur de prédiction est égale à Es2 + E3 2 ce qui revient à considérer que les trames 1 et 2 sont regroupées en une seule trame de durée double, la trame 3 restant inchangée. Il est alors possible de quantifier les coefficients Li à L10 sur les trames 1 et 2 avec respectivement 5,4,4,3,3,2,2,2,0,0 bits (25 bits au total, les coefficients Lg et L10 n'étant pas transmis), et leur variation pour obtenir ceux de la troisième trame en utilisant 3,2,2,1,0,0,0,0,0,0 bits respectivement (8 bits au total), soit 33 bits pour les trois trames.
  • Le fait de ne pas transmettre les coefficients Ls et Lio n'est pas gênant puisque dans ce cas la configuration correspond à des prédicteurs qui évoluent et dont les coefficients ont une importance qui va décroissante en fonction de leur rang.
  • Dans la troisième configuration ,où les mêmes filtres sont utilisés pour les trames 2 et 3 le même procédé que dans la deuxième configuration est utilisé en regroupant les coefficients Rij des trames 2 et 4 tel que R6j = R2j + R3j. Le même procédé de quantification est utilisé mais en codant le prédicteur des trames 2 et 3 et le différentiel pour la trame 1.
  • Enfin pour la dernière configuration où tous les filtres sont différents il faut considérer que les trois trames sont découplées et que l'erreur totale est égale à E,2 + E2 2 + E3 2. Dans ce cas les coefficients L1 à L10 de la trame 2 seront quantifiés avec respectivement 4,4,3,3,3,2,2,0,0 bits soit 21 bits, ainsi que les différences pour la première trame avec 2,2,1,1,0,0,0,0,0,0 bits soit 6 bits ainsi que les différences pour la trame 3 (6 bits supplémentaires). Cette dernière configuration correspond à un codage de 21 + 6 + 6 = 33 bits.
  • Le dispositif pour la mise en oeuvre du procédé qui est représenté à la figure 6 comporte un dispositif 1 de calcul des 10 coefficients d'autocorrélation pour chaque trame couplée à des éléments de retard formés par trois mémoires de trames 121 à 123 pour mémoriser les coefficients Rij calculés à la première étape du procédé. Il comprend également un dispositif de calcul 13 des coefficients Kij et Lij suivant la deuxième étape du procédé. Un bus de données 14 véhicule les valeurs des ccefficients Lij (i = 1 à 3, j = 1 à 10) et les valeurs des coefficients Rio représentant les énergies où i = 1 à 3. Le bus de données 14 relie les éléments de retard 121 à 123 et le dispositif de calcul 13 a quatre chaînes de calcul référencés de 151 à 154. Les chaînes de calcul 151 à 153 comprennent respectivement un dispositif sommateur, respectivement 16, à 163 qui est relié aux éléments de retard 12, à 123 pour calculer les coefficients R4j, R5j et R6j suivant les 4 configurations décrites précédemment. Les sorties des dispositifs de sommation 161 à 163 sont reliées à des dispositifs de calcul respectivement 17, à 173 des coefficients L4j, K4j ; KSj, L5j et K6j et L6j. Les coefficients L4j L5j L6j sont transmis respectivement à des dispositifs de quantification 18, à 183 pour calculer les coefficients Lijconformément à la quatrième étape du procédé. Ces coefficients sont appliqués à des dispositifs de calcul d'erreur totale référencés respectivement de 19, à 193 pour fournir respectivement des erreurs de prédiction totale E4 2, Es 2 + E2 2 et enfin E,2 + E6 2 pour chacune des configurations 1 à 3 décrites précédemment. La chaîne de calcul 154 comprend relié au bus de données 14 un dispositif de quantification séparée 184 des coefficients Lij. Les coefficients Lijobtenus à la sortie du dispositif de quantification 184 sont appliqués à un dispositif de calcul d'erreur totale 194 pour calculer l'erreur totale suivant la relation E,2 + E2 2 + E3 2 définie précédemment. Chacune des sorties des dispositifs de calcul d'erreur totale 19, à 194 des chaînes de calcul 151 à 154 sont appliquées aux entrées respectives d'un dispositif de recherche totale de minimum 20. D'autre part, chacune des sorties du dispositif de quantification 181 à 184, fournissant les coefficients Lij, sont appliquées à un dispositif d'aiguillage 21 commandé par la sortie du dispositif de recherche d'erreur totale minimum 20 pour sélectionner des coefficients Lijà transmettre qui corresponde à l'erreur totale minimum calculée par le dispositif 20. Dans cet exemple la sortie du dispositif comporte 35 bits, 33 bits représentant les valeurs des coefficients Lijobtenues à la sortie du dispositif d'aiguillage 21 et 2 bits représentant l'une des quatre configurations possibles indiquées par le dispositif de recherche d'erreur totale minimum 20.
  • Il va de soi que l'invention ne se limite pas aux exemples qui viennent d'être décrits et qu'elle peut recevoir d'autres variantes de réalisation dépendant notamment, des coefficients qui sont appliqués aux filtres qui peuvent être différents des coefficients Lij définis précédemment et du nombre de ces coefficients qui peut être différent de 10. Il est clair également que l'invention peut encore s'appliquer pour des définitions de paquets de trames comprenant des nombres différents de trois trames ou des configurations de filtrage différentes de quatre et que ces variantes doivent conduire naturellement à des nombres totaux de bits de quantification différents de (33+2) bits avec une répartition par configuration différente.

Claims (10)

1. Procédé de codage de filtres prédicteurs de vocodeurs très bas débit du type dans lequel le signal vocal est découpé en trames binaires de durée déterminée caractérisé en ce qu'il consiste à regrouper (12, ... 123) les trames par paquets de trames successives, à associer respectivement à chaque trame contenue dans un paquet un filtre prédicteur (1)) et à quantifier les ccefficients de chaque filtre prédicteur (5 ... 9) en tenant compte de la configuration stable (19) ou non stable du signal vocal.
2. Procédé selon la revendication 1 caractérisé en ce que le nombre de trames dans un paquet est compris entre 2 et 4 inclusivement (121 ... 123).
3. Procédé selon les revendications 1 et 2 caractérisé en ce que le nombre de configurations est aux nombres de 4, 8 ou 16.
4. Procédé selon la revendication 3 caractérisé en ce qu'il consiste à limiter le choix des configurations à quatre,
une première configuration où les filtres prédicteurs sont identiques une deuxième et une troisième configuration où seulement deux filtres prédicteurs sont identiques et une quatrième configuration où les trois filtres prédicteurs sont différents.
5. Procédé selon la revendication 4 caractérisé en ce qu'il consiste à calculer (17, 18) pour chaque configuration les coefficients de prédiction et l'énergie (19) de l'erreur de prédiction pour ne retenir (20) que les coefficients de prédiction dont l'erreur de prédiction est minimale.
6. Procédé selon la revendication 5 caractérisé en ce qu'il consiste pour le calcul des coefficients de prédiction à calculer dans chaque trame les coefficients d'autocorrélation Ri,k du signal vocal échantillonné, et à appliquer l'algorithme de Leroux-Gueguen ou de Schur pour déterminer les coefficients de réflexion de chaque filtre prédicteur.
7. Procédé selon l'une quelconque des revendications 1 à 6 caractérisé en ce que les coefficients de réflexion Li,j des filtres sont au nombre de 10 et sont codés sur une longueur totale de 33 bits quelle que soit la configuration.
8. Procédé selon la revendication 7 caractérisé en ce que les coefficients de réflexion Li à L, des filtres ont respectivement pour longueur :
(5,5,4,4,4,3,2,2,2,2) bits suivant la première configuration (5,4,4,3,3,2,2,2,0,0) bits et (3,2,2,1,0,0,0,0,0,0) bits suivant les deuxième et troisième configurations (4,4,3,3,3,2,2,0,0) bits pour le codage de la trame intermédiaire (trame 2) suivant la quatrième configuration et (2,2,1,1,0,0,0,0,0,0) bits pour les deux autres trames (trame 1) (trame 3) suivant la quatrième configuration.
9. Procédé selon la revendication 6 caractérisé en ce que les coefficients de réflexion des filtres sont déterminés par la relation
L,j = Ki,j/(1-Kij 2)-2
10. Dispositif pour la mise en oeuvre du procédé selon l'une quelconque des revendications 1 à 9.
EP90403195A 1989-11-14 1990-11-09 Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit Expired - Lifetime EP0428445B1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR8914897 1989-11-14
FR8914897A FR2654542B1 (fr) 1989-11-14 1989-11-14 Procede et dispositif de codage de filtres predicteurs de vocodeurs tres bas debit.

Publications (2)

Publication Number Publication Date
EP0428445A1 true EP0428445A1 (fr) 1991-05-22
EP0428445B1 EP0428445B1 (fr) 1995-03-15

Family

ID=9387367

Family Applications (1)

Application Number Title Priority Date Filing Date
EP90403195A Expired - Lifetime EP0428445B1 (fr) 1989-11-14 1990-11-09 Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit

Country Status (6)

Country Link
US (1) US5243685A (fr)
EP (1) EP0428445B1 (fr)
CA (1) CA2029768C (fr)
DE (1) DE69017842T2 (fr)
ES (1) ES2069044T3 (fr)
FR (1) FR2654542B1 (fr)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0454552A2 (fr) * 1990-04-27 1991-10-30 Thomson-Csf ProcédÀ© et dispositif de codage bas débit de la parole
EP0542585A2 (fr) * 1991-10-15 1993-05-19 Thomson-Csf Procédé de quantification d'un filtre prédicteur pour vocodeur à très faible débit

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2738383B1 (fr) * 1995-09-05 1997-10-03 Thomson Csf Procede de quantification vectorielle de vocodeurs bas debit
US5884259A (en) * 1997-02-12 1999-03-16 International Business Machines Corporation Method and apparatus for a time-synchronous tree-based search strategy
FR2778041A1 (fr) * 1998-04-24 1999-10-29 Thomson Csf Procede de neutrodynage du tube d'un emetteur
FR2788390B1 (fr) 1999-01-12 2003-05-30 Thomson Csf Emetteur de radiodiffusion en ondes courtes a haut rendement optimise pour les emissions de type numerique
FR2790343B1 (fr) 1999-02-26 2001-06-01 Thomson Csf Systeme pour l'estimation du gain complexe d'un canal de transmission
FR2799592B1 (fr) 1999-10-12 2003-09-26 Thomson Csf Procede de construction et de codage simple et systematique de codes ldpc
FR2815492B1 (fr) * 2000-10-13 2003-02-14 Thomson Csf Systeme et procede de radiodiffusion assurant une continuite de service
FR2826208B1 (fr) 2001-06-19 2003-12-05 Thales Sa Systeme et procede de transmission d'un signal audio ou phonie
FR2826492B1 (fr) * 2001-06-22 2003-09-26 Thales Sa Procede et systeme de pre et de post-traitement d'un signal audio pour la transmission sur un canal fortement perturbe
FR2832879B1 (fr) * 2001-11-23 2006-08-18 Thales Sa Procede et egalisation par segmentations des donnees
FR2832880B1 (fr) * 2001-11-23 2004-04-09 Thales Sa Procede et dispositif d'egalisation par blocs avec adaptation au canal de transmission
FR2832877B1 (fr) * 2001-11-23 2006-08-18 Thales Sa Procede et dispositif d'egalisation par blocs avec interpolation amelioree
PL3441970T3 (pl) * 2014-01-24 2020-04-30 Nippon Telegraph And Telephone Corporation Urządzenie, sposób i program do analizy liniowo-predykcyjnej oraz nośnik zapisu
WO2015111569A1 (fr) 2014-01-24 2015-07-30 日本電信電話株式会社 Dispositif, procédé et programme d'analyse par prédiction linéaire et support d'enregistrement
US9972301B2 (en) * 2016-10-18 2018-05-15 Mastercard International Incorporated Systems and methods for correcting text-to-speech pronunciation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797925A (en) * 1986-09-26 1989-01-10 Bell Communications Research, Inc. Method for coding speech at low bit rates
JPS63211987A (ja) * 1987-02-27 1988-09-05 Sony Corp 予測符号化装置
US4868867A (en) * 1987-04-06 1989-09-19 Voicecraft Inc. Vector excitation speech or audio coder for transmission or storage
US4817157A (en) * 1988-01-07 1989-03-28 Motorola, Inc. Digital speech coder having improved vector excitation source
US4963034A (en) * 1989-06-01 1990-10-16 Simon Fraser University Low-delay vector backward predictive coding of speech

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4852179A (en) * 1987-10-05 1989-07-25 Motorola, Inc. Variable frame rate, fixed bit rate vocoding method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, vol. ASSP-31, no. 3, juin 1983, pages 706-713, IEEE, New York, US; P.E. PAPAMICHALIS et al.: "Variable rate speech compression by encoding subsets of the PARCOR coefficients" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0454552A2 (fr) * 1990-04-27 1991-10-30 Thomson-Csf ProcédÀ© et dispositif de codage bas débit de la parole
WO1991017541A1 (fr) * 1990-04-27 1991-11-14 Thomson-Csf Procede et dispositif de codage bas debit de la parole
EP0454552A3 (en) * 1990-04-27 1992-01-02 Thomson-Csf Method and apparatus for low bitrate speech coding
EP0542585A2 (fr) * 1991-10-15 1993-05-19 Thomson-Csf Procédé de quantification d'un filtre prédicteur pour vocodeur à très faible débit
EP0542585A3 (fr) * 1991-10-15 1993-06-09 Thomson-Csf Procédé de quantification d'un filtre prédicteur pour vocodeur à très faible débit
FR2690551A1 (fr) * 1991-10-15 1993-10-29 Thomson Csf Procédé de quantification d'un filtre prédicteur pour vocodeur à très faible débit.
US5522009A (en) * 1991-10-15 1996-05-28 Thomson-Csf Quantization process for a predictor filter for vocoder of very low bit rate

Also Published As

Publication number Publication date
CA2029768A1 (fr) 1991-05-15
FR2654542B1 (fr) 1992-01-17
DE69017842D1 (de) 1995-04-20
FR2654542A1 (fr) 1991-05-17
ES2069044T3 (es) 1995-05-01
DE69017842T2 (de) 1995-08-17
EP0428445B1 (fr) 1995-03-15
US5243685A (en) 1993-09-07
CA2029768C (fr) 2001-01-09

Similar Documents

Publication Publication Date Title
EP0428445B1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
EP1320087B1 (fr) Synthèse d'un signal d'excitation utilisé dans un générateur de bruit de confort
EP1692689B1 (fr) Procede de codage multiple optimise
FR2520539A1 (fr) Procede et systeme de traitement des silences dans un signal de parole
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
FR2639459A1 (fr) Procede de traitement du signal et appareil de formation de donnees issues d'une source sonore
EP0608174A1 (fr) Systeme de codage-décodage prédictif d'un signal numérique de parole par transformée adaptative à codes imbriqués
FR2929466A1 (fr) Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
FR2596936A1 (fr) Systeme de transmission d'un signal vocal
EP0481895B1 (fr) Procédé de transmission, à bas débit, par codage CELP d'un signal de parole et système correspondant
FR2784218A1 (fr) Procede de codage de la parole a bas debit
EP1836699B1 (fr) Procédé et dispositif de codage audio optimisé entre deux modèles de prediction à long terme
EP0195441B1 (fr) Procédé de codage à faible débit de la parole à signal multi-impulsionnel d'excitation
EP0685833A1 (fr) Procédé de codage de parole à prédiction linéaire
FR2653557A1 (fr) Appareil et procede pour le traitement de la parole.
WO2023165946A1 (fr) Codage et décodage optimisé d'un signal audio utilisant un auto-encodeur à base de réseau de neurones
EP0616315A1 (fr) Dispositif de codage et de décodage numérique de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP
EP0347307B1 (fr) Procédé de codage et codeur de parole à prédiction linéaire
FR2481024A1 (fr) Circuit predicteur adaptatif utilisant un filtre en treillis et dispositif de codage ou de decodage mic differentiel correspondant
EP1192619B1 (fr) Codage et decodage audio par interpolation
EP1192618B1 (fr) Codage audio avec liftrage adaptif
EP1192621B1 (fr) Codage audio avec composants harmoniques
EP0454552A2 (fr) ProcédÀ© et dispositif de codage bas débit de la parole
FR2741743A1 (fr) Procede et dispositif pour l'amelioration de l'intelligibilite de la parole dans les vocodeurs a bas debit
WO2001003119A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): CH DE ES GB IT LI

17P Request for examination filed

Effective date: 19911104

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: THOMSON-CSF

17Q First examination report despatched

Effective date: 19940325

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): CH DE ES GB IT LI

ITF It: translation for a ep patent filed

Owner name: JACOBACCI CASETTA & PERANI S.P.A.

REF Corresponds to:

Ref document number: 69017842

Country of ref document: DE

Date of ref document: 19950420

REG Reference to a national code

Ref country code: ES

Ref legal event code: FG2A

Ref document number: 2069044

Country of ref document: ES

Kind code of ref document: T3

GBT Gb: translation of ep patent filed (gb section 77(6)(a)/1977)

Effective date: 19950605

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

26N No opposition filed
REG Reference to a national code

Ref country code: GB

Ref legal event code: 746

Effective date: 19961113

REG Reference to a national code

Ref country code: GB

Ref legal event code: IF02

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: ES

Payment date: 20091201

Year of fee payment: 20

Ref country code: DE

Payment date: 20091105

Year of fee payment: 20

Ref country code: CH

Payment date: 20091113

Year of fee payment: 20

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20091104

Year of fee payment: 20

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20091113

Year of fee payment: 20

REG Reference to a national code

Ref country code: GB

Ref legal event code: PE20

Expiry date: 20101108

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20101108

REG Reference to a national code

Ref country code: ES

Ref legal event code: FD2A

Effective date: 20120510

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20101110

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION

Effective date: 20101109