FR2709387A1 - Système de communication radio. - Google Patents

Système de communication radio. Download PDF

Info

Publication number
FR2709387A1
FR2709387A1 FR9410203A FR9410203A FR2709387A1 FR 2709387 A1 FR2709387 A1 FR 2709387A1 FR 9410203 A FR9410203 A FR 9410203A FR 9410203 A FR9410203 A FR 9410203A FR 2709387 A1 FR2709387 A1 FR 2709387A1
Authority
FR
France
Prior art keywords
vector
coding
speech
vectors
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9410203A
Other languages
English (en)
Other versions
FR2709387B1 (fr
Inventor
Ira A Gerson
Mark A Jasiuk
Matthew A Hartman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FR9403414A external-priority patent/FR2706064B1/fr
Application filed by Motorola Inc filed Critical Motorola Inc
Priority to FR9410203A priority Critical patent/FR2709387B1/fr
Publication of FR2709387A1 publication Critical patent/FR2709387A1/fr
Application granted granted Critical
Publication of FR2709387B1 publication Critical patent/FR2709387B1/fr
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/135Vector sum excited linear prediction [VSELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Codeur de la parole à Codage Prédictif Linéaire à Vecteur-Somme Excité (VSELP) présentant une qualité améliorée et une complexité réduite par rapport à l'art antérieur. Le VSELP utilise un tableau de codage possédant une structure prédéfinie telle que les calculs requis pour le processus de recherche dans le tableau de codage peuvent être réduits, de façon significative, ainsi qu'un quantificateur vectoriel à un ou plusieurs segments des coefficients de réflexion sur la base d'une Technique de Maillage à Point Fixé (FLAT). De plus, ce codeur de la parole utilise un pré-quantificateur afin de réduire la complexité de recherche dans le tableau de codage vectoriel et un quantificateur scalaire à haute résolution afin de réduire la quantité de mémoire de stockage des tableaux de codage vectoriel de coefficients de réflexion. On obtient ainsi un codeur de la parole de haute qualité avec des calculs et des conditions de stockage réduits.

Description

SYSTEME DE COMMUNICATION RADIO
a Présente inverticn concerne, ce façon globale, les codeurs de la parole utilisant un Codage Prédictif Linéaire à Excitation par Code (CELP), un Codage de la parole à
Excitation par Vecteur ou Codage Stochastique et, plus spécllicuement, les quantificateurs vectoriels pour un
Codage Prédictif Linéaire à Excitation par Vecteur-Somme (VSELP).
la prédiction linéaire à excitation par code (CELP) est une technique de codage de la parole utilisée pour produire des mots synthétisés de haute qualité. Ce type de codage de la parole, connu de même comme prédiction linéaire à excitation par vecteur, est utilisé dans de nombreuses applications de communication de la parole et de synthèse de la parole. Le CELP est appliqué, en particulier, au codage numérique de la parole et aux systemes digitaux de communication par radiotéléphone dans lesquels la qualité de la parole, la cadence des données, la taille et le court sont des buts importants.
Dans ur. codeur de la parole CELP, les éléments de prédiction ou PRéeicteurs de long terme ( caractéristique globale ) et de court terme ( caractéristique phonétique ) modélisant les caractéristiques du signal d'entrée de la parole sont incorporés dans un ensemble de filtres à variation dans ie temps. De façon spécifique, un filtre de long terme et de court terme peut être utilisé. Un signal d'excitation pour ces filtres est choisi à partir d'un tableau de codage des séquences d'innovation stockées ou vecteurs de codage.
Pour chaque trame de la parole, on choisit un signal d'excitation optimal. Le codeur de la parole applique un vecteur de codage individuel aux filtres pour générer un signal ce la parole reconstitué. Le signal de la parole reconstitué est comparé au signal originel d'entrée de la parole, ce qui crée un signal d'erreur. Le signal d'erreur est alors pondéré en traversant un filtre de pondération spectral du bruit. Le filtre de pondération spectral du bruit présente un réponse basée sur la perception auditive humaine. Le signal d'excitation optimal est un vecteur de codage choisi produisant le signal d'erreur pondérée avec le minimum d'énergie pour la trame courante de la parole.
Usuellement, on utilise un codage prédictif linéaire (LPC) pour modéliser la corrélation du signal de court terme sur un bloc d'échantillons, référencé de même comme le filtre de court terme. La corrélation du signal de court terme représente les fréquences de résonance du domaine vocal. Les coefficients LPC représentent un ensemble des paramètres de modélisation de la parole. D'autres ensembles de paramètres peuvent être utilisés pour caractériser le signal d'excitation qui est appliqué au filtre de prédicteur de court terme. Ces autres paramètres de modélisation de la parole comprennent : les Fréquences
Spectrales de Ligne (LSF), les coefficients spectraux, les coefficients de réflexion, les rapports logarithmiques de zone et les arcsinus.
Un vecteur usuel de codeur de la parole quantifie le signal d'excitation pour réduire le nombre de bits nécessaires pour caractériser le signal. Les coefficients
LPC peuvent être transformés dans les autres ensembles de paramètres mentionnés précédemment avant la quantification.
Les coefficients peuvent être quantifiés de façon individuelle (quantification scalaire) ou ils peuvent être quantifiés comme un ensemble (quantification vectorielle).
La quantification scalaire n'est pas aussi efficace que la quantification vectorielle; cependant, la quantification scalaire est moins coûteuse en ce qui concerne le calcul et la mémoire que la quantification vectorielle. La quantification vectorielle des paramètres LPC est utilisée pour des applications où l'efficacité du codage est primordiale.
La quantification vectorielle à plusieurs segments peut être utilisée pour équilibrer l'efficacité du codage, la complexité de recherche du quantificateur vectoriel et les conditions de stockage du quantificateur vectoriel. Le premier type de quantification vectorielle à plusieurs segments sépare un vecteur de paramètre LPC à Np éléments en n segment. Chacun des n segments est quantifié vectoriellement de façon séparée. Un second type de quantification vectorielle à plusieurs segments sépare le paramètre LPC parmi n tableaux de codage vectoriel où chaque tableau de codage vectoriel relie tous les Np éléments vectoriels. Pour illustrer la quantification vectorielle, considérons Np = 10 éléments et que chaque élément est représenté par 2 bits. Une quantification vectorielle usuelle nécessiterait 220 vecteurs de codage de 10 éléments pour représenter chacun toutes les possibilités de vecteur de codage. Le premier type de quantification vectorielle à plusieurs segments avec deux segments nécessiterait 210 + 210 vecteurs de codage de 5 éléments chacun. Le second type de quantification vectorielle à plusieurs segments avec deux segments nécessiterait 210 10 +2 vecteurs de codage de 5 éléments chacun. Chacun de ces procédés de quantification vectorielle présente des intérêts différents pour l'efficacité de codage, la complexité de recherche et les conditions de stockage.
Alors, l'état de l'art du codeur de la parole bénéficierait d'un procédé et d'un dispositif de quantification vectorielle augmentant l'efficacité du codage ou réduisant la complexité de recherche ou les conditions de stockage sans modifier les conditions correspondantes.
La Figure 1 est un synoptique d'un système de communication radio comprenant un codeur de la parole selon la présente invention;
la Figure 2 est un synoptique d'un codeur de la parole selon la présente invention; et
la Figure 3 est un graphe de la fonction arcsinus utilisée selon la présente invention.
Une variante du Codage Prédictif Linéaire à Code
Excité (CELP) appelée Codage Prédictif Linéaire à Vecteur
Somme Excité (VSELP), décrit ici, est un mode de mise en oeuvre préféré de la présente invention. Le VSELP utilise un tableau de codage d'excitation présentant une structure prédéfinie telle que les calculs requis pour le processus de recherche du tableau de codage sont réduits de façon significative. Ce codeur de la parole VSELP utilise un quantificateur vectoriel à un ou plusieurs segments des coefficients de réflexion sur la base d'une Technique de
Maillage à Point Fixé (FLAT). De plus, ce codeur de la parole utilise un pré-quantificateur pour réduire la complexité de recherche du tableau de codage vectoriel et un quantificateur scalaire à haut résolution afin de réduire la quantité de mémoire requise pour stocker les tableaux de codage vectoriels de coefficients de réflexion.
Cela donne un quantificateur vectoriel à haute performance des coefficients de réflexion qui est, de même, efficace d'un point de vue du calcul et présente des conditions de stockage réduit.
La Figure 1 est un synoptique d'un système de communication radio 100. Le système de communication radio 100 comprend deux émetteurs/récepteurs lOi, 113 émettant et recevant des données de la parole vers et à partir l'un de l'autre. Les deux émetteurs/récepteurs 101, 113 peuvent faire partie d'un système radio de réseau ou d'un système de communication par radiotéléphone ou d'un quelconque autre système de communication radio émettant et recevant des données de la parole. A l'émetteur, les signaux de la parole sont entrés dans un microphone 108 et le codeur de la parole choisit les paramètres quantifiés du modèle de la parole. Les codes pour les paramètres quantifiés sont alors transmis à l'autre émetteur/récepteur 113. A l'autre émetteur / récepteur 113, les codes transmis pour les paramètres quantifiés sont reçus en 121 et sont utilisés pour régénérer la parole dans le décodeur de la parole 123.
La parole régénérée sort par le haut-parleur 124.
La Figure 2 est un synoptique d'un codeur de la parole VSELP 200. Un codeur de la parole VSELP 200 utilise un code reçu pour déterminer quelle vecteur d'excitation utiliser à partir du tableau de codage. Le codeur de la parole VSELP 200 utilise un tableau d'excitation de 2M vecteur de codage qui est constitué à partir de M vecteur de base. Si on définit vm(n) comme le mième vecteur de base et ui(n) comme le jème vecteur de codage dans le tableau de codage, alors:
Figure img00050001
où 0 < i < 2M-1 et 0 < n < N-1. En d'autres termes, chaque vecteur de codage dans le tableau de codage est constitué comme une combinaison linéaire des M vecteurs de base. Les combinaisons linéaires sont définies par les paramètres 0.
Oim est définie par
Oim = +1 si le bit m du mot de codage i = 1; et
= = -1 si le bit m du mot de codage i = 0
Le vecteur de codage i est constitué par la somme des
M vecteurs de base où le signe (plus ou moins) de chaque vecteur de base est déterminé par l'état du bit correspondant dans le mot de codage i. Remarquons que si l'on prend le complément de tous les bits dans le mot de codage i, le vecteur de codage correspondant est l'inverse du vecteur de codage i. Par conséquent, pour chaque vecteur de codage, son inverse est, de même, un vecteur de codage dans le tableau de codage. Ces paires sont dites vecteurs de codage complémentaires car les mots de codage correspondants sont les compléments l'un de l'autre.
Après le choix du vecteur approprié, le pavé de gain 205 multiplie le vecteur choisi par le terme de gain 7. La sortie du pavé de gain 205 est appliquée à un ensemble de filtres linéaires 207, 209 pour obtenir N échantillon de la parole régénérée. Les filtres comprennent un filtre de long terme (ou de caractéristique globale ) ) 207 introduisant une périodicité de caractéristique globale dans l'excitation. La sortie du filtre de long terme (ou de caractéristique globale ) 207 est alors appliquée au filtre de court terme (ou de caractéristique phonétique ) 209. Le filtre de court terme (ou de caractéristique phonétique ) 209 ajoute l'enveloppe spectrale au signal.
Le filtre de long terme (ou de caractéristique globale ) 207 comprend un coefficient de prédicteur de long terme (LTP). Le filtre de long terme (ou de caractéristique globale ) 207 essaie de prédire l'échantillon suivant de sortie à partir d'un ou de plusieurs échantillons éloignés dans le temps. Si on n'utilise qu'un seul échantillon passé dans le prédicteur, le prédicteur est alors un prédicteur à une voie.
D'ordinaire, on utilise une à trois voies. La fonction de transfert pour un filtre de long terme (ou de caractéristique globale ) 207 incorporant un prédicteur de long terme à une voie est donnée par
1 B(Z)=- (1.1)
1-ssZ-L
B(Z) est caractérisée par deux quantité L et ss. L est appelée le décalage dans le temps . Pour la parole,
L sera, de façon usuelle, la période de caractéristique globale ou un multiple de celle-ci. L peut être aussi une valeur non entière. Si L n'est pas un entier, on utilise un filtre d'interpolation à réponse par impulsion finie (FIR) pour générer les échantillons retardés par fractions. ss est le coefficient de prédicteur de long terme (ou de caractéristique globale ).
Le filtre de court terme (ou de caractéristique phonétique ) 209 comprend des coefficients de prédicteur de court terme ai essayant de prédire l'échantillon suivant de sortie à partir des Np échantillons précédents de sortie.
Np est compris, de façon usuelle, entre 8 et 12. Dans le mode de mise en oeuvre préféré, Np est égal à 10. Le filtre de court terme (ou de caractéristique phonétique ) 209 est équivalent au filtre usuel de synthèse NPC. La fonction de transfert pour le filtre de court terme (ou de caractéristique phonétique ) 209 est donnée par
Figure img00070001
Le filtre de court terme (ou de caractéristique phonétique ) 209 est caractérisé par les paramètres ai qui sont les coefficients de filtre de forme directe pour le filtre de "synthèse" de tous les pôles. On peut trouver cidessous des détails concernant les paramètres ai.
Les divers paramètres (paramètres de codage, de gain, de filtre) ne sont pas tous transmis à la même cadence vers le synthétiseur (décodeur de la parole). Usuellement, les paramètres de court terme sont mis à jour moins souvent que le code. Nous définirons le taux de mise à jour du paramètre de court terme comme la "cadence de trame" et l'intervalle entre les mises à jour comme une "trame". Le taux de mise à jour du code est déterminé par la longueur du vecteur N. Nous définirons le taux de mise à jour du code comme la "cadence de sous-trame" et l'intervalle de mise à jour du code comme une "sous-trame". Une trame est composée d'ordinaire d'un nombre entier de sous-trames. Les paramètres de gain et de long terme peuvent être mis à jour soit à la cadence de sous-trame à la cadence de trame, soit à une certaine cadence selon la conception du codeur de la parole.
La procédure de recherche du tableau de codage consiste à essayer chaque vecteur de codage comme excitation possible pour le synthétiseur CELP. La parole synthétisée s'(n) est comparée en 211 avec la parole d'entrée s(n) et un signal de différence ei est généré. Ce signal de référence ei(n) est alors filtré par un filtre de pondération spectrale 213 W(z) (et probablement un second filtre de pondération C(z)) pour générer un signal d'erreur pondérée e'(n). L'amplitude de e'(n) est calculée dans le calculateur d'énergie 215. Le vecteur de codage générant l'amplitude minimale d'erreur pondérée est choisi comme le vecteur de codage pour cette sous-trame. Le filtre de pondération spectrale 213 sert à pondérer le spectre d'erreur sur la base de considérations de la perception. Ce filtre de pondération spectrale 213 est fonction du spectre de la parole et peut être exprimé en termes de paramètres a du filtre de court terme (ou de caractéristique phonétique ) 209
Figure img00080001
On peut utiliser deux approches du calcul du gain 7.
Le gain peut être déterminé avant la recherche du tableau de codage sur la base de l'énergie résiduelle. Ce gain peut être alors fixé pour la recherche du tableau de codage. Une autre approche consiste à optimiser le gain pour chaque vecteur de codage lors de la recherche du tableau de codage. Le vecteur de codage produisant l'erreur pondéré minimale sera choisi et son gain optimal correspondant constituera y. Cette dernière approche fournit en général de meilleurs résultats car le gain est optimiser pour chaque vecteur de codage. Cette approche implique de même que le terme de gain doit être mis à jour à la cadence de sous-trame. Le code et le gain optimum pour cette technique peuvent être calculés comme suit
1. Calcul de y(n), le signal d'entrée pondéré, pour la sous-trame;
2. Calcul de d(n), la réponse d'entrée nulle des filtres de B(z) et de W(z) (et de C(z) si c'est le cas) pour la sous-trame (la réponse d'entrée nulle est la réponse des filtres sans entrées, la décroissance des états du filtre);
3. p(n) = y(n) - d(n) sur la sous-trame (0 < n 5 N-l);
4. Pour chaque code i
a. Calcul de gi(n), la réponse d'état nulle de
B(z) et W(z) (et de C(z) si c'est le cas) au vecteur de codage i (la réponse d'état nulle est la sortie du filtre avec les états initiaux du filtre réglés à zéro);
b. Calcul de
Figure img00090001

qui est la corrélation croisée entre le vecteur de codage filtré i et p(n);
c. Calcul de
Figure img00100001

est la puissance dans le vecteur de codage filtré i.
{Ci}
5. Choix de i maximisant (1.7);
Gi
6. Mise à jour des états de filtre des filtres de
B(z) et de W(z) (et de C(z) si c'est le cas) à l'aide du vecteur de codage choisi et de son gain correspondant quantifié. Cela est effectué pour obtenir les mêmes états de filtre que celui du synthétiseur au départ de la soustrame suivante pour l'étape
Le gain optimal pour le vecteur de codage i est donné par Cj
y1 = (1.8) G1
et l'erreur pondérée totale pour le vecteur de codage i utilisant le gain optimal Yi est donnée par
Figure img00100002
Les paramètres de prédicateurs de court terme sont les ai du filtre de court terme (ou de caractéristique phonétique ) 209 de la Figure 2. Ce sont des coefficients standards LPC de filtres à forme directe et un quelconque nombre de techniques d'analyse LPC peuvent être utilisées pour déterminer ces coefficients. Dans le mode de mise en oeuvre préféré, on a mis en oeuvre un algorithme rapide de maillage à covariance à point fixé (FLAT). La FLAT présente tous les avantages des algorithmes de maillage comprenant une stabilité garantie du filtre, une analyse sans fenêtrage et la capacité de quantifier les coefficients de réflexion dans la récursion. De plus, la FLAT est robuste d'un point de vue numérique et peut être mis en oeuvre sur un processeur à point fixé de façon aisée.
Les paramètres de prédicteurs de court terme sont calculés à partir de la parole d'entrée. On n'utilise aucune pré-accentuation. La longueur d'analyse utilisée pour le calcul des paramètres est de 170 échantillons (NA = 170). L'ordre du prédicteur est 10 (Np = 10).
Cette section décrira les détails de l'algorithme
FLAT. Représentons les échantillons de la parole d'entrée se trouvant dans l'intervalle d'analyse par s(n) avec 0 < n < NA-l. Comme la FLAT est un algorithme de maillage, on peut considérer que la technique essaie de constituer un filtre de maillage inverse optimal (minimisant l'énergie résiduelle) étage par étage.
En définissant b;(n) comme le résidu arrière de l'étage j du filtre de maillage inverse et fj(n) comme le résidu avant de l'étage j du filtre de maillage inverse, on peut définir
Figure img00110001

qui est l'auto-corrélation de
Figure img00110002

qui est l'auto-corrélation de bj(n-l); et
Figure img00110003
qui est la corrélation croisée entre fj(n) et bj(nw
Supposons que rj représente le coefficient de réflexion pour l'étage j du maillage inverse. Alors :
Fj(i,k)=Fj-1(i,k)+rj{Cj-1(i,k)+Cj-1(k,i)}+rj2Bj-1(i,k) (2.4)
et
Bj(i,k)=Bj-1(i+1,k+1)+rj{Cj-1(i+1,k+1)+Cj-1(k+1,i+1)}+rj2Fj-1(i+1,k+1) (2.5)
et
Cj(i,k)=Cj-1(i,k+1)+rj{Bj-1(i,k+1)-Fj-1(i,k+1)}+rj2Cj-1(k+1,i) (2.6)
La formule choisi pour la détermination de rj peut être exprimée par :
Cj-1(0,0)-Cj-1(Np-j,Np-j) rj=-2 (2.7)
Fj-1(0,0)+Bj-l(0,0)+Fj-1(Np-j, Np-j)+Bj-1(Np-j,Np-j)
L'algorithme FLAT peut être, à présent, établi comme suit
1. Calculons tout d'abord la matrice de covariance (auto-corrélation) pour la parole d'entrée
Figure img00120001

avec 0 < i,k < Np (2.8) 2. Fo(i,k)=f(i,k) avec 0 < i,k < Np-1 (2.9)
B0(i,k)=f(i+1, k+1) avec 0 < i,k < Np-1 (2.10)
Co(i,k)=f(i,k+l) avec 0 < i,k < Np-1 (2.11) 3. Soit j = 1; 4. Calculons rj à l'aide de (2.7); 5. Si j = Np, alors fin;
6. Calculons alors Fj(i,k) avec O < i,k < Np-j-l à l'aide de (2.4)
Calculons Bj(i,k) avec 0 < i,k < Np-j-l à l'aide de (2.5)
Calculons Cj(i,k) avec 0 < i,k < Np-j-l à l'aide de (2.6);
7. j = j+ 1; aller en 4.
Avant la résolution des coefficients de réflexion, la matrice # est modifiée par fenêtrage des fonctions d'autocorrélation
#'(i,k)=#(i,k)w(|i-k|) (2.12)
Le fenêtrage de la fonction d'auto-corrélation avant le calcul du coefficient de réflexion est connu comme le lissage spectral (SST).
A partir des coefficients de réflexion rj, les coefficients de prédicteur LPC de court terme ai peuvent être calculés.
Un quantificateur vectoriel à trois segments de 28 bits des coefficients de réflexion est utilisé. Les segments du quantificateur vectoriel englobent respectivement les coefficients de réflexion rl à r3, r4 à r6 et r7 à r10. Les allocations binaires pour les segments du quantificateur vectoriel sont
Q1 11 bits
Q2 9 bits et
Q3 8 bits.
Pour éviter la complexité du calcul d'une recherche exhaustive de quantificateur vectoriel, un préquantificateur vectoriel de coefficients de réflexion est utilisé à chaque segment. La taille du pré-quantificateur à chaque segment est la suivante
P1 6 bits
P2 5 bits et
P3 4 bits.
Pour un segment donné, l'erreur résiduelle due à chaque vecteur à partir du pré-quantificateur est calculée et stockée dans une mémoire temporaire. Cette liste est balayée pour identifier les quatre vecteurs de préquantificateur présentant la plus faible distorsion.
L'index de chaque vecteur de pré-quantificateur choisi est utilisé pour calculer un décalage dans le tableau de quantificateur vectoriel où le sous-ensemble contigu des vecteurs de quantificateur associé à ce vecteur de préquantificateur commence. La taille de chaque sous-ensemble de quantificateur vectoriel au segment k kieme est donnée par: 2Qk
Sk= (2.13)
2Pk
Les quatre sous-ensembles de vecteurs de quantificateur, associés aux vecteurs de pré-quantificateur choisis, sont recherchés pour le vecteurs de préquantificateur présentant la plus faible erreur résiduelle.
Alors, au premier segment, 64 vecteurs de préquantificateur et 128 vecteurs de quantificateur sont évalués, 32 vecteurs de pré-quantificateur et 64 vecteurs de quantificateur sont évalués au second segment et 16 vecteurs de pré-quantificateur et 64 vecteurs de quantificateur sont évalués au troisième segment. Les coefficients optimum de réflexion, calculés à l'aide de la technique FLAT avec extension de largeur de bande, comme précédemment décrit, sont convertis en un vecteur d'autocorrélation avant la quantification vectorielle.
Une version d'auto-corrélation de l'algorithme FLAT soit AFLAT, est utilisée pour calculer l'amplitude d'erreur résiduelle pour un vecteur de coefficient de réflexion évalué. Comme la FLAT, cet algorithme peut partiellement compenser l'erreur de quantification du coefficient de réflexion à partir des étages précédents de maillage lors du calcul des coefficients optimum de réflexion ou du choix d'un vecteur de coefficient de réflexion à partir d'un quantificateur vectoriel sur le segment courant. Cette amélioration peut être significative pour les trames présentant une forte distorsion de quantification de coefficient de réflexion. L'algorithme AFLAT, dans le contexte d'une quantification vectorielle à plusieurs segments associée à des pré-quantificateurs, est à présent décrit.
Calculons la séquence d'auto-corrélation R(i) à partir des coefficients optimum de réflexion sur l'intervalle O S i S Np. En option, la séquence d'autocorrélation peut être calculée à partir d'autres représentations de paramètres LPC comme les coefficients de prédicteur LPC de forme directe ai ou directement à partir de la parole d'entrée.
Définissons les conditions initiales pour la récursion AFLAT par
P0(i)=R(i) avec O S i S Np-l (2.14)
So(i)=R(|i+$) avec 1-Np S i < Np-l (2.15)
Initialisons k, l'index de segment de quantificateur vectoriel par
k=l (2.16)
Soit I1 (k) l'index du premier étage de maillage dans le cas ième segment et Ih (k) l'index du dernier étage de ême maillage dans le cas i segment. La récursion pour évaluer l'erreur résiduelle en sortie de l'étage de maillage Ih(k) au kième segment, étant donné r vecteur de coefficient de réflexion à partir du pré-quantificateur ou le vecteur de coefficient de réflexion à partir du quantificateur, est décrite ci-dessous.
Initialisons j, l'indice de l'étage de maillage au point de départ du kième segment :
j = I1 (k) (2.17)
Etablissons les conditions initiales Pj-1 et Vj1 à
Pj-1(i)=Pj-1(i) avec 0 # i # In(k) - I1(k) + 1(2.18)
Pj-1(i)=Vj-1(i) avec
-Ih(k) + 11 (k) -1 # i # Ih(k) - 11 (k) + 1 (2.19)
Calculons les valeurs des matrices de Vj et Pj à l'aide de
Pj (i) = (1 + #j2)Pj-1(i) + rj [Vj-1(i) + V, l(-i)]
avec 0 # i # Ih(k) -j (2.20) Vj(i)=Vj-1(i+1)+#j2Vj-1(-i-1)+2#Pj-1(|i+1|)
avec j - Ih(k) 5 i # Ih(k) -j (2.21)
Incrémentons j
j = j + 1 (2.22)
Si j # Ih(k), aller en (2.20).
L'erreur résiduelle en sortie de l'étage de maille
Ih(k), étant donné le vecteur de coefficient de réflexion #, est donnée par
E r =Itck)(0) (2.23)
A l'aide de la récursion AFLAT relevée, l'erreur résiduelle due à chaque vecteur à partir du préquantificateur au kième segment est évaluée, les quatre sous-ensembles des vecteurs de quantificateur à rechercher sont identifiés et l'erreur résiduelle due à chaque vecteurs de quantificateur à partir des quatre sousensembles choisis est calculée. L'index de r, le vecteurs de quantificateur ayant minimiser Er sur tous les vecteurs de quantificateur dans les quatre ensembles, est codé par
Qk bits.
Si k < 3, alors les conditions initiales pour effectuer la récursion au segment k + 1 doivent être calculées . Soit j, l'index d'étage de maillage, égal à
j = Il(k) (2.24)
Calculons Pj(i)=(i+#j2)Pj-1(i)+#j[Vj-1(i)+Vj-1(-i)]
avec O < i < Np - j - 1 (2.25) Vj(i)=Vj-1(i+1)+#j2Vj-1(-i-1)+2#jPj-1(|i+
avec j - Np + 1 # i # Np - j - 1 (2.26)
Incrémentons j
j = j + 1 (2.27)
Si j < Ih(k), aller à (2.25).
Incrémentons k, l'index de segment de quantificateur vectoriel
k = k + 1 (2.28)
Si k 5 3, aller en (2.17). Autrement, les indices des vecteurs de coefficient de réflexion pour les trois segments sont choisis et la recherche du quantificateur vectoriel de coefficient de réflexion est terminée.
Afin de minimiser les conditions de stockage pour le quantificateur vectoriel de coefficient de réflexion, des codes de huit bits pour les coefficients individuels de réflexion sont stockés dans le tableau de quantificateur vectoriel au lieu des valeurs réelles de coefficient de réflexion. Les codes sont utilisés pour consulter les valeurs des coefficients de réflexion à partir d'un tableau de quantification scalaire à 256 entrées. Les codes de huit bits représentent les valeurs de coefficient de réflexion obtenues par un échantillonnage uniforme d'une fonction arcsinus illustrée sur la Figure 3. Les valeurs de coefficient de réflexion s'étendent de -1 à +1.
L'espacement non linéaire dans le domaine de coefficient de réflexion (axe X) fournit plus de précision pour les coefficients de réflexion lorsque les valeurs sont proches des extrêmes +/-1 et moins de précision lorsque les valeurs sont proches de O. Cela réduit la distorsion spectrale due à la quantification scalaire des coefficients de réflexion, selon 256 niveaux de quantification, par rapport à un échantillonnage uniforme dans le domaine des coefficients de réflexion.

Claims (1)

    REVENDICATIONS
  1. 4. Système de communication radio, caractérisé par
    - un premier émetteur/récepteur (101) comprenant
    - un moyen pour la réception des données formant un vecteur de données;
    - un moyen pour constituer un premier ensemble de vecteurs prédéterminés;
    - un moyen pour choisir un premier vecteur prédéterminé à partir du premier ensemble, formant un premier vecteur choisi représentant un premier segment du vecteur de données de la parole;
    - un moyen pour constituer un second ensemble de vecteurs prédéterminés;
    - un moyen pour choisir un second vecteur prédéterminé à partir du second ensemble, formant un second vecteur choisi représentant un second segment du vecteur de données de la parole; et
    - un moyen pour transmettre les premier et second vecteurs choisis à un second émetteur/récepteur; et
    - un second émetteur/récepteur (113) comprenant :
    - un moyen pour la réception des premier et second vecteurs choisis; et
    - un moyen sensible audit moyen de réception pour reconstituer le vecteur de données.
FR9410203A 1993-03-26 1994-08-23 Système de communication radio. Expired - Lifetime FR2709387B1 (fr)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR9410203A FR2709387B1 (fr) 1993-03-26 1994-08-23 Système de communication radio.

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US3779393A 1993-03-26 1993-03-26
FR9403414A FR2706064B1 (fr) 1993-03-26 1994-03-23 Procédé et dispositif de quantitication vectorielle.
FR9410203A FR2709387B1 (fr) 1993-03-26 1994-08-23 Système de communication radio.

Publications (2)

Publication Number Publication Date
FR2709387A1 true FR2709387A1 (fr) 1995-03-03
FR2709387B1 FR2709387B1 (fr) 1997-10-31

Family

ID=27252891

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9410203A Expired - Lifetime FR2709387B1 (fr) 1993-03-26 1994-08-23 Système de communication radio.

Country Status (1)

Country Link
FR (1) FR2709387B1 (fr)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAN ET AL.: "Split-dimension piece-wise vector quantisation of PARCOR coefficients", SIGNAL PROCESSING VI, PROCEEDINGS OF EUSIPCO 92, vol. 1, 24 August 1992 (1992-08-24) - 27 August 1992 (1992-08-27), BRUXELLES, BE, pages 455 - 458, XP000348699 *
PALIWAL ET AL.: "Efficient vector quantization of LPC parameters at 24 bits/frame", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 1, no. 1, 1 January 1993 (1993-01-01), NEW YORK, NY, US, pages 3 - 14, XP000358435 *

Also Published As

Publication number Publication date
FR2709387B1 (fr) 1997-10-31

Similar Documents

Publication Publication Date Title
FR2706064A1 (fr) Procédé et dispositif de quantitication vectorielle.
EP0782128B1 (fr) Procédé d&#39;analyse par prédiction linéaire d&#39;un signal audiofréquence, et procédés de codage et de décodage d&#39;un signal audiofréquence en comportant application
EP0608174B1 (fr) Systeme de codage-décodage prédictif d&#39;un signal numérique de parole par transformée adaptative à codes imbriqués
EP0749626B1 (fr) Procede de codage de parole a prediction lineaire et excitation par codes algebriques
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
EP0443548B1 (fr) Codeur de parole
EP0898267B1 (fr) Système de codage de la parole
FR2731548A1 (fr) Recherche profondeur d&#39;abord dans un repertoire algebrique pour un encodage rapide de la paroie
EP0542585B1 (fr) Procédé de quantification d&#39;un filtre prédicteur pour vocodeur à très faible débit
JPH04363000A (ja) 音声パラメータ符号化方式および装置
FR2867649A1 (fr) Procede de codage multiple optimise
EP0865029B1 (fr) Interpolation de formes d&#39;onde par décomposition en bruit et en signaux périodiques
EP0428445B1 (fr) Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit
JP3357795B2 (ja) 音声符号化方法および装置
JP3089769B2 (ja) 音声符号化装置
FR2702075A1 (fr) Procédé de génération d&#39;un filtre de pondération spectrale du bruit dans un codeur de la parole.
JPH0771045B2 (ja) 音声符号化方法、音声復号方法、およびこれらを使用した通信方法
FR2709366A1 (fr) Procédé de stockage de vecteurs de coefficient de réflexion.
FR2709387A1 (fr) Système de communication radio.
EP2171713B1 (fr) Codage de signaux audionumériques
JPH10143198A (ja) 音声符号化装置/復号化装置
GB2199215A (en) A stochastic coder
EP0469997B1 (fr) Procédé de codage et codeur de parole à analyse par prédiction linéaire
JP3290704B2 (ja) ベクトル量子化方式
EP0796490B1 (fr) Methode et dispositif de prediction de signal pour un codeur de parole

Legal Events

Date Code Title Description
TP Transmission of property