EP1383113A1 - Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme - Google Patents
Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme Download PDFInfo
- Publication number
- EP1383113A1 EP1383113A1 EP02015919A EP02015919A EP1383113A1 EP 1383113 A1 EP1383113 A1 EP 1383113A1 EP 02015919 A EP02015919 A EP 02015919A EP 02015919 A EP02015919 A EP 02015919A EP 1383113 A1 EP1383113 A1 EP 1383113A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- weighting filter
- term
- filter
- speech
- formantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000007774 longterm Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims description 3
- 230000005284 excitation Effects 0.000 claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000012546 transfer Methods 0.000 claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 10
- 101100281590 Arabidopsis thaliana FPP2 gene Proteins 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 13
- ZJPGOXWRFNKIQL-JYJNAYRXSA-N Phe-Pro-Pro Chemical compound C([C@H](N)C(=O)N1[C@@H](CCC1)C(=O)N1[C@@H](CCC1)C(O)=O)C1=CC=CC=C1 ZJPGOXWRFNKIQL-JYJNAYRXSA-N 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 101100281589 Arabidopsis thaliana FPP1 gene Proteins 0.000 description 3
- 101100279972 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) ERG20 gene Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 241000897276 Termes Species 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 1
- 229920005994 diacetyl cellulose Polymers 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Definitions
- the invention relates to speech encoding / decoding extended band, in particular but not limited to telephony mobile.
- the bandwidth of the speech signal is between 50 and 7000 Hz.
- Successive speech sequences sampled at one predetermined sampling frequency are processed in a coding device using a prediction linear excitation by coded sequences (ACELP: “algebraic-code-excited linear-prediction ”), well known to those skilled in the art, and described in particular in recommendation ITU-TG 729, version 3/96, titled “speech coding at 8 kbit / s by prediction linear with excitation by coded sequences with algebraic structure conjugate ”.
- ACELP “algebraic-code-excited linear-prediction ”
- the prediction coder CD of the ACELP type, is based on the linear predictive coding model with code excitation.
- the coder operates on vocal superframes equivalent for example to 20 ms of signal and each comprising 320 samples.
- the extraction of the linear prediction parameters, ie the coefficients of the linear prediction filter also called short-term synthesis filter 1 / A (z), is carried out for each speech superframe.
- each superframe is subdivided into 5 ms frames comprising 80 samples.
- the speech signal is analyzed to extract the parameters of the CELP prediction model (that is to say, in particular, a long-term digital excitation word v i extracted from an adaptive coded DLT directory, also called “adaptive long term dictionary", an associated long term gain Ga, a short term excitation word c j , extracted from a DCT algebraic coded repertoire, also called “fixed coded repertoire” or “short term dictionary algebraic ", and an associated short-term gain Gc).
- a long-term digital excitation word v i extracted from an adaptive coded DLT directory, also called “adaptive long term dictionary", an associated long term gain Ga
- a short term excitation word c j extracted from a DCT algebraic coded repertoire, also called “fixed coded repertoire” or “short term dictionary algebraic ", and an associated short-term gain Gc).
- these parameters are used, in a decoder, to retrieve the excitation and predictive filter parameters. We then reconstitutes speech by filtering this excitation flow in a short-term synthesis filter.
- the short-term dictionary DCT is founded on an algebraic structure using a permutation model intertwined with Dirac pulses.
- this coded directory which contains innovative excitations, also called excitations algebraic or short-term, each vector contains a certain number of non-zero pulses, for example four, each of which can have amplitude +1 or -1 with predetermined positions.
- the CD encoder processing means include functionally of the first MEXT1 extraction means intended to extract the word long-term excitement, and second MEXT2 extraction means intended to extract the word short-term excitement. Functionally, these means are made for example in software within a processor.
- These extraction means include a predictive filter FP having a transfer function equal to 1 / A (z), as well as a filter FPP perceptual weighting with a transfer function W (z).
- the perceptual weighting filter is applied to the signal to model the perception of the ear.
- the extraction means include means MECM intended to perform a minimization of a square error average.
- the linear prediction FP synthesis filter models the spectral envelope of the signal. Linear predictive analysis is performed all superframes, so as to determine the linear predictive filter coefficients. These are converted to spectral line pairs (LSP: “Line Spectrum Pairs”) and digitized by predictive vector quantization in two stages.
- LSP Line Spectrum Pairs
- Each 20 ms speech superframe is divided into four frames of 5 ms each containing 80 samples.
- the settings Quantized LSPs are transmitted to the decoder once per superframe while long term and short term parameters are passed at each frame.
- the coefficients of the linear prediction filter, quantified and not quantified, are used for the most recent frame of a super-frame, while the other three frames of the same super-frame use an interpolation of these coefficients.
- Tonal delay open loop is estimated every two frames based on the perceptually weighted voice signal. Then, the following operations are repeated at each frame:
- the long-term target signal X LT is calculated by filtering the sampled speech signal s (n) by the perceptual weighting filter FPP.
- the impulse response of the weighted synthesis filter is calculated.
- a closed loop tonal analysis using a minimization of the mean square error is then carried out in order to determine the long-term excitation word v i and the associated gain Ga, by means of the target signal and the impulse response, by searches around the value of the tone delay in open loop.
- the long-term target signal is then updated by subtracting the filtered contribution y from the adaptive coded directory DLT and this new short-term target signal X ST is used when exploring the fixed coded directory DCT in order to determine the password.
- short term excitation c j and the associated gain G c is used when exploring the fixed coded directory DCT in order to determine the password.
- the object of the invention is to independently control the short-term and long-term distortions.
- the invention therefore provides a speech encoding method with wide band, in which the speech is sampled so as to obtain successive voice frames each comprising a predetermined number of samples, and for each voice frame, we determines parameters of a linear prediction model at excitation by code, these parameters comprising a numeric word of long-term excitement extracted from an adaptive coded repertoire, as well that a word of short-term excitement extracted from a coded repertoire associated algebraic.
- long term excitation word extraction using a prime perceptual weighting filter comprising a first filter formantic weighting
- the denominator of the transfer function of the first formantic weighting filter is equal to the numerator of the second formantic weighting filter.
- the use of two filters weighting different formant allows to control regardless of short-term and long-term distortions.
- the short-term weighting filter is cascaded to the filter of long-term weighting.
- tying the denominator of the long-term weighting filter in the numerator of the short-term weighting allows these two to be controlled separately filters and also allows a clear simplification when these two filters are cascaded.
- the first extraction means include a first filter perceptual weighting including a first weighting filter formantic, by the fact that the second means of extraction include the first perceptual weighting filter and a second perceptual weighting filter including a second formantic weighting filter, and the denominator of the function of transfer of the first formantic weighting filter is equal to numerator of the second formantic weighting filter.
- the invention also relates to a terminal of a system wireless communication, such as a mobile phone cell, incorporating a device as defined above.
- the FPP perceptual weighting filter uses the masking properties of the human ear compared to the spectral envelope of the speech signal, whose shape is a function resonances of the vocal tract. This filter allows you to assign more importance of the error appearing in the spectral valleys by compared to formic peaks.
- W (z) AT ( z / ⁇ 1 ) AT ( z / ⁇ 2 ) in which 1 / A (z) is the transfer function of the predictive filter FP and ⁇ 1 and ⁇ 2 are the perceptual weighting coefficients, the two coefficients being positive or zero and less than or equal to 1 with the coefficient ⁇ 2 less than or equal to the coefficient ⁇ 1.
- the perceptual weighting filter consists of a formantic weighting filter and a weighting of the slope of the spectral envelope of the signal (tilt).
- FIG. 2 Such an embodiment according to the invention is illustrated in the Figure 2, in which, compared to Figure 1, the FPP single filter has been replaced by a first formantic weighting filter FPP1 for long-term research, cascaded with a second FPP2 formantic weighting filter for short search term.
- FPP1 formantic weighting filter
- FPP2 formantic weighting filter
- the filters appearing in the long-term research loop should also appear in the short-term research loop.
- the transfer function W 1 (z) of the formantic weighting filter FPP1 is given by formula (II) below.
- W 1 ( z ) AT ( z / ⁇ 11 ) AT ( z / ⁇ 12 ) while the transfer function W 2 (z) of the formantic weighting filter FPP2 is given by formula (III) below.
- W 2 ( z ) AT ( z / ⁇ 21 ) AT ( z / ⁇ 22 )
- the coefficient ⁇ 12 is equal to the coefficient ⁇ 21 . This allows a clear simplification when cascading these two filters.
- the filter equivalent to the cascade of these two filters has a transfer function given by formula (IV) below.
- the synthesis filter FP (having the transfer function 1 / A (z)) followed by the long-term weighting filter FPP1 and the weighting filter FPP2 is then equivalent to the filter whose transfer function is given by formula (V) below. 1 AT ( z / ⁇ 22 )
- the invention advantageously applies to telephony mobile, and in particular to all remote terminals belonging to a wireless communication system.
- Such a terminal for example a TP mobile telephone, such as that illustrated in FIG. 3, conventionally comprises a antenna connected via a DUP duplexer to a chain reception CHR and a CHT transmission chain.
- a baseband processor BB is connected to the chain respectively of reception CHR and to the chain of transmission CHT by via analog digital ADCs and analog digital DACs.
- the processor BB performs processing in baseband, including DCN channel decoding, followed by DCS source decoding.
- the processor For transmission, the processor performs source coding CCS followed by CCN channel coding.
- the mobile phone incorporates an encoder according to the invention, it is incorporated within the coding means of CCS source, while the decoder is incorporated within the means DCS source decoding.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
On échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme extrait d'un répertoire codé adaptatif, ainsi qu'un mot d'excitation à court terme extrait d'un répertoire codé algébrique. L'extraction du mot d'excitation à long terme s'effectue en utilisant un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique (FPP1). On effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique (FPP2). Le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique. <IMAGE>
Description
L'invention concerne l'encodage/décodage de la parole à
bande élargie, notamment mais non limitativement pour la téléphonie
mobile.
En bande élargie, la bande passante du signal de parole est
comprise entre 50 et 7000 Hz.
Des séquences de parole successives échantillonnées à une
fréquence d'échantillonnage prédéterminée, par exemple 16 kHz,
sont traitées dans un dispositif de codage utilisant une prédiction
linéaire à excitation par séquences codées (ACELP : « algebraic-code-excited
linear-prediction »), bien connu de l'homme du métier,
et décrit notamment dans la recommandation ITU-TG 729, version
3/96, intitulée « codage de la parole à 8 kbits/s par prédiction
linéaire avec excitation par séquences codées à structure algébrique
conjuguée ».
On va maintenant rappeler brièvement, en se référant à la
figure 1, les principales caractéristiques et fonctionnalités d'un tel
codeur, l'homme du métier pouvant se référer à toutes fins utiles,
pour plus de détails, à la recommandation G 729 précitée.
Le codeur de prédiction CD, du type ACELP, est fondé sur le
modèle de codage prédictif linéaire à excitation par code. Le codeur
opère sur des super-trames vocales équivalentes par exemple à 20 ms
de signal et comportant chacune 320 échantillons. L'extraction des
paramètres de prédiction linéaire, c'est-à-dire les coefficients du
filtre de prédiction linéaire également appelé filtre de synthèse à
court terme 1/A(z), est effectuée pour chaque super-trame de parole.
Par contre, chaque super-trame est subdivisée en trames de 5 ms
comprenant 80 échantillons. Toutes les trames, le signal vocal est
analysé pour en extraire les paramètres du modèle de prédiction
CELP (c'est-à-dire notamment, un mot numérique d'excitation à long
terme vi extrait d'un répertoire codé adaptatif DLT, également
dénommé « dictionnaire à long terme adaptatif », un gain à long
terme associé Ga, un mot d'excitation à court terme cj, extrait d'un
répertoire codé algébrique DCT, également dénommé « répertoire
codé fixe » ou « dictionnaire à court terme algébrique », et un gain à
court terme associé Gc).
Ces paramètres sont ensuite codés et transmis.
A la réception, ces paramètres servent, dans un décodeur, à
récupérer les paramètres d'excitation et du filtre prédictif. On
reconstitue alors la parole en filtrant ce flux d'excitation dans un
filtre de synthèse à court terme.
Alors que le dictionnaire adaptatif DLT contient des mots
numériques représentatifs de délais tonaux représentatifs
d'excitations passées, le dictionnaire à court terme DCT est fondé
sur une structure algébrique utilisant un modèle de permutation
entrelacée d'impulsions de Dirac. Dans ce répertoire codé, qui
contient des excitations innovatrices, également appelées excitations
algébriques ou à court terme, chaque vecteur contient un certain
nombre d'impulsions non nulles, par exemple quatre, dont chacune
peut avoir l'amplitude +1 ou -1 avec des positions prédéterminées.
Les moyens de traitement du codeur CD comportent
fonctionnellement des premiers moyens d'extraction MEXT1
destinés à extraire le mot d'excitation à long terme, et des
deuxièmes moyens d'extraction MEXT2 destinés à extraire le mot
d'excitation à court terme. Fonctionnellement, ces moyens sont
réalisés par exemple de façon logicielle au sein d'un processeur.
Ces moyens d'extraction comportent un filtre prédictif FP
ayant une fonction de transfert égale à 1/A(z), ainsi qu'un filtre de
pondération perceptuel FPP ayant une fonction de transfert W(z). Le
filtre de pondération perceptuelle est appliqué au signal pour
modéliser la perception de l'oreille.
Par ailleurs, les moyens d'extraction comportent des moyens
MECM destinés à effectuer une minimisation d'une erreur carrée
moyenne.
Le filtre de synthèse FP de la prédiction linéaire modélise
l'enveloppe spectrale du signal. L'analyse prédictive linéaire est
effectuée toutes les super-trames, de façon à déterminer les
coefficients de filtrage prédictif linéaire. Ceux-ci sont convertis en
paires de lignes spectrales (LSP : « Line Spectrum Pairs ») et
numérisés par quantification vectorielle prédictive en deux étapes.
Chaque super-trame de parole de 20 ms est divisée en quatre
trames de 5 ms chacune contenant 80 échantillons. Les paramètres
LSP quantifiés sont transmis au décodeur une fois par super-trame
alors que les paramètres à long terme et à court terme sont transmis
à chaque trame.
Les coefficients du filtre de prédiction linéaire, quantifiés et
non quantifiés, sont utilisés pour la trame la plus récente d'une
super-trame, tandis que les trois autres trames de la même super-trame
utilisent une interpolation de ces coefficients. Le délai tonal
en boucle ouverte est estimé toutes les deux trames sur la base du
signal vocal pondéré perceptuellement. Puis, les opérations suivantes
sont répétées à chaque trame :
Le signal cible à long terme XLT est calculé en filtrant le
signal de parole échantillonné s(n) par le filtre de pondération
perceptuelle FPP.
On soustrait ensuite du signal vocal pondéré la réponse à
entrée nulle du filtre de synthèse pondéré FP, FPP, de façon à
obtenir un nouveau signal cible long terme.
La réponse impulsionnelle du filtre de synthèse pondéré est
calculé.
Une analyse tonale en boucle fermée utilisant une
minimisation de l'erreur carrée moyenne, est ensuite effectuée afin
de déterminer le mot d'excitation à long terme vi et le gain associé
Ga, au moyen du signal cible et de la réponse impulsionnelle, par
recherche autour de la valeur du délai tonal en boucle ouverte.
Le signal cible long terme est ensuite mis à jour par
soustraction de la contribution filtrée y du répertoire codé adaptatif
DLT et ce nouveau signal cible court terme XST est utilisé lors de
l'exploration du répertoire codé fixe DCT afin de déterminer le mot
d'excitation court terme cj et le gain Gc associé. Là encore, cette
recherche en boucle fermée s'effectue par une minimisation de
l'erreur carrée moyenne.
Finalement, le dictionnaire à long terme adaptatif DLT ainsi
que les mémoires des filtres FP et FPP, sont mis à jour au moyen des
mots d'excitation long terme et court terme ainsi déterminés.
La qualité d'un algorithme CELP dépend fortement de la
richesse du dictionnaire d'excitation algébrique DCT. Si l'efficacité
d'un tel algorithme est incontestable pour les signaux à bande
passante étroite (300-3400 Hz), des problèmes surviennent pour des
signaux à bande élargie.
L'invention a pour but de contrôler indépendamment les
distorsions à court terme et à long terme.
L'invention propose donc un procédé d'encodage de la parole
à bande élargie, dans lequel on échantillonne la parole de façon à
obtenir des trames vocales successives comportant chacune un
nombre prédéterminé d'échantillons, et à chaque trame vocale, on
détermine des paramètres d'un modèle de prédiction linéaire à
excitation par code, ces paramètres comportant un mot numérique
d'excitation à long terme extrait d'un répertoire codé adaptatif, ainsi
qu'un mot d'excitation à court terme extrait d'un répertoire codé
algébrique associé.
Selon une caractéristique générale de l'invention, on effectue
l'extraction du mot d'excitation à long terme en utilisant un premier
filtre de pondération perceptuelle comportant un premier filtre de
pondération formantique, on effectue l'extraction du mot
d'excitation à court terme en utilisant le premier filtre de
pondération perceptuelle cascadé à un deuxième filtre de
pondération perceptuelle comportant un deuxième filtre de
pondération formantique. Le dénominateur de la fonction de transfert
du premier filtre de pondération formantique est égal au numérateur
du deuxième filtre de pondération formantique.
Ainsi, selon l'invention, l'utilisation de deux filtres de
pondération formantique différents permet de contrôler
indépendamment les distorsions à court terme et à long terme. Le
filtre de pondération à court terme est cascadé au filtre de
pondération à long terme. En outre, le fait de lier le dénominateur du
filtre de pondération à long terme au numérateur du filtre de
pondération à court terme permet de contrôler séparément ces deux
filtres et permet en outre une nette simplification lorsque ces deux
filtres sont cascadés.
L'invention a également pour objet un dispositif d'encodage
de la parole à bande élargie, comportant
- des moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons,
- des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif, et des deuxièmes moyens d'extraction aptes à extraire un mot d'excitation à court terme d'un répertoire codé algébrique.
Selon une caractéristique générale de l'invention, les
premiers moyens d'extraction comprennent un premier filtre de
pondération perceptuelle comportant un premier filtre de pondération
formantique, par le fait que les deuxièmes moyens d'extraction
comprennent le premier filtre de pondération perceptuelle et un
deuxième filtre de pondération perceptuelle comportant un deuxième
filtre de pondération formantique, et le dénominateur de la fonction
de transfert du premier filtre de pondération formantique est égal au
numérateur du deuxième filtre de pondération formantique.
L'invention a également pour objet un terminal d'un système
de communication sans fil, par exemple un téléphone mobile
cellulaire, incorporant un dispositif tel que défini ci-avant.
D'autres avantages et caractéristiques de l'invention
apparaítront à l'examen de la description détaillée de modes de
réalisation et de mise en oeuvre, nullement limitatifs, et des dessins
annexés, sur lesquels :
- la figure 1, déjà décrite, illustre schématiquement un dispositif d'encodage de la parole, selon l'art antérieur ;
- la figure 2 illustre schématiquement un mode de réalisation d'un dispositif d'encodage, selon l'invention ; et
- la figure 3 illustre schématiquement l'architecture interne d'un téléphone mobile cellulaire incorporant un dispositif de codage, selon l'invention.
Le filtre de pondération perceptuelle FPP exploite les
propriétés de masquage de l'oreille humaine par rapport à
l'enveloppe spectrale du signal de parole, dont la forme est fonction
des résonances du conduit vocal. Ce filtre permet d'attribuer plus
d'importance à l'erreur apparaissant dans les vallées spectrales par
rapport aux pics formantiques.
Dans l'art antérieur illustré sur la figure 1, le même filtre de
pondération perceptuelle FPP est utilisé pour la recherche à court
terme et pour celle à long terme. La fonction de transfert W(z) de ce
filtre FPP est donnée par la formule (I) ci-dessous.
W(z) = A (z /γ 1 ) A (z /γ2 )
dans laquelle 1/A(z) est la fonction de transfert du filtre prédictif FP
et γ1 et γ2 sont les coefficients de pondération perceptuelle, les deux
coefficients étant positifs ou nuls et inférieurs ou égaux à 1 avec le
coefficient γ2 inférieur ou égal au coefficient γ1.
D'une façon générale, le filtre de pondération perceptuelle
est constitué d'un filtre de pondération formantique et d'un filtre de
pondération de la pente de l'enveloppe spectrale du signal (tilt).
Dans le cas présent, on supposera que le filtre de pondération
perceptuelle est uniquement formé du filtre de pondération
formantique dont la fonction de transfert est donnée par la formule
(I) ci-dessus.
Or, la nature spectrale de la contribution à long terme est
différente de celle de la contribution à court terme. Par conséquent,
il est avantageux d'utiliser deux filtres de pondération formantique
différents, permettant de contrôler indépendamment les distorsions à
court terme et à long terme.
Un tel mode de réalisation selon l'invention est illustré sur la
figure 2, dans laquelle, par rapport à la figure 1, le filtre unique FPP
a été remplacé par un premier filtre de pondération formantique
FPP1 pour la recherche à long terme, cascadé avec un deuxième
filtre de pondération formantique FPP2 pour la recherche à court
terme.
Puisque le filtre de pondération à court terme FPP2 est
cascadé au filtre de pondération à long terme, les filtres apparaissant
dans la boucle de recherche long terme doivent aussi apparaítre dans
la boucle de recherche court terme.
La fonction de transfert W1(z) du filtre de pondération
formantique FPP1 est donnée par la formule (II) ci-dessous.
W 1 (z ) = A (z /γ11 ) A (z /γ12 )
tandis que la fonction de transfert W2(z) du filtre de pondération
formantique FPP2 est donnée par la formule (III) ci-dessous.
W 2 (z ) = A (z /γ21 ) A (z /γ22 )
Par ailleurs, le coefficient γ12 est égal au coefficient γ21. Ceci
permet une nette simplification lorsqu'on cascade ces deux filtres.
Ainsi, le filtre équivalent à la cascade de ces deux filtres a une
fonction de transfert donnée par la formule (IV) ci-dessous.
A (z /γ11 ) A (z /γ12 )
Par ailleurs, si l'on utilise la valeur 1 pour le coefficient γ11,
alors le filtre de synthèse FP (ayant la fonction de transfert 1/A(z))
suivi du filtre de pondération à long terme FPP1 et du filtre de
pondération FPP2 équivaut alors au filtre dont la fonction de
transfert est donnée par la formule (V) ci-dessous.
1 A (z /γ22 )
Ce qui réduit encore considérablement la complexité de
l'algorithme d'extraction des excitations.
A titre indicatif, on peut par exemple utiliser pour les
coefficients γ11, γ21 = γ12 et γ22, les valeurs respectives 1 ; 0,1 et 0,9.
L'invention s'applique avantageusement à la téléphonie
mobile, et en particulier à tous terminaux distants appartenant à un
système de communication sans fil.
Un tel terminal, par exemple un téléphone mobile TP, tel que
celui illustré sur la figure 3, comporte de façon classique une
antenne reliée par l'intermédiaire d'un duplexeur DUP à une chaíne
de réception CHR et à une chaíne de transmission CHT. Un
processeur en bande de base BB est relié respectivement à la chaíne
de réception CHR et à la chaíne de transmission CHT par
l'intermédiaire de convertisseurs analogiques numériques CAN et
numériques analogiques CNA.
Classiquement, le processeur BB effectue des traitements en
bande de base, et notamment un décodage de canal DCN, suivi d'un
décodage de source DCS.
Pour l'émission, le processeur effectue un codage de source
CCS suivi d'un codage de canal CCN.
Lorsque le téléphone mobile incorpore un codeur selon
l'invention, celui-ci est incorporé au sein des moyens de codage de
source CCS, tandis que le décodeur est incorporé au sein des moyens
de décodage de source DCS.
Claims (4)
- Procédé d'encodage de la parole à bande élargie, dans lequel on échantillonne la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et à chaque trame vocale on détermine des paramètres d'un modèle de prédiction linéaire à excitation par code, ces paramètres comportant un mot numérique d'excitation à long terme extrait d'un répertoire codé adaptatif, ainsi qu'un mot d'excitation à court terme extrait d'un répertoire codé algébrique, caractérisé par le fait qu'on effectue l'extraction du mot d'excitation à long terme en utilisant un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique (FPP1), par le fait qu'on effectue l'extraction du mot d'excitation à court terme en utilisant le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique (FPP2), et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.
- Dispositif d'encodage de la parole à bande élargie, comportant des moyens d'échantillonnage aptes à échantillonner la parole de façon à obtenir des trames vocales successives comportant chacune un nombre prédéterminé d'échantillons, et des moyens de traitement aptes à chaque trame vocale, à déterminer des paramètres d'un modèle de prédiction linéaire à excitation par code, ces moyens de traitement comportant des premiers moyens d'extraction aptes à extraire un mot numérique d'excitation à long terme d'un répertoire codé adaptatif, ainsi que des deuxièmes moyens d'extraction aptes à extraire un mot d'excitation à court terme d'un répertoire codé algébrique, caractérisé par le fait que les premiers moyens d'extraction (MEXT1) comprennent un premier filtre de pondération perceptuelle comportant un premier filtre de pondération formantique (FPP1), par le fait que les deuxièmes moyens d'extraction (MEXT2) comprennent le premier filtre de pondération perceptuelle (FPP1) cascadé à un deuxième filtre de pondération perceptuelle comportant un deuxième filtre de pondération formantique (FPP2), et par le fait que le dénominateur de la fonction de transfert du premier filtre de pondération formantique est égal au numérateur du deuxième filtre de pondération formantique.
- Terminal d'un système de communication sans fil, caractérisé par le fait qu'il incorpore un dispositif selon la revendication 2.
- Terminal selon la revendication 3, caractérisé par le fait qu'il forme un téléphone mobile cellulaire.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02015919A EP1383113A1 (fr) | 2002-07-17 | 2002-07-17 | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme |
EP03291749A EP1388846A3 (fr) | 2002-07-17 | 2003-07-15 | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme |
US10/622,019 US20040073421A1 (en) | 2002-07-17 | 2003-07-17 | Method and device for encoding wideband speech capable of independently controlling the short-term and long-term distortions |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP02015919A EP1383113A1 (fr) | 2002-07-17 | 2002-07-17 | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme |
Publications (1)
Publication Number | Publication Date |
---|---|
EP1383113A1 true EP1383113A1 (fr) | 2004-01-21 |
Family
ID=29762637
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP02015919A Withdrawn EP1383113A1 (fr) | 2002-07-17 | 2002-07-17 | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040073421A1 (fr) |
EP (1) | EP1383113A1 (fr) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976830B (zh) | 2013-01-11 | 2019-09-20 | 华为技术有限公司 | 音频信号编码和解码方法、音频信号编码和解码装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926785A (en) * | 1996-08-16 | 1999-07-20 | Kabushiki Kaisha Toshiba | Speech encoding method and apparatus including a codebook storing a plurality of code vectors for encoding a speech signal |
US6173257B1 (en) * | 1998-08-24 | 2001-01-09 | Conexant Systems, Inc | Completed fixed codebook for speech encoder |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6073092A (en) * | 1997-06-26 | 2000-06-06 | Telogy Networks, Inc. | Method for speech coding based on a code excited linear prediction (CELP) model |
ATE302991T1 (de) * | 1998-01-22 | 2005-09-15 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6330533B2 (en) * | 1998-08-24 | 2001-12-11 | Conexant Systems, Inc. | Speech encoder adaptively applying pitch preprocessing with warping of target signal |
-
2002
- 2002-07-17 EP EP02015919A patent/EP1383113A1/fr not_active Withdrawn
-
2003
- 2003-07-17 US US10/622,019 patent/US20040073421A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926785A (en) * | 1996-08-16 | 1999-07-20 | Kabushiki Kaisha Toshiba | Speech encoding method and apparatus including a codebook storing a plurality of code vectors for encoding a speech signal |
US6173257B1 (en) * | 1998-08-24 | 2001-01-09 | Conexant Systems, Inc | Completed fixed codebook for speech encoder |
Non-Patent Citations (1)
Title |
---|
CHEN J-H ET AL: "Improving the performance of the 16 kb/s LD-CELP speech coder", DIGITAL SIGNAL PROCESSING 2, ESTIMATION, VLSI. SAN FRANCISCO, MAR. 23 - 26, 1992, PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), NEW YORK, IEEE, US, vol. 5 CONF. 17, 23 March 1992 (1992-03-23), pages 69 - 72, XP010058714, ISBN: 0-7803-0532-9 * |
Also Published As
Publication number | Publication date |
---|---|
US20040073421A1 (en) | 2004-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2002428B1 (fr) | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant | |
EP0784311B1 (fr) | Méthode et appareil de détection de présence d'un signal de parole et dispositif de communication | |
EP1320087B1 (fr) | Synthèse d'un signal d'excitation utilisé dans un générateur de bruit de confort | |
EP0782128B1 (fr) | Procédé d'analyse par prédiction linéaire d'un signal audiofréquence, et procédés de codage et de décodage d'un signal audiofréquence en comportant application | |
EP0710947B1 (fr) | Procédé et dispositif de suppression de bruit dans un signal de parole, et système avec annulation d'écho correspondant | |
FR2596936A1 (fr) | Systeme de transmission d'un signal vocal | |
EP0428445B1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
KR100417351B1 (ko) | 코드화 음성 신호의 희소성 감소 | |
EP1125283B1 (fr) | Procede de quantification des parametres d'un codeur de parole | |
EP1267325A1 (fr) | Procede pour detecter l'activite vocale dans un signal, et codeur de signal vocal comportant un dispositif pour la mise en oeuvre de ce procede | |
EP2979266B1 (fr) | Mixage partiel optimisé de flux audio codés selon un codage par sous-bandes | |
EP1048024B1 (fr) | Procede de codage vocal en presence de bruit de fond | |
EP1429316B1 (fr) | Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication | |
WO2007107670A2 (fr) | Procede de post-traitement d'un signal dans un decodeur audio | |
EP1383109A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie | |
EP1383113A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme | |
EP1388846A2 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme | |
WO2023165946A1 (fr) | Codage et décodage optimisé d'un signal audio utilisant un auto-encodeur à base de réseau de neurones | |
EP0616315A1 (fr) | Dispositif de codage et de décodage numérique de la parole, procédé d'exploration d'un dictionnaire pseudo-logarithmique de délais LTP, et procédé d'analyse LTP | |
EP1383110A1 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée | |
EP1383112A2 (fr) | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée | |
FR2783651A1 (fr) | Dispositif et procede de filtrage d'un signal de parole, recepteur et systeme de communications telephonique | |
JPH09508479A (ja) | バースト励起線形予測 | |
WO2014154989A1 (fr) | Mixage optimisé de flux audio codés selon un codage par sous-bandes | |
EP0891617B1 (fr) | Systeme de codage et systeme de decodage d'un signal, notamment d'un signal audionumerique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LI LU MC NL PT SE SK TR |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK RO SI |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN |
|
18D | Application deemed to be withdrawn |
Effective date: 20031118 |