EP0713208B1

EP0713208B1 - Système d'estimation de la fréquence fondamentale

Info

Publication number: EP0713208B1
Application number: EP95118142A
Authority: EP
Inventors: Huan-Yu Su; Tom Hong Li
Original assignee: Conexant Systems LLC
Current assignee: Conexant Systems LLC
Priority date: 1994-11-21
Filing date: 1995-11-17
Publication date: 2002-02-20
Anticipated expiration: 2015-11-17
Also published as: DE69525508D1; DE69525508T2; JPH08211895A; EP0713208A3; EP0713208A2

Claims

Dispositif de codage de voix pour reproduire et coder une voix d'entrée, le dispositif de codage de voix utilisant des paramètres de codage à prédiction linéaire (LPC) et un dictionnaire de nouveautés représentant une pluralité de vecteurs qui font l'objet d'une référence pour exciter une reproduction vocale afin de générer une voix, le dispositif de codage de voix comportant :

des moyens d'entrée vocale (602) destinés à recevoir la voix d'entrée,

un ordinateur destiné à traiter la voix d'entrée, l'ordinateur incluant :

des moyens pour séparer une trame de codage courante se trouvant dans la voix d'entrée,

des moyens pour diviser la trame de codage en plusieurs sous-trames de fondamental (802, 804),

des moyens pour définir une fenêtre d'analyse de fondamental (806) ayant N échantillons vocaux, la fenêtre d'analyse de fondamental s'étendant jusqu'aux sous-trames de fondamental (802, 804),

des moyens pour estimer une valeur de retard de fondamental initiale (714) pour chaque sous-trame de fondamental (802, 804),

des moyens pour diviser chaque sous-trame de fondamental (802, 804) en de multiples sous-trames de codage (808),

dans lequel l'estimation de retard de fondamental initiale pour chaque sous-trame de fondamental (802, 804) représente l'estimation de retard pour la dernière sous-trame de codage (802) de chaque sous-trame de fondamental (802, 804) se trouvant dans la trame de codage courante, et

des moyens pour interpoler linéairement (720) les valeurs de retard de fondamental estimées (714) entre les sous-trames de fondamental (802, 804) afin de déterminer une estimation de retard de fondamental pour chaque sous-trame de codage (808), et

des moyens pour affiner (722) les valeurs de retard linéairement interpolées (720) de chaque sous-trame de codage, et

des moyens de sortie vocale pour délivrer en sortie une voix reproduite conformément aux valeurs de retard de fondamental affinées (722).
Dispositif selon la revendication 1, comportant en outre des moyens d'échantillonnage qui échantillonnent la voix d'entrée à une vitesse d'échantillonnage R, dans lequel les N échantillons vocaux sont déterminés suivant l'équation N = R * X, et où X est une valeur de réduction d'échantillonnage permettant une représentation à l'aide de moins d'échantillons.
Dispositif selon la revendication 2, dans lequel X = 25 ms, R = 8 000 Hz, et N = 320 échantillons.
Dispositif selon la revendication 1, dans lequel chaque trame de codage a une longueur approximativement égale à 40 ms.
Système selon la revendication 1, comportant en outre :

des moyens pour appliquer une première transformée de Fourier discrète (606) (DFT) aux échantillons, la première transformée DFT ayant une amplitude associée,

des moyens pour élever au carré l'amplitude (608) de la première transformée DFT (606),

des moyens pour appliquer une seconde transformée DFT (610) à l'amplitude (608) élevée au carré.
Système selon la revendication 5, dans lequel la valeur de retard de fondamental initiale a une erreur de prédiction associée et les moyens destinés à affiner la valeur de retard de fondamental initiale minimisent l'erreur de prédiction associée.
Système selon la revendication 5, comportant en outre :

des moyens pour estimer les estimations de retard de fondamental initiales retard₁ et retard₂ (714) qui représentent des estimations de retard, respectivement, pour la dernière sous-trame de codage (808) de chaque sous-trame de fondamental se trouvant dans la trame de codage courante,

des moyens pour affiner (718) l'estimation de retard de fondamental retard₀ de la seconde sous-trame de fondamental se trouvant dans la trame de codage précédente,

des moyens pour interpoler linéairement (720) retard₁, retard₂, et retard₀ afin d'estimer les valeurs de retard de fondamental (714) des sous-trames de codage (808).
Système selon la revendication 1, comportant en outre des moyens destinés à réduire l'échantillonnage (704) des échantillons vocaux à une valeur de réduction d'échantillonnage permettant une représentation approximative à l'aide de moins d'échantillons.
Système selon la revendication 8, dans lequel la valeur de retard de fondamental initiale est graduée (716) suivant l'équation : Retard_gradué = Nombre d'échantillons vocaux/valeur de réduction d'échantillonnage.
Système selon la revendication 5, dans lequel les moyens destinés à affiner la valeur de retard de fondamental initiale comporte une autocorrélation.
Procédé de codage de voix pour reproduire et coder une voix d'entrée, le dispositif de codage de voix utilisant des paramètres de codage à prédiction linéaire (LPC) et un dictionnaire de nouveautés représentant des signaux pseudo--aléatoires qui forment une pluralité de vecteurs qui font l'objet d'une référence pour exciter une reproduction vocale afin de générer une voix, procédé de codage de voix comportant les étapes consistant à :

recevoir (602) et traiter la voix d'entrée,

traiter la voix d'entrée, l'étape de traitement incluant les étapes consistant à :

déterminer une trame de codage de voix dans la voix d'entrée,

sous-diviser la trame de codage en plusieurs sous-trames de fondamental (802, 804),

définir une fenêtre d'analyse de fondamental (806) ayant N échantillons vocaux, la fenêtre d'analyse de fondamental s'étendant jusqu'aux sous-trames de fondamental (802, 804),

estimer approximativement une valeur de retard de fondamental initiale (714) pour chaque sous-trame de fondamental (802, 804),

diviser chaque sous-trame de fondamental (802, 804) en de multiples sous-trames de codage (808), de sorte que l'estimation de retard de fondamental initiale pour chaque sous-trame de fondamental (802, 804) représente l'estimation de retard pour la dernière sous-trame de codage (808) de retard sous-trame de fondamental (802, 804), et

interpoler linéairement (720) les valeurs de retard de fondamental estimées (714) entre les sous-trames de fondamental (802, 804) pour déterminer une estimation de retard de fondamental pour chaque sous-trame de codage (808), et

affiner (722) les valeurs de retard linéairement interpolées (720), et

délivrer en sortie une voix reproduite conformément aux valeurs de retard de fondamental affinées (722).
Procédé selon la revendication 11, comportant en outre les étapes consistant à échantillonner la voix d'entrée à une vitesse d'échantillonnage R, de sorte que les N échantillons vocaux sont déterminés suivant l'équation N = R * X, où X est une valeur de réduction d'échantillonnage permettant une représentation à l'aide de moins d'échantillons.
Procédé selon la revendication 11, comportant en outre les étapes consistant à :

appliquer une première transformée de Fourier discrète (606) (DFT) aux échantillons, la première transformée DFT ayant une amplitude associée,

élever au carré l'amplitude (608) de la première transformée DFT (606),

appliquer une seconde transformée DFT (610) à l'amplitude (608) élevée au carré de la première transformée DFT (606),

dans lequel la valeur de retard de fondamental initiale a une erreur de prédiction associée, et

l'étape consistant à affiner la valeur de retard de fondamental initiale utilise une autocorrélation pour minimiser l'erreur de prédiction associée.
Procédé selon la revendication 13, comportant en outre les étapes consistant à :

estimer les estimations de retard de fondamental initiales retard₁ et retard₂ (714) qui représentent les estimations de retard, respectivement, pour la dernière sous-trame de codage (808) de chaque sous-trame de fondamental (802, 804) se trouvant dans la trame de codage courante,

affiner (718) l'estimation de retard de fondamental retard₀ de la seconde sous-trame de fondamental de la trame de codage précédente,

interpoler linéairement (720) retard₁, retard₂, et retard₀ pour estimer les valeurs de retard de fondamental (714) des sous-trames de codage (808).
Procédé selon la revendication 11, comportant en outre l'étape consistant à réduire l'échantillonnage (704) des échantillons vocaux à une valeur de réduction d'échantillonnage permettant une représentation approximative à l'aide de moins d'échantillons.
Procédé selon la revendication 11, comportant en outre l'étape consistant à graduer (716) la valeur de retard de fondamental initiale suivant l'équation : Retard_gradué = Nombre d'échantillons vocaux/valeur de réduction d'échantillonnage.