EP1944754B1

EP1944754B1 - Estimateur de la fréquence fondamentale de la parole et méthode pour estimer une fréquence fondamentale de la parole

Info

Publication number: EP1944754B1
Application number: EP07000568.1A
Authority: EP
Inventors: Mohamed Krini; Gerhard Schmidt
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2007-01-12
Filing date: 2007-01-12
Publication date: 2016-08-31
Anticipated expiration: 2027-01-12
Also published as: EP1944754A1

Claims

Estimateur de fréquence fondamentale vocale (1100) étant configuré pour recevoir un premier ensemble de valeurs (Ỹ ₁) et un second ensemble de valeurs (Ỹ ₂), le premier ensemble de valeurs (Ỹ ₁) étant une représentation d'un domaine de fréquence d'un premier ensemble de valeurs de signal (y₁) de domaine temporel dans un premier intervalle de temps (t₁) et le second ensemble de valeurs (Ỹ ₂) étant une représentation d'un domaine de fréquence d'un second ensemble de valeurs de signal (y₂) de domaine temporel dans un second intervalle de temps (t₂), le second intervalle de temps (t₂) étant postérieur à et décalé par rapport au premier intervalle de temps (t₁), l'estimateur de fréquence fondamentale vocale (1100) comprenant :
- un premier calculateur de spectre de densité de puissance (1102) étant configuré pour stocker une version du premier ensemble de valeurs (Ỹ ₁) et étant configuré pour fournir des valeurs d'un premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) en multipliant la version stockée du premier ensemble de valeurs (Ỹ ₁) avec une version conjuguée complexe du second ensemble de valeurs (Ỹ ₂) ;

- un second calculateur de spectre de densité de puissance (1104) étant configuré pour fournir des valeurs d'un second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) en multipliant une version du second ensemble de valeurs (Ỹ ₁) par une version conjuguée complexe du second ensemble de valeurs (Ỹ ₂) ;

- un analyseur (1106) étant configuré pour déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base des valeurs du premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) et des valeurs du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)),
dans lequel l'analyseur est en outre configuré
pour exécuter une première transformée fréquence-temps du premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) afin d'obtenir un premier ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)),
pour exécuter une seconde transformée fréquence-temps du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) afin d'obtenir un second ensemble de valeurs de fonctions de corrélation (r̂_ŷŷ,g (m,n)), et
pour déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base des premier et second ensembles de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),(r̂_ŷŷ,g (m,n)).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 1, caractérisé en ce que le premier calculateur de spectre de densité de puissance (1102) est configuré pour multiplier des versions des ensembles de valeurs (Ỹ ₁,Ỹ ₂) qui représentent des ensembles de valeurs de signal de domaine temporel (y₁, y₂) ayant des intervalles de temps se recouvrant (t₁, t₂).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 2, caractérisé en ce que le premier calculateur de spectre de densité de puissance (1102) est configuré pour multiplier des versions des ensembles de valeurs (Ỹ ₁,Ỹ ₂) qui représentent des ensembles de valeurs de signal de domaine temporel (y₁, y₂) ayant des intervalles de temps se recouvrant (t₁, t₂) d'au moins 25 pour cent.
Estimateur de fréquence fondamentale vocale (1100) selon l'une des revendications 1 à 3, caractérisé en ce que le second calculateur de spectre de densité de puissance (1104) est configuré pour fournir une version complexe conjuguée du second ensemble de valeurs (Ỹ ₂) au premier calculateur de spectre de densité de puissance (1102) et dans lequel le premier calculateur de spectre de densité de puissance (1102) est configuré pour utiliser la version complexe conjuguée fournie du second ensemble de valeurs (Ỹ ₂) comme version avec laquelle la version stockée du premier ensemble de valeurs (Ỹ ₁) doit être multipliée.
Estimateur de fréquence fondamentale vocale (1100) selon l'une quelconque des revendications précédentes, caractérisé en ce que l'analyseur (1106) est configuré pour exécuter une première transformée fréquence-temps du premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) afin d'obtenir un premier ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)) et pour exécuter une seconde transformée fréquence-temps du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) afin d'obtenir un second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) dans lequel l'analyseur (1106) est en outre configuré pour déterminer un ensemble de valeurs de normalisation ( S _ỹỹ (Ω _µ,n)) et un ensemble de valeurs de pondération (V(e ^jΩµ ,n)) à partir du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) et pour utiliser l'ensemble de valeurs de normalisation ( S _ỹỹ (Ω _µ,n)) et l'ensemble de valeurs de pondération (V(e ^jΩµ ,n)) dans les première et seconde transformées fréquence-temps et dans lequel l'analyseur (1106) est en outre configuré pour déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base des premier et second ensembles de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),r̂_ŷŷ,g (m,n)).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 5, caractérisé en ce que l'analyseur (1106) comprend en outre un compensateur étant configuré pour compenser de façon adaptative les valeurs du premier ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)) par un facteur de correction (Δ(m, n)) basé sur une valeur du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) et dans lequel l'analyseur (1106) est en outre configuré pour déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ỹỹ_d ,g,mod}(m,n)) et du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,.n)).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 6, caractérisé en ce que le compensateur est configuré pour multiplier le second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) par un quotient limité à la baisse entre une valeur du premier ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)) et une valeur du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) afin d'obtenir ledit premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 7, caractérisé en ce que l'analyseur (1106) est configuré pour combiner le premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) et le second ensemble de valeurs de fonction de corrélation (r̂_ỹỹ,g (m,n)) afin d'obtenir un ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) dans lequel les valeurs de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ỹỹ,erw (k,n)) reprennent les valeurs correspondantes du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)), du second ensemble de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) ou des valeurs entre le premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) et le second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) et dans lequel l'analyseur (1106) est en outre configuré pour déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base dudit ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)).
Estimateur de fréquence fondamentale vocale (1100) selon l'une des revendications 5 à 8, caractérisé en ce que l'analyseur (1106) est configuré pour déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) en recherchant l'indice d'une valeur maximale (τ_p (n)) à partir de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) parmi un nombre prédéterminé d'indices (k) des valeurs de l'ensemble étendu de valeurs de corrélation (r̂_ŷŷ,erw (k,n)) à partir du premier ou du second ensemble de valeurs de fonction de corrélation (r̂_ỹỹd,g (m,n)),r̂_ŷŷ,g (m,n)) parmi un nombre prédéterminé d'indices (m) de valeurs du premier respectivement second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),r̂_ŷŷ,g (m,n)) ou du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) parmi le nombre prédéterminé d'indices (m) de valeurs du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) et dans lequel l'analyseur (1106) est en outre configuré pour déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) comme le produit d'une fréquence d'échantillonnage (f_a) et d'une valeur réciproque dudit indice recherché (τ_p (n)).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 9, caractérisé en ce que l'analyseur (1106) est en outre configuré pour déterminer un facteur de fiabilité (p_fp (n)) pour l'estimation de fréquence fondamentale vocale déterminée et pour bloquer une sortie de l'estimation de fréquence fondamentale vocale déterminée (f_p(n)) dans le cas où le facteur de fiabilité déterminé (p_fp (n)) pour l'estimation de fréquence fondamentale vocale déterminée est inférieure à un facteur de fiabilité prédéterminé (po).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 10, caractérisé en ce que l'analyseur (1106) est en outre configuré pour déterminer ledit facteur de fiabilité (p_fp (n)) en divisant la valeur maximale (τ̃_p (n)) audit indice recherché par la première valeur de l'ensemble étendu de valeurs de fonction de corrélation ((r̂_ŷŷ,erw (k,n)) ou, respectivement le premier ensemble, le premier ensemble compensé ou le second ensemble compensé de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),(r̂ _{ŷŷ_d ,g,mod}(m,n), (r̂_ŷŷ,g (m,n)).
Estimateur de fréquence fondamentale vocale (1100) selon l'une des revendications 5 à 11, caractérisé en ce que le second calculateur de spectre de densité de puissance (1104) est configuré pour déterminer une estimation du spectre de densité de puissance d'un bruit de fond (S̃_nn (Ω _µ,n)) et pour déterminer un facteur de suppression de bruit (V(e^jΩµ,n)) sur la base dudit spectre de densité de puissance du bruit de fond (S̃_nn (Ω _µ,n)) et dans lequel l'analyseur (1106) est configuré pour multiplier les premier et second spectres de densité de puissance avec ledit facteur de suppression de bruit (V(e^jΩµ,n)) avant la transformée fréquence-temps du premier respectivement second spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n),Ŝ_ỹỹ (Ω _µ,n)).
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 12, caractérisé en ce que le second calculateur de spectre de densité de puissance (1104) est configuré pour déterminer le facteur de suppression de bruit comme maximum d'un coefficient de suppression maximal prédéterminé (Vo) et d'un terme fonction du quotient de l'estimation du spectre de densité de puissance d'un bruit de fond (Ŝ_nn (Ω _µ,n)) et du second spectre de densité de puissance Ŝ_ỹỹ (Ω _µ,n)).
Estimateur de fréquence fondamentale vocale (1100) selon l'une des revendications 12 à 13, caractérisé en ce que le second calculateur de spectre de densité de puissance (1104) est configuré pour déterminer l'estimation du spectre de densité de puissance du bruit de fond (S̃_nn (Ω _µ,n)) dans les pauses vocales ou pour déterminer l'estimation du spectre de densité de puissance du bruit de fond (S̃_nn (Ω _µ,n)) à partir d'une estimation par segment du minima d'une puissance d'un signal de microphone.
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 13 ou les revendications 13 et 14, caractérisé en ce que le facteur de suppression de bruit est défini par $V (e^{{j Ω}_{μ}}, n) = \max \{V_{0}, 1 - β \frac{{\hat{S}}_{nn} (Ω_{μ}, n)}{{\hat{S}}_{yy} (Ω_{μ}, n)}\}$
dans lequel (S̃_nn (Ω _µ,n)) désigne l'estimation du spectre de densité de puissance du bruit de fond, Ŝ_ỹỹd (Ω _µ,n) désigne le second spectre de densité de puissance, Vo désigne un facteur d'atténuation maximal prédéfini et β désigne une valeur pour surestimer le spectre de densité de puissance du bruit de fond (S̃_nn (Ω _µ,n)).
Estimateur de fréquence fondamentale vocale (1100) selon l'une des revendications 5 à 15, caractérisé en ce que l'analyseur (1106) est configuré en outre pour réestimer l'estimation de fréquence fondamentale vocale dans le cas où l'estimation de fréquence fondamentale vocale déterminée est inférieure à la valeur de fréquence prédéterminée (f_k) dans lequel l'analyseur (106) et configuré pour effectuer la réestimation en recherchant un nouvel indice (k, m) d'une nouvelle valeur maximale (τ̃_p (n)) de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)), le premier ou le second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)),(r̂_ŷŷ,g (m,n)) ou le premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) parmi un nouveau nombre de valeurs desdits ensembles de valeurs de fonction de corrélation et pour produire un produit d'une fréquence d'échantillonnage (f_s) et une valeur réciproque dudit nouvel indice (τ̃_p (n)) comme estimation de la fréquence fondamentale vocale déterminée.
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 16, caractérisé en ce que l'analyseur (106) est configuré pour rechercher ledit indice (k, m) de ladite nouvelle valeur maximale (τ̃_p (n)) en utilisant un certain nombre k de valeurs desdits ensembles de valeurs de fonction de corrélation qui est défini par $\frac{f_{s}}{f_{p, \max}} \leq k < \frac{f_{s}}{2 f_{p} (n)} + k_{0}$
dans lequel k désigne le nombre de valeurs desdits ensembles de valeurs de fonction de corrélation, f_p(n) désigne l'estimation de fréquence fondamentale vocale précédemment déterminée, f_p,max désigne une valeur prédéfinie d'une fréquence fondamentale vocale possible maximale, f_s désigne une fréquence d'échantillonnage et ko désigne une constante.
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 16 ou 17, caractérisé en ce que l'analyseur (1106) est configuré pour produire ledit produit comme estimation de fréquence fondamentale vocale prédéterminée uniquement dans le cas où le nouvel indice (τ̃_p (n)) est plus large que 60 pour cent de l'indice maximal recherché antérieurement (τ_p (n)) et où une valeur (r̂_ŷŷ,erw (τ̃_p (n),n)) de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) audit nouvel indice (τ̃_p (n)) est supérieure à une valeur d'amplitude précédemment définie (p̃ ₀).
Estimateur de fréquence fondamentale vocale (1100) selon l'une des revendications 5 à 18, caractérisé en ce que l'analyseur (1106) est configuré pour modifier une période fondamentale vocale (τ̃_p (n)) correspondant à ladite estimation de fréquence fondamentale vocale déterminée par un terme de correction d'interpolation Δ_p(n)) avant de produire une estimation de fréquence fondamentale vocale modifiée (f_p(n)), dans laquelle ledit terme de correction d'interpolation (Δ_p) est dépendant de valeurs dudit premier ou second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),(r̂_ŷŷ,g (m,n)) dudit ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) ou dudit premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ _d ,g,mod}(m,n)), respectivement.
Estimateur de fréquence fondamentale vocale (1100) selon l'une des revendications 1 à 19, caractérisé par une unité de filtrage de domaine de fréquence étant configurée pour recevoir les versions de domaine de fréquence (Y₁, Y₂) des premier et second ensembles de valeurs de signal de domaine temporel (y₁, y₂) pour le filtrage par domaine de fréquence desdites versions de domaine de fréquence afin d'obtenir lesdits premier et second ensembles de valeurs (Ỹ ₁, Ỹ ₂) respectivement et pour fournir lesdits premier et second ensembles de valeurs (Ỹ ₁, Ỹ ₂) aux premier et second calculateurs de spectre de densité de puissance, respectivement.
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 20, caractérisé en ce que l'unité de filtrage du domaine de fréquence est configurée pour filtrer uniquement les fréquences au-dessous d'une fréquence limite prédéfinie.
Estimateur de fréquence fondamentale vocale (1100) selon la revendication 21, caractérisé en ce que l'unité de filtrage de domaine de fréquence est configurée pour retarder les valeurs desdites versions du domaine de fréquence qui sont au-dessus de la fréquence de limitation prédéfinie.
Procédé (1140) pour estimer une fréquence fondamentale vocale (f_p(n)), le procédé utilisant un premier ensemble de valeurs (Ỹ ₁) et un second ensemble de valeurs (Ỹ ₂), le premier ensemble de valeurs (Ỹ ₁) étant une représentation de domaine de fréquence reçue d'un premier ensemble de valeurs de signal de domaine temporel (y₁) dans un premier intervalle de temps (t₁) et le second ensemble de valeurs (Ỹ ₂) étant une représentation de domaine de fréquence reçue d'un second ensemble de valeurs de signal de domaine temporel (ỹ₂) dans un second intervalle de temps (t₂), le second intervalle de temps (t₂) étant postérieur à et décalé par rapport au premier intervalle de temps (t₁), le procédé pour estimer la fréquence fondamentale vocale (f_p(n)) comprenant les étapes consistant à :
- stocker (1150) une version du premier ensemble de valeurs (Ỹ ₁) et fournir des valeurs d'un premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) en multipliant (1152) la version stockée du premier ensemble de valeurs (Ỹ ₁) avec une version conjuguée complexe du second ensemble de valeurs (Ỹ ₂) ;

- fournir des valeurs d'un second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) en multipliant (1153) une version du second ensemble de valeurs (Ỹ ₂) avec une version conjuguée complexe d'un second ensemble de valeurs (Ỹ ₂) ;

- déterminer (1156) l'estimation de fréquence fondamentale vocale (fp) sur la base des valeurs du premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) et des valeurs du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)),
dans lequel l'étape consistant à déterminer l'estimation de la fréquence fondamentale vocale (f_p(n)) comprend les étapes consistant à :
effectuer une première transformée fréquence-temps du premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) afin d'obtenir un premier ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)).

exécuter une seconde transformée fréquence-temps du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) afin d'obtenir un second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)), et

déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base des premier et second ensembles de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),r̂_ŷŷ,g (m,n)).
Procédé (1140) selon la revendication 23, caractérisé en ce que l'étape consistant à déterminer (1156) l'estimation de fréquence fondamentale vocale (f_p(n)) comprend les étapes consistant à :
• exécuter une première transformation fréquence-temps du premier spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n)) afin d'obtenir un premier ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)) ;

• exécuter une seconde transformation fréquence-temps du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) afin d'obtenir un second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)), dans lequel l'étape consistant à déterminer (1156) comprend en outre la détermination d'un ensemble de valeurs de normalisation (S̃_ỹỹ (Ω _µ,n)) et d'un ensemble de valeurs de pondération (V(e^jΩµ,n)) à partir du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) et en utilisant l'ensemble de valeurs de normalisation (Ŝ_ỹỹ (Ω _µ,n)) et l'ensemble de valeurs de pondération (V(e^jΩµ,n)) dans les première et seconde transformations fréquence-temps et dans lequel la détermination de l'estimation de fréquence fondamentale vocale (f_p(n)) est exécutée sur la base desdits premier et du second ensembles de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),r̂_ŷŷ,g (m,n)).
Procédé (1140) selon la revendication 24, caractérisé en ce que l'étape de détermination (1156) de l'estimation de fréquence fondamentale vocale (f_p(n)) comprend l'étape consistant à compenser de façon adaptative les valeurs du premier ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n)) par un facteur de correction (Δ(m, n)) étant basé sur une valeur du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) afin d'obtenir un premier ensemble compensé de valeurs et à déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) et du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)).
Procédé (1140) selon la revendication 25, caractérisé en ce que l'étape de compensation comprend la multiplication du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) par un quotient limité à la baisse entre une valeur du premier ensemble de valeurs de fonctions de corrélation (r̂_ŷŷd,g (m,n)) et une valeur du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) afin d'obtenir ledit premier ensemble compensé de valeurs de fonction de corrélation (r̂ _ŷŷ,g,mod(m,n)).
Procédé (1140) selon la revendication 26, caractérisé en ce que l'étape de détermination (1156) de l'estimation de fréquence fondamentale vocale (f_p(n)) comprend l'étape consistant à combiner le premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) et le second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)) afin d'obtenir un ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)), dans lequel les valeurs de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) reprennent des valeurs correspondantes du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)), du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)), ou des valeurs entre le premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d ,g,mod}(m,n)) et le second ensemble de valeurs de fonction de corrélation (r̂_ŷŷ,g (m,n)), et dans lequel l'étape de détermination (1156) de l'estimation de fréquence fondamentale vocale (f_p(n)) comprend en outre la détermination de l'estimation de fréquence fondamentale vocale (f_p(n)) sur la base du dit ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)).
Procédé (1140) selon l'une des revendications 23 à 27, caractérisé en ce que l'étape consistant à déterminer (1156) l'estimation de fréquence fondamentale vocale (f_p(n)) comprend la détermination de l'estimation de fréquence fondamentale vocale (f_p(n)) en recherchant l'indice d'une valeur maximale (τ_p (n)) à partir de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) parmi un nombre prédéterminé d'indices (k) des valeurs de l'ensemble étendu de valeurs de corrélation (r̂_ŷŷ,erw (k,n)), à partir du premier ou du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),r̂_ŷŷ,g (m,n)) parmi un nombre prédéterminé d'indices (m) de valeurs du premier respectivement second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),r̂_ŷŷ,g (m,n)) ou à partir du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d,gmod}(m,n)) parmi le nombre prédéterminé d'indices (m) de valeurs du premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d,gmod}(m,n)) et dans lequel l'étape de détermination (1156) de l'estimation de fréquence fondamentale vocale (f_p(n)) comprend en outre l'étape consistant à déterminer l'estimation de fréquence fondamentale vocale (f_p(n)) comme le produit d'une fréquence d'échantillonnage (f_s) et d'une valeur réciproque dudit indice recherché (τ_p (n)).
Procédé (1140) selon la revendication 28, caractérisé en ce que l'étape de détermination (1156) de l'estimation de la fréquence fondamentale vocale (f_p(n)) comprend la détermination d'un facteur de fiabilité (p_fp (n)) pour l'estimation de la fréquence fondamentale vocale déterminée (f_p(n)) et pour bloquer une sortie de l'estimation de la fréquence fondamentale vocale déterminée (f_p(n)) dans le cas où le facteur de fiabilité déterminé (p_fp (n)) pour l'estimation de fréquence fondamentale vocale déterminée (f_p(n)) est inférieur au facteur de fiabilité prédéterminé (po).
Procédé (1140) selon la revendication 29, caractérisé en ce que l'étape de détermination (1156) de l'estimation de fréquence fondamentale vocale (f_p(n)) comprend l'étape consistant à déterminer ledit facteur de fiabilité (p_fp (n)) en divisant la valeur maximale (τ̃_p (n)) à ladite valeur recherchée par la première valeur de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) ou respectivement du premier ensemble, du premier ensemble compensé ou du second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),r̂ _{ŷŷ_d,g,mod}(m,n), (r̂_ŷŷ,g (m,n)).
Procédé (1140) selon l'une des revendications 23 à 30 et selon la revendication 24, caractérisé en ce que l'étape consistant à fournir des valeurs d'un second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) comprend l'étape consistant à déterminer une estimation du spectre de densité de puissance du bruit de fond (S̃_nn (Ω _µ,n)) et à déterminer un facteur de suppression de bruit (V(e^jΩµ,n)) sur la base dudit spectre de densité de puissance du bruit de fond (S̃_nn (Ω _µ,n)) et l'étape consistant à déterminer (1156) l'estimation de fréquence fondamentale vocale (f_p(n)) comprend la multiplication des premier et second spectres de densité de puissance avec ledit facteur de suppression de bruit (V(e^jΩµ,n)) avant la transformation fréquence-temps du premier respectivement second spectre de densité de puissance (Ŝ_ỹỹd (Ω _µ,n), (Ŝ_ỹỹ (Ω _µ,n)).
Procédé (1140) selon la revendication 31, caractérisé en ce que l'étape de fourniture de valeurs d'un second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) comprend la détermination du facteur de suppression de bruit comme maximum du coefficient de suppression maximum prédéterminé (V₀) et d'un terme fonction d'un quotient de l'estimation du spectre de densité de puissance du bruit de fond ((Ŝ_nn Ω _µ,n)) et du second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)).
Procédé (1140) selon la revendication 32, caractérisé en ce que l'étape consistant à fournir des valeurs d'un second spectre de densité de puissance (Ŝ_ỹỹ (Ω _µ,n)) comprend l'étape consistant à déterminer l'estimation du spectre de densité de puissance du bruit de fond (Ŝ_nn (Ω _µ,n)) dans les pauses vocales ou à déterminer l'estimation du spectre de densité de puissance du bruit de fond (Ŝ_nn (Ω _µ,n)) à partir d'une estimation par segment du minima de la puissance d'un signal de microphone.
Procédé (1140) selon l'une des revendications 31 à 33, caractérisé en ce que le facteur de suppression de bruit est défini par $V (e^{{j Ω}_{μ}}, n) = \max \{V_{0}, 1 - β \frac{{\hat{S}}_{nn} (Ω_{μ}, n)}{{\hat{S}}_{yy} (Ω_{μ}, n)}\}$
dans lequel (Ŝ_nn (Ω _µ,n)) désigne l'estimation du spectre de densité de puissance du bruit de fond, (Ŝ_ỹỹ (Ω _µ,n)) désigne le second spectre de densité de puissance, Vo désigne un facteur d'atténuation maximum prédéfini et β désigne une valeur pour surestimer le spectre de densité de puissance du bruit de fond (Ŝ_nn (Ω _µ,n)).
Procédé (1140) selon l'une des revendications 24 à 34, caractérisé en ce que l'étape consistant à déterminer (1156) l'estimation de fréquence fondamentale vocale (f_p(n)) comprend la réestimation de l'estimation de fréquence fondamentale vocale (f_p(n)) dans le cas où l'estimation de fréquence fondamentale vocale déterminée est inférieure à la valeur de fréquence prédéfinie (f_k) dans lequel l'étape consistant à déterminer (1156) l'estimation de fréquence fondamentale vocale (f_p(n)) comprend la réestimation par la recherche d'un nouvel indice (k, m) d'une nouvelle valeur maximale (τ̃_p (n)) de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)), le premier ou le second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),(r̂_ŷŷ,g (m,n)) ou le premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d,gmod}(m,n)) parmi un nouveau nombre de valeurs desdits ensembles de valeurs de fonction de corrélation et la production d'un produit d'une fréquence d'échantillonnage (f_s) et d'une valeur réciproque dudit nouvel indice (τ̃_p (n)) comme estimation de la fréquence fondamentale vocale déterminée.
Procédé (1140) selon la revendication 35, caractérisé en ce que l'étape consistant à déterminer (1156) l'estimation de fréquence fondamentale vocale (f_p(n)) comprend l'étape consistant à rechercher ledit indice (k, m) de ladite nouvelle valeur maximale (τ̃_p (n)) en utilisant un nombre k de valeurs desdits ensembles de valeurs de fonction de corrélation qui est défini par $\frac{f_{s}}{f_{p, \max}} \leq k < \frac{f_{s}}{2 f_{p} (n)} + k_{0}$
dans lequel k désigne le nombre de valeurs desdits ensembles de valeurs de fonction de corrélation, fp(n) désigne l'estimation de fréquence fondamentale vocale déterminée antérieurement, f_p,max désigne une valeur prédéfinie d'une fréquence fondamentale vocale maximale possible, f_s désigne une fréquence d'échantillonnage et ko désigne une constante.
Procédé (1140) selon une des revendications 35 ou 36, caractérisé en ce que l'étape consistant à déterminer (1156) l'estimation de fréquence fondamentale vocale (f_p(n)) comprend la production dudit produit comme estimation de fréquence fondamentale vocale prédéterminée (f_p(n)) uniquement dans le cas où le nouvel indice (τ̃_p (n)) est supérieur à 60 pour cent de l'indice maximal recherché précédemment (τ_p (n)) et où la valeur (r̂_ŷŷ,erw (τ̃_p (n),n)) de l'ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) audit nouvel indice (τ̃_p (n)) est supérieure à une valeur d'amplitude précédemment définie (p̃ ₀).
Procédé (1140) selon l'une des revendications 24 à 37, caractérisé en ce que l'étape de détermination de l'estimation de fréquence fondamentale vocale (f_p(n)) comprend la modification d'une période fondamentale vocale (τ̃_p (n)) correspondant à ladite estimation de fréquence fondamentale vocale déterminée (f_p(n)) par un terme de correction d'interpolation (Δ_p(n)) avant de produire ladite estimation de fréquence fondamentale (f_p(n)) dans laquelle ledit terme de correction d'interpolation (Δ_p(n)) dépend de valeurs dudit premier ou second ensemble de valeurs de fonction de corrélation (r̂_ŷŷd,g (m,n),(r̂_ŷŷ,g (m,n)) dudit ensemble étendu de valeurs de fonction de corrélation (r̂_ŷŷ,erw (k,n)) dudit premier ensemble compensé de valeurs de fonction de corrélation (r̂ _{ŷŷ_d,g,mod}(m,n)), respectivement.
Procédé (1140) selon l'une des revendications précédentes, caractérisé en ce que le procédé comprend en outre une étape de réception des versions de domaine de fréquence (Y ₁,Y ₂) du premier et du second ensemble de valeurs de signal de domaine temporel (y₁, y₂), de filtrage par domaine de fréquence desdites versions du domaine de fréquence afin d'obtenir lesdits premier et second ensembles de valeurs (Ỹ ₁,Ỹ ₂ ) respectivement, et de fourniture desdits premier et second ensembles de valeurs (Ỹ ₁ ,Ỹ ₂), les premier et second calculateurs de spectre de densité de puissance respectivement.
Procédé (1140) selon la revendication 39, caractérisé en ce que l'étape du filtrage de domaine de fréquence n'est effectuée que pour les fréquences inférieures à une fréquence limite prédéfinie.
Procédé (1140) selon la revendication 40, caractérisé en ce que l'étape du filtrage de domaine de fréquence comprend l'étape consistant à retarder les valeurs des versions de domaine de fréquence supérieures à ladite fréquence limite prédéfinie.
Produit de programme informatique ayant un code programme pour exécuter le procédé selon l'une des revendications 23 à 41, lorsque le programme informatique tourne sur un ordinateur.