EP1208561B1

EP1208561B1 - Procede et dispositif de reduction du bruit dans des signaux vocaux

Info

Publication number: EP1208561B1
Application number: EP00925105A
Authority: EP
Inventors: Kjeld Hermansen
Original assignee: Noisecom APS
Current assignee: Noisecom APS
Priority date: 1999-05-19
Filing date: 2000-05-16
Publication date: 2005-01-26
Anticipated expiration: 2020-05-16
Also published as: WO2000072305A2; ATE288121T1; EP1208561A2; DE60017758D1; WO2000072305A3; AU4394300A

Claims

Procédé de réduction de la quantité de bruit dans un signal vocal ayant du bruit, comprenant les étapes de :

obtention à partir d'un signal vocal, des représentations sur la base d'un modèle décrivant la partie quasi stationnaire de la voix ;

obtention, à partir de ladite représentation sur la base d'un modèle, d'informations dynamiques concernant des paramètres de fréquence (f), de bande passante (b), et de gain (g) dudit signal vocal par rapport au temps ;

définition de traitements en fonction du temps en supposant que lesdits paramètres f, b et g appartiennent à un traitement selon une connaissance à priori concernant la dynamique de la voix humaine ;

lissage des paramètres f, b et g par rapport au temps, l'étape de lissage étant réalisée sur lesdits traitements.
Procédé selon la revendication 1, dans lequel la connaissance à priori concernant la dynamique de la voix humaine comprend la connaissance concernant l'étendue de la fréquence maximum d'un signal vocal.
Procédé selon la revendication 1 ou 2, dans lequel le signal vocal est supposé appartenir à un traitement, le traitement étant un signal qui peut s'étendre sur une ou plusieurs trames de mesure.
Procédé selon la revendication 3, dans lequel le traitement est un traitement actif à un certain moment s'il s'étend sur une ou plusieurs trames de mesure précédentes.
Procédé selon la revendication 3 ou 4, dans lequel l'étape de lissage comprend l'étape de détermination si une nouvelle fréquence de formant appartient à un traitement actif.
Procédé selon la revendication 5, comprenant en outre l'étape de définition d'un nouveau traitement dans le cas où la nouvelle fréquence de formant n'appartient pas à un traitement actif, et dans lequel la nouvelle fréquence de formant est alors supposée appartenir audit nouveau traitement.
Procédé selon l'une quelconque des revendications 4 à 6, dans lequel un traitement est supposé être inactif dans le cas où aucune nouvelle fréquence de formant n'est supposée appartenir audit traitement.
Procédé selon la revendication 7, comprenant en outre l'étape de maintien artificiellement du signal vocal pendant un nombre prédéterminé de trames de mesure dans le cas où le traitement correspondant est brusquement supposé être inactif.
Procédé selon la revendication 8, dans lequel le nombre prédéterminé de trames de mesure correspond à la durée maximum du signal vocal.
Procédé selon la revendication 9, dans lequel la durée maximum du signal vocal est entre 40 ms et 80 ms.
Procédé selon la revendication 10, dans lequel la durée maximum du signal vocal est entre 50 ms et 70 ms.
Procédé selon la revendication 11, dans lequel la durée maximum du signal vocal est approximativement 60 ms.
Procédé selon l'une quelconque des revendications 5 à 12, dans lequel le nouveau formant est supposé appartenir à un traitement actif si la différence de fréquence entre ledit formant et ledit traitement ne dépasse pas un niveau prédéterminé.
Procédé selon la revendication 13, dans lequel le niveau prédéterminé est entre 200 Hz et 600 Hz.
Procédé selon la revendication 14, dans lequel le niveau prédéterminé est entre 300 Hz et 500 Hz.
Procédé selon la revendication 15, dans lequel le niveau prédéterminé est approximativement 400 Hz.
Procédé selon l'une quelconque des revendications précédentes, dans lequel l'étape de lissage comprend l'étape de filtrage des paramètres f, b et g.
Procédé selon la revendication 17, dans lequel l'étape de filtrage est réalisée en utilisant un filtre à réponse impulsionnelle infinie (IIR) de premier ordre.
Procédé selon la revendication 18, dans lequel le filtre IIR de premier ordre est un filtre de rétroaction de la forme : y [n] = b · x [n] + a · y [n - 1], où x désigne le signal vocal, y désigne la sortie du filtre, et où a et b sont des paramètres à déterminer.
Procédé selon la revendication 19, dans lequel les paramètres a et b sont déterminés en utilisant une connaissance de modèle du traitement vocal.
Procédé selon l'une quelconque des revendications précédentes, comprenant en outre les étapes de :

détermination si une voix exprimée est présente ;

utilisation d'une période de pas du bruit éliminé pour créer une impulsion glottale synthétique dans le cas où la voix exprimée est présente ; et

remplacement d'au moins une partie du signal vocal original par ladite impulsion glottale synthétique dans le cas où la voix exprimée est présente.
Procédé selon la revendication 21, dans lequel l'étape de détermination comprend les étapes de comparaison de la variance du signal vocal à une valeur de seuil supérieure et à une valeur de seuil inférieure, et dans lequel la voix exprimée est présente dans le cas où la variance du signal vocal dépasse la valeur de seuil inférieure.
Procédé selon la revendication 21 ou 22, dans lequel l'étape de détermination comprend les étapes de comparaison du premier gain de formant du signal vocal à une valeur de seuil supérieure et à une valeur de seuil inférieure, et dans lequel la voix exprimée est présente dans le cas où le premier gain de formant du signal vocal dépasse la valeur de seuil inférieure.
Procédé selon l'une quelconque des revendications 21 à 23, dans lequel la période de pas du bruit éliminé est trouvée à partir d'un signal résiduel du signal vocal.
Procédé selon l'une quelconque des revendications 21 à 24, dans lequel l'étape de remplacement est réalisée par l'affaiblissement d'un signal résiduel et l'affaiblissement dans l'impulsion glottale synthétique.
Précédé selon l'une quelconque des revendications précédentes, dans lequel au moins l'étape de lissage est réalisée par un système d'ordinateur.
Procédé selon l'une quelconque des revendications précédentes, dans lequel le signal vocal est généré dans un téléphone cellulaire.
Appareil pour réaliser une réduction du bruit dans un signal vocal, l'appareil comprenant :

un moyen pour obtenir à partir d'un signal vocal des représentations sur la base d'un modèle décrivant la partie quasi stationnaire de la voix ;

un moyen pour obtenir des informations dynamiques concernant des paramètres de fréquence (f), de bande passante (b) et de gain (g) dudit signal vocal par rapport au temps ;

un moyen pour définir des traitements en fonction du temps en supposant que lesdits paramètres f, b et g appartiennent à un traitement selon une connaissance à priori concernant la dynamique de la voix humaine ;

un moyen de lissage pour lisser les traitements par rapport au temps.
Appareil selon la revendication 28, dans lequel une connaissance à priori comprend l'étendue de la fréquence maximum d'un signal vocal.
Appareil selon la revendication 28 ou 29, dans lequel le signal vocal est supposé appartenir à un traitement, le traitement étant un signal qui peut s'étendre sur une ou plusieurs trames de mesure, et dans lequel le traitement est un traitement actif à un certain moment s'il s'étend sur une ou plusieurs trames de mesure précédentes, et dans lequel le moyen de lissage comprend un moyen de détermination si une nouvelle fréquence de formant appartient à un traitement actif.
Appareil selon l'une quelconque des revendications 28 à 30, dans lequel le moyen de lissage comprend un moyen pour filtrer les paramètres f, b et g.
Appareil selon l'une quelconque des revendications 28 à 30, comprenant en outre :

un moyen de détermination pour déterminer si une voix exprimée est présente ;

un moyen de création pour créer une impulsion glottale synthétique en utilisant une période de pas du bruit éliminé ; et

un moyen de remplacement pour remplacer au moins une partie du signal vocal original par ladite impulsion glottale synthétique dans le cas où la voix exprimée est présente.
Appareil selon la revendication 32, dans lequel le moyen de détermination comprend un moyen de comparaison pour comparer la variance du signal vocal à une valeur de seuil supérieure et à une valeur de seuil inférieure, et dans lequel la voix exprimée est présente dans le cas où la variance du signal vocal dépasse la valeur de seuil inférieure.
Appareil selon la revendication 32 ou 33, dans lequel le moyen de détermination comprend un moyen de comparaison pour comparer le premier gain de formant du signal vocal à une valeur de seuil supérieure et à une valeur de seuil inférieure, et dans lequel la voix exprimée est présente dans le cas où le premier gain de formant du signal vocal dépasse la valeur de seuil inférieure.
Appareil selon l'une quelconque des revendications 32 à 34, comprenant en outre un moyen pour produire une période de pas du bruit éliminé à partir d'un signal résiduel du signal vocal.