EP3899936B1

EP3899936B1 - Séparation de sources utilisant une estimation et un contrôle de la qualité sonore

Info

Publication number: EP3899936B1
Application number: EP19824332.1A
Authority: EP
Inventors: Christian Uhle; Matteo TORCOLI; Sascha Disch; Jouni PAULUS; Jürgen HERRE; Oliver Hellmuth; Harald Fuchs
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2018-12-21
Filing date: 2019-12-20
Publication date: 2023-09-06
Anticipated expiration: 2039-12-20
Also published as: EP3671739A1; BR112021012308A2; ES2966063T3; CA3124017C; WO2020127900A1; KR102630449B1; JP7314279B2; CN113574597B; JP2022514878A; CA3124017A1; MX2021007323A; EP3899936C0; KR20210110622A; CN113574597A; US20210312939A1; EP3899936A1

Claims

Appareil pour générer un signal audio séparé à partir d'un signal d'entrée audio, dans lequel le signal d'entrée audio comprend une partie de signal audio cible et une partie de signal audio résiduel, dans lequel la partie de signal audio résiduel indique un résidu entre le signal d'entrée audio et la partie de signal audio cible, dans lequel l'appareil comprend:
un séparateur de sources (110) destiné à déterminer un signal cible estimé qui dépend du signal d'entrée audio, le signal cible estimé étant une estimation d'un signal qui ne comprend que la partie de signal audio cible,

un module de détermination (120), où le module de détermination (120) est configuré pour déterminer une ou plusieurs valeurs de résultat en fonction d'une qualité de son estimée du signal cible estimé pour obtenir une ou plusieurs valeurs de paramètre, où les une ou plusieurs valeurs de paramètre sont les une ou plusieurs valeurs de résultat ou dépendent des une ou plusieurs valeurs de résultat, et

un processeur de signal (130) destiné à générer le signal audio séparé en fonction des une ou plusieurs valeurs de paramètre et en fonction d'au moins l'un parmi le signal cible estimé et le signal d'entrée audio et un signal résiduel estimé, le signal résiduel estimé étant une estimation d'un signal qui ne comprend que la partie de signal audio résiduel,

dans lequel le processeur de signal (130) est configuré pour générer le signal audio séparé en fonction des une ou plusieurs valeurs de paramètre et en fonction d'une combinaison linéaire du signal cible estimé et du signal d'entrée audio; ou dans lequel le processeur de signal (130) est configuré pour générer le signal audio séparé en fonction des une ou plusieurs valeurs de paramètre et en fonction d'une combinaison linéaire du signal cible estimé et du signal résiduel estimé.
Appareil selon la revendication 1,
dans lequel le module de détermination (120) est configuré pour déterminer, en fonction de la qualité de son estimée du signal cible estimé, un paramètre de commande comme les une ou plusieurs valeurs de paramètre, et

dans lequel le processeur de signal est configuré pour déterminer le signal audio séparé en fonction du paramètre de commande et en fonction d'au moins l'un parmi le signal cible estimé et le signal d'entrée audio et le signal résiduel estimé.
Appareil selon la revendication 2,
dans lequel le processeur de signal (130) est configuré pour déterminer le signal audio séparé en fonction de: $y (n) = p_{1} \hat{s} (n) + (1 - p_{1}) \times (n),$

ou en fonction de: $y (n) = p_{1} \hat{s} (n) + (1 - p_{1}) \hat{b} (n),$

où y est le signal audio séparé,

où ŝ est le signal cible estimé,

où x est le signal d'entrée audio,

où b̂ est le signal résiduel estimé,

où p ₁ est le paramètre de commande, et

où n est un indice.
Appareil selon la. revendication 2 ou 3,
dans lequel le module de détermination (120) est configuré pour estimer, en fonction d'au moins l'un parmi le signal cible estimé et le signal d'entrée audio et le signal résiduel estimé, une valeur de qualité de son comme les une ou plusieurs valeurs de résultat, dans lequel la valeur de qualité de son indique la qualité de son estimée du signal cible estimé, et

dans lequel le module de détermination (120) est configuré pour déterminer les une ou plusieurs valeurs de paramètre en fonction de la valeur de qualité de son.
Appareil selon la revendication 4,
dans lequel le processeur de signal (130) est configuré pour générer le signal audio séparé en déterminant une première version du signal audio séparé et en modifiant le signal audio séparé une ou plusieurs fois pour obtenir une ou plusieurs versions intermédiaires du signal audio séparé,

dans lequel le module de détermination (120) est configuré pour modifier la valeur de qualité de son en fonction de l'une des une ou plusieurs valeurs intermédiaires du signal audio séparé, et

dans lequel le processeur de signal (130) est configuré pour arrêter de modifier le signal audio séparé si la valeur de qualité de son est supérieure ou égale à une valeur de qualité définie.
Appareil selon l'une des revendications précédentes,
dans lequel le module de détermination (120) est configuré pour déterminer les une ou plusieurs valeurs de résultat en fonction du signal cible estimé et en fonction d'au moins l'un parmi le signal d'entrée audio et le signal résiduel estimé.
Appareil selon l'une des revendications précédentes,
dans lequel le module de détermination (120) comprend un réseau neuronal artificiel (125) destiné à déterminer les une ou plusieurs valeurs de résultat en fonction du signal cible estimé, dans lequel le réseau neuronal artificiel (125) est configuré pour recevoir une pluralité de valeurs d'entrée, chacune de la pluralité de valeurs d'entrée dépendant d'au moins l'un parmi le signal cible estimé et le signal résiduel estimé et le signal d'entrée audio, et dans lequel le réseau neuronal artificiel (125) est configuré pour déterminer les une ou plusieurs valeurs de résultat comme une ou plusieurs valeurs de sortie du réseau neuronal artificiel (125).
Appareil selon la revendication 7,
dans lequel chacune de la pluralité de valeurs d'entrée dépend d'au moins l'un parmi le signal cible estimé et le signal résiduel estimé et le signal d'entrée audio, et

dans lequel les une ou plusieurs valeurs de résultat indiquent la qualité de son estimée du signal cible estimé.
Appareil selon la revendication 7,
dans lequel chacune de la pluralité de valeurs d'entrée dépend d'au moins l'un parmi le signal cible estimé et le signal résiduel estimé et le signal d'entrée audio, et

dans lequel les une ou plusieurs valeurs de résultat sont les une ou plusieurs valeurs de paramètre.
Appareil selon l'une des revendications 7 à 9,
dans lequel le réseau neuronal artificiel (125) est configuré pour être entraîné en recevant une pluralité d'ensembles d'apprentissage, dans lequel chacun de la pluralité d'ensembles d'apprentissage comprend une pluralité de valeurs d'apprentissage d'entrée du réseau neuronal artificiel (125) et une ou plusieurs valeurs d'apprentissage de sortie du réseau neuronal artificiel (125), dans lequel chacune de la pluralité de valeurs d'apprentissage de sortie dépend d'au moins l'un parmi un signal cible d'apprentissage et un signal résiduel d'apprentissage et un signal d'entrée d'apprentissage, dans lequel chacune des une ou plusieurs valeurs d'apprentissage de sortie dépend d'une estimation d'une qualité de son du signal cible d'apprentissage.
Appareil selon la revendication 10,
dans lequel l'estimation de la qualité de son du signal cible d'apprentissage dépend d'un ou plusieurs modèles informatiques de qualité de son.
Appareil selon la revendication 11,
dans lequel les un ou plusieurs modèles informatiques de qualité de son sont au moins l'un parmi:
Evaluation de Séparation de Sources Aveugle,

Procédés d'Evaluation Perceptuelle pour la Séparation de Sources Audio,

Evaluation Perceptuelle de la Qualité Audio,

Evaluation Perceptuelle de la Qualité de la Parole,

Audio d'Auditeur Objectif de Qualité de la Parole Virtuelle,

Indice de Qualité d'Audio de l'Appareil Auditif,

Indice de Qualité de la Parole de l'Appareil Auditif

Indice de Perception de la Parole de l'Appareil Auditif, et

Intelligibilité Objective à Court Terme.
Appareil selon l'une des revendications 7 à 12,
dans lequel le réseau neuronal artificiel (125) est configuré pour déterminer les une ou plusieurs valeurs de résultat en fonction du signal cible estimé et en fonction d'au moins l'un parmi le signal d'entrée audio et le signal résiduel estimé.
Appareil selon l'une des revendications précédentes,
dans lequel le processeur de signal (130) est configuré pour générer le signal audio séparé en fonction des une ou plusieurs valeurs de paramètre et en fonction d'un post-traitement du signal cible estimé.
Procédé pour générer un signal audio séparé à partir d'un signal d'entrée audio, dans lequel le signal d'entrée audio comprend une partie de signal audio cible et une partie de signal audio résiduel, dans lequel la partie de signal audio résiduel indique un résidu entre le signal d'entrée audio et le partie de signal audio cible, dans lequel le procédé comprend le fait de:
déterminer un signal cible estimé qui dépend du signal d'entrée audio, le signal cible estimé étant une estimation d'un signal qui ne comprend que la partie de signal audio cible,

déterminer une ou plusieurs valeurs de résultat en fonction d'une qualité de son estimée du signal cible estimé pour obtenir une ou plusieurs valeurs de paramètre, où les une ou plusieurs valeurs de paramètre sont les une ou plusieurs valeurs de résultat ou dépendent des une ou plusieurs valeurs de résultat, et

générer le signal audio séparé en fonction des une ou plusieurs valeurs de paramètre et en fonction d'au moins l'un parmi le signal cible estimé et le signal d'entrée audio et un signal résiduel estimé, le signal résiduel estimé étant une estimation d'un signal qui ne comprend que la partie de signal audio résiduel,

dans lequel la génération du signal audio séparé est effectuée en fonction des une ou plusieurs valeurs de paramètre et en fonction d'une combinaison linéaire du signal cible estimé et du signal d'entrée audio; ou dans lequel la génération du signal audio séparé est effectuée en fonction des une ou plusieurs valeurs de paramètre et en fonction d'une combinaison linéaire du signal cible estimé et du signal résiduel estimé.
Programme d'ordinateur pour mettre en oeuvre le procédé selon la revendication 15 lorsqu'il est exécuté sur un ordinateur ou un processeur de signal.