EP3839951B1

EP3839951B1 - Procédé et dispositif de traitement de signal audio, terminal et support d'enregistrement

Info

Publication number: EP3839951B1
Application number: EP20180826.8A
Authority: EP
Inventors: Haining HOU
Original assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Current assignee: Beijing Xiaomi Intelligent Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2020-06-18
Publication date: 2024-01-24
Anticipated expiration: 2040-06-18
Also published as: CN111009256A; US11284190B2; US20210185438A1; EP3839951A1; CN111009256B

Claims

Procédé de traitement d'un signal audio, le procédé comprenant :
l'acquisition, par l'intermédiaire d'au moins deux microphones, des signaux audio envoyés par au moins deux sources sonores, pour obtenir une pluralité de trames de signaux bruités d'origine de chacun des au moins deux microphones sur un domaine temporel (S11) ;

pour chaque trame des signaux bruités d'origine sur le domaine temporel, l'acquisition des signaux d'estimation de domaine fréquentiel de chacune des au moins deux sources sonores en fonction des signaux bruités d'origine des au moins deux microphones (S12) ;

pour chacune des au moins deux sources sonores, la division des signaux d'estimation de domaine fréquentiel en une pluralité de composants d'estimation de domaine fréquentiel sur la base d'un domaine fréquentiel (S13), dans lequel chaque composant d'estimation de domaine fréquentiel correspond à une sous-bande de domaine fréquentiel et comprend une pluralité d'éléments de données de point fréquentiel ;

pour chacune des au moins deux sources sonores, la réalisation d'une décomposition de caractéristiques sur une matrice connexe de chacun des composants d'estimation de domaine fréquentiel pour obtenir un vecteur caractéristique cible correspondant au composant d'estimation de domaine fréquentiel (S14) ;

pour chacune des au moins deux sources sonores, l'obtention d'une matrice de séparation de chacun des points de fréquence sur la base des vecteurs de caractéristiques cibles et des signaux d'estimation de domaine fréquentiel de la source sonore (S15) ; et

l'obtention des signaux audio de sons produits par au moins deux sources sonores sur la base des matrices de séparation et des signaux bruités d'origine (S16),

dans lequel pour chacune des au moins deux sources sonores, l'obtention des matrices de séparation des points de fréquence sur la base des vecteurs de caractéristiques cibles et des signaux d'estimation de domaine fréquentiel de la source sonore (S15) comprend :
pour chacune des au moins deux sources sonores, l'obtention de données de mappage du cième composant d'estimation de domaine fréquentiel mis en correspondance dans un espace prédéfini sur la base d'un produit d'une matrice transposée du vecteur caractéristique cible du cième composant d'estimation de domaine fréquentiel et du cième composant d'estimation de domaine fréquentiel ; et

l'obtention des matrices de séparation sur la base des données de mappage et des opérations itératives du premier signal bruité d'origine de trame au Nième signal bruité d'origine de trame.
Procédé selon la revendication 1, comprenant en outre :
pour chacune des au moins deux sources sonores, l'obtention d'une première matrice d'un cième composant d'estimation de domaine fréquentiel sur la base d'un produit du cième composant d'estimation de domaine fréquentiel et d'une transposée conjuguée du cième composant d'estimation de domaine fréquentiel ; et

l'acquisition d'une matrice connexe du cième composant d'estimation de domaine fréquentiel sur la base de premières matrices du cième composant d'estimation de domaine fréquentiel dans un premier signal bruité d'origine de trame à un Nième signal bruité d'origine de trame, N étant un nombre de trames des signaux bruités d'origine, c étant un nombre entier positif inférieur ou égal à C et C étant le nombre des sous-bandes de domaine fréquentiel.
Procédé selon l'une quelconque des revendications 1 à 2, comprenant en outre :
la réalisation d'une transformation non linéaire sur les données de mappage selon une fonction logarithmique pour obtenir des données de mappage mises à jour.
Procédé selon l'une quelconque des revendications 1 à 3, dans lequel l'obtention des matrices de séparation sur la base des données de mappage et des opérations itératives du premier signal bruité d'origine de trame au Nième signal bruité d'origine de trame comprend :
la réalisation d'une itération de gradient sur la base des données de mappage mises à jour du cième composant d'estimation de domaine fréquentiel, du signal d'estimation de domaine fréquentiel, du signal bruité d'origine et d'une (x-1 )ième matrice alternative pour obtenir une xième matrice alternative, dans lequel une première matrice alternative est une matrice d'identité connue et x est un nombre entier positif supérieur ou égal à 2 ; et

la détermination d'une cième matrice de séparation sur la base de la xième matrice alternative lorsque la xième matrice alternative satisfait une condition d'arrêt d'itération.
Procédé selon la revendication 4, dans lequel l'exécution de l'itération de gradient sur la base des données de mappage mises à jour du cième composant d'estimation de domaine fréquentiel, du signal d'estimation de domaine fréquentiel, du signal bruité d'origine et de la (x-1)ème matrice alternative pour obtenir la xième matrice alternative comprend :
la réalisation d'une première dérivation sur les données de mappage mises à jour du cième composant d'estimation de domaine fréquentiel pour obtenir une première dérivée ;

la réalisation d'une seconde dérivation sur les données de mappage mises à jour du cième composant d'estimation de domaine fréquentiel pour obtenir une seconde dérivée ; et

la réalisation de l'itération de gradient sur la base de la première dérivée, de la seconde dérivée, du signal d'estimation de domaine fréquentiel, du signal bruité d'origine et de la (x-1)ième matrice alternative pour obtenir la xième matrice alternative.
Procédé selon l'une quelconque des revendications 1 à 5, dans lequel l'obtention des signaux audio de sons produits par les au moins deux sources sonores sur la base des matrices de séparation et des signaux bruités d'origine (S16) comprend :
pour chacun des signaux d'estimation de domaine fréquentiel, la réalisation d'une séparation sur un nième signal bruité d'origine de trame correspondant au signal d'estimation de domaine fréquentiel sur la base d'une première matrice de séparation à une Cième matrice de séparation, pour obtenir des signaux audio de sources sonores différentes dans le Nième signal bruité d'origine de trame correspondant au signal d'estimation de domaine fréquentiel, n étant un entier positif inférieur à N ; et

la combinaison des signaux audio d'une pième source sonore dans le nième signal bruité d'origine de trame correspondant à tous les signaux d'estimation de domaine fréquentiel pour obtenir un nième signal audio de trame de la pième source sonore, p étant un entier positif inférieur ou égal à P et P étant le nombre des sources sonores.
Procédé selon l'une quelconque des revendications 1 à 6, comprenant en outre :
la combinaison d'un premier signal audio de trame à un Nième signal audio de trame de la pième source sonore en ordre chronologique pour obtenir N trames de signaux bruités originaux comprenant le signal audio de la pième source sonore.
Dispositif de traitement d'un signal audio, comprenant :
un module d'acquisition (41) configuré pour acquérir, à travers au moins deux microphones, des signaux audio envoyés par au moins deux sources sonores, pour obtenir une pluralité de trames de signaux bruités d'origine de chacun des au moins deux microphones sur un domaine temporel ;

un module de conversion (42) configuré pour, pour chaque trame du signal bruité d'origine sur le domaine temporel, acquérir des signaux d'estimation de domaine fréquentiel de chacune des au moins deux sources sonores selon les signaux bruités d'origine des au moins deux microphones ;

un module de division (43) configuré pour, pour chacune des au moins deux sources sonores, diviser les signaux d'estimation de domaine fréquentiel en une pluralité de composants d'estimation de domaine fréquentiel sur un domaine fréquentiel, dans lequel chaque composant d'estimation de domaine fréquentiel correspond à une sous-bande de domaine fréquentiel et comprend une pluralité d'éléments de données de point fréquentiel ;

un module de décomposition (44) configuré pour, pour chacune des au moins deux sources sonores, réaliser une décomposition de caractéristiques sur une matrice connexe de chacun des composants d'estimation de domaine fréquentiel pour obtenir un vecteur caractéristique cible correspondant au composant d'estimation de domaine fréquentiel ;

un premier module de traitement (45) configuré pour, pour chacune des au moins deux sources sonores, obtenir une matrice de séparation de chacun des points de fréquence sur la base des vecteurs de caractéristiques cibles et des signaux d'estimation du domaine fréquentiel de la source sonore ; et

un deuxième module de traitement (46) configuré pour obtenir les signaux audio de sons produits par les au moins deux sources sonores sur la base des matrices de séparation et des signaux bruités d'origine,

dans lequel le premier module de traitement (45) est configuré pour :
pour chacune des au moins deux sources sonores, l'obtention des données de mappage du cième composant d'estimation de domaine fréquentiel mis en correspondance dans un espace prédéfini sur la base d'un produit d'une matrice transposée du vecteur caractéristique cible du cième composant d'estimation de domaine fréquentiel et du cième composant d'estimation de domaine fréquentiel ; et

l'obtention des matrices de séparation sur la base des données de mappage et des opérations itératives du premier signal bruité d'origine de trame au Nième signal bruité d'origine de trame,

dans lequel le premier module de traitement (45) est en outre configuré pour effectuer une transformation non linéaire sur les données de mappage selon une fonction logarithmique pour obtenir des données de mappage mises à jour.
Dispositif selon la revendication 8, dans lequel le module d'acquisition (41) est configuré pour :
pour chacune des au moins deux sources sonores, obtenir une première matrice d'un cième composant d'estimation de domaine fréquentiel sur la base d'un produit du cième composant d'estimation de domaine fréquentiel et d'une transposée conjuguée du cième composant d'estimation de domaine fréquentiel ; et

acquérir une matrice connexe du cième composant d'estimation de domaine fréquentiel sur la base des premières matrices du cième composant d'estimation de domaine fréquentiel dans un premier signal bruité d'origine de trame à un Nième signal bruité d'origine de trame, N étant un nombre de trames des signaux bruités d'origine, c étant un entier positif inférieur ou égal à C et C étant un nombre des sous-bandes de domaine fréquentiel.
Dispositif selon l'une quelconque des revendications 8 à 9, dans lequel le premier module de traitement (45) est configuré pour : effectuer une itération de gradient sur la base des données de mappage mises à jour du cième composant d'estimation de domaine fréquentiel, du signal d'estimation de domaine fréquentiel, du signal bruité d'origine et d'une (x-1)ème matrice alternative pour obtenir une xième matrice alternative, dans lequel une première matrice alternative est une matrice d'identité connue et x étant un entier positif supérieur ou égal à 2 ; et
déterminer une cième matrice de séparation sur la base de la xième matrice alternative lorsque la xième matrice alternative respecte une condition d'arrêt d'itération,

dans lequel le premier module de traitement (45) est configuré pour :
effectuer une première dérivation sur les données de mappage mises à jour du cième composant d'estimation de domaine fréquentiel pour obtenir une première dérivée ;

effectuer une seconde dérivation sur les données de mappage mises à jour du cième composant d'estimation de domaine fréquentiel pour obtenir une seconde dérivée ; et

effectuer une itération de gradient sur la base de la première dérivée, de la seconde dérivée, du signal d'estimation de domaine fréquentiel, du signal bruité d'origine et de la (x-1) ième matrice alternative pour obtenir la xième matrice alternative.
Dispositif selon l'une quelconque des revendications 8 à 10, dans lequel le second module de traitement (46) est configuré pour : pour chacun des signaux d'estimation de domaine fréquentiel, réaliser une séparation sur le nième signal bruité d'origine de trame correspondant au signal d'estimation de domaine fréquentiel sur la base d'une première matrice de séparation à une Cième matrice de séparation, pour obtenir des signaux audio de sources sonores différentes dans le nième signal bruité d'origine de trame correspondant au signal d'estimation de domaine fréquentiel, n étant un entier positif inférieur à N ; et
combiner les signaux audio d'une pième source sonore dans le nième signal bruité d'origine de trame correspondant à tous les signaux d'estimation de domaine fréquentiel pour obtenir un nième signal audio de trame de la pième source sonore, p étant un entier positif inférieur ou égal à P et P étant le nombre des sources sonores, dans lequel le deuxième module de traitement (46) est en outre configuré pour :
combiner un premier signal audio de trame à un Nième signal audio de trame de la pième source sonore en ordre chronologique pour obtenir N trames de signaux bruités originaux comprenant le signal audio de la pième source sonore.
Terminal, comprenant :
un processeur ; et

une mémoire configurée pour stocker des instructions exécutables par le processeur,

dans lequel le processeur est configuré pour exécuter les instructions exécutables afin de mettre en oeuvre le procédé de traitement d'un signal audio selon l'une quelconque des revendications 1 à 7.
Support de stockage lisible par ordinateur stockant un programme exécutable, le programme exécutable étant exécuté par un processeur pour mettre en oeuvre le procédé de traitement d'un signal audio selon l'une quelconque des revendications 1 à 7.