FR2944640A1 - Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. - Google Patents

Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. Download PDF

Info

Publication number
FR2944640A1
FR2944640A1 FR0952531A FR0952531A FR2944640A1 FR 2944640 A1 FR2944640 A1 FR 2944640A1 FR 0952531 A FR0952531 A FR 0952531A FR 0952531 A FR0952531 A FR 0952531A FR 2944640 A1 FR2944640 A1 FR 2944640A1
Authority
FR
France
Prior art keywords
noise
signal
background noise
speech
noise signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0952531A
Other languages
English (en)
Inventor
Julien Faure
Adrien Leman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0952531A priority Critical patent/FR2944640A1/fr
Priority to US13/264,945 priority patent/US8886529B2/en
Priority to EP10723655A priority patent/EP2419900B1/fr
Priority to PCT/FR2010/050699 priority patent/WO2010119216A1/fr
Publication of FR2944640A1 publication Critical patent/FR2944640A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Exchanges (AREA)

Abstract

Procédé et dispositif d'évaluation objective de la qualité vocale d'un signal de parole, le dispositif comprenant : - un module (11 ) d'extraction à partir du signal de parole (SIG) d'un signal de bruit de fond, dit signal de bruit ; - un module (13) de calcul de paramètres audio du signal de bruit ; - un module (15) de classification du bruit de fond contenu dans le signal de bruit, en fonction des paramètres audio calculés, selon un ensemble prédéfini de classes de bruits de fond (CL); - un module (17) d'évaluation de la qualité vocale du signal de parole, en fonction d'au moins la classification obtenue relative au bruit de fond présent dans le signal de parole.

Description

PROCEDE ET DISPOSITIF D'EVALUATION OBJECTIVE DE LA QUALITE VOCALE D'UN SIGNAL DE PAROLE PRENANT EN COMPTE LA CLASSIFICATION DU BRUIT DE FOND CONTENU DANS LE SIGNAL DESCRIPTION
La présente invention a trait de manière générale au traitement des signaux de parole et notamment les signaux vocaux transmis dans les 10 systèmes de télécommunications. L'invention concerne en particulier un procédé et un dispositif d'évaluation objective de la qualité vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. L'invention s'applique notamment aux signaux de parole transmis au cours d'une communication téléphonique au travers d'un réseau de 15 communication, par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets. Dans le domaine de la communication vocale, le bruit inclus dans un signal de parole, désigné par "bruit de fond", peut inclure des bruits divers : des sons provenant de moteurs (automobiles, motos), d'avions passant dans le ciel, 20 des bruits de conversation/murmures ù par exemple dans un environnement de restaurant ou de café ù, de la musique, et bien d'autres bruits audibles. Dans certains cas, le bruit de fond peut être un élément supplémentaire de la communication pouvant apporter des informations utiles aux auditeurs (contexte de mobilité, lieu géographique, partage d'ambiance). 25 Depuis l'avènement de la téléphonie mobile, la possibilité de communiquer depuis n'importe quel endroit a contribué à augmenter la présence de bruit de fond dans les signaux de parole transmis, et a rendu par conséquent nécessaire le traitement du bruit de fond, afin de préserver un niveau acceptable de qualité de communication. Par ailleurs, outre les bruits 30 provenant de l'environnement où a lieu la prise de son, des bruits parasites, produits notamment lors du codage et de la transmission du signal audio sur le5 réseau (pertes de paquets par exemple, en voix sur IP) peuvent également interagir avec le bruit de fond. Dans ce contexte, on peut donc supposer que la qualité perçue de la parole transmise est dépendante de l'interaction entre les différents types de bruits composant le bruit de fond. Ainsi, le document : "Influence of informational content of background noise on speech quality evaluation for VoIP application" (désigné ci-après par "Document (1f'), de A. Leman, J. Faure et E. Parizet ù article présenté lors de la conférence "Acoustics'08" qui s'est tenue à Paris du 29 juin au 4 juillet 2008 ù décrit des tests subjectifs qui, non ~o seulement montrent que le niveau sonore des bruits de fond joue un rôle prépondérant dans l'évaluation de la qualité vocale dans le cadre d'une application voix sur IP (VoIP), mais démontrent également que le type de bruit de fond (bruit d'environnement, bruit de ligne, etc.) qui se superpose au signal vocal (le signal utile) joue un rôle important lors de l'évaluation de la qualité 15 vocale de la communication. La figure 1 annexée à la présente description, est issue du Document [1] précité (voir section 3.5, Figure 2 de ce document) et représente les moyennes d'opinion (MOS LQSN) avec l'intervalle de confiance associé, calculées à partir de notes données par des auditeurs testeurs à des messages audio contenant 20 six types de bruits de fond différents, selon la méthode ACR (Absolute Category Rating). Les divers types de bruit sont les suivants : bruit rose, bruit de parole stationnaire (BPS), bruit électrique, bruits de ville, bruits de restaurant, bruits de télévision ou voix, chaque bruit étant considéré à trois niveaux différents de sonie perçue. 25 La ligne horizontale située au dessus des autres courbes représente la notation correspondant à un signal audio ne contenant pas de bruit de fond. Les notes données, "MOS LQSN" ù pour "Mean Opinion Score of Listening Quality obtained with Subjective method for Narrow band signais" ù sont conformes aux recommandations P. 800 et P. 800.1 de l'ITU-T, ayant pour titre, 30 respectivement, "Methods for subjective determination of transmission quality" et "Mean Opinion Score (MOS) terminoiogy''. Comme on peut le voir sur la figure 1, les notes données pour un même signal utile (c'est-à-dire le signal de parole contenu dans le signal audio testé) varient non seulement en fonction du type de bruit de fond contenu dans le signal audio, mais également en fonction du niveau sonore perçu (sonie) d'un bruit de fond considéré. Pourtant, à ce jour, le type du bruit de fond présent dans un signal audio considéré n'est pas pris en compte dans les méthodes connues d'évaluation objective de la qualité vocale d'un signal de parole, qu'il s'agisse par exemple du modèle PESQ (cf. Rec. ITU-T, P.862), du modèle E (décrit par exemple dans la Rec. ITU-T, G.107 "The E-model, a computational mode/ for use in transmission planning", 2003), ou bien encore de méthodes non intrusives comme celle décrite dans le document "P.563-The ITU-T Standard for Single-Ended Speech Quality Assessment", de L. Malfait, J. Berger, et M. Kastner, IEEE Transaction on Audio, Speech, and Language Processing, vol. 14(6), pp. 1924-1934, 2006. Ainsi, compte tenu de ce qui précède, il existe un réel besoin de disposer 15 d'un modèle d'évaluation objective de la qualité vocale, prenant en compte le type de bruit de fond présent dans un signal audio à évaluer. La présente invention a notamment pour objectif de répondre au besoin précité, en proposant selon un premier aspect un procédé d'évaluation objective de la qualité vocale d'un signal de parole. Conformément à l'invention, 20 ce procédé comprend les étapes de : - classification du bruit de fond contenu dans le signal de parole selon un ensemble prédéfini de classes de bruits de fond ; - évaluation de la qualité vocale du signal de parole, en fonction d'au moins la classification obtenue relative au bruit de fond présent dans le signal 25 de parole. Selon l'invention, la prise en compte du type du bruit de fond présent dans le signal de parole dans l'évaluation objective de la qualité vocale du signal de parole, permet d'obtenir une évaluation de la qualité plus proche de l'évaluation subjective de la qualité vocale ù c'est-à-dire la qualité réellement 30 perçue par des utilisateurs ù que ne le permettent les méthodes connues d'évaluation objectives de la qualité vocale.
Selon un mode de réalisation de l'invention, l'étape d'évaluation de la qualité vocale du signal de parole, comprend les étapes de : - estimation de la sonie totale (N) du signal de bruit (SIG_N) ; - calcul d'une note de qualité vocale en fonction de la classe de bruit de fond présent dans le signal de parole, et de la sonie totale estimée pour le signal de bruit. En pratique, une note de qualité vocale (MOS_CLi) selon l'invention est obtenue selon une formule mathématique de la forme générale suivante : MOS CLi=+C~xf(N) Où : • MOS CLi est la note calculée pour le signal de bruit ; • f(N)est une fonction mathématique de la sonie totale, N, estimée pour le signal de bruit ; • C,_, et C; sont deux coefficients définis pour la classe (CLi) de bruit de fond obtenue pour le signal de bruit. Plus particulièrement, selon une réalisation particulière de l'invention, la fonction f (N) est le logarithme népérien,Ln(N) , de la sonie totale N exprimée en sones. En particulier, selon une caractéristique de réalisation de l'invention, la sonie totale du signal de bruit est estimée selon un modèle objectif d'estimation de la sonie, par exemple le modèle de Zwicker ou le modèle de Moore. Selon d'autres caractéristiques de réalisation de l'invention, l'étape de classification du bruit de fond contenu dans le signal de parole, inclut les étapes de. - extraction du signal de parole, d'un signal de bruit de fond, dit signal de bruit ; - calcul de paramètres audio du signal de bruit ; - classification du bruit de fond contenu dans le signal de bruit, en fonction des paramètres audio calculés, selon ledit ensemble de classes de bruits de fond. Selon un mode particulier de réalisation de l'invention, l'étape de calcul de paramètres audio du signal de bruit, comprend le calcul d'un premier paramètre (IND_TMP), dit indicateur temporel, relatif à l'évolution temporelle du signal de bruit, et d'un second paramètre (IND_FRQ), dit indicateur fréquentiel, relatif au spectre fréquentiel du signal de bruit. En pratique, l'indicateur temporel (IND_TMP) est obtenu à partir d'un calcul de variation du niveau sonore du signal de bruit, et l'indicateur fréquentiel (IND FRQ) est obtenu à partir d'un calcul de variation de l'amplitude du spectre fréquentiel du signal de bruit. La combinaison de ces deux indicateurs permet d'obtenir un taux faible d'erreurs de classifications, alors que leur calcul est peu consommateur en ressources de calcul. Selon une implémentation particulière de l'étape de classification précitée, pour effectuer cette classification du bruit de fond associé au signal de bruit, le procédé de l'invention met en oeuvre des étapes consistant à : - comparer la valeur de l'indicateur temporel (IND_TMP) obtenue pour le signal de bruit à un premier seuil (TH1), et déterminer en fonction du résultat de cette comparaison que le signal de bruit est stationnaire ou non ; - lorsque le signal de bruit est identifié comme non-stationnaire, comparer la valeur de l'indicateur fréquentiel à un second seuil (TH2), et déterminer en fonction du résultat de cette comparaison que le signal de bruit appartient à une première classe ou à une seconde classe de bruits de fond ; - lorsque le signal de bruit est identifié comme stationnaire, comparer la valeur de l'indicateur fréquentiel à un troisième seuil (TH3), et déterminer en fonction du résultat de cette comparaison que le signal de bruit appartient à une troisième classe ou à une quatrième classe de bruits de fond.
Par ailleurs, dans ce mode de mise en oeuvre l'ensemble des classes obtenu selon l'invention, comprend au moins les classes suivantes : - bruit intelligible ; - bruit d'environnement ; - bruit de souffle ; - bruit de grésillement. L'utilisation des trois seuils TH1, TH2, TH3 précités, dans une structure de classification arborescente simple permet de classifier rapidement un échantillon de signal de bruit. D'autre part, en calculant la classe d'un échantillon sur des fenêtres de courtes durées, on peut obtenir une actualisation en temps réel de la classe de bruit de fond du signal de bruit analysé.
Corrélativement, selon un deuxième aspect, l'invention concerne un dispositif d'évaluation objective de la qualité vocale d'un signal de parole. Conformément à l'invention, ce dispositif comprend : - des moyens de classification du bruit de fond contenu dans le signal de parole selon un ensemble prédéfini de classes de bruits de fond ; ~o - des moyens d'évaluation de la qualité vocale du signal de parole, en fonction d'au moins la classification obtenue relative au bruit de fond présent dans le signal de parole. Selon des caractéristiques particulières de réalisation de l'invention, ce dispositif d'évaluation objective de la qualité vocale comprend : 15 - un module d'extraction à partir du signal de parole d'un signal de bruit de fond, dit signal de bruit ; - un module de calcul de paramètres audio du signal de bruit ; - un module de classification du bruit de fond contenu dans le signal de bruit, en fonction des paramètres audio calculés, selon un ensemble prédéfini 20 de classes de bruits de fond ; - un module d'évaluation de la qualité vocale du signal de parole, en fonction d'au moins la classification obtenue relative au bruit de fond présent dans le signal de parole. Selon un autre aspect, l'invention concerne un programme d'ordinateur 25 sur un support d'informations, ce programme comportant des instructions adaptées à la mise en oeuvre d'un procédé selon l'invention tel que brièvement défini plus haut, lorsque le programme est chargé et exécuté dans un ordinateur. Les avantages procurés par le dispositif d'évaluation objective de qualité 30 vocale et le programme d'ordinateur précités, sont identiques à ceux mentionnés plus haut en relation avec le procédé d'évaluation objective de la qualité vocale d'un signal de parole.
L'invention sera mieux comprise à l'aide de la description détaillée qui va suivre, faite en se référant aux dessins annexés dans lesquels : - La figure 1, déjà abordée, est une représentation graphique des notes subjectives moyennes données par des auditeurs testeurs à des messages audio contenant divers types de bruits de fond et selon plusieurs niveaux de sonie, conformément à une étude connue de l'état de la technique ; - La figure 2 représente une fenêtre logicielle affichée sur un écran d'ordinateur montrant l'arbre de sélection obtenu par apprentissage ~o pour définir un modèle de classification de bruits de fond utilisé selon l'invention ; - Les figures 3a et 3b représentent un organigramme illustrant un procédé d'évaluation objective de la qualité vocale d'un signal de parole, selon un mode de réalisation de l'invention ; 15 - La figure 4 est un organigramme détaillant l'étape (fig. 3b, S23) d'évaluation de la qualité vocale d'un signal de parole en fonction de la classification du bruit de fond contenu dans le signal de parole ; - La figure 5 montre graphiquement le résultat de tests subjectifs d'évaluation de la qualité vocale selon l'invention, ainsi que les 20 courbes obtenues par régression logarithmique, qui lient les notes de qualité perçue à la sonie perçue pour des signaux audio correspondant aux classes de bruit de fond définies selon l'invention ; - La figure 6 montre graphiquement le degré de corrélation existant entre les notes de qualité obtenues lors des tests subjectifs et celles 25 obtenues selon la méthode d'évaluation objective de la qualité, selon la présente invention ; - La figure 7 représente un schéma fonctionnel d'un dispositif d'évaluation objective de la qualité vocale d'un signal de parole, selon l'invention. 30 Le procédé d'évaluation objective de la qualité vocale d'un signal de parole selon l'invention est remarquable en qu'il utilise le résultat de la phase de classification du bruit de fond contenu dans le signal de parole, pour estimer la qualité vocale du signal. La phase de classification du bruit de fond contenu dans le signal de parole, repose sur la mise en oeuvre d'un modèle de classification de bruits de fond, construit au préalable, et dont le mode de construction selon l'invention est décrit ci-après.
Construction du modèle de classification des bruits de fond La construction d'un modèle de classification de bruit se déroule classiquement selon trois phases successives. La première phase consiste à déterminer une base sonore composée de signaux audio contenant divers bruits de fond, chaque signal audio étant étiqueté comme appartenant à une classe donnée de bruit. Ensuite, au cours d'une seconde phase on extrait de chaque échantillon sonore de la base un certains nombre de paramètres caractéristiques prédéfinis formant un ensemble d'indicateurs. Finalement, au cours de la troisième phase, dite phase d'apprentissage, l'ensemble des couples composés, chacun, de l'ensemble d'indicateurs et de la classe de bruit associée, est fourni à un moteur d'apprentissage destiné à fournir un modèle de classification permettant de classifier un échantillon sonore quelconque sur la base d'indicateurs déterminés, ces derniers étant sélectionnés comme étant les plus pertinents parmi les divers indicateurs utilisés au cours de la phase d'apprentissage. Le modèle de classification obtenu permet ensuite, à partir d'indicateurs extraits d'un échantillon sonore quelconque (ne faisant pas partie de la base sonore), de fournir une classe de bruit à laquelle appartient cet échantillon. Dans le Document [1] cité plus haut, il est démontré que la qualité vocale peut être influencée par la signification du bruit dans le contexte de la téléphonie. Ainsi, si des utilisateurs identifient du bruit comme étant issu d'une source sonore de l'environnement du locuteur, une certaine indulgence est observée concernant l'évaluation de la qualité perçue. Deux tests ont permis de vérifier cela, le premier test concernant l'interaction des caractéristiques et niveaux sonores des bruits de fond avec la qualité vocale perçue, et le second test concernant l'interaction des caractéristiques des bruits de fond avec les dégradations dues à la transmission de voix sur IP. Partant des résultats de l'étude exposée dans le document précité, les inventeurs de la présente invention, ont cherché à définir des paramètres (indicateurs) d'un signal audio permettant de mesurer et de quantifier la signification du bruit de fond présent dans ce signal et ensuite de définir une méthode de classification statistique du bruit de fond en fonction des indicateurs retenus.
Phase 1 û Constitution d'une base sonore de signaux audio Pour la construction du modèle de classification de la présente invention, la base sonore utilisée est constituée, d'une part, des signaux audio ayant servi aux tests subjectifs décrits dans le Document [1], et d'autre part de signaux audio issus de bases sonores publiques.
Concernant les signaux audio issus des tests subjectifs précités, dans le premier test (voir Document [1], section 3.2) 152 échantillons sonores sont utilisés. Ces échantillons sont obtenus à partir de huit phrases de même durée (8 secondes) sélectionnées à partir d'une liste normalisée de doubles phrases, produites par quatre locuteurs (deux hommes et deux femmes). Ces phrases sont ensuite mixées avec six types de bruits de fond (détaillés plus bas) à trois niveaux différents de sonie (loudness en anglais). Des phrases sans bruit de fond sont également incluses. Ensuite l'ensemble des échantillons est encodé avec un codec G.711. Les résultats de ce premier test sont illustrés par la figure 1 décrite plus haut.
Dans le second test (voir Document [1], section 4.1), les mêmes phrases sont mixées avec les six types de bruits de fond avec un niveau de sonie moyen, puis quatre types de dégradations dues à la transmission de voix sur IP sont introduites (codec G.711 avec 0% et 3% de perte de paquets ; codec G.729 avec 0% et 3% de perte de paquets). Au total, 192 échantillons sonores sont obtenus selon le deuxième test. Les six types de bruits de fond utilisés dans le cadre des tests subjectifs précités sont les suivants : - un bruit rose (pink-noise), considéré comme la référence (bruit stationnaire avec -3 dB/octave de contenu fréquentiel) ; - un bruit de parole stationnaire (BPS) c'est-à-dire un bruit aléatoire avec un contenu fréquentiel similaire à la voix humaine standardisée (stationnaire) ; - un bruit électrique, c'est-à-dire un son harmonique ayant une fréquence fondamentale de 50Hz simulant un bruit de circuit (stationnaire) ; - un bruit d'environnement de ville avec présence de voitures, avertisseurs sonores, etc. (non-stationnaire) ; - un bruit d'environnement de restaurant avec présence de murmures, bruit de verres, rires, etc. (non-stationnaire) ; - un son de voix intelligible enregistrée depuis une source TV (non-stationnaire).
Tous les sons sont échantillonnés à 8 kHz (16 bits), et un filtre passe-bande IRS (Intermediate Reference System) est utilisé pour simuler un réseau téléphonique réel. Les six types de bruits cités ci-dessus sont répétés avec des dégradations liées aux codages G.711 et G.729, avec des pertes de paquets, ainsi qu'avec plusieurs niveaux de diffusion.
Concernant les signaux audio issus de bases sonores publiques, utilisés pour compléter la base sonore, il s'agit de 48 autres signaux audio, comportant différents bruits, comme par exemple des bruits de ligne, de vent, de voiture, d'aspirateur, de sèche-cheveux, de murmures confus (babble en anglais), des bruits issus du milieu naturel (oiseau, eau qui coule, pluie, etc.), de la musique.
Ces 48 bruits ont été ensuite soumis à six conditions de dégradations, comme expliqué ci-après. Chaque bruit est échantillonné à 8 kHz, filtré avec l'outil IRS8, codé et décodé en G.711 ainsi qu'en G.729 dans le cas de la bande étroite (300 - 3400 Hz), puis chaque son est échantillonné à 16 kHz, puis filtré avec l'outil décrit dans la recommandation P.341 de l'UIT-T ("Transmission characteristics for wideband (150-7000 Hz) digital hands-free telephony terminais", 1998), et enfin codé et décodé en G.722 (large bande 50 û 7000 Hz). Ces trois conditions dégradées sont ensuite restituées selon deux niveaux dont le rapport signal sur bruit (SNR) vaut respectivement 16 et 32. Chaque bruit dure quatre secondes.
Finalement, on obtient au total 288 signaux audio différents. Ainsi, la base sonore utilisée pour mettre au point le modèle de classification se compose finalement de 632 signaux audio.
Chaque échantillon sonore de la base sonore est étiqueté manuellement pour identifier une classe de bruit de fond d'appartenance. Les classes retenues ont été définies suite aux tests subjectifs mentionnés dans le Document [1] et plus précisément, ont été déterminées en fonction de l'indulgence vis-à-vis des bruits perçus, manifestée par les sujets humains testés lors du jugement de la qualité vocale en fonction du type de bruit de fond (parmi les 6 types précités). Ainsi, quatre classes de bruit de fond (BDF) ont été retenues : - Classe 1 : BDF "intelligible" ù il s'agit de bruit de nature intelligible tels que de la musique, de la parole, etc. Cette classe de bruit de fond provoque une forte indulgence sur le jugement de la qualité vocale perçue, par rapport à un bruit de souffle de même niveau. - Classe 2 : BDF "d'environnement" ù il s'agit de bruits ayant du contenu informationnel et fournissant des informations sur l'environnement du locuteur, comme des bruits de ville, de restaurant, de nature, etc. Cette classe de bruit provoque une légère indulgence sur le jugement de la qualité vocale perçue par les utilisateurs par rapport à un bruit de souffle de même niveau. - Classe 3 : BDF "souffle" ù Ces bruits sont de nature stationnaire et ne contiennent pas de contenu informationnel, il s'agit par exemple de bruit rose, de bruit de vent stationnaire, de bruit de parole stationnaire (BPS). - Classe 4 : BDF "grésillement" ù il s'agit de bruits ne contenant pas de contenu informationnel, comme du bruit électrique, du bruit non stationnaire bruité, etc. Cette classe de bruit provoque une forte dégradation de la qualité vocale perçue par les utilisateurs, par rapport à un bruit de souffle de même niveau. Phase 2 û Extraction de paramètres des signaux audio de la base sonore Pour chacun des signaux audio de la base sonore, huit paramètres ou indicateurs connus en soi sont calculés. Ces indicateurs sont les suivants : - (1) La corrélation du signal : il s'agit d'un indicateur utilisant le coefficient de corrélation de Bravais-Pearson appliqué entre le signal entier et le même signal décalé d'un échantillon numérique. - (2) Le taux de passage par zéro (ZCR) du signal ; - (3) La variation du niveau acoustique du signal ; - (4) Le centre de gravité spectral (Spectral Centroid) du signal ; - (5) La rugosité spectrale du signal ; - (6) Le flux spectral du signal ; - (7) Le point spectral de coupure (Spectral Rolloff Point) du signal ; - (8) Le coefficient harmonique du signal. Phase 3 ù Obtention du modèle de classification Le modèle de classification est obtenu par apprentissage à l'aide d'un arbre de décision (cf. figure 1), réalisé à l'aide de l'outil statistique appelé "classregtree" de l'environnement MATLAB commercialisé par la société The MathWorks. L'algorithme utilisé est développé à partir de techniques décrites dans le livre intitulé "Classification and regression trees" de Leo Breiman et al. publié par Chapman and Hall en 1993. Chaque échantillon de bruit de fond de la base sonore est renseigné par les huit indicateurs précités et la classe d'appartenance de l'échantillon (1: intelligible ; 2: environnement ; 3: souffle ; 4: grésillement). L'arbre de décision calcule alors les différentes solutions possibles afin d'obtenir une classification optimum, se rapprochant le plus des classes étiquetées manuellement. Au cours de cette phase d'apprentissage, les indicateurs audio les plus pertinents sont retenus, et des seuils de valeur associés à ces indicateurs sont définis, ces seuils permettant de séparer les différentes classes et sous-classes de bruit de fond. Lors de l'apprentissage, 500 bruits de fond de différents types sont choisis aléatoirement parmi les 632 de la base sonore. Le résultat de la classification obtenue par apprentissage est représenté à la figure 1.
Comme on peut le voir sur l'arbre de décision représenté à la figure 2, la classification résultante utilise seulement deux indicateurs parmi les huit initiaux pour classer les 500 bruits de fond de l'apprentissage dans les quatre classes prédéfinies. Les indicateurs sélectionnés sont les indicateurs (3) et (6) de la liste introduite plus haut et représentent respectivement la variation du niveau acoustique et le flux spectral des signaux de bruit de fond. Comme représenté à la figure 2, le modèle de classification obtenu par apprentissage commence par séparer les bruits de fond en fonction de leur caractère de stationnarité. Ce caractère de stationnarité est mis en évidence par l'indicateur temporel caractéristique de la variation du niveau acoustique (indicateur (3)). Ainsi, si cet indicateur a une valeur inférieure à un premier seuil ù TH1 = 1,03485 ù alors le bruit de fond est considéré comme stationnaire (branche gauche), sinon le bruit de fond est considéré comme non-stationnaire (branche droite). Ensuite, l'indicateur fréquentiel caractéristique du flux spectral (indicateur (6)) filtre à son tour chacune des deux catégories (stationnaire/nonstationnaire) sélectionnées avec l'indicateur (3). Ainsi, lorsque le signal de bruit est considéré comme non-stationnaire, si l'indicateur fréquentiel est inférieur à un second seuil ù TH2 = 0,280607 ù alors le signal de bruit appartient à la classe "environnement", sinon le signal de bruit appartient à la classe "intelligible". D'autre part, lorsque le signal de bruit est considéré comme stationnaire, si l'indicateur fréquentiel (indicateur (6), flux spectral) est inférieur à un troisième seuil ù TH3 = 0,145702 ù alors le signal de bruit appartient à la classe "grésillement", sinon le signal de bruit appartient à la classe "souffle". L'arbre de sélection (fig.1), obtenu avec les deux indicateurs précités, a permis de classifier correctement 86,2% des signaux de bruits de fond parmi les 500 signaux audio soumis à l'apprentissage. Plus précisément, les proportions de bonne classification obtenues pour chaque classe sont les suivantes : • 100% pour la classe "grésillement", • 96,4% pour la classe "souffle", • 79,2% pour la classe "environnement", • 95,9% pour la classe "intelligible". On peut remarquer que la classe "environnement" obtient un résultat de bonne classification plus faible que pour les autres classes. Ce résultat est dû à la différenciation entre bruits de "souffle" et "d'environnement" qui peut parfois être difficile à effectuer, de par la ressemblance de certains sons pouvant être rangés à la fois dans ces deux classes, par exemple des sons tels que le bruit du vent ou le bruit d'un sèche-cheveux.
On définit ci-après de manière plus détaillée les indicateurs retenus pour le modèle de classification selon l'invention.
L'indicateur temporel, désigné dans la suite de la description par "IND_TMP", est caractéristique de la variation du niveau sonore du signal de bruit quelconque est défini par l'écart type des valeurs des puissances de toutes les trames considérées du signal. Dans un premier temps, une valeur de puissance est déterminée pour chacune des trames. Chaque trame est composée de 512 échantillons, avec un recouvrement entre les trames successives de 256 échantillons. Pour une fréquence d'échantillonnage de 8000 Hz, cela correspond à une durée de 64 ms (millisecondes) par trame, avec un recouvrement de 32 ms. On utilise ce recouvrement de 50% pour obtenir une continuité entre trames successives, comme défini dans le Document [5] : "P.56 Mesure objective du niveau vocal actif', recommandation de l'ITU-T, 1993.
Lorsque le bruit à classifier a une longueur supérieure à une trame, la 20 valeur de puissance acoustique pour chacune des trames peut être définie par la formule mathématique suivante :
1 z~ame z P(trame) =101og( Lx) (1) Ltrame i=1
Où : "trame" désigne le numéro de la trame à évaluer ; "Ltrame" désigne la longueur de la trame (512 échantillons) ; "x;" correspond à l'amplitude de
25 l'échantillon i ; "log" désigne le logarithme décimal. On calcule ainsi le logarithme de la moyenne calculée pour obtenir une valeur de puissance par trame.
La valeur de l'indicateur temporel "IND_TMP" du bruit de fond considéré est ensuite définie par l'écart type de toutes les valeurs de puissances 30 obtenues, par la relation suivante : I1VD_1MP = Ntrame E (pù < l 2 i=1
(2) Ntrame Où : Ntrame représente le nombre de trames présentes dans le bruit de fond considéré ; P, représente la valeur de puissance pour la trame i ; et <P> correspond à la moyenne de puissance sur toutes les trames.
Selon l'indicateur temporel IND_TMP, plus un son est non-stationnaire et plus la valeur obtenue pour cet indicateur est élevée.
L'indicateur fréquentiel, désigné dans la suite de la description par "IND_FRQ" et caractéristique du flux spectral du signal de bruit, est calculé à partir de la Densité Spectrale de Puissance (DSP) du signal. La DSP d'un signal ù issue de la transformée de Fourrier de la fonction d'autocorrélation du signal ù permet de caractériser l'enveloppe spectrale du signal, afin d'obtenir des informations sur le contenu fréquentiel du signal à un moment donné, comme par exemple les formants, les harmoniques, etc. Selon le mode de réalisation présenté, cet indicateur est déterminé par trame de 256 échantillons, correspondant à une durée de 32 ms pour une fréquence d'échantillonnage de 8 KHz. Il n'y a pas de recouvrement des trames, contrairement à l'indicateur temporel.
Le flux spectral (SF), également désigné par "variation de l'amplitude du spectre", est une mesure permettant d'évaluer la vitesse de variation d'un spectre de puissance d'un signal au cours du temps. Cet indicateur est calculé à partir de la corrélation croisée normalisée entre deux amplitudes successives du spectre ak(t-l) et ak(t). Le flux spectral (SF) peut être défini par la formule mathématique suivante : SF (trame) =1 ù V Lt `t kl)z V Ekak (t)2 (3) Où : "k" est un indice représentant les différentes composantes fréquentielles, et "t" un indice représentant les trames successives sans recouvrement, composées de 256 échantillons chacune.
En d'autres termes, une valeur du flux spectral (SF) correspond à la différence d'amplitude du vecteur spectral entre deux trames successives. Cette valeur est proche de zéro si les spectres successifs sont similaires, et est proche de 1 pour des spectres successifs très différents. La valeur du flux spectral est élevée pour un signal de musique, car un signal musical varie fortement d'une trame à l'autre. Pour la parole, avec l'alternance de périodes de stabilité (voyelle) et de transitions (consonne/voyelle), la mesure du flux spectral prend des valeurs très différentes et varie fortement au cours d'une phrase. Lorsque le bruit à classifier a une longueur supérieure à une trame, l'expression finale retenue pour l'indicateur fréquentiel est définie comme la moyenne des valeurs de flux spectral pour toutes les trames du signal, comme définie dans l'équation ci-après : Ntrame IND _ FRQ = Ntrame L SF(i) (4) Utilisation du modèle de classification de bruits de fond Le modèle de classification de l'invention, obtenu comme exposé supra, est utilisé selon l'invention pour déterminer, sur la base d'indicateurs extraits d'un signal audio bruité quelconque, la classe de bruit à laquelle appartient ce signal bruité parmi l'ensemble de classes définies pour le modèle de classification. Les figures 3a et 3b représentent un organigramme illustrant un procédé d'évaluation objective de la qualité vocale d'un signal de parole, selon un mode de réalisation de l'invention. Selon l'invention, le procédé de classification de bruits de fond est mis en oeuvre préalablement à la phase proprement dite d'évaluation de la qualité vocale. Comme représenté à la figure 3a, la première étape S1 consiste à obtenir un signal audio, qui, dans le mode de réalisation présenté ici, est un signal de parole obtenu sous forme analogique ou numérique. Dans ce mode de réalisation, comme illustré par l'étape S3, on applique ensuite au signal de parole une opération de détection d'activité vocale (DAV). Le but de cette détection d'activité vocale est de séparer dans le signal audio d'entrée les périodes du signal contenant de la parole, éventuellement bruitée, des périodes du signal ne contenant pas de parole (périodes de silence), par conséquent ne pouvant contenir que du bruit. Ainsi, au cours de cette étape, on sépare les zones actives du signal, c'est-à-dire présentant le message vocal bruité, des zones inactives bruitées. En pratique, dans ce mode de réalisation, la technique de détection d'activité vocale mise en oeuvre est celle décrite dans le Document [5] précité ("P.56 Mesure objective du niveau vocal actif', recommandation de l'ITU-T, 1993).
En résumé, le principe de la technique DAV utilisée consiste à : - détecter l'enveloppe du signal, - comparer l'enveloppe du signal avec un seuil fixe en prenant en compte un temps de maintien de la parole, - déterminer les trames de signal dont l'enveloppe est située au dessus du seuil (DAV=1 pour les trames actives) et en dessous (DAV=O pour le bruit de fond). Ce seuil est fixé à 15,9 dB (décibel) en dessous du niveau vocal actif moyen (puissance du signal sur les trames actives). Une fois la détection vocale effectuée sur le signal audio, le signal de bruit de fond généré (étape S5) est le signal constitué des périodes du signal audio pour lesquelles le résultat de la détection d'activité vocale est nul. Une fois le signal de bruit généré, les paramètres audio constitués des deux indicateurs mentionnés plus haut (indicateur temporel IND_TMP et indicateur fréquentiel IND_FRQ), qui ont été sélectionnés lors de l'obtention du modèle de classification (phase d'apprentissage), sont extraits du signal de bruit, au cours de l'étape S7. Ensuite, les tests S9, S11 (Fig. 3a) et S17 (Fig. 3b) et les branches de décision associées, correspondent à l'arbre de décision décrit plus haut en relation avec la figure 2. Ainsi, à l'étape S9 la valeur de l'indicateur temporel (IND_TMP) obtenue pour le signal de bruit est comparée au premier seuil TH1 mentionné plus haut. Si la valeur de l'indicateur temporel est supérieure au seuil TH1 (S9, non) alors le signal de bruit est de type non-stationnaire et on applique alors le test de l'étape S11. Au cours du test S11 l'indicateur fréquentiel (IND_FRQ) cette fois, est comparé au second seuil TH2 mentionné plus haut. Si l'indicateur IND_FRQ est supérieur (S11, non) au seuil TH2, la classe (CL) du signal de bruit est déterminée (étape S13) comme étant CL1 : "Bruit intelligible" ; sinon la classe du signal de bruit est déterminée (étape S15) comme étant CL2 : "Bruit d'environnement". La classification du signal de bruit analysé est alors achevée et l'évaluation de la qualité vocale du signal de parole peut être alors effectuée (fig. 3b, étape S23). Lors du test initial S9, si la valeur de l'indicateur temporel est inférieure au seuil TH1 (S9, oui) alors le signal de bruit est de type stationnaire et on applique alors le test de l'étape S17 (fig. 3b). Au test S17, on compare la valeur de l'indicateur fréquentiel IND_FRQ au troisième seuil TH3 (défini plus haut). Si l'indicateur IND FRQ est supérieur (S17, non) au seuil TH3, la classe (CL) du signal de bruit est déterminée (étape S19) comme étant CL3 : "Bruit de souffle"; sinon la classe du signal de bruit est déterminée (étape S21) comme étant CL4 : "Bruit de grésillement". La classification du signal de bruit analysé est alors achevée et l'évaluation de la qualité vocale du signal de parole peut être alors effectuée (fig. 3b, étape S23). La figure 4 détaille l'étape (fig. 3b, S23) d'évaluation de la qualité vocale d'un signal de parole en fonction de la classification du bruit de fond contenu dans le signal de parole. Comme représenté à la figure 4, l'opération d'évaluation de la qualité vocale débute par l'étape S231 au cours de laquelle, la sonie totale du signal de bruit (SIG_N) est estimée. On rappelle ici que la sonie est définie comme l'intensité subjective d'un son, elle est exprimée en sones ou en phones. La sonie totale mesurée de manière subjective (sonie perçue) peut cependant être estimée en utilisant des modèles objectifs connus tels que le modèle de Zwicker ou le modèle de Moore. Le modèle de Zwicker est décrit par exemple dans le document intitulé 25 "Psychoacoustics: Facts and Models", de E. Zwicker et H. Fastl ù Berlin, Springer, 2nd updated edition, 14 avril 1999. Le modèle de Moore est décrit par exemple dans le document : "A Mode/ for the Prediction of Thresholds, Loudness, and Partial Loudness", de B.C.J. Moore, B.R. Glasberg et T. Baer ù Journal of the Audio Engineering Society 30 45(4): 224-240, 1997. Dans le cadre du mode de réalisation exposé ici, la sonie totale du signal de bruit est estimée en utilisant le modèle de Zwicker, cependant on peut également mettre en oeuvre l'invention en utilisant le modèle de Moore. D'ailleurs, plus le modèle objectif d'estimation de la sonie, utilisé, est précis et plus l'évaluation de la qualité vocale selon l'invention sera meilleure. L'estimation de la sonie totale, exprimée en sones, du signal de bruit SIG_N, obtenue en utilisant le modèle de Zwicker, est désignée ici par : "N". Ainsi à l'issue de l'étape S231 représentée à la figure 4, on obtient une estimation de la sonie du signal de bruit. L'étape S233 qui suit est l'étape d'évaluation proprement dite de la qualité vocale du signal de parole. Selon le procédé, on commence par ~o sélectionnée une formule mathématique à utiliser, parmi quatre, en fonction de la classe de bruit CLi (i = 1, 2, 3, 4) obtenue au cours de la phase préalable de classification du bruit de fond (l'obtention des formules précitées est détaillée plus bas). L'expression générale de la formule sélectionnée est la suivante : 15 MOS CLi = + C~ x f (N) (5) Où: • MOS CLi est la note calculée pour le signal de bruit SIG_N de classe CLi ; • f (N) est une fonction mathématique de la sonie totale, N, 20 estimée pour le signal de bruit, selon un modèle de sonie tel que le modèle de Zwicker ; • Ci(_~ et C; sont deux coefficients définis pour la formule mathématique associée à la classe CLi. L'expression mathématique de la formule (5) ci-dessus met en évidence 25 le fait que l'on dispose, conformément à l'invention, d'un modèle d'évaluation de qualité vocale pour chaque classe de bruit de fond (CL1-CL4), qui est fonction de la sonie totale du bruit de fond. Ainsi, dans le mode de réalisation exposé ici, la note de qualité vocale pour le signal de parole, MOS CLi , est obtenue, d'une part, en fonction de la 30 classification obtenue relative au bruit de fond présent dans le signal de parole ù par le choix des coefficients ; C,) de la formule mathématique qui correspondent à la classe du bruit de fond ù et d'autre part, en fonction de la sonie N estimée pour le bruit de fond.
Obtention des modèles d'évaluation de qualité vocale par classe de bruit de 5 fond On va à présent détailler le mode d'obtention des modèles d'évaluation de qualité vocale pour chaque classe de bruit de fond (CL1-CL4). La figure 1 décrite plus haut, issue du Document [1] précité, représente les moyennes d'opinion (MOS LQSN) avec l'intervalle de confiance associé, calculées à partir 10 de notes données par des auditeurs testeurs à des messages audio contenant six types de bruits de fond différents, selon la méthode ACR (Absolute Category Rating). Les divers types de bruit sont les suivants : bruit rose, bruit de parole stationnaire (BPS), bruit électrique, bruits de ville, bruits de restaurant, bruits de télévision ou voix, chaque bruit étant considéré à trois niveaux différents de 15 sonie perçue. Les niveaux de sonie des divers types de bruit de fond sont obtenus dans ce test, de manière subjective. Plus précisément, la base sonore utilisée dans le cadre du premier test décrit dans le Document [1] (voir section 2 du document), est constituée de huit phrases dont la moitié est prononcée par deux hommes et l'autre moitié par 20 deux femmes. Chacune de ces phrases prononcées constitue un signal de parole (8 signaux de parole). Ensuite, à chacun de ces signaux de parole est ajouté chacun des six bruits de fond précités, on obtient alors 48 signaux de paroles bruités (8 signaux par type de bruit de fond). Au cours du test, chacun de ces signaux de parole bruités est présenté à l'écoute aux auditeurs testeurs 25 selon trois niveaux d'isosonie différent, ce qui constitue 144 signaux bruités différents. Par ailleurs, à chacun des 8 signaux de parole initiaux (phrase prononcée) est ajouté du bruit de fond rose (SNR = 44), pour représenter la condition correspondant à un signal de parole sans bruit de fond. En tout, 152 signaux de parole ont été utilisés lors du premier test. 30 Concernant les niveaux d'isosonie utilisés, ceux-ci ont déterminés préalablement selon le test d'ajustement ("Adjustment test") du premier test décrit dans le Document [1] (Section 2). Ce test d'ajustement de sonie est conforme aux résultats décrits dans le document intitulé "La sonie des sons impulsionnels : Perception, Mesures et Modèles", thèse de Isabelle Boullet ù Université de Aix-Marseille 2, 2005. En bref, ce test consiste à demander à des personnes de modifier le niveau de chaque signal de bruit de manière que la sonie du signal soit égale à la sonie du signal de référence qui est le bruit rose. En pratique les trois niveaux de sonie (exprimés en sones) déterminés pour chacun des six types de bruit de fond utilisés sont les suivants : 4,6 sone ; 8,2 sone ; 14 sone. Le niveau de sonie de chacun des signaux de parole de référence, sans bruit de fond (c'est-à-dire contenant ~o uniquement du bruit rose avec SNR = 44) est de 1,67 sone. A partir des résultats du test illustré par la figure 1, les six types de bruit de fond utilisés ont permis de définir les quatre classes de bruit de fond utilisées selon l'invention, de la manière suivante : - la classe 1 (CL1 : "intelligible") correspond aux bruits de TV/parole ; 15 - la classe 2 (CL2 : "environnement") correspond au regroupement des bruits de ville et bruits de restaurant ; - la classe 3 (CL3 : "souffle") regroupe le bruit rose et le bruit de parole stationnaire (BPS) ; et - la classe 4 (CL4 : "grésillement") correspond aux bruits électriques. 20 Ainsi, chaque signal audio de test peut être caractérisé par sa classe de bruit de fond (CL1-CL4), son niveau de sonie perçue (en sones : 1,67 ; 4,6 ; 8,2 ; 14) et la note MOS-LQSN (Listening Quality Subjective Narrowband) qui lui a été attribuée lors du test subjectif préliminaire (Document [1], "Préliminary Experiment"). Par conséquent, en résumé, lors de ce test, 24 sujets ont subi un 25 test d'évaluation de la qualité globale de signaux audio, selon la méthode ACR. Au final, 152 notes MOS-LQSN ont été obtenues en prenant la moyenne des notes attribuées par les 24 sujets, pour chacun des 152 signaux audio de test, lesquels sont répartis selon les quatre classes de bruit de fond définies selon l'invention. 30 La figure 5 montre graphiquement le résultat des tests subjectifs précités. Les 152 conditions de test sont représentées par leurs points, chaque point correspondant en abscisse, à un niveau de sonie, et en ordonnée, au score de qualité attribué (MOS-LQSN) ; les points sont par ailleurs différenciés selon la classe du bruit de fond contenu dans le signal audio correspondant. Selon l'invention, partant des nuages de points issus des tests subjectifs, la modélisation de l'évaluation de la qualité vocale par classe de bruit de fond, a été réalisée par régression mathématique. En pratique plusieurs types de régression ont été testés (régression polynomiale, linéaire), mais c'est la régression logarithmique en fonction de la sonie perçue, exprimée en sones, qui permet d'obtenir les meilleures corrélations avec les notes de qualité vocale perçue.
A la figure 5, on peut observer les courbes obtenues par régression logarithmique qui lient les notes de qualité perçue à la sonie perçue, exprimée en sones, pour des signaux audio correspondant aux classes de bruit de fond définies selon l'invention. La figure 5 indique également les équations obtenues pour chacune des quatre courbes obtenue par régression logarithmique. Ainsi la première équation en haut et à droite correspond à la classe 1, la seconde à la classe 2, la troisième à la classe 3, et la quatrième à la classe 4. Pour chacune de ces équations, la valeur associée à R2 correspond au coefficient de corrélation entre les résultats issus du test subjectif et la régression logarithmique correspondante.
Ainsi l'équation (5) exposée plus haut est déclinée, en pratique, pour les différentes classes comme suit : MOS CLi = + C~ x ln(N) (6) Avec : Ln(N) : logarithme népérien de la valeur de sonie totale, N, calculée et exprimée 25 en sones ; (C,_i ; C;) = (4,4554 ; - 0,5888) pour i=1 (classe 1) ; ; C,) = (4,7046 ; - 0,7869) pour i=2 (classe 2) ; (C,_i ; C,) = (4,9015 ; - 0,9592) pour i=3 (classe 3) ; (C,_i ; C,) = (4,7489 ; - 0,9608) pour i=4 (classe 4) ; 30 Dans le cadre du modèle d'évaluation objective de la qualité vocale selon l'invention, la valeur de sonie perçue N ù valeur obtenue subjectivement dans le cadre des tests subjectifs précités ù est obtenue par estimation selon une méthode connue d'estimation de sonie, le modèle de Zwicker dans le mode de réalisation exposé ici. La figure 6 montre graphiquement le degré de corrélation existant entre les notes de qualité obtenues lors des tests subjectifs et celles obtenues en utilisant la méthode d'évaluation objective de la qualité, selon la présente invention. Comme on peut le voir sur la figure 6, on obtient une très bonne corrélation, de l'ordre de 93% (r = 0,93205), entre les notes MOS-LQSN issues du test subjectif exposé plus haut (axe des abscisses), et les notes MOS objectives (axes des ordonnées) obtenues avec le modèle d'évaluation de qualité selon l'invention, tel que défini par l'équation (6) plus haut. En liaison avec la figure 7 on va à présent décrire de manière fonctionnelle un dispositif d'évaluation objective de la qualité vocale d'un signal de parole, selon l'invention. Ce dispositif d'évaluation de qualité vocale est conçu pour mettre en oeuvre le procédé de d'évaluation de qualité vocale selon l'invention qui vient d'être décrit ci-dessus. Comme représenté à la figure 7, le dispositif 1 d'évaluation de la qualité vocale d'un signal de parole, comprend un module 11 d'extraction à partir du signal audio (SIG) d'un signal de bruit de fond (SIG_N), dit signal de bruit. Le signal de parole (SIG) fourni en entrée au dispositif 1 d'évaluation de qualité vocale, peut être délivré au dispositif 1 à partir d'un réseau de communication 2, tel qu'un réseau de voix sur IP par exemple. Selon le mode de réalisation exposé, le module 11 est en pratique un module de détection d'activité vocale. Le module DAV 11 fournit alors un signal de bruit SIG_N qui est délivré en entrée à un module 13 d'extraction de paramètres, c'est-à-dire de calcul des paramètres constitués des indicateurs temporel et fréquentiel, respectivement IND_TMP et IND_FRQ. Les indicateurs calculés sont alors fournis à un module 15 de classification, implémentant le modèle de classification selon l'invention, décrit plus haut, et qui détermine en fonction des valeurs des indicateurs utilisés, la classe de bruit de fond (CL) auquel appartient le signal de bruit SIG_N, selon l'algorithme décrit en liaison avec les figures 3a et 3b.
Le résultat de la classification effectuée par le module 15 de classification de bruit de fond, est alors fourni au module 17 d'évaluation de la qualité vocale. Ce dernier met en oeuvre l'algorithme d'évaluation de qualité vocale décrit plus haut en liaison avec la figure 4, pour délivrer au final une note de qualité vocale objective relative au signal de parole d'entrée (SIG). En pratique, le dispositif d'évaluation de la qualité vocale selon l'invention est mis en oeuvre sous forme de moyens logiciels, c'est-à-dire de modules de programme d'ordinateur, réalisant les fonctions décrites en liaison avec les figures 3a, 3b, 4 et 5.
Par ailleurs, dans le cadre d'une implémentation particulière de l'invention, le module 17 d'évaluation de la qualité vocale peut être incorporé dans une machine informatique distincte de celle abritant les autres modules. En particulier l'information de classe de bruit de fond (CL) peut être acheminée via un réseau de communication à la machine ou serveur chargé d'effectuer l'évaluation de la qualité vocale. Par ailleurs, selon une application particulière de l'invention, dans le domaine par exemple de la supervision de la qualité vocale sur un réseau de communication, chaque note de qualité vocale calculée par le module 17, est envoyée à un équipement de collecte local ou sur le réseau, chargé de collecter ces informations de qualité afin d'établir une note globale de qualité, établie par exemple en fonction du temps et/ou en fonction du type de communication et/ou en fonction d'autres types de notes de qualité. Les modules programmes précités sont mis en oeuvre lorsqu'ils sont chargés et exécutés dans un ordinateur ou dispositif informatique. Un tel dispositif informatique peut être également constitué par tout système à processeur, intégré dans un terminal de communication ou dans un équipement de réseau de communication. On notera aussi qu'un programme d'ordinateur selon l'invention, dont la finalité est la mise en oeuvre de l'invention lorsqu'il est exécuté par un système informatique approprié, peut être stocké sur un support d'informations de types variés. En effet, un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention.
Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une mémoire, par exemple un CD ROM ou une mémoire de type ROM ou RAM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur.
D'un point de vue conception, un programme d'ordinateur selon l'invention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention.

Claims (15)

  1. REVENDICATIONS1. Procédé d'évaluation objective de la qualité vocale d'un signal de parole, caractérisé en ce qu'il comprend les étapes de : - classification (S3-S21) du bruit de fond contenu dans le signal de parole selon un ensemble prédéfini de classes de bruits de fond (CL1-CL4) ; - évaluation (S23) de la qualité vocale du signal de parole, en fonction d'au moins la classification obtenue relative au bruit de fond présent dans le ~o signal de parole.
  2. 2. Procédé selon la revendication 1, dans lequel l'étape de classification du bruit de fond contenu dans le signal de parole, inclut les étapes de: 15 - extraction (S3, S5) du signal de parole, d'un signal de bruit de fond, dit signal de bruit ; - calcul (S7) de paramètres audio du signal de bruit ; - classification (S9-S21) du bruit de fond contenu dans le signal de bruit, en fonction des paramètres audio calculés, selon ledit ensemble de classes de 20 bruits de fond (CL1-CL4).
  3. 3. Procédé selon la revendication 2, dans lequel l'étape (S23) d'évaluation de la qualité vocale du signal de parole, comprend les étapes de : - estimation (S231) de la sonie totale (N) du signal de bruit (SIG_N) ; 25 - calcul d'une note de qualité vocale (MOS_CLi) en fonction de la classe (CLi) de bruit de fond présent dans le signal de parole, et de la sonie totale (N) estimée pour le signal de bruit.
  4. 4. Procédé selon la revendication 3, dans une note de qualité vocale 30 (MOS CLi) est obtenue selon une formule mathématique de la forme générale suivante : MOS CLi=+C~xf(N)Où MOS CLi est la note calculée pour le signal de bruit ; f (N) est une fonction mathématique de la sonie totale, N, estimée pour le signal de bruit ; C;_1 et C; sont deux coefficients définis pour la classe (CLi) de bruit de fond obtenue pour le signal de bruit.
  5. 5. Procédé selon la revendication 4, dans lequel la fonction f (N) est le logarithme népérien, Ln(N) , de la sonie totale N exprimée en sones.
  6. 6. Procédé selon l'une des revendications 3 à 5, dans lequel la sonie totale du signal de bruit est estimée selon un modèle objectif d'estimation de la sonie.
  7. 7. Procédé selon l'une quelconque des revendications 2 à 6, dans lequel l'étape (S7) de calcul de paramètres audio du signal de bruit, comprend le calcul d'un premier paramètre (IND_TMP), dit indicateur temporel, relatif à l'évolution temporelle du signal de bruit, et d'un second paramètre (IND_FRQ), dit indicateur fréquentiel, relatif au spectre fréquentiel du signal de bruit.
  8. 8. Procédé selon la revendication 7, dans lequel l'indicateur temporel (IND_TMP) est obtenu à partir d'un calcul de variation du niveau sonore du signal de bruit, et l'indicateur fréquentiel (IND_FRQ) est obtenu à partir d'un calcul de variation de l'amplitude du spectre fréquentiel du signal de bruit.
  9. 9. Procédé selon la revendication 7, dans lequel, pour classer le bruit de fond associé au signal de bruit, le procédé comprend les étapes consistant à - comparer (S9) la valeur de l'indicateur temporel (IND_TMP) obtenue 30 pour le signal de bruit à un premier seuil (TH1), et déterminer en fonction du résultat de cette comparaison que le signal de bruit est stationnaire ou non ;- lorsque le signal de bruit est identifié comme non-stationnaire, comparer (S11) la valeur de l'indicateur fréquentiel à un second seuil (TH2), et déterminer (S13, S15) en fonction du résultat de cette comparaison que le signal de bruit appartient à une première classe (CL1) ou à une seconde classe (CL2) de bruits de fond ; - lorsque le signal de bruit est identifié comme stationnaire, comparer (S17) la valeur de l'indicateur fréquentiel à un troisième seuil (TH3), et déterminer (S19, S21) en fonction du résultat de cette comparaison que le signal de bruit appartient à une troisième classe (CL3) ou à une quatrième ~o classe (CL4) de bruits de fond.
  10. 10. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'ensemble des classes comprend au moins les classes suivantes : - bruit intelligible ; 15 - bruit d'environnement ; - bruit de souffle ; - bruit de grésillement.
  11. 11. Procédé selon l'une quelconque des revendications 2 à 10, dans 20 lequel que le signal de bruit est extrait par application au signal de parole d'une opération de détection d'activité vocale, les zones du signal de parole ne présentant pas d'activité vocale constituant le signal de bruit.
  12. 12. Dispositif d'évaluation objective de la qualité vocale d'un signal de 25 parole, caractérisé en ce qu'il comprend : - des moyens de classification (11-15) du bruit de fond contenu dans le signal de parole selon un ensemble prédéfini de classes de bruits de fond (CL1-CL4) ; - des moyens d'évaluation (17) de la qualité vocale du signal de parole, 30 en fonction d'au moins la classification obtenue relative au bruit de fond présent dans le signal de parole.
  13. 13. Dispositif selon la revendication 12, comprenant : - un module (11) d'extraction à partir du signal de parole (SIG) d'un signal de bruit de fond, dit signal de bruit ; - un module (13) de calcul de paramètres audio du signal de bruit ; - un module (15) de classification du bruit de fond contenu dans le signal de bruit, en fonction des paramètres audio calculés, selon un ensemble prédéfini de classes de bruits de fond (CL) ; - un module (17) d'évaluation de la qualité vocale du signal de parole, en fonction d'au moins la classification obtenue relative au bruit de fond présent 10 dans le signal de parole.
  14. 14. Dispositif selon la revendication 13, comprenant en outre des moyens adaptés à la mise en oeuvre d'un procédé selon l'une quelconque des revendications 2 à 11.
  15. 15. Programme d'ordinateur sur un support d'informations, ledit programme comportant des instructions de programme adaptées à la mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 11, lorsque ledit programme est chargé et exécuté dans un ordinateur. 15 20
FR0952531A 2009-04-17 2009-04-17 Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. Withdrawn FR2944640A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR0952531A FR2944640A1 (fr) 2009-04-17 2009-04-17 Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
US13/264,945 US8886529B2 (en) 2009-04-17 2010-04-12 Method and device for the objective evaluation of the voice quality of a speech signal taking into account the classification of the background noise contained in the signal
EP10723655A EP2419900B1 (fr) 2009-04-17 2010-04-12 Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
PCT/FR2010/050699 WO2010119216A1 (fr) 2009-04-17 2010-04-12 Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0952531A FR2944640A1 (fr) 2009-04-17 2009-04-17 Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.

Publications (1)

Publication Number Publication Date
FR2944640A1 true FR2944640A1 (fr) 2010-10-22

Family

ID=41137230

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0952531A Withdrawn FR2944640A1 (fr) 2009-04-17 2009-04-17 Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.

Country Status (4)

Country Link
US (1) US8886529B2 (fr)
EP (1) EP2419900B1 (fr)
FR (1) FR2944640A1 (fr)
WO (1) WO2010119216A1 (fr)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.
EP2444966B1 (fr) * 2009-06-19 2019-07-10 Fujitsu Limited Dispositif de traitement de signal audio et procédé de traitement de signal audio
US8768406B2 (en) 2010-08-11 2014-07-01 Bone Tone Communications Ltd. Background sound removal for privacy and personalization use
CN102231279B (zh) * 2011-05-11 2012-09-26 武汉大学 基于听觉关注度的音频质量客观评价系统及方法
KR101406398B1 (ko) * 2012-06-29 2014-06-13 인텔렉추얼디스커버리 주식회사 사용자 음원 평가 장치, 방법 및 기록 매체
US9830905B2 (en) 2013-06-26 2017-11-28 Qualcomm Incorporated Systems and methods for feature extraction
CN106409310B (zh) 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
US11888919B2 (en) 2013-11-20 2024-01-30 International Business Machines Corporation Determining quality of experience for communication sessions
US10148526B2 (en) * 2013-11-20 2018-12-04 International Business Machines Corporation Determining quality of experience for communication sessions
US10079031B2 (en) * 2015-09-23 2018-09-18 Marvell World Trade Ltd. Residual noise suppression
US9749733B1 (en) * 2016-04-07 2017-08-29 Harman Intenational Industries, Incorporated Approach for detecting alert signals in changing environments
US10141005B2 (en) 2016-06-10 2018-11-27 Apple Inc. Noise detection and removal systems, and related methods
US10311863B2 (en) * 2016-09-02 2019-06-04 Disney Enterprises, Inc. Classifying segments of speech based on acoustic features and context
CN107093432B (zh) * 2017-05-19 2019-12-13 江苏百应信息技术有限公司 一种用于通信系统的语音质量评价系统
US10504538B2 (en) 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
CN111326169B (zh) * 2018-12-17 2023-11-10 中国移动通信集团北京有限公司 一种语音质量的评价方法及装置
US11350885B2 (en) * 2019-02-08 2022-06-07 Samsung Electronics Co., Ltd. System and method for continuous privacy-preserved audio collection
CN110610723B (zh) * 2019-09-20 2022-02-22 中国第一汽车股份有限公司 车内声品质的评价方法、装置、设备及存储介质
CN113393863B (zh) * 2021-06-10 2023-11-03 北京字跳网络技术有限公司 一种语音评价方法、装置和设备
CN114486286B (zh) * 2022-01-12 2024-05-17 中国重汽集团济南动力有限公司 一种车辆关门声品质评价方法及设备
CN115334349B (zh) * 2022-07-15 2024-01-02 北京达佳互联信息技术有限公司 音频处理方法、装置、电子设备及存储介质
CN117636907B (zh) * 2024-01-25 2024-04-12 中国传媒大学 基于广义互相关的音频数据处理方法、装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684921A (en) * 1995-07-13 1997-11-04 U S West Technologies, Inc. Method and system for identifying a corrupted speech message signal
EP1288914A2 (fr) * 2001-08-29 2003-03-05 Deutsche Telekom AG Procédé pour la correction de mesures de la qualité vocale
WO2007066049A1 (fr) * 2005-12-09 2007-06-14 France Telecom Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5504473A (en) * 1993-07-22 1996-04-02 Digital Security Controls Ltd. Method of analyzing signal quality
JP3484757B2 (ja) * 1994-05-13 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び雑音区間検出方法
JP3484801B2 (ja) * 1995-02-17 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US6330532B1 (en) * 1999-07-19 2001-12-11 Qualcomm Incorporated Method and apparatus for maintaining a target bit rate in a speech coder
JP2003529960A (ja) * 1999-08-10 2003-10-07 テロジー ネットワークス インコーポレイテッド 背景エネルギ予測
SG97885A1 (en) * 2000-05-05 2003-08-20 Univ Nanyang Noise canceler system with adaptive cross-talk filters
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US7461003B1 (en) * 2003-10-22 2008-12-02 Tellabs Operations, Inc. Methods and apparatus for improving the quality of speech signals
CN1965218A (zh) * 2004-06-04 2007-05-16 皇家飞利浦电子股份有限公司 交互式语音识别系统的性能预测
US7729275B2 (en) * 2004-06-15 2010-06-01 Nortel Networks Limited Method and apparatus for non-intrusive single-ended voice quality assessment in VoIP
WO2006136900A1 (fr) * 2005-06-15 2006-12-28 Nortel Networks Limited Procede et dispositif d'evaluation asymetrique sans intrusion de la qualite vocale dans une voix sur ip
FR2944640A1 (fr) * 2009-04-17 2010-10-22 France Telecom Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684921A (en) * 1995-07-13 1997-11-04 U S West Technologies, Inc. Method and system for identifying a corrupted speech message signal
EP1288914A2 (fr) * 2001-08-29 2003-03-05 Deutsche Telekom AG Procédé pour la correction de mesures de la qualité vocale
WO2007066049A1 (fr) * 2005-12-09 2007-06-14 France Telecom Procede de mesure de la qualite percue d'un signal audio degrade par la presence de bruit

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RIX A W ET AL: "PESQ - the new ITU standard for end-to-end speech quality assessment", AUDIO ENGINEERING SOCIETY CONVENTION PAPER, NEW YORK, NY, US, 22 September 2000 (2000-09-22), pages 1 - 18, XP002262437 *

Also Published As

Publication number Publication date
US8886529B2 (en) 2014-11-11
EP2419900A1 (fr) 2012-02-22
WO2010119216A1 (fr) 2010-10-21
EP2419900B1 (fr) 2013-03-13
US20120059650A1 (en) 2012-03-08

Similar Documents

Publication Publication Date Title
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
Malfait et al. P. 563—The ITU-T standard for single-ended speech quality assessment
Triantafyllopoulos et al. Towards robust speech emotion recognition using deep residual networks for speech enhancement
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
EP1849157B1 (fr) Procede de mesure de la gene due au bruit dans un signal audio
CA3053032A1 (fr) Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d&#39;une enveloppe spectrale
EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
US20130266147A1 (en) System and method for identification of highly-variable vocalizations
WO2007066049A1 (fr) Procede de mesure de la qualite percue d&#39;un signal audio degrade par la presence de bruit
EP0685833B1 (fr) Procédé de codage de parole à prédiction linéaire
Sharma et al. Non-intrusive estimation of speech signal parameters using a frame-based machine learning approach
CN116075890A (zh) 结合标记数据和未标记数据学习音频质量指标的方法
Xie et al. Noisy-to-noisy voice conversion framework with denoising model
EP3627510A1 (fr) Filtrage d&#39;un signal sonore acquis par un systeme de reconnaissance vocale
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
Jaiswal Influence of silence and noise filtering on speech quality monitoring
EP1792305A1 (fr) Procédé et dispositif d&#39;évaluation de l&#39;efficacité d&#39;une fonction de réduction de bruit destinée à être appliquée à des signaux audio
FR2627887A1 (fr) Systeme de reconnaissance de parole et procede de formation de modeles pouvant etre utilise dans ce systeme
Barry et al. Audio Inpainting based on Self-similarity for Sound Source Separation Applications
Mello et al. Reference-free speech quality assessment for mobile phones based on audio perception
Leman et al. A non-intrusive signal-based model for speech quality evaluation using automatic classification of background noises
Jaiswal Performance Analysis of Deep Learning Based Speech Quality Model with Mixture of Features
Santos A non-intrusive objective speech intelligibility metric tailored for cochlear implant users in complex listening environments
FR2847706A1 (fr) Analyse de la qualite de signal vocal selon des criteres de qualite

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20101230