FR2973923A1 - Evaluation de la qualite vocale d'un signal de parole code - Google Patents

Evaluation de la qualite vocale d'un signal de parole code Download PDF

Info

Publication number
FR2973923A1
FR2973923A1 FR1153129A FR1153129A FR2973923A1 FR 2973923 A1 FR2973923 A1 FR 2973923A1 FR 1153129 A FR1153129 A FR 1153129A FR 1153129 A FR1153129 A FR 1153129A FR 2973923 A1 FR2973923 A1 FR 2973923A1
Authority
FR
France
Prior art keywords
indicator
speech signal
signal
evaluation
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1153129A
Other languages
English (en)
Inventor
Cyril Plapous
Julien Faure
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR1153129A priority Critical patent/FR2973923A1/fr
Priority to US14/111,471 priority patent/US9355643B2/en
Priority to PCT/FR2012/050724 priority patent/WO2012140347A1/fr
Priority to EP12718296.2A priority patent/EP2697794A1/fr
Publication of FR2973923A1 publication Critical patent/FR2973923A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

La présente invention se rapporte à un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le procédé est remarquable en ce qu'il comporte les étapes suivantes : - calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; - détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ; - obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; - calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. L'invention se rapporte également à un dispositif de détermination d'un indicateur mettant en œuvre le procédé ci-dessus. Elle se rapporte également à un procédé d'évaluation de la qualité ou d'identification de la classe de codage du signal codé utilisant l'indicateur déterminé, ainsi qu'à un terminal de mesure mettant en œuvre ces procédés.

Description

Evaluation de la qualité vocale d'un signal de parole codé
La présente invention se rapporte à un procédé et dispositif de détermination d'un indicateur de qualité vocale d'un signal de parole codé, dans un système de télécommunication. L'invention s'applique de manière générale au domaine des télécommunications et plus particulièrement à la mesure de la qualité de transmission d'un signal de parole transmis au cours d'une communication téléphonique au travers d'un réseau de communication, par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets. On connait actuellement deux grandes catégories de méthodes objectives pour estimer la qualité de transmission d'un signal de parole codé sur une liaison de communication entre un terminal émetteur et un terminal récepteur, les méthodes intrusives et les méthodes non intrusives.
Les méthodes intrusives consistent à émettre un signal de référence à une extrémité de la liaison à proximité du terminal émetteur et à enregistrer le signal de référence dégradé reçu à une autre extrémité de la liaison, à proximité du terminal récepteur. La comparaison entre le signal de référence et le signal de référence dégradé permet d'obtenir une estimation de la qualité de la transmission. Le plus souvent, le résultat de cette estimation se traduit par l'attribution d'une note dite MOS pour « Mean Opinion score ». Les signaux de mesure de qualité de ces méthodes intrusives surchargent le réseau de communication et doivent donc être limitées en nombre. De plus, ces signaux ne correspondent pas à des appels réels. Les méthodes non intrusives consistent à mesurer, en un point de la liaison, des données concernant le signal de parole codé transmis entre le terminal émetteur et le terminal récepteur et à évaluer une note de qualité à partir de ces données. Une méthode non intrusive est par exemple décrite dans le document Ma/fait L., Berger J. et Kastner M., P.563-The ITU-T Standard for Sing/e-Ended Speech Qua/ity Assessment, IEEE Transaction on Audio, Speech, and Language Processing, vol. 14(6), p. 1924-1934, (2006). Cette méthode est basée sur la reconstitution du signal audio lui-même avant la dégradation à partir du signal audio dégradé transmis et sur des modèles psycho-acoustiques permettant d'obtenir une note de qualité à partir du signal audio reconstitué. Cette méthode est cependant complexe et très consommatrice en puissance de calcul. Du fait de sa complexité, cette méthode ne peut pas être implémentée dans tout type de réseau ou de terminal et est de par ce fait très peu utilisée. Il existe donc un besoin d'une méthode d'évaluation non intrusive, sans signal de référence qui soit moins complexe et peu consommatrice en puissance de calcul. La présente invention vient améliorer la situation.
Elle propose à cet effet, un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Ce procédé est tel qu'il comporte les étapes suivantes : calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ; obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. Ainsi, l'indicateur d'évaluation de la qualité est obtenu à partir d'un signal dégradé recodé de façon simple. Ce procédé repose sur le principe que lorsqu'on recode un signal déjà codé, l'erreur de codage commis lors du recodage est plus faible que lors du premier codage et dépend du type de codeur utilisé. Cette erreur de recodage va ainsi permettre d'obtenir un indicateur révélateur du niveau de dégradation obtenu sur le signal et donc de sa qualité vocale. Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de détermination d'un indicateur d'évaluation défini ci-dessus. Dans un mode particulier de réalisation, le procédé comporte en outre une étape de détermination d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée. L'attaque ainsi déterminée permet de s'affranchir des différences entre différentes langues utilisées pour le signal de parole. Ceci permet de pondérer l'indicateur par l'attaque reflétant une langue particulière et ainsi de normaliser cet indicateur pour différentes langues. Dans un mode avantageux de réalisation, le procédé est mis en oeuvre sur des trames de signal d'activité vocale détectée par la mise en oeuvre d'une étape préalable de détection d'activité vocale.
Ceci permet de ne prendre en compte que le signal utile et réduit donc ainsi les calculs à mettre en oeuvre pour réduire encore la complexité. La présente invention peut être appliquée dans une première application possible à un procédé d'évaluation de la qualité vocale d'un signal de parole codé qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit ci-dessus et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation.
Ainsi, un seul indicateur est utile pour évaluer la qualité vocale du signal codé. Un ou plusieurs seuils prédéterminés ont pu être au préalable mémorisés par exemple par une approche expérimentale. Pour obtenir une mesure plus précise, la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil. Dans un autre mode d'application, la présente invention peut être appliquée à un procédé d'identification d'une classe de codage effectué sur un signal de parole codé, qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit précédemment et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage. Le fait de recoder le signal audio codé permet ainsi de retrouver les caractéristiques du codage et donc une classe prédéterminée de codage. Différents types de codage peuvent avoir été répertoriés au préalable en fonction de seuils d'indicateur. De façon simple, la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils. La présente invention vise également un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le dispositif est tel qu'il comporte : un module de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; un module de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ; un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en oeuvre. La présente invention vise également un terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison ou comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison pour mettre en oeuvre les différentes applications susmentionnées. Ce terminal de mesure peut être de type sonde d'évaluation, dispositif de supervision, serveur ou même terminal de communication.
L'invention vise un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de détermination d'un indicateur et/ou d'un procédé d'évaluation et/ou d'un procédé d'identification d'une classe de codage tels que décrits précédemment, lorsque ces instructions sont exécutées par un processeur.
Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif ou au terminal, éventuellement amovible, mémorisant un programme informatique mettant en oeuvre un procédé de détermination, d'évaluation ou d'identification tels que décrit précédemment. D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels : la figure 1 illustre un système de communication et un terminal de mesure dans lequel s'intègre un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé selon un mode de réalisation de l'invention ; la figure 2 illustre un organigramme représentant les étapes d'un procédé de détermination d'un indicateur d'évaluation de la qualité vocale selon un mode de réalisation de l'invention ; la figure 3 illustre un organigramme des étapes mises en oeuvre pour une application d'évaluation selon l'invention ; la figure 4 illustre un exemple de valeur d'une note d'évaluation en fonction de l'indicateur obtenu conformément à l'invention ; la figure 5 illustre les performances d'une évaluation selon l'invention en fonction d'une évaluation faite de façon subjective, c'est-à-dire par un humain ; la figure 6 illustre un organigramme représentant les étapes mises en oeuvre pour une application d'identification d'une classe de codage selon l'invention ; et la figure 7 illustre un arbre de décision mise en oeuvre pour une application d'identification dune classe de codage selon l'invention.
La figure 1 représente un système de communication dans lequel un terminal émetteur 130a communique avec un terminal récepteur 130b au travers d'un réseau de communication 131 par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets. Le signal vocal est transmis au travers du réseau sous une forme codée. Le type de codage utilisé pour ce signal de parole diffère selon les terminaux émetteurs et récepteurs ou selon le réseau. Le codage peut par exemple être de type codage de la parole normalisé à l'ITU G.729 ou G.726, G.711 ou encore de type GSM-FR, IS-54 (norme de 2G utilisée en Amérique du Nord), JD-HR (norme utilisée au Japon), MNRU (pour « Modulated Noise Reference Unit » en anglais de la norme ITU P.810) ou bien d'autres types de codage de la parole. Ce signal codé est récupéré sur le réseau par un terminal de mesure qui peut être une sonde de mesure, un dispositif de supervision sur le réseau ou un autre terminal apte à récupérer ce signal sans gêner la communication en cours. Ce terminal de mesure référencé 100 comporte un processeur (pP) référencé 125 coopérant avec un bloc mémoire 126 comportant une mémoire de stockage et/ou de travail MEM. Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en oeuvre des étapes du procédé de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, lorsque ces instructions sont exécutées par le processeur et notamment les étapes de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé, de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit et de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci. Un tel terminal de mesure est apte à récupérer le signal de parole codé x(i) qui peut être dégradé selon la qualité du codage ou selon la qualité de transmission dans le réseau de communication.
Le terminal de mesure comporte un dispositif 110 de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, comportant des modules logiciels aptes à mettre en oeuvre le procédé selon l'invention et tel que décrit ultérieurement en référence à la figure 2. Le dispositif 110 comporte ainsi : un module 111 de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé apte à mettre en oeuvre l'étape E202 décrite en référence à la figure 2 ; un module 112 de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, apte à mettre en oeuvre l'étape E203 décrite en référence à la figure 2 ; un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit, apte à mettre en oeuvre l'étape E204 décrite en référence à la figure 2 ; et un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons, apte à mettre en oeuvre l'étape E206 décrite en référence à la figure 2. Ainsi, le dispositif 110 calcule dans un premier temps les coefficients d'un filtre de prédiction, à partir du signal codé. Ce filtre de prédiction va servir à recoder le signal codé et ainsi déterminer un signal de parole reconstruit. Ce signal de parole reconstruit est dégradé également par le codage et de façon moindre que le codage initial. A partir de ce signal recodé, il est alors possible d'évaluer la dégradation obtenue et donc d'évaluer la qualité de codage.
Ainsi, un résidu entre le signal reconstruit et le signal codé est obtenu et un indicateur d'évaluation de la qualité est calculé à partir de ce résidu. Cet indicateur sert à la fois à définir un niveau de qualité de codage et à identifier une classe de codage. Le terminal de mesure peut comporter également un module de détection d'activité vocale DAV référencé 115 pour discriminer les zones actives de parole et les zones de silence. La détermination de l'indicateur selon l'invention est alors effectuée sur les zones actives de parole discriminées. Le terminal 100 peut également comporter un module 116 de détermination d'une attaque dans le signal reconstruit. Selon que le signal de parole est exprimé dans une langue ou dans une autre, une attaque sur le signal aura des caractéristiques différentes et propres à la langue. La détermination de cette attaque va permettre alors de pondérer l'indicateur pour prendre en compte ces différences de langue. Cet indicateur est ensuite comparé à un ou plusieurs seuils qui peuvent avoir été déterminés empiriquement. La comparaison est effectuée par un module comparateur 120. Selon l'application qui est faite de cet indicateur, la comparaison à un ou plusieurs seuils va permettre de déterminer une note d'évaluation de la qualité MOS du signal codé par le module 121 ou une classe de codage déterminée par le module 122. En effet, différents types de codage peuvent avoir été classés au préalable, selon des critères de qualité plus ou moins grande. Il est alors possible de classer ces différents types de codage par groupe de qualité. Ces différents groupes sont identifiés en fonction de la comparaison de l'indicateur d'évaluation de la qualité à un ou plusieurs seuils. La figure 2 illustre les principales étapes mises en oeuvre par le dispositif 110 de l'invention. Ces étapes sont maintenant explicitées plus en détails.
A l'étape E201, une détection d'activité vocale peut de façon optionnelle être effectuée. La détection d'activité vocale permet de discriminer les zones actives de parole et les zones de silence dans le signal codé. La méthode de détection d'activité vocale est par exemple la méthode telle que décrite dans l'annexe B du document de norme ITU-T Rec.G729 « Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prediction » (CS-ACELP), 2007. A partir au moins des zones actives de parole du signal codé, l'étape E202 détermine un nombre prédéterminé de coefficients d'un filtre de prédiction LPC (pour « Linear Predictive Coding » en anglais). Dans un mode de réalisation possible, l'ordre du filtre est égal à dix et dix coefficients sont ainsi déterminés. Ces coefficients sont déterminés par exemple, trame par trame, en utilisant l'algorithme de Levinson-Durbin qui minimise l'erreur quadratique entre le signal reconstruit y(i) spécifié ci-après et le signal codé x(i). A partir des coefficients ainsi déterminés, un signal reconstruit y(i) est calculé échantillon par échantillon et par trame de signal selon la formule suivante : y(i) = -a(2) x x(i -1) - a(3) x x(i - 2) - ... - a(p +1)x x(i - p) (1)
avec y(i) le signal reconstruit pour l'échantillon i dans une trame de signal de N échantillons, x(i) le signal de parole codé pour l'échantillon i, a les coefficients LPC et p l'ordre des coefficients LPC. Le signal y(i) reconstruit est donc un signal de parole « recodé ». Ce recodage permet d'obtenir une dégradation plus faible que celle obtenue lors du premier codage. En effet, le codage permet de faire approcher le signal réel à un modèle. En forçant le signal à se rapprocher du modèle, on génère une erreur. Cependant, une fois que le signal a été codé une première fois, la distance avec le modèle simplifié utilisé ici (LPC à 10 coefficients), est plus faible que celle qu'on peut avoir avec le signal original. Cette dégradation de « recodage » permet d'évaluer la qualité de ce recodage et de déterminer également une information de classification de ce codage.
L'étape E204 consiste à déterminer le résidu entre le signal de parole codé et donc dégradé et le signal reconstruit, pour tous les échantillons, selon la relation suivante : res(i) = x(i) - y(i) (2)
Dans une étape optionnelle E205, une attaque sur le signal reconstruit est déterminée. L'attaque correspond à un changement d'énergie du signal de parole. Le temps d'une attaque sur un signal est révélateur de la langue utilisée pour le signal de parole. Une façon de déterminer cette attaque sur le signal reconstruit est d'effectuer une dérivée première du signal reconstruit. L'attaque est alors déterminée comme la moyenne de la valeur absolue de la dérivée première du signal reconstruit, selon l'équation suivante : N-1 att= Ey(i+1)-y(i) (3) i=1 avec N le nombre d'échantillons total du signal reconstruit y(i). La dérivée première permet de compenser la différence d'erreur de codage LPC en fonction des différentes langues utilisées. En effet, le codage prédictif est par exemple plus adapté au langage français qu'au langage japonais. L'indicateur « attaque » du signal compense ces disparités de langage. Enfin, à l'étape E206, l'indicateur d'évaluation de la qualité vocale du signal codé est déterminé. Dans le cas où l'attaque du signal n'a pas été prise en compte, cet indicateur correspond à la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. Dans le cas où l'attaque est prise en compte, celle-ci pondère cet indicateur selon l'équation : N 7 NEl res(t)l m d = i-latt (4) L'indicateur est ainsi indépendant du langage utilisé. Dans une application possible d'utilisation de cet indicateur, la figure 3 illustre les étapes mises en oeuvre pour déterminer une note de qualité du signal codé. Dans une étape E300, l'indicateur ainsi obtenu est comparé un seuil S. Dans un mode particulier de réalisation, ce seuil est par exemple fixé à 0,45.
Des mesures expérimentales ont en effet été conduites pour déterminer l'effet de cet indicateur sur la note de qualité vocale du signal codé. Pour cela différents signaux codés selon différents types de codage ont été testés. La base de données sonore utilisée pour ces tests est celle définie dans le document normalisé à l'ITU-T série P, Supplément 23, « Telephone transmission quality, Telephone Installations, local line networks », (1998). Cette base est constituée de signaux codés selon différents codeurs de parole de type G.729, G.726, G.728, G.711, GSM-FR, IS-54, 3D-HR, MNRU, les locuteurs de ces signaux de parole utilisent des langues différentes (français, anglais, américain, japonais). Les indicateurs selon l'invention ont été calculés pour les 44 conditions de codage et de transcodage de cette base sonore. Les moyennes des 44 indicateurs sont représentées en figure 4 selon les notes de qualité vocale correspondantes connues pour ces signaux (MOSLQSN (pour « Mean Opinion Score of Listening Quality Subjective Narrowband » en anglais). On remarque ainsi sur cette figure que les conditions de dégradation avec un codage de type MNRU ne suivent pas la même relation que les dégradations des autres types de codage. Les dégradations dues au codage MNRU sont représentées pour des valeurs de l'indicateur Ind supérieures à 0,45 tandis que les dégradations dues aux autres codeurs sont représentées par des valeurs de l'indicateur Ind inférieures à 0,45. Ainsi, en revenant à la figure 3, si l'étape E300 révèle que la valeur de l'indicateur Ind est inférieure au seuil de 0,45, la note de qualité vocale est alors déterminée selon une première relation MOS1. Cette première relation est linéaire.
Dans le cas contraire, si la valeur de l'indicateur est supérieure ou égale à 0,45, la note de qualité vocale est déterminée selon une seconde relation, MOS2, qui est une relation polynomiale, comme représentée sur la figure 4. On obtient ainsi les relations suivantes : MOS1 : MOS - LQON = 7,34.Ind + 0,79 si Ind < 0,45 MOS2 : MOS - LQON = 7,07.Ind2 - 15,89. Ind + 9,82 si Ind 0,45
MOS-LQON (pour « Mean Opinion Score of Listening Quality Objective Narrowband » 10 en anglais) représentant alors la mesure objective obtenue avec l'indicateur d'évaluation Ind selon l'invention. L'évaluation ainsi obtenue par l'indicateur selon l'invention présente de bonnes performances comme illustré en référence à la figure 5. Cette figure illustre la corrélation entre les mesures objectives effectuées selon l'invention (MOS-LQON) et les mesures 15 subjectives existantes pour les mêmes signaux (MOS-LQSN). La corrélation obtenue, de l'ordre de 89% est très bonne, elle est donnée par le coefficient r de corrélation de Pearson (r=0,89, p<0,001), p étant un coefficient de précision. Dans une autre application possible d'utilisation de l'indicateur Ind, la figure 6 illustre les étapes mises en oeuvre pour déterminer une classe de codage utilisé pour le signal 20 codé. Un arbre de décision illustré à la figure 7 regroupe différents types de codage et transcodage dans six classes différentes en fonction de l'indicateur d'évaluation obtenu. Dans cet arbre de décision, quatre seuils sont déterminés. Un premier seuil S1 égal à 0,59 permet de différencier les codages de type MNRU (5, 10 et 15) répertoriés dans la classe 25 5. Ainsi à l'étape E601 de la figure 6, si l'indicateur est supérieur à si, la classe de codage identifiée est la classe 5. Les numéros associés aux codages MNRU représentent les différents niveaux de codage plus ou moins puissants. Un deuxième seuil S2 a pour valeur 0,45. Si l'indicateur est compris entre le seuil S1 30 et S2, c'est-à-dire supérieur à S2 à l'étape E602 de la figure 6, alors la classe de codage identifiée est la classe 1 regroupant les codages de type G.711, G.726, G726*4, MNRU30, MNRU20, G.728. Ces types de codage ou transcodage dégradent peu le signal vocal. Un troisième seuil S3 a pour valeur 0,39. Quand l'indicateur est compris entre S2 et S3, c'est-à-dire supérieur à S3 à l'étape E603 de la figure 6, la classe de codage ou de 35 transcodage identifiée est la classe 2 regroupant les codages de type GSMFR, MNRU50 ou le transcodage G.729-G.726, G.729-G.728. Un quatrième seuil S4 a pour valeur 0,32. Quand l'indicateur est compris entre S3 et S4, c'est-à-dire supérieur à S4 à l'étape E604 de la figure 6 la classe de codage ou de5 transcodage identifiée est la classe 3 regroupant les codages de type G.729, JDC-HR, IS54 ou le transcodage G.726-G729, GSMFR-G.729, GSMFR-IS54, G.728-G.729, GSMFR-G.728-G.729. Lorsque l'indicateur est inférieur à S4 à l'étape E604 de la figure 6 (branche négative), alors la classe de codage identifiée est la classe 4 répertoriant les codages qui dégradent fortement la qualité de codage, c'est-à-dire dans l'exemple cité ici, les codages de type G.729*2, G.729*3 et les transcodages G.729*2-IS54, JDCHR-G.729, G.729*2-GSMFR. Les multiplications associées aux types de codage représentent le nombre de transcodage effectué (codage/recodage). Par exemple, G.729*2 signifie qu'il y a eu un codage G.729 puis un décodage et à nouveau un codage G.729.
Tous ces types de codage sont bien évidemment des exemples de codage. D'autres types de codage ou d'autres classes de codages peuvent être prévus. L'indicateur déterminé selon l'invention est alors comparé à des seuils adaptés à ces autres types de codage ou transcodage ou à d'autres classes de codage. Ainsi, selon l'invention il est possible de distinguer les principaux types de codage mis en oeuvre lors du codage du signal de parole et aussi les transcodages qui ont pu avoir été appliqué. Ainsi, une dégradation forte du signal pourra par exemple être dû non pas au dernier codage qui a eu lieu mais à une chaine de codage que l'indicateur va identifier. Cette information va ainsi permettre de cibler la provenance de la dégradation du signal codé.

Claims (1)

  1. REVENDICATIONS 10 15 2. 3. 20 4. 25 5. 30 6. 35 7. 40 Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape de détermination (E205) d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée. Procédé selon la revendication 1, caractérisé en ce qu'il est mis en oeuvre sur des trames de signal d'activité vocale détectée par la mise en oeuvre d'une étape (E201) préalable de détection d'activité vocale. Procédé d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation. Procédé selon la revendication 4, caractérisé en ce que la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil. Procédé d'identification d'une classe de codage effectué sur un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage. Procédé selon la revendication 6, caractérisé en ce que la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils.1. Procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte les étapes suivantes : calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ; obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. 8. Dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte : un module (111) de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; un module (112) de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ; un module (113) d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et un module (114) de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. 9. Dispositif caractérisé en ce qu'il met en oeuvre les étapes du procédé selon l'une des revendications 2 à 3. 10. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison. 11. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison. 12. Programme informatique comportant des instructions de code pour la mise en oeuvre des étapes d'un procédé de détermination d'un indicateur d'évaluation selon l'une des revendication 1 à 3 et/ou d'un procédé d'évaluation selon l'une des revendications 4 à 5 et/ou d'un procédé d'identification selon l'une des revendications 5 à 6, lorsque ces instructions sont exécutées par un processeur. 35
FR1153129A 2011-04-11 2011-04-11 Evaluation de la qualite vocale d'un signal de parole code Pending FR2973923A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1153129A FR2973923A1 (fr) 2011-04-11 2011-04-11 Evaluation de la qualite vocale d'un signal de parole code
US14/111,471 US9355643B2 (en) 2011-04-11 2012-04-04 Evaluation of the voice quality of a coded speech signal
PCT/FR2012/050724 WO2012140347A1 (fr) 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code
EP12718296.2A EP2697794A1 (fr) 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1153129A FR2973923A1 (fr) 2011-04-11 2011-04-11 Evaluation de la qualite vocale d'un signal de parole code

Publications (1)

Publication Number Publication Date
FR2973923A1 true FR2973923A1 (fr) 2012-10-12

Family

ID=46025782

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1153129A Pending FR2973923A1 (fr) 2011-04-11 2011-04-11 Evaluation de la qualite vocale d'un signal de parole code

Country Status (4)

Country Link
US (1) US9355643B2 (fr)
EP (1) EP2697794A1 (fr)
FR (1) FR2973923A1 (fr)
WO (1) WO2012140347A1 (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531190B (zh) * 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN109979486B (zh) * 2017-12-28 2021-07-09 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN111326169B (zh) * 2018-12-17 2023-11-10 中国移动通信集团北京有限公司 一种语音质量的评价方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1492085A2 (fr) * 2003-06-25 2004-12-29 Lucent Technologies Inc. Méthode pour représenter la distortion temporelle/linguistique dans l'évaluation objective de la qualité de la parole
WO2010140940A1 (fr) * 2009-06-04 2010-12-09 Telefonaktiebolaget Lm Ericsson (Publ) Procédé et agencement pour estimer la dégradation de qualité d'un signal traité

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6157830A (en) * 1997-05-22 2000-12-05 Telefonaktiebolaget Lm Ericsson Speech quality measurement in mobile telecommunication networks based on radio link parameters
US6201960B1 (en) * 1997-06-24 2001-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Speech quality measurement based on radio link parameters and objective measurement of received speech signals
US7434117B1 (en) * 2005-10-28 2008-10-07 Mediatek Inc. Method and apparatus of determining bad frame indication for speech service in a wireless communication system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1492085A2 (fr) * 2003-06-25 2004-12-29 Lucent Technologies Inc. Méthode pour représenter la distortion temporelle/linguistique dans l'évaluation objective de la qualité de la parole
WO2010140940A1 (fr) * 2009-06-04 2010-12-09 Telefonaktiebolaget Lm Ericsson (Publ) Procédé et agencement pour estimer la dégradation de qualité d'un signal traité

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GRANCHAROV V ET AL: "Low-Complexity, Nonintrusive Speech Quality Assessment", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, USA, vol. 14, no. 6, 1 November 2006 (2006-11-01), pages 1948 - 1956, XP003013947, ISSN: 1558-7916, DOI: 10.1109/TASL.2006.883250 *
MALFAIT L ET AL: "P.563-The ITU-T standard for single-ended speech quality assessment", IEEE TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING NOVEMBER 2006 INSTITUTE OF ELECTRICAL AND ELECTRONICS ENGINEERS INC. US, vol. 14, no. 6, 1 November 2006 (2006-11-01), pages 1924 - 1934, XP002663297, DOI: DOI:10.1109/TASL.2006.883177 *

Also Published As

Publication number Publication date
WO2012140347A1 (fr) 2012-10-18
US9355643B2 (en) 2016-05-31
EP2697794A1 (fr) 2014-02-19
US20140032212A1 (en) 2014-01-30

Similar Documents

Publication Publication Date Title
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
EP1316087B1 (fr) Dissimulation d&#39;erreurs de transmission dans un signal audio
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
EP2586133B1 (fr) Contrôle d&#39;une boucle de rétroaction de mise en forme de bruit dans un codeur de signal audionumérique
EP1468416B1 (fr) Procede d&#39;evaluation qualitative d&#39;un signal audio numerique.
EP1051703B1 (fr) Procede decodage d&#39;un signal audio avec correction des erreurs de transmission
EP1096471A1 (fr) Procédé et dispositif pour l&#39;extraction de paramètres robustes pour la reconnaissance de parole
US8560312B2 (en) Method and apparatus for the detection of impulsive noise in transmitted speech signals for use in speech quality assessment
CA2917795A1 (fr) Facteur d&#39;echelle optimise pour l&#39;extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
FR2973923A1 (fr) Evaluation de la qualite vocale d&#39;un signal de parole code
FR2884989A1 (fr) Procede d&#39;adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
EP2347411B1 (fr) Attenuation de pre-echos dans un signal audionumerique
EP1039736B1 (fr) Procédé et disposiif d&#39;identification adaptive, et annuleur d&#39;écho adaptive mettant en oeuvre un tel procédé
WO2002043051A1 (fr) Detection non intrusive des defauts d&#39;un signal de parole transmis par paquets
FR2797343A1 (fr) Procede et dispositif de detection d&#39;activite vocale
EP1021805B1 (fr) Procede et disposition de conditionnement d&#39;un signal de parole numerique
FR2905489A1 (fr) Procede d&#39;estimation de phase pour la modelisation sinusoidale d&#39;un signal numerique.
EP2680263B1 (fr) Estimation de couplage à faible complexité
FR2980619A1 (fr) Codage/decodage parametrique d&#39;un signal audio multi-canal, en presence de sons transitoires
FR2810817A1 (fr) Procede pour la detection d&#39;une frequence ou d&#39;une combinaison de frequences dans un signal et materiels de telecommunications mettant en oeuvre ce procede
WO2024079408A1 (fr) Procédé de détection d&#39;anomalie dans une série temporelle observée de valeurs d&#39;une grandeur physique représentative des performances d&#39;un système
WO2020128272A1 (fr) Détermination de l&#39;évolution d&#39;un environnement sous-marin par analyse acoustique
FR3140958A1 (fr) Procédé de détection d’anomalie dans une série temporelle observée de valeurs d’une grandeur physique représentative des performances d’un système.
WO2014199055A1 (fr) Controle du traitement d&#39;attenuation d&#39;un bruit de quantification introduit par un codage en compresssion