EP2697794A1 - Evaluation de la qualite vocale d'un signal de parole code - Google Patents

Evaluation de la qualite vocale d'un signal de parole code

Info

Publication number
EP2697794A1
EP2697794A1 EP12718296.2A EP12718296A EP2697794A1 EP 2697794 A1 EP2697794 A1 EP 2697794A1 EP 12718296 A EP12718296 A EP 12718296A EP 2697794 A1 EP2697794 A1 EP 2697794A1
Authority
EP
European Patent Office
Prior art keywords
indicator
speech signal
signal
evaluation
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP12718296.2A
Other languages
German (de)
English (en)
Inventor
Cyril Plapous
Julien Faure
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of EP2697794A1 publication Critical patent/EP2697794A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

La présente invention se rapporte à un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le procédé est remarquable en ce qu'il comporte les étapes suivantes; calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé; détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés; obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit; calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons. L'invention se rapporte également à un dispositif de détermination d'un indicateur mettant en œuvre le procédé ci-dessus. Elle se rapporte également à un procédé d'évaluation de la qualité ou d'identification de la classe de codage du signal codé utilisant l'indicateur déterminé, ainsi qu'à un terminal de mesure mettant en œuvre ces procédés.

Description

Evaluation de la qualité vocale d'un signal de parole codé
La présente invention se rapporte à un procédé et dispositif de détermination d'un indicateur de qualité vocale d'un signal de parole codé, dans un système de télécommunication.
L'invention s'applique de manière générale au domaine des télécommunications et plus particulièrement à la mesure de la qualité de transmission d'un signal de parole transmis au cours d'une communication téléphonique au travers d'un réseau de communication, par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets.
On connaît actuellement deux grandes catégories de méthodes objectives pour estimer la qualité de transmission d'un signal de parole codé sur une liaison de communication entre un terminal émetteur et un terminal récepteur, les méthodes intrusives et les méthodes non intrusives.
Les méthodes intrusives consistent à émettre un signal de référence à une extrémité de la liaison à proximité du terminal émetteur et à enregistrer le signal de référence dégradé reçu à une autre extrémité de la liaison, à proximité du terminal récepteur. La comparaison entre le signal de référence et le signal de référence dégradé permet d'obtenir une estimation de la qualité de la transmission. Le plus souvent, le résultat de cette estimation se traduit par l'attribution d'une note dite MOS pour « Mean Opinion score ».
Les signaux de mesure de qualité de ces méthodes intrusives surchargent le réseau de communication et doivent donc être limitées en nombre. De plus, ces signaux ne correspondent pas à des appels réels.
Les méthodes non intrusives consistent à mesurer, en un point de la liaison, des données concernant le signal de parole codé transmis entre le terminal émetteur et le terminal récepteur et à évaluer une note de qualité à partir de ces données.
Une méthode non intrusive est par exemple décrite dans le document Malfait L, Berger J. et Kastner M., P.563-The ITU-T Standard for Single-Ended Speech Quality Assessment, IEEE Transaction on Audio, Speech, and Language Processing, vol. 14(6), p. 1924-1934, (2006). Cette méthode est basée sur la reconstitution du signal audio lui-même avant la dégradation à partir du signal audio dégradé transmis et sur des modèles psychoacoustiques permettant d'obtenir une note de qualité à partir du signal audio reconstitué.
Cette méthode est cependant complexe et très consommatrice en puissance de calcul. Du fait de sa complexité, cette méthode ne peut pas être implémentée dans tout type de réseau ou de terminal et est de par ce fait très peu utilisée.
Il existe donc un besoin d'une méthode d'évaluation non intrusive, sans signal de référence qui soit moins complexe et peu consommatrice en puissance de calcul.
La présente invention vient améliorer la situation. Elle propose à cet effet, un procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Ce procédé est tel qu'il comporte les étapes suivantes :
calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;
détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ;
- calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Ainsi, l'indicateur d'évaluation de la qualité est obtenu à partir d'un signal dégradé recodé de façon simple. Ce procédé repose sur le principe que lorsqu'on recode un signal déjà codé, l'erreur de codage commis lors du recodage est plus faible que lors du premier codage et dépend du type de codeur utilisé. Cette erreur de recodage va ainsi permettre d'obtenir un indicateur révélateur du niveau de dégradation obtenu sur le signal et donc de sa qualité vocale.
Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de détermination d'un indicateur d'évaluation défini ci-dessus.
Dans un mode particulier de réalisation, le procédé comporte en outre une étape de détermination d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée.
L'attaque ainsi déterminée permet de s'affranchir des différences entre différentes langues utilisées pour le signal de parole. Ceci permet de pondérer l'indicateur par l'attaque reflétant une langue particulière et ainsi de normaliser cet indicateur pour différentes langues.
Dans un mode avantageux de réalisation, le procédé est mis en œuvre sur des trames de signal d'activité vocale détectée par la mise en œuvre d'une étape préalable de détection d'activité vocale.
Ceci permet de ne prendre en compte que le signal utile et réduit donc ainsi les calculs à mettre en œuvre pour réduire encore la complexité.
La présente invention peut être appliquée dans une première application possible à un procédé d'évaluation de la qualité vocale d'un signal de parole codé qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit ci-dessus et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation. Ainsi, un seul indicateur est utile pour évaluer la qualité vocale du signal codé. Un ou plusieurs seuils prédéterminés ont pu être au préalable mémorisés par exemple par une approche expérimentale.
Pour obtenir une mesure plus précise, la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil.
Dans un autre mode d'application, la présente invention peut être appliquée à un procédé d'identification d'une classe de codage effectué sur un signal de parole codé, qui comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé décrit précédemment et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage.
Le fait de recoder le signal audio codé permet ainsi de retrouver les caractéristiques du codage et donc une classe prédéterminée de codage. Différents types de codage peuvent avoir été répertoriés au préalable en fonction de seuils d'indicateur.
De façon simple, la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils.
La présente invention vise également un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé. Le dispositif est tel qu'il comporte :
un module de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ; un module de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et
- un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Ce dispositif présente les mêmes avantages que le procédé décrit précédemment, qu'il met en œuvre.
La présente invention vise également un terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison ou comportant un dispositif de détermination d'un indicateur d'évaluation tel que décrit, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison pour mettre en œuvre les différentes applications susmentionnées.
Ce terminal de mesure peut être de type sonde d'évaluation, dispositif de supervision, serveur ou même terminal de communication. L'invention vise un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de détermination d'un indicateur et/ou d'un procédé d'évaluation et/ou d'un procédé d'identification d'une classe de codage tels que décrits précédemment, lorsque ces instructions sont exécutées par un processeur.
Enfin l'invention se rapporte à un support de stockage, lisible par un processeur, intégré ou non au dispositif ou au terminal, éventuellement amovible, mémorisant un programme informatique mettant en œuvre un procédé de détermination, d'évaluation ou d'identification tels que décrit précédemment.
D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :
la figure 1 illustre un système de communication et un terminal de mesure dans lequel s'intègre un dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé selon un mode de réalisation de l'invention ;
la figure 2 illustre un organigramme représentant les étapes d'un procédé de détermination d'un indicateur d'évaluation de la qualité vocale selon un mode de réalisation de l'invention ;
la figure 3 illustre un organigramme des étapes mises en œuvre pour une application d'évaluation selon l'invention ;
la figure 4 illustre un exemple de valeur d'une note d'évaluation en fonction de l'indicateur obtenu conformément à l'invention ;
la figure 5 illustre les performances d'une évaluation selon l'invention en fonction d'une évaluation faite de façon subjective, c'est-à-dire par un humain ; - la figure 6 illustre un organigramme représentant les étapes mises en œuvre pour une application d'identification d'une classe de codage selon l'invention ; et la figure 7 illustre un arbre de décision mise en œuvre pour une application d'identification dune classe de codage selon l'invention. La figure 1 représente un système de communication dans lequel un terminal émetteur 130a communique avec un terminal récepteur 130b au travers d'un réseau de communication 131 par exemple un réseau de téléphonie mobile ou un réseau de téléphonie sur réseau commuté ou sur réseau de paquets.
Le signal vocal est transmis au travers du réseau sous une forme codée. Le type de codage utilisé pour ce signal de parole diffère selon les terminaux émetteurs et récepteurs ou selon le réseau. Le codage peut par exemple être de type codage de la parole normalisé à l'ITU G.729 ou G.726, G.711 ou encore de type GSM-FR, IS-54 (norme de 2G utilisée en Amérique du Nord), JD-HR (norme utilisée au Japon), MNRU (pour « Modulated Noise Référence Unit » en anglais de la norme ITU P.810) ou bien d'autres types de codage de la parole.
Ce signal codé est récupéré sur le réseau par un terminal de mesure qui peut être une sonde de mesure, un dispositif de supervision sur le réseau ou un autre terminal apte à récupérer ce signal sans gêner la communication en cours.
Ce terminal de mesure référencé 100 comporte un processeur (μΡ) référencé 125 coopérant avec un bloc mémoire 126 comportant une mémoire de stockage et/ou de travail MEM.
Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, lorsque ces instructions sont exécutées par le processeur et notamment les étapes de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé, de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit et de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Typiquement, la description de la figure 2 reprend les étapes d'un algorithme d'un tel programme informatique. Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire de celui-ci.
Un tel terminal de mesure est apte à récupérer le signal de parole codé x(i) qui peut être dégradé selon la qualité du codage ou selon la qualité de transmission dans le réseau de communication.
Le terminal de mesure comporte un dispositif 110 de détermination d'un indicateur d'évaluation de la qualité vocale au sens de l'invention, comportant des modules logiciels aptes à mettre en œuvre le procédé selon l'invention et tel que décrit ultérieurement en référence à la figure 2.
Le dispositif 110 comporte ainsi :
- un module 111 de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé apte à mettre en œuvre l'étape E202 décrite en référence à la figure 2 ;
un module 112 de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés, apte à mettre en œuvre l'étape E203 décrite en référence à la figure 2 ;
un module d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit, apte à mettre en œuvre l'étape E204 décrite en référence à la figure 2 ; et un module de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons, apte à mettre en œuvre l'étape E206 décrite en référence à la figure 2.
Ainsi, le dispositif 110 calcule dans un premier temps les coefficients d'un filtre de prédiction, à partir du signal codé. Ce filtre de prédiction va servir à recoder le signal codé et ainsi déterminer un signal de parole reconstruit. Ce signal de parole reconstruit est dégradé également par le codage et de façon moindre que le codage initial. A partir de ce signal recodé, il est alors possible d'évaluer la dégradation obtenue et donc d'évaluer la qualité de codage.
Ainsi, un résidu entre le signal reconstruit et le signal codé est obtenu et un indicateur d'évaluation de la qualité est calculé à partir de ce résidu.
Cet indicateur sert à la fois à définir un niveau de qualité de codage et à identifier une classe de codage.
Le terminal de mesure peut comporter également un module de détection d'activité vocale DAV référencé 115 pour discriminer les zones actives de parole et les zones de silence. La détermination de l'indicateur selon l'invention est alors effectuée sur les zones actives de parole discriminées.
Le terminal 100 peut également comporter un module 116 de détermination d'une attaque dans le signal reconstruit. Selon que le signal de parole est exprimé dans une langue ou dans une autre, une attaque sur le signal aura des caractéristiques différentes et propres à la langue.
La détermination de cette attaque va permettre alors de pondérer l'indicateur pour prendre en compte ces différences de langue.
Cet indicateur est ensuite comparé à un ou plusieurs seuils qui peuvent avoir été déterminés empiriquement. La comparaison est effectuée par un module comparateur 120. Selon l'application qui est faite de cet indicateur, la comparaison à un ou plusieurs seuils va permettre de déterminer une note d'évaluation de la qualité MOS du signal codé par le module 121 ou une classe de codage déterminée par le module 122. En effet, différents types de codage peuvent avoir été classés au préalable, selon des critères de qualité plus ou moins grande. Il est alors possible de classer ces différents types de codage par groupe de qualité.
Ces différents groupes sont identifiés en fonction de la comparaison de l'indicateur d'évaluation de la qualité à un ou plusieurs seuils.
La figure 2 illustre les principales étapes mises en œuvre par le dispositif 110 de l'invention. Ces étapes sont maintenant explicitées plus en détails.
A l'étape E201, une détection d'activité vocale peut de façon optionnelle être effectuée.
La détection d'activité vocale permet de discriminer les zones actives de parole et les zones de silence dans le signal codé. La méthode de détection d'activité vocale est par exemple la méthode telle que décrite dans l'annexe B du document de norme ITU-T Rec.G729 « Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prédiction » (CS-ACELP), 2007.
A partir au moins des zones actives de parole du signal codé, l'étape E202 détermine un nombre prédéterminé de coefficients d'un filtre de prédiction LPC (pour « Linear Prédictive Coding » en anglais). Dans un mode de réalisation possible, l'ordre du filtre est égal à dix et dix coefficients sont ainsi déterminés.
Ces coefficients sont déterminés par exemple, trame par trame, en utilisant l'algorithme de Levinson-Durbin qui minimise l'erreur quadratique entre le signal reconstruit spécifié ci-après et le signal codé x(i).
A partir des coefficients ainsi déterminés, un signal reconstruit est calculé échantillon par échantillon et par trame de signal selon la formule suivante :
y(i) = -a(2) x x(i - 1) - a(3) x x(i - 2) - ... - a(p + V) x x(i - p) (1) avec le signal reconstruit pour l'échantillon i dans une trame de signal de N échantillons, x(i) le signal de parole codé pour l'échantillon i, a les coefficients LPC et p l'ordre des coefficients LPC.
Le signal y(i) reconstruit est donc un signal de parole « recodé ». Ce recodage permet d'obtenir une dégradation plus faible que celle obtenue lors du premier codage.
En effet, le codage permet de faire approcher le signal réel à un modèle. En forçant le signal à se rapprocher du modèle, on génère une erreur. Cependant, une fois que le signal a été codé une première fois, la distance avec le modèle simplifié utilisé ici (LPC à 10 coefficients), est plus faible que celle qu'on peut avoir avec le signal original.
Cette dégradation de « recodage » permet d'évaluer la qualité de ce recodage et de déterminer également une information de classification de ce codage.
L'étape E204 consiste à déterminer le résidu entre le signal de parole codé et donc dégradé et le signal reconstruit, pour tous les échantillons, selon la relation suivante :
res{ï) = x(i) - y(i) (2)
Dans une étape optionnelle E205, une attaque sur le signal reconstruit est déterminée. L'attaque correspond à un changement d'énergie du signal de parole. Le temps d'une attaque sur un signal est révélateur de la langue utilisée pour le signal de parole. Une façon de déterminer cette attaque sur le signal reconstruit est d'effectuer une dérivée première du signal reconstruit. L'attaque est alors déterminée comme la moyenne de la valeur absolue de la dérivée première du signal reconstruit, selon l'équation suivante :
avec N le nombre d'échantillons total du signal reconstruit y(i). La dérivée première permet de compenser la différence d'erreur de codage LPC en fonction des différentes langues utilisées. En effet, le codage prédictif est par exemple plus adapté au langage français qu'au langage japonais. L'indicateur « attaque » du signal compense ces disparités de langage.
Enfin, à l'étape E206, l'indicateur d'évaluation de la qualité vocale du signal codé est déterminé. Dans le cas où l'attaque du signal n'a pas été prise en compte, cet indicateur correspond à la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Dans le cas où l'attaque est prise en compte, celle-ci pondère cet indicateur selon l'équation :
N
N Λ
Ind = att (4) L'indicateur est ainsi indépendant du langage utilisé.
Dans une application possible d'utilisation de cet indicateur, la figure 3 illustre les étapes mises en œuvre pour déterminer une note de qualité du signal codé.
Dans une étape E300, l'indicateur ainsi obtenu est comparé un seuil S. Dans un mode particulier de réalisation, ce seuil est par exemple fixé à 0,45.
Des mesures expérimentales ont en effet été conduites pour déterminer l'effet de cet indicateur sur la note de qualité vocale du signal codé. Pour cela différents signaux codés selon différents types de codage ont été testés.
La base de données sonore utilisée pour ces tests est celle définie dans le document normalisé à I1TU-T série P, Supplément 23, « Téléphone transmission quality, Téléphone Installations, local line networks », (1998). Cette base est constituée de signaux codés selon différents codeurs de parole de type G.729, G.726, G.728, G.711, GSM-FR, IS-54, JD-HR, MNRU, les locuteurs de ces signaux de parole utilisent des langues différentes (français, anglais, américain, japonais).
Les indicateurs selon l'invention ont été calculés pour les 44 conditions de codage et de transcodage de cette base sonore. Les moyennes des 44 indicateurs sont représentées en figure 4 selon les notes de qualité vocale correspondantes connues pour ces signaux (MOS- LQSN (pour « Mean Opinion Score of Listening Quality Subjective Narrowband » en anglais).
On remarque ainsi sur cette figure que les conditions de dégradation avec un codage de type MNRU ne suivent pas la même relation que les dégradations des autres types de codage. Les dégradations dues au codage MNRU sont représentées pour des valeurs de l'indicateur Ind supérieures à 0,45 tandis que les dégradations dues aux autres codeurs sont représentées par des valeurs de l'indicateur Ind inférieures à 0,45.
Ainsi, en revenant à la figure 3, si l'étape E300 révèle que la valeur de l'indicateur Ind est inférieure au seuil de 0,45, la note de qualité vocale est alors déterminée selon une première relation MOS1. Cette première relation est linéaire. Dans le cas contraire, si la valeur de l'indicateur est supérieure ou égale à 0,45, la note de qualité vocale est déterminée selon une seconde relation, MOS2, qui est une relation polynomiale, comme représentée sur la figure 4.
On obtient ainsi les relations suivantes :
MOS1 : MOS - LQON = 7,34. Ind + 0,79 si Ind < 0,45
MOS2 : MOS - LQON = 7,07. Ind2 - 15,89. Ind + 9,82 si Ind≥ 0,45
MOS-LQON (pour « Mean Opinion Score of Listening Quality Objective Narrowband » en anglais) représentant alors la mesure objective obtenue avec l'indicateur d'évaluation Ind selon l'invention.
L'évaluation ainsi obtenue par l'indicateur selon l'invention présente de bonnes performances comme illustré en référence à la figure 5. Cette figure illustre la corrélation entre les mesures objectives effectuées selon l'invention (MOS-LQON) et les mesures subjectives existantes pour les mêmes signaux (MOS-LQSN). La corrélation obtenue, de l'ordre de 89% est très bonne, elle est donnée par le coefficient r de corrélation de Pearson (r=0,89, p<0,001), p étant un coefficient de précision.
Dans une autre application possible d'utilisation de l'indicateur Ind, la figure 6 illustre les étapes mises en œuvre pour déterminer une classe de codage utilisé pour le signal codé.
Un arbre de décision illustré à la figure 7 regroupe différents types de codage et transcodage dans six classes différentes en fonction de l'indicateur d'évaluation obtenu.
Dans cet arbre de décision, quatre seuils sont déterminés. Un premier seuil SI égal à 0,59 permet de différencier les codages de type MNRU (5, 10 et 15) répertoriés dans la classe 5. Ainsi à l'étape E601 de la figure 6, si l'indicateur est supérieur à SI, la classe de codage identifiée est la classe 5.
Les numéros associés aux codages MNRU représentent les différents niveaux de codage plus ou moins puissants.
Un deuxième seuil S2 a pour valeur 0,45. Si l'indicateur est compris entre le seuil SI et S2, c'est-à-dire supérieur à S2 à l'étape E602 de la figure 6, alors la classe de codage identifiée est la classe 1 regroupant les codages de type G.711, G.726, G726*4, MNRU30, MNRU20, G.728. Ces types de codage ou transcodage dégradent peu le signal vocal.
Un troisième seuil S3 a pour valeur 0,39. Quand l'indicateur est compris entre S2 et
53, c'est-à-dire supérieur à S3 à l'étape E603 de la figure 6, la classe de codage ou de transcodage identifiée est la classe 2 regroupant les codages de type GSMFR, MNRU50 ou le transcodage G.729-G.726, G.729-G.728.
Un quatrième seuil S4 a pour valeur 0,32. Quand l'indicateur est compris entre S3 et
54, c'est-à-dire supérieur à S4 à l'étape E604 de la figure 6 la classe de codage ou de transcodage identifiée est la classe 3 regroupant les codages de type G.729, JDC-HR, IS54 ou le transcodage G.726-G729, GSMFR-G.729, GSMFR-IS54, G.728-G.729, GSMFR-G.728-G.729.
Lorsque l'indicateur est inférieur à S4 à l'étape E604 de la figure 6 (branche négative), alors la classe de codage identifiée est la classe 4 répertoriant les codages qui dégradent fortement la qualité de codage, c'est-à-dire dans l'exemple cité ici, les codages de type G.729*2, G.729*3 et les transcodages G.729*2-IS54, JDCHR-G.729, G.729*2-GSMFR.
Les multiplications associées aux types de codage représentent le nombre de transcodage effectué (codage/recodage). Par exemple, G.729*2 signifie qu'il y a eu un codage G.729 puis un décodage et à nouveau un codage G.729.
Tous ces types de codage sont bien évidemment des exemples de codage. D'autres types de codage ou d'autres classes de codages peuvent être prévus. L'indicateur déterminé selon l'invention est alors comparé à des seuils adaptés à ces autres types de codage ou transcodage ou à d'autres classes de codage.
Ainsi, selon l'invention il est possible de distinguer les principaux types de codage mis en œuvre lors du codage du signal de parole et aussi les transcodages qui ont pu avoir été appliqué. Ainsi, une dégradation forte du signal pourra par exemple être dû non pas au dernier codage qui a eu lieu mais à une chaîne de codage que l'indicateur va identifier.
Cette information va ainsi permettre de cibler la provenance de la dégradation du signal codé.

Claims

REVENDICATIONS
Procédé de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte les étapes suivantes : calcul (E202) par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;
détermination (E203) par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
obtention (E204) par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ;
calcul (E206) d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une étape de détermination (E205) d'une attaque dans le signal reconstruit, le calcul de l'indicateur s'effectuant en outre en fonction de l'attaque ainsi déterminée.
Procédé selon la revendication 1, caractérisé en ce qu'il est mis en œuvre sur des trames de signal d'activité vocale détectée par la mise en œuvre d'une étape (E201) préalable de détection d'activité vocale.
Procédé d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une note d'évaluation.
Procédé selon la revendication 4, caractérisé en ce que la note d'évaluation est déterminée selon une relation dépendante de la comparaison de l'indicateur à un seuil.
Procédé d'identification d'une classe de codage effectué sur un signal de parole codé, caractérisé en ce qu'il comporte une étape de détermination d'un indicateur d'évaluation conforme au procédé de l'une des revendications 1 à 3 et une étape de comparaison de l'indicateur déterminé à au moins un seuil prédéterminé pour définir une classe de codage.
Procédé selon la revendication 6, caractérisé en ce que la détermination d'une classe de codage est effectuée par un arbre de décision à plusieurs seuils.
8. Dispositif de détermination d'un indicateur d'évaluation de la qualité vocale d'un signal de parole codé, caractérisé en ce qu'il comporte :
un module (111) de calcul par trame de signal, d'un nombre prédéterminé de coefficients d'un filtre de prédiction linéaire du signal de parole codé ;
- un module (112) de détermination par trame, d'un signal de parole reconstruit à partir des coefficients du filtre ainsi calculés ;
un module (113) d'obtention par échantillon, du résidu entre le signal de parole codé et le signal de parole reconstruit ; et
un module (114) de calcul d'un indicateur d'évaluation à partir de la moyenne de la valeur absolue des résidus obtenus pour tous les échantillons.
9. Dispositif caractérisé en ce qu'il met en œuvre les étapes du procédé selon l'une des revendications 2 à 3. 10. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens de détermination d'une note d'évaluation en fonction du résultat de la comparaison. 11. Terminal de mesure comportant un dispositif de détermination d'un indicateur d'évaluation selon l'une des revendications 8 ou 9, des moyens de comparaison de cet indicateur à au moins un seuil prédéterminé et des moyens d'identification d'une classe de codage en fonction du résultat de la comparaison.
12. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes d'un procédé de détermination d'un indicateur d'évaluation selon l'une des revendication 1 à 3 et/ou d'un procédé d'évaluation selon l'une des revendications 4 à 5 et/ou d'un procédé d'identification selon l'une des revendications 5 à 6, lorsque ces instructions sont exécutées par un processeur.
EP12718296.2A 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code Withdrawn EP2697794A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1153129A FR2973923A1 (fr) 2011-04-11 2011-04-11 Evaluation de la qualite vocale d'un signal de parole code
PCT/FR2012/050724 WO2012140347A1 (fr) 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code

Publications (1)

Publication Number Publication Date
EP2697794A1 true EP2697794A1 (fr) 2014-02-19

Family

ID=46025782

Family Applications (1)

Application Number Title Priority Date Filing Date
EP12718296.2A Withdrawn EP2697794A1 (fr) 2011-04-11 2012-04-04 Evaluation de la qualite vocale d'un signal de parole code

Country Status (4)

Country Link
US (1) US9355643B2 (fr)
EP (1) EP2697794A1 (fr)
FR (1) FR2973923A1 (fr)
WO (1) WO2012140347A1 (fr)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106531190B (zh) * 2016-10-12 2020-05-05 科大讯飞股份有限公司 语音质量评价方法和装置
CN109979486B (zh) * 2017-12-28 2021-07-09 中国移动通信集团北京有限公司 一种语音质量评估方法及装置
CN111326169B (zh) * 2018-12-17 2023-11-10 中国移动通信集团北京有限公司 一种语音质量的评价方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6157830A (en) * 1997-05-22 2000-12-05 Telefonaktiebolaget Lm Ericsson Speech quality measurement in mobile telecommunication networks based on radio link parameters
US6201960B1 (en) * 1997-06-24 2001-03-13 Telefonaktiebolaget Lm Ericsson (Publ) Speech quality measurement based on radio link parameters and objective measurement of received speech signals
US7305341B2 (en) * 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
US7434117B1 (en) * 2005-10-28 2008-10-07 Mediatek Inc. Method and apparatus of determining bad frame indication for speech service in a wireless communication system
WO2010140940A1 (fr) * 2009-06-04 2010-12-09 Telefonaktiebolaget Lm Ericsson (Publ) Procédé et agencement pour estimer la dégradation de qualité d'un signal traité

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2012140347A1 *

Also Published As

Publication number Publication date
WO2012140347A1 (fr) 2012-10-18
US9355643B2 (en) 2016-05-31
US20140032212A1 (en) 2014-01-30
FR2973923A1 (fr) 2012-10-12

Similar Documents

Publication Publication Date Title
EP2419900B1 (fr) Procede et dispositif d&#39;evaluation objective de la qualite vocale d&#39;un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal
EP2415047B1 (fr) Classification du bruit de fond contenu dans un signal sonore
EP1316087B1 (fr) Dissimulation d&#39;erreurs de transmission dans un signal audio
EP1468416B1 (fr) Procede d&#39;evaluation qualitative d&#39;un signal audio numerique.
EP1096471B1 (fr) Procédé et dispositif pour l&#39;extraction de paramètres robustes pour la reconnaissance de parole
US8560312B2 (en) Method and apparatus for the detection of impulsive noise in transmitted speech signals for use in speech quality assessment
WO2011161362A1 (fr) Controle d&#39;une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
EP1849157B1 (fr) Procede de mesure de la gene due au bruit dans un signal audio
EP2795618B1 (fr) Procédé de détection d&#39;une bande de fréquence prédéterminée dans un signal de données audio, dispositif de détection et programme d&#39;ordinateur correspondant
EP2697794A1 (fr) Evaluation de la qualite vocale d&#39;un signal de parole code
FR2884989A1 (fr) Procede d&#39;adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques.
Ding et al. Non-intrusive single-ended speech quality assessment in VoIP
EP1039736B1 (fr) Procédé et disposiif d&#39;identification adaptive, et annuleur d&#39;écho adaptive mettant en oeuvre un tel procédé
WO2002043051A1 (fr) Detection non intrusive des defauts d&#39;un signal de parole transmis par paquets
EP2203915A1 (fr) Dissimulation d&#39;erreur de transmission dans un signal numerique avec repartition de la complexite
EP3869368A1 (fr) Procede et dispositif de detection d&#39;anomalie
EP2680263B1 (fr) Estimation de couplage à faible complexité
EP1909396A2 (fr) Procédé et dispositif de decodage à l&#39;aide de codes correcteurs d&#39;erreurs
WO2024079408A1 (fr) Procédé de détection d&#39;anomalie dans une série temporelle observée de valeurs d&#39;une grandeur physique représentative des performances d&#39;un système
FR2810817A1 (fr) Procede pour la detection d&#39;une frequence ou d&#39;une combinaison de frequences dans un signal et materiels de telecommunications mettant en oeuvre ce procede
FR2980619A1 (fr) Codage/decodage parametrique d&#39;un signal audio multi-canal, en presence de sons transitoires
FR3140958A1 (fr) Procédé de détection d’anomalie dans une série temporelle observée de valeurs d’une grandeur physique représentative des performances d’un système.
WO2010076412A2 (fr) Procede et un dispositif d&#39;estimation de signaux de source issus d&#39;un signal de melange
WO2014199055A1 (fr) Controle du traitement d&#39;attenuation d&#39;un bruit de quantification introduit par un codage en compresssion
FR3018942A1 (fr) Estimation d&#39;un bruit de codage introduit par un codage en compression de type micda

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20131025

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/12 20130101ALN20150625BHEP

Ipc: H04M 3/22 20060101ALI20150625BHEP

Ipc: G10L 25/69 20130101AFI20150625BHEP

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/12 20130101ALN20150701BHEP

Ipc: H04M 3/22 20060101ALI20150701BHEP

Ipc: G10L 25/69 20130101AFI20150701BHEP

INTG Intention to grant announced

Effective date: 20150716

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20151127