FR2905790A1

FR2905790A1 - Traitement d'un signal vocal, en vue d'une comparaison a une reference.

Info

Publication number: FR2905790A1
Application number: FR0607850A
Authority: FR
Inventors: Delphine Charlet; Mikael Collet
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2006-09-07
Filing date: 2006-09-07
Publication date: 2008-03-14
Anticipated expiration: 2026-09-07
Also published as: FR2905790B1; WO2008029270A2; WO2008029270A3; EP2102854A2

Abstract

La présente invention concerne le traitement d'un signal vocal (X), en vue d'une comparaison à une référence (Y), notamment dans des applications d'identification vocale, de vérification de l'identité d'un locuteur, ou autres. Selon l'invention, le signal vocal est mis sous forme vectorielle (E-12) dans une base vectorielle de modèles d'ancrage, et on applique une normalisation (E-13) de la forme vectorielle obtenue, par centrage et analyse en composantes principales de la forme vectorielle ainsi centrée. Une telle normalisation (E-13) permet de mener ensuite une mesure de similarité (E-14) qui est sensible au centrage, telle qu'une mesure de similarité angulaire, entre les formes vectorielles normalisées du signal vocal et de la référence. Des essais ont révélé qu'une telle mesure est particulièrement robuste.

Description

TRAITEMENT D'UN SIGNAL VOCAL, EN VUE D'UNE COMPARAISON A UNE REFERENCE La

présente invention concerne une analyse de signaux vocaux, notamment dans des applications d'indexation de documents audio, ou d'identification acoustique de locuteurs, ou de vérification de l'identité d'un locuteur, ou autres. Une analyse de signaux vocaux, notamment dans ce type d'applications, est décrite dans le document WO-2005/0 15547.

Comme dans WO-2005/015547, la présente invention se situe dans le cadre de la technique de représentation d'un locuteur à identifier par des modèles d'ancrage. On rappelle brièvement ici que cette technique, décrite notamment dans le document : "Speaker indexing in large audio databases using anchor models", D.E. Sturim, D.A. Reynolds, E. Singer, J.P. Campbell, IEEE International Conference On Acoustics, Speech, and Signal Processing (Proceedings), Mai 2001, revient à évaluer la proximité entre le locuteur à identifier et des locuteurs de référence, au moyen d'un calcul de distance. Dans les deux documents précités, cette distance est euclidienne. On constitue à cet effet un ensemble prédéterminé de représentations de locuteurs, appelés "locuteurs d'ancrage", ou encore "modèles d'ancrage". Plus particulièrement, la présente invention vise une amélioration de la normalisation des vecteurs intervenant dans le calcul de distance dans le cadre d'une représentation d'un locuteur par des modèles d'ancrage. La normalisation permet de placer les vecteurs dans un espace de comparabilité commun. Toutefois, la normalisation, dans le contexte de l'invention, nécessite actuellement un perfectionnement pour améliorer la robustesse des mesures de similarité entre vecteurs.

Deux approches distinctes, dans l'état de l'art, ont tenté de répondre à ce besoin. 2905790 -2-. La première approche vise une normalisation dite "Z-Norm". Dans le cadre d'un système de vérification de l'identité d'un locuteur, le seuil de décision optimal est différent selon le locuteur à reconnaître. Il a été proposé des techniques de normalisation du score de décision permettant de diminuer la variabilité du seuil optimal. Une technique connue est 5 la normalisation Z-Norm (pour "Zéro normalisation") proposée dans le document : "Score normalization for text-independent speaker verification systems", R. Auckenthaler, M. Carey, H. Lloyd-Thomas, Digital Signal Processing, 10 : 42 - 54 (2000). Elle consiste, pour chaque locuteur à reconnaître, à centrer et réduire le score de décision 10 par rapport à une distribution de scores dite "imposteur". Les paramètres de cette distribution sont estimés à partir des scores de décision d'un ensemble d'énoncés de test imposteurs pour le modèle du locuteur à reconnaître. Cette technique de normalisation peut également être appliquée dans le cadre de la 15 représentation du locuteur par les modèles d'ancrage. En effet, dans le cadre de cette approche, le locuteur est représenté par un vecteur de scores de décision par rapport à un ensemble de E locuteurs d'ancrage. Ainsi, il est possible d'appliquer cette technique de normalisation à chaque composante de vecteur (parmi E composantes au total) en estimant les paramètres à partir d'un ensemble de M énoncés vocaux appartenant à des locuteurs qui 20 sont différents des locuteurs d'ancrage. Mathématiquement, ces propriétés s'expriment comme suit. En notant @k (avec k = 1, ..., M) l'ensemble des vecteurs des locuteurs imposteurs, pour un locuteur X, la normalisation Z-Norm du vecteur est définie par : 25 (XE / 0E ) -00E - 2905790 - 3 XZùNorm = 1 2 1 M 2 60; - -m E PO, M k=1 1 Po, ùLyk; avec k=1 (1) Oë : - k, représente la i-ème composante du vecteur du locuteur imposteur k, et - 60 et 1u0 représentent les paramètres de normalisation de la i-ème composante du vecteur 5 X. Toutefois, cette technique normalise chacune des composantes des vecteurs indépendamment des autres composantes. Les corrélations entre les axes de l'espace des locuteurs d'ancrage ne sont alors pas prises en compte.

10 Une seconde approche de l'art antérieur consiste à normaliser les vecteurs par analyse en composantes principales (ou "ACP"), au sens du document : "Speaker identification by anchor models with PCA/LDA post processing", Y. Mami, D. Charlet, 15 IEEE International Conference on Acoustics, Speech and Signal Processing, 1:181-183, 2003. Il s'agit d'une autre technique de normalisation de vecteurs dans le cadre de la technique des modèles d'ancrage. La normalisation des vecteurs par analyse en composantes principales (ACP) consiste à projeter les vecteurs dans un espace orthogonal, c'est-à-dire 20 un espace où tous les axes (correspondant aux locuteurs d'ancrage) ont la même inertie et sont donc décorrélés. Cette technique tient alors compte des corrélations entre les locuteurs d'ancrage. La matrice de transformation par ACP est donnée par : 1 T2 ACP - AU U 2905790 -4-- où Au et U sont respectivement les matrices des valeurs propres et des vecteurs propres de la matrice de covariance de M vecteurs correspondant à des énoncés vocaux de locuteurs qui ne sont pas les locuteurs d'ancrage.

5 La formule de normalisation d'un vecteur i est alors la suivante : XACP = TAC.P X Néanmoins, cette technique, quoique prometteuse car elle tient bien compte des corrélations entre les locuteurs d'ancrage, ne centre pas les vecteurs comme en normalisation Z-Norm. Dans ce cas, l'utilisation d'une mesure de similarité sensible au 10 centrage des vecteurs (par exemple la mesure de similarité angulaire qui sera décrite plus loin) n'est pas adaptée et les performances de l'analyse en pâtissent. La présente invention vient améliorer la situation.

15 A cet effet, elle propose tout d'abord un procédé de traitement d'un signal vocal à comparer à au moins une référence, dans lequel le signal vocal est mis sous forme vectorielle dans une base vectorielle déterminée à partir de modèles d'ancrage, pour effectuer ensuite une mesure de similarité entre la forme vectorielle du signal vocal et 20 une forme vectorielle homologue de la référence, dans un espace de comparaison que définit ladite base vectorielle. Au sens de l'invention, la mise sous forme vectorielle du signal vocal comporte une normalisation impliquant : 25 - un centrage de la forme vectorielle autour d'au moins un vecteur moyen déterminé par analyse statistique, et - une projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus des modèles d'ancrage et décorrélés entre eux par application d'une matrice représentative d'une variance déterminée aussi par analyse 30 statistique.

5 2905790 5 L'ensemble des échantillons qui a permis de mener l'analyse statistique pour le calcul du vecteur moyen peut être différent ou identique à celui qui a permis de calculer la matrice représentative d'une variance. On entend ici par le terme "variance" tout type de fonction statistique représentative d'un écart par rapport à une ou plusieurs moyennes, telle qu'une covariance, un écart-type, etc. D'ailleurs, dans un mode de réalisation, la matrice appliquée pour la projection dans 10 l'espace de comparaison est issue d'une matrice de covariance, sensiblement du même type que celle intervenant dans une analyse en composantes principales décrite ci-avant. Plus précisément, le traitement qui suit le centrage des formes vectorielles consiste en une projection dans un nouvel espace de comparaison, les axes de cette projection étant obtenus par l'analyse en composantes principales d'un corpus de développement sur lequel 15 est réalisée l'analyse statistique qui permet donc d'obtenir la matrice de covariance. On rappelle que les calculs intervenants dans une analyse en composantes principales sont typiquement le calcul des vecteurs propres associés à la matrice de covariance, comme décrit dans la référence donnée ci-avant : "Speaker identification by anchor models with PCA/LDA post-processing", 20 Y. Mami, D. Charlet, IEEE International Conference on Acoustics, Speech and Signal Processing, 1:181-183, 2003. L'expression de cette matrice peut, bien entendu, être modifiée pour la mise en oeuvre de 25 l'invention, par exemple pour tenir compte d'une transformation choisie à appliquer telle qu'une rotation d'axe, ou autre. La présente invention vise, outre le procédé défini ci-avant, un dispositif de comparaison d'un signal vocal à une référence, le dispositif comportant un module de normalisation 30 pour la mise en oeuvre de l'invention. L'invention vise aussi le module de normalisation en 2905790 -6- tant que tel, ainsi qu'un programme d'ordinateur comportant des instructions pour la mise en oeuvre du procédé au sens de l'invention lorsqu'il est exécuté sur un dispositif, notamment le dispositif précité de comparaison d'un signal vocal à une référence.

5 Selon un avantage global que procure alors la présente invention, la combinaison des deux caractéristiques, de centrage des vecteurs et de projection en tenant compte des corrélations entre les axes de l'espace d'ancrage, permet d'appliquer ensuite une mesure de similarité sensible au centrage qui s'est avérée particulièrement robuste, selon les essais présentés dans la description détaillée ci-après. Il est rappelé qu'une mesure de similarité dite 10 "sensible au centrage" a la particularité d'être affectée par la soustraction (ou l'addition) d'un même vecteur a, aux deux vecteurs X et Y dont on mesure la distance (habituellement notée d(X,Y)), ce qui s'exprime mathématiquement par : d (X, Y) ≠ d (X û u, Y û u) , quelque soit le vecteur a non nul.

15 D'ailleurs, d'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels : - la figure 1 illustre schématiquement les étapes d'un procédé au sens de l'invention, - la figure 2 illustre schématiquement les éléments d'un dispositif au sens de l'invention.

20 La formule de normalisation au sens de l'invention, d'un vecteur i , est donnée par : - une expression d'une matrice de covariance, comme en analyse en composantes principales, - mais appliquée à la différence entre le vecteur X et le vecteur moyen sur plusieurs énoncés vocaux par des locuteurs qui sont différents des locuteurs d'ancrage, comme en 25 normalisation Z-Norm. Plus précisément, cette formule est préférentiellement la suivante : Xvaùwo,,,, = ù fo Eo X [ où Eo et ,uo sont respectivement la matrice de covariance et le vecteur moyen des M vec- 2905790 -7-. teurs correspondant aux énoncés vocaux des locuteurs d'un ensemble de développement (différents des locuteurs d'ancrage). Le vecteur moyen po est utilisé ici pour centrer les vecteurs, avantageusement comme en normalisation Z-Norm, tandis que la matrice de covariance Eo est utilisée ici pour projeter les vecteurs dans l'espace où, avantageusement, 5 les axes sont décorrélés, comme en analyse en composantes principales. Cette technique, notée ci-après "VZ-Norm" (pour "Vectoriel Z-Norm"), peut être interprétée comme une extension au cas vectoriel de la normalisation Z-Norm de l'art antérieur. En effet, la normalisation Z-Norm de l'art antérieur apparaît comme un cas 10 particulier de la normalisation VZ-Norm au sens de l'invention, cas particulier dans lequel la matrice de covariance Eo est diagonale. On peut se référer utilement à la relation (1) donnée ci-avant en référence à l'art antérieur, où les éléments de la matrice de covariance Eo , qui serait diagonale, sont : 1 1 1 6~e 15 Dans le cadre d'un processus de classification des vecteurs, il est utile de choisir un type approprié de mesure de similarité entre vecteurs. Afin de tirer avantage du centrage des vecteurs, une mesure de similarité sensible au centrage, par exemple la mesure de similarité angulaire décrite ci-après, peut être choisie.

20 A titre d'exemple de réalisation dans ce qui suit, on considère une application de l'invention à un système de vérification de l'identité d'un locuteur. Il s'agit de déterminer si l'identité de la personne ayant prononcé un message donné est bien celle proclamée par cette même personne. Pour ce faire, on a stocké un enregistrement vocal X d'un locuteur et 25 on demande à un individu qui prétend être ce locuteur de déclamer un énoncé correspondant, de test, noté Y ci-après. L'enregistrement vocal X et l'énoncé de test Y sont respectivement représentés par les vecteurs X et Y dans l'espace des modèles d'ancrage. La vérification de l'identité du locuteur consiste à : 2905790 8 - mesurer une similarité entre les vecteurs k et @ , - puis décider si l'énoncé de test Y a bien été prononcé par le locuteur à reconnaître. La vérification de l'identité du locuteur se décompose en trois phases.

5 Une première phase consiste à calculer les vecteurs et représentant respectivement l'énoncé de référence du locuteur à reconnaître X et l'énoncé de test Y. On rappelle que dans le cadre de la technique des modèles d'ancrage, le vecteur représentant un énoncé est défini comme l'ensemble des scores de vraisemblance entre l'énoncé proprement dit et les 10 modèles des locuteurs d'ancrage. Le perfectionnement apporté par l'invention ne concerne pas particulièrement cette première étape. Toutefois, à toutes fins utiles, l'homme du métier pourra obtenir des détails de réalisation de cette première étape notamment dans le document : "A correlation metric for speaker tracking using anchor models", 15 M. Collet, D. Charlet, F. Bimbot, ICASSP 2005 (proceedings), 1 : 713-716 (paragraphe "3.1. Concept of anchor models") Une seconde phase consiste à normaliser les vecteurs et Y en utilisant la technique VZ-Norm au sens de l'invention, soit : 20 XVZ-Norm 10 ()-) et YVZ-Noim 102 (Y-- Llo 1 Une troisième phase consiste à calculer une mesure de similarité entre les vecteurs normalisés afin de décider si l'énoncé de test Y a bien été prononcé par le locuteur X à reconnaître. La mesure de similarité utilisée, sensible au centrage, est préférentiellement la 25 mesure de similarité angulaire dans cet exemple de réalisation, donnée par : XV Z NormeT ZNora; ~ VZ--Norm VZùNorm.. VZ No l)?VZ Norùm, VZ N @ VZùNorm 2905790 -9 On détaille ci-après des aspects de la deuxième phase précitée, de normalisation au sens de l'invention. La matrice de covariance Eo et le vecteur moyen po sont estimés à partir d'un ensemble 5 de M énoncés L' (avec i = 1, ..., M), issus d'un corpus de développement et prononcés par des locuteurs différents des locuteurs d'ancrage. En effet, les locuteurs du corpus "d'apprentissage", permettant de construire par analyse statistique la matrice de covariance Eo et le vecteur moyen po, sont choisis intentionnellement distincts des locuteurs d'ancrage qui, eux, constituent "les axes" de l'espace de comparaison. La construction de la matrice 10 de covariance, notamment, est une manière "d'apprendre" comment d'autres locuteurs pourraient être distribués autour des axes de l'espace de comparaison, de sorte qu'il n'y a aucun intérêt à choisir des locuteurs du corpus d'apprentissage parmi les locuteurs d'ancrage.

15 Chaque énoncé étant représenté par un vecteur noté L' , on a les relations : ,uo.i = M 1 Li et `(E011,) = M ,y (Li poi)(L1' fpo~) (2) où : - L. est la j-ème composante du vecteur représentant le i-ème énoncé du corpus, - chaque terme /loi est une composante du vecteur moyen po, 20 - et chaque terme (Eoii,) représente finalement un coefficient (j-ème ligne, j'-ème colonne) de la matrice de covariance Eo , matrice qui bien entendu est symétrique. Bien entendu, chaque énoncé L' du corpus d'apprentissage est mis sous forme vectorielle L' dans la base des modèles d'apprentissage, sans être normalisé au sens de l'invention.

25 Le tableau ci-après présente les performances de cinq types de vérification de locuteurs. Les performances de vérification de locuteur sont évaluées en termes de faux rejets (FR) et de fausses alarmes (FA), avec : 2905790 -10FR = (Nombre de tentatives client rejetées)/(Nombre total de tentatives client) FA = (Nombre de tentatives imposteur acceptées)/(Nombre total de tentatives imposteur) Le niveau de fonctionnement d'un système de vérification du locuteur est défini par le taux d'égale erreur (ou EER pour "Error Equal Rate"), qui est obtenu lorsque le taux de fausses alarmes est égal au taux de faux rejets. Plus ce taux EER est faible et meilleurs sont les résultats.

10 Utilisation d'une : EER mesure de similarité angulaire sans normalisation 19.7 normalisation Z-None avec mesure de similarité angulaire 19.6 ACP (sans centrage, au sens de l'art antérieur) avec mesure angulaire 27.6 normalisation VZ-Norm (invention) avec mesure angulaire 11.2 normalisation VZ-Norm (invention) mais avec une mesure euclidienne 30.1 On rappelle ici que la mesure de similarité euclidienne est insensible au centrage, contrairement à la mesure de similarité angulaire.

15 Ce tableau permet de constater que la technique de normalisation VZ-Norm, associée à la mesure de similarité angulaire, améliore significativement les performances de vérification du locuteur par rapport aux techniques de l'état de l'art (normalisation Z-Norm ou ACP sans centrage). La comparaison des performances indique que la combinaison de trois éléments est très avantageuse pour obtenir cette amélioration significative. Ces trois 20 éléments sont : - le centrage des vecteurs, -la projection des vecteurs dans un espace où les axes sont décorrélés, -l'utilisation d'une mesure de similarité sensible au centrage. En effet, il a été mesuré que la suppression du centrage des vecteurs diminue les et 5 2905790 -11- performances de 144 %. La suppression de la projection des vecteurs dans un espace où les axes sont décorrélés diminue les performances de 73 %. L'utilisation d'une mesure de similarité insensible au centrage (par exemple euclidienne) diminue les performances de 166 %.

5 On indique ici qu'il n'a jamais été proposé dans l'art antérieur connu d'appliquer une projection sur des vecteurs centrés dans un espace de comparaison selon des axes issus d'une analyse en composantes principales, ni a fortiori d'effectuer une mesure de similarité sensible au centrage sur les vecteurs ainsi obtenus, la mesure habituellement effectuée sur 10 des vecteurs non centrés puis transformés étant typiquement une distance euclidienne comme dans : "Speaker indexing in large audio databases using anchor models", D.E. Sturim, D.A. Reynolds, E. Singer, J.P. Campbell, IEEE International Conference On Acoustics, Speech, and Signal Processing 15 (Proceedings), Mai 2001. La mesure de similarité sensible au centrage, combinée à une projection dans un espace dont les axes résultent d'une ACP, au sens de l'invention, s'est avérée particulièrement robuste selon les essais du tableau ci-avant, en procurant un effet qui va bien au-delà des espérances qu'un homme du métier aurait pu formuler dans la simple adjonction de ces 20 caractéristiques. On se réfère maintenant aux figures pour décrire les étapes et éléments intervenant dans un mode de réalisation de l'invention, à titre d'exemple dans une application de vérification d'identité d'un locuteur.

25 En référence à la figure 1, un locuteur ayant prononcé un énoncé de test Y (étape V-10) prétend être un locuteur X déjà enregistré dans un système de vérification vocale (étape V-11). Les variables d'entrée X et Y sont transformées en vecteurs respectifs et Y dans l'espace des locuteurs d'ancrage (étape E-12), selon la première phase décrite 30 précédemment. La deuxième phase (étape E-13) consiste à transformer les vecteurs et 2905790 - 12 - par la normalisation centrée VZ-Norm au sens de l'invention. A cet effet, on applique les relations du type donné ci-avant : XVZ-Nara: E07 (X-,u0) et YVZ-Norm E01 (ùP0) Pour ce faire, on a préalablement calculé et enregistré (étape V-18) les coordonnées du 5 vecteur moyen po et les coefficients de la matrice de covariance E o, à l'aide d'une base d'apprentissage dont les locuteurs sont différents des locuteurs d'ancrage (relations (2) données précédemment). L'étape E-14 de la figure 1 consiste à mesurer la distance 8 entre l'enregistrement du 10 locuteur X et l'énoncé de test Y. Comme décrit ci-avant pour la mise en oeuvre de la troisième phase précitée, on applique, grâce à la mise en oeuvre de l'invention, une mesure sensible au centrage, telle que la mesure d'une similarité angulaire (par exemple en utilisant une fonction arc-cosinus comme indiqué précédemment). Suite à cette étape E-14, on obtient une valeur de mesure ô qu'il convient de comparer à un seuil de décision THR 15 au test T-15. Dans l'application décrite ici propre à la vérification du locuteur X, si la mesure est inférieure au seuil fixé THR, alors le locuteur X est bien reconnu (flèche OK en sortie du test T-15 et menant à l'étape de décision D-16). Sinon (flèche KO en sortie du test T-15 et menant à l'étape de décision D-17), l'identité du locuteur X n'est pas vérifiée et, par exemple, une requête d'accès à un site ou à un service d'un individu qui se prétend être le 20 locuteur X est rejetée. On a représenté sur la figure 2, à titre d'exemple, quelques éléments d'un dispositif de vérification d'identité d'un locuteur, pour la mise en oeuvre du procédé illustré sur la figure 1.

25 Le dispositif VER de la figure 2 comporte une entrée IN-2 par laquelle le dispositif reçoit une consigne de vérifier l'identité d'un locuteur X déjà répertorié. Un module de pointage 10 recherche dans une base de données DB2 un enregistrement vocal du locuteur X (ou une expression mathématique décrite plus loin d'un tel enregistrement). Le dispositif VER 30 comporte en outre une entrée IN-1 pour recevoir un signal vocal correspondant à un 2905790 - 13 - énoncé de test Y prononcé par le locuteur dont l'identité est à vérifier. A cet effet, le locuteur prononce un énoncé de test Y (par exemple un énoncé de parole) dans un microphone MIC et le signal électrique résultant est traité par un module de mise en forme 11 avant d'être appliqué en entrée IN-1 du dispositif VER.

5 Le dispositif VER comporte alors au moins une mémoire pour stocker durablement : - la base de données DB2, précitée, comportant les énoncés X, équivalents à l'énoncé de test Y, et entrés par des locuteurs répertoriés par le dispositif de vérification, - éventuellement, une base de données DB3, des modèles d'ancrage et qui permet à un 10 module 12 de délivrer l'énoncé de test Y sous forme vectorielle Y, et - éventuellement, une base de données DB 1 comportant par exemple un ensemble de M énoncés issus d'un corpus d'apprentissage permettant à un module de calcul 18 de déterminer le vecteur moyen po et la matrice de covariance Eo , bien qu'en variante, il suffit de stocker d'emblée les coordonnées du vecteur moyen o et les coefficients de la matrice 15 de covariance Eo dans un emplacement mémoire 18, la mise en oeuvre tel que représentée sur la figure 2 permettant néanmoins d'enrichir progressivement la base de données DB 1 et/ou la base de données DB3. Le module de calcul, proprement dit, du dispositif VER, portant la référence 14 sur la 20 figure 2, normalise au sens de l'invention les vecteurs i et (application de la normalisation VZ-Norm à partir du vecteur moyen o et de la matrice de covariance Eo ) et calcule la mesure 8 de la similarité, par exemple angulaire, entre les deux vecteurs ainsi normalisés. Le module de calcul 14 met en oeuvre ainsi les étapes E-12, E-13 et E-14 de la figure 1.

25 En variante, la base de données DB2 peut stocker les expressions des locuteurs X directement sous forme vectorielle normalisée X,,Z_No,.n, pour gagner du temps de traitement. Ainsi, le module de calcul 14 n'a qu'à calculer l'expression Y,,z_No,,,, permettant ensuite de déterminer une mesure de similarité sensible au centrage, telle qu'une mesure de 2905790 similarité angulaire. On comprendra alors que la présente invention vise un tel module de calcul 14, permettant de réaliser au moins l'étape E-13 de la figure 1, pour le calcul de la normalisation "centrée" 5 @,,Z_No,.m au sens de l'invention, à tout le moins sur l'énoncé de test Y. La présente invention vise aussi le dispositif VER comportant un tel module de calcul 14. Elle vise aussi le produit programme d'ordinateur comportant des instructions pour réaliser au moins l'étape de normalisation E-13 de la figure 1 sur l'énoncé de test Y, lorsqu'un tel programme est exécuté par un processeur.

10 Le dispositif de vérification VER comporte enfin un module de décision 15 qui compare la mesure de similarité 8 à un seuil de référence et valide ou non la vérification du locuteur X en fonction de cette comparaison. On peut prévoir ensuite que ce module de décision 15 soit relié à une interface de communication, en sortie OUT du dispositif de vérification 15 VER, pour communiquer le résultat de la vérification (par exemple en vue d'un affichage LED ou sur un écran, ou en vue d'une diffusion d'un message audio sur un haut-parleur, ou autre). Bien entendu, le module de calcul 14, ainsi d'ailleurs que le dispositif VER dans son 20 ensemble, comportent des moyens de calcul informatique usuels tels qu'un processeur, une mémoire de travail, etc. Il a été choisi de décrire ci-avant l'application de vérification d'un locuteur pour des raisons de clarté de l'exposé. En effet, dans une variante d'application par exemple d'identification 25 d'un locuteur X répertorié dans un dispositif d'identification, le locuteur X ne proclame pas a priori son identité (suppression de l'entrée IN-2 du dispositif représenté sur la figure 2) et son énoncé de test Y est comparé à une batterie d'enregistrements stockés dans une base de données DB2, de sorte que l'on prévoit plutôt une pluralité de tests T-15 (figure 1) dont les seuils de comparaison peuvent être différents du seuil THR requis pour une vérification 30 d'identité. -14 - 2905790 - 15 - On comprendra que l'invention intervient néanmoins de la même manière dans les deux applications, avec en particulier un centrage des vecteurs et une projection dans un espace ou les axes sont décorrélés (normalisation VZ-Norm) et, selon un avantage qui découle de 5 ces caractéristiques, l'application ensuite d'une mesure de similarité sensible au centrage. L'invention se situe donc dans la manière de donner une mesure de similarité robuste et, par conséquent, beaucoup d'autres applications, distinctes d'une identification ou d'une vérification d'identité, peuvent être encore prévues. On peut citer à titre d'exemple une 10 segmentation en locuteurs différents dans un même flux audio. Il s'agit alors de marquer dans le flux chaque changement de locuteur. Un autre exemple d'application est le regroupement en locuteurs et consiste à mettre bout à bout les énoncés propres à un même locuteur intervenant à différents instants d'un flux audio. Une autre application est le suivi de locuteurs et consiste à identifier les passages d'un flux audio où intervient un même 15 locuteur. En pratique, dans cette dernière application, on recherche un locuteur précis dans un flux audio d'une taille considérable. De manière plus générale, la présente invention ne se limite pas à la forme de réalisation décrite ci-avant à titre d'exemple ; elle s'étend à d'autres variantes.

20 Ainsi, on comprendra par exemple que les relations (2) ci-avant pour le calcul des composantes du vecteur moyen po et des coefficients de la matrice de covariance Eo , sont données simplement clans un exemple de réalisation où l'on considère un calcul statistique interclasse. En variante, par exemple pour un calcul statistique intra-classe, on dispose 25 d'une pluralité de classes d'énoncés î?. et le centrage des vecteurs dans le calcul de la matrice de covariance s'effectue par soustraction d'une moyenne propre à chaque classe. Ci-avant, on a décrit comme exemple de réalisation d'une mesure desimilarité sensible au centrage, une mesure de similarité angulaire. Néanmoins, une telle mesure admet une 30 pluralité de variantes. Par exemple, il peut être prévu en variante d'une mesure de similarité 2905790 - 16- angulaire, en tant qu'autre mesure de similarité sensible au centrage, une mesure de corrélation avec calcul de coefficients de corrélation linéaire entre deux vecteurs et , comme décrit notamment dans : "A correlation metric for speaker tracking using anchor models", 5 M. Collet, D. Charlet, F. Bimbot, ICASSP 2005 (proceedings), 1 : 713-716 (paragraphe "New metric" dans "3.3. Metric for SCV comparison")

Claims

Revendications

1. Procédé de traitement d'un signal vocal à comparer à au moins une référence, dans lequel le signal vocal (Y) est mis sous forme vectorielle dans une base vectorielle 5 déterminée à partir de modèles d'ancrage, pour effectuer ensuite une mesure de similarité (b) entre la forme vectorielle du signal vocal et une forme vectorielle homologue de la référence, dans un espace de comparaison que définit ladite base vectorielle, caractérisé en ce que la mise sous forme vectorielle du signal vocal comporte une 10 normalisation (VZ-Norm) impliquant : - un centrage de la forme vectorielle autour d'au moins un vecteur moyen (uo) déterminé par analyse statistique, et - une projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus des modèles d'ancrage et décorrélés entre eux par application d'une matrice (2) -représentative d'une variance déterminée aussi par analyse statistique.

2. Procédé selon la revendication 1, caractérisé en ce que la mesure de similarité (b) est une mesure de similarité sensible au centrage.

3. Procédé selon la revendication 2, caractérisé en ce que la mesure de similarité est une mesure de similarité angulaire (8).

4. Procédé selon la revendication 2, caractérisé en ce que la mesure de similarité est une 25 mesure de corrélation linéaire entre la forme vectorielle normalisée du signal vocal et la forme vectorielle normalisée, homologue, de la référence.

5. Procédé selon l'une des revendications précédentes, caractérisé en ce que ladite projection s'effectue selon des axes obtenus par une analyse en composantes principales 30 d'un corpus de développement sur lequel est réalisée l'analyse statistique donnant ladite 15 20 2905790 matrice représentative d'une variance.

6. Procédé selon l'une des revendications précédentes, caractérisé en ce que le centrage est mené par soustraction du vecteur moyen (po) à la forme vectorielle (@ ).

7. Procédé selon les revendications 5 et 6, prises en combinaison, caractérisé en ce que ladite normalisation, appliquée à un vecteur noté X , est définie par une relation du type : XVZùNo,m (X û,uo), où : - la notation Xvz_No,,n vise le vecteur X normalisé, - uo correspond audit vecteur moyen, - Eo est une matrice de covariance tirée de l'analyse statistique.

8. Procédé selon la revendication 7, caractérisé en ce que la matrice de covariance (Eo) et le vecteur moyen (,uo) sont estimés à partir d'un ensemble statistique de M signaux vocaux, chaque signal vocal de cet ensemble statistique étant mis sous forme vectorielle, sans normalisation, dans la base des modèles d'ancrage, et en ce que les composantes du vecteur moyen (,uo) et les coefficients de la matrice de covariance (Eo) sont donnés par les relations : - 18 - ti ,uo. _ L et _ 1 (s0ü') M~(Lù110/)(L.ùof,), l où: - chaque terme po. est une composante du vecteur moyen o, - chaque terme (EoJr) est un coefficient de la matrice de covariance Eo , - et L. est la j-ème composante d'un i-ème signal vocal, parmi les M signaux de l'ensemble statistique.

9. Procédé selon l'une des revendications précédentes, caractérisé en ce que les modèles d'ancrage sont tirés d'enregistrements d'un premier groupe de locuteurs et l'analyse 2905790 -19- statistique est menée sur des enregistrements d'un second groupe de locuteurs distincts des locuteurs du premier groupe.

10. Dispositif de comparaison d'un signal vocal à au moins une référence, comportant : 5 - une mémoire (DB2) pour stocker au moins un enregistrement de référence (X ), - une entrée (IN-1) pour recevoir un signal vocal test (Y ), - des moyens de calcul (12, 14) pour mettre au moins le signal vocal () sous forme vectorielle dans une base vectorielle déterminée à partir de modèles d'ancrage et effectuer ensuite une mesure de similarité (8) entre la forme vectorielle du signal vocal et une forme 10 vectorielle homologue de la référence, dans un espace de comparaison que définit ladite base vectorielle, et - un module de décision (15) propre à donner un résultat de comparaison à partir de ladite mesure de similarité (8), caractérisé en ce que les moyens de calcul comportent un module de normalisation (14) de 15 la forme vectorielle du signal vocal, avec : - centrage de la forme vectorielle autour d'au moins un vecteur moyen (uo) déterminé par analyse statistique, et - projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus des modèles d'ancrage et décorrélés entre eux par 20 application d'une matrice (E02 ) représentative d'une variance déterminée aussi par analyse statistique, pour la mise en oeuvre du procédé selon l'une des revendications 1 à 9.

11. Module d'un dispositif comparateur selon la revendication 10, caractérisé en ce qu'il 25 comporte des moyens pour normaliser une forme vectorielle d'un signal vocal test en appliquant : - un centrage de la forme vectorielle autour d'au moins un vecteur moyen (po) déterminé par analyse statistique, et - une projection de la forme vectorielle, ainsi centrée, dans un espace de comparaison que définit une base de vecteurs issus de modèles d'ancrage et décorrélés entre eux par 2905790 -application d'une matrice (E02 ) représentative d'une variance déterminée aussi par analyse statistique.

12. Module selon la revendication 11, caractérisé en ce qu'il comporte des moyens pour 5 mesurer en outre une similarité sensible au centrage entre la forme vectorielle normalisée du signal vocal test et une forme vectorielle normalisée, homologue, d'une référence.

13. Programme d'ordinateur pour un dispositif comparateur entre un signal vocal et une référence, comportant des instructions pour la mise en oeuvre du procédé selon l'une des 10 revendications 1 à 9, lorsqu'il est exécuté sur le dispositif.