FR2832540A1

FR2832540A1 - Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede

Info

Publication number: FR2832540A1
Application number: FR0115135A
Authority: FR
Inventors: Jiang Shao; Nour Eddine Tazine
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2001-11-22
Filing date: 2001-11-22
Publication date: 2003-05-23
Also published as: WO2003044773A1; AU2002356252A1

Abstract

L'invention consiste en un procédé de reconnaissance vocale au sein d'un appareil exécutant des commandes. L'appareil comporte un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes. Le procédé comporte :- une étape d'acquisition vocale d'un ordre vocal dont le traitement fournit deux commandes candidates qui sont associées à des valeurs de probabilités,- une étape de comparaison des valeurs de probabilité et, en cas de différence inférieure à un certain seuil :- une étape de décision consistant à comparer le nombre d'exécutions des deux commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois. La présente invention concerne aussi le terminal mettant en oeuvre le procédé.

Description

La présente invention concerne un procédé pour reconnaître des commandes vocales et un dispositif apte à les reconnaître.

Certains dispositifs possèdent un moyen d'introduction de commandes manuelles en plus du moyen d'acquisition de commandes vocales. Le moyen de reconnaissance vocale est basé sur une vérification contextuelle des commandes vocales. L'utilisation conjointe d'une télécommande manuelle et d'un moteur de reconnaissance vocale est connue en soi. La demande de brevet FR98.11838 déposée par la demanderesse décrit un système dans lequel des menus sont affichés à la suite de l'appui sur des touches, ces menus présentent les commandes vocales que l'utilisateur peut prononcer pour exécuter les fonctions accessibles à ce moment.

Les commandes vocales sont généralement reconnues par des programmes appelés moteurs de reconnaissance vocale . L'objectif de tels programmes est d'analyser le son reçu et de sélectionner dans un vocabulaire. Les mots qui correspondraient le mieux au son analysé. Les mots trouvés sont appelés candidats. Le moteur leur associe une valeur de probabilité.

Une difficulté à réaliser une interface utilisateur vocale est de trouver un équilibre entre : * L'utilisation des commandes naturelles et significatives (qui sont en général des commandes courtes), afin de faciliter l'apprentissage et l'utilisation par l'utilisateur de ces commandes, et 'L'utilisation de commandes qui sont suffisamment distinctes phonétiquement (qui sont en général des commandes longues), afin d'améliorer le taux de reconnaissance.

Ces deux aspects ne sont pas toujours compatibles. De plus, le choix des commandes vocales ne peut pas être arbitraire en général. Un exemple typique, dans le domaine de l'interface utilisateur vocale de l'électronique grand public, concerne les noms de chaînes de télévision : beaucoup de

chaînes de télévision portent des noms très similaires phonétiquement, par exemple MTV et NTV , et de plus, l'utilisation d'un autre nom n'est en général pas bien acceptée par les utilisateurs.

On peut améliorer le taux de reconnaissance vocale en utilisant des sous-vocabulaires, c'est-à-dire en limitant la reconnaissance à un nombre limité de commandes. La présente invention offre une autre approche, non exclusive qui permet de reconnaître des commandes vocales.

L'objet de la présente invention est un procédé de reconnaissance vocale au sein d'un appareil exécutant des commandes, ledit appareil comportant un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes ; le procédé étant caractérisé en ce qu'il comporte : - une étape d'acquisition vocale d'un ordre vocal dont le traitement fournit deux commandes candidates qui sont associées à des valeurs de probabilités, - une étape de comparaison des valeurs de probabilité et, en cas de différence inférieure à un certain seuil : - une première étape de décision consistant à comparer le nombre d'exécutions des deux commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois.

De cette manière, lorsque le moteur de reconnaissance vocale n'a pas permis de distinguer nettement entre deux commandes candidates, c'est la commande la plus souvent exécutée qui est choisie.

Selon un premier perfectionnement, le procédé comprend une étape de comptabilisation du nombre de fois où une commande est exécutée vocalement. En cas de doute entre deux commandes, c'est la commande qui est la plus souvent activée oralement qui est choisie.

Selon un autre perfectionnement et s'il reste un doute, le procédé recherche les paramètres liés à des précédentes confusions entre les deux commandes candidates, et choisit la commande qui a été exécutée lors de la dernière confusion.

Selon un autre perfectionnement, le procédé détecte que l'ordre vocal pour lequel il y a une confusion entre deux commandes candidates intervient peu de temps après la dernière confusion entre ces deux mêmes commandes. Dans ce cas, la commande qui n'avait pas été exécutée lors de la dernière confusion, est exécutée.

L'objet de la présente invention est aussi un terminal multimédia exécutant des commandes, et doté d'un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes ; caractérisé en ce qu'il comporte : - un moyen de comptage par des compteurs globaux des exécutions de chaque commande pris dans un ensemble, - un moyen de calcul de l'écart entre les taux de probabilité de deux commandes candidates déterminées par le moyen d'acquisition vocal à la suite d'un ordre vocal, - un moyen de comparaison des valeurs des deux compteurs globaux associés aux commandes candidates, - un premier moyen d'exécution de la commande candidate dont le compteur global possède la plus grande valeur, les moyens de comparaison des compteurs globaux et premier moyen d'exécution étant activés lorsque l'écart est inférieur à un seuil déterminé.

L'invention, avec ses caractéristiques et avantages, ressortira plus clairement à la lecture de la description d'un exemple de réalisation particulier non limitatif fait en référence aux dessins annexés dans lesquels : - la figure 1 est un diagramme bloc d'un système à commande vocale selon un exemple de réalisation, - la figure 2 présente un organigramme général du programme de contrôle d'interface utilisateur mettant en oeuvre le procédé d'amélioration de reconnaissance vocale selon un exemple de réalisation, - la figure 3 présente un organigramme d'une partie du programme de contrôle d'interface utilisateur mettant en oeuvre le

procédé d'amélioration de reconnaissance vocale selon un exemple de réalisation, - la figure 4 présente un organigramme d'une autre partie du programme de contrôle d'interface utilisateur mettant en oeuvre le procédé d'amélioration de reconnaissance vocale selon un exemple de réalisation.

Nous allons tout d'abord décrire un exemple d'appareil pour la mise en oeuvre de l'invention. La figure 1 présente un terminal multimédia 1 connecté à un dispositif d'affichage 2 tel qu'un écran de visualisation.

Le terminal 1 peut être un récepteur de télévision ou un terminal audiovisuel doté de moyens de communication vers un réseau à haut débit, ou un terminal autonome de visualisation d'émissions audiovisuelles. Le terminal 1 comprend une unité centrale 3 reliée entre autre à une mémoire 4 contenant des programmes exécutables, une horloge 5, une interface de réception de signaux infrarouges 9 pour recevoir les signaux d'une télécommande 10, une logique de décodage audio/vidéo 1 2 pour la création des signaux audiovisuels envoyés à l'écran de télévision 2. La télécommande 10 est dotée d'un pavé numérique, de touches de navigation 1', 4",- et < -, et de touches spécifiques pour le contrôle des fonctions du terminal.

Le terminal comprend également des moyens de réception 7 tel qu'un syntoniseur (TUNER selon la terminologie anglo-saxonne) et un démultiplexeur pour recevoir des émissions audiovisuelles d'un réseau de diffusion. Le terminal comprend également un circuit 13 d'affichage de données sur l'écran, appelé souvent circuit OSD, de l'anglais"On Screen
Display" (signifiant littéralement"affichage sur l'écran"). Le circuit OSD
13 est un générateur de texte et de graphisme qui permet d'afficher à l'écran des menus, tels que des requêtes à l'intention de l'utilisateur. Le circuit OSD est contrôlé par l'Unité Centrale 3 en association avec un programme exécutable enregistré dans la mémoire 4. Le terminal

comprend en outre une mémoire non volatile 11 pour le stockage des paramètres.

Le terminal comprend aussi un dispositif de prise de son sous la forme d'un microphone. Le microphone est connecté à un moteur de reconnaissance vocale 8, soit par une connexion filaire, soit par une connexion sans fils (dont l'émetteur et le récepteur RF ne sont pas représentés), comprenant un amplificateur et un convertisseur analogique/numérique. Les sons digitalisés sont analysés par un moteur de reconnaissance vocale réalisé préférentiellement sous la forme d'un programme enregistré dans la mémoire 4.

Après avoir décrit les différents éléments de l'invention, nous allons maintenant expliquer comment ceux-ci coopèrent.

L'interface utilisateur Ul dispose de deux moyens d'introduction de commandes : la télécommande 10 et l'interface vocale. Les commandes exécutables par la télécommande n'étant pas forcément les mêmes que celles exécutables par l'interface vocale, il y a lieu de définir un sous-ensemble des commandes exécutables à l'aide des deux moyens. Ce sous-ensemble peut bien évidemment englober toutes les commandes exécutables par le terminal. Le terminal comptabilise le nombre de fois que chaque commande est exécutée à partir de l'un ou l'autre des moyens. Pour cela, la mémoire 11 contient une table schématisée par le tableau 1 ci-dessous :

<tb>
<tb> Identifiant <SEP> de <SEP> Compteur <SEP> global <SEP> Compteur <SEP> d'utilisation <SEP> par
<tb> la <SEP> commande <SEP> commande <SEP> vocale
<tb> CD1 <SEP> 25 <SEP> 20
<tb> CD2 <SEP> 18 <SEP> 15
<tb> CD3 <SEP> 13 <SEP> 11
<tb> ... <SEP> .... <SEP> ....
<tb>

Cdi <SEP> CptGi <SEP> CptVi
<tb> ... <SEP> .... <SEP> ....
<tb>

TABLEAU 1
Chaque ligne correspond à une commande exécutable par le terminal. Chaque commande i est identifiée par un identifiant CDi, qui peut être un code par exemple, ou son titre tel que allumer , éteindre , hausse le son , etc. Chaque fois que la commande Cdi est exécutée, la valeur du compteur CptGi est incrémentée d'une unité. Un second compteur CptVi est affecté à chaque commande i , ce compteur est incrémenté chaque fois que la commande est exécutée à la suite d'une commande vocale.

L'interface utilisateur comporte un programme enregistré dans la mémoire 4. Ce programme contrôle les deux interfaces manuelle et vocale et en déduit des commandes CDi qui sont ensuite exécutées dans le terminal. La figure 2 présente le schéma général de ce programme de contrôle.

Le programme est lancé à la mise sous tension du terminal. Il est inactivé à la mise hors tension. La figure 2 montre sous la forme d'un organigramme les principales étapes du procédé que ce programme implémente.

A l'étape 2.1, le programme attend une commande utilisateur.

Cette étape d'attente consiste à scruter les interfaces manuelles et vocales et à continuer le programme dès que l'utilisateur a appuyé sur une touche de la télécommande ou prononcé des paroles intelligibles. A l'étape 2.2, le programme teste l'origine de la commande : si elle provient de l'interface vocale, le programme saute à l'étape 2.3 qui sera détaillée par la suite à l'aide des figures 3 et 4. Si elle découle d'une action effectuée sur les touches de la télécommande, le programme décode les données reçues de la télécommande et en déduit l'identifiant CDi de la commande (étape 2.4). Après avoir déduit par le moteur de reconnaissance ou par l'interface manuelle l'identifiant de la commande,

cette dernière dont l'identifiant est dans la mémoire temporaire s est exécutée (étape 2.5). A l'étape 2.6, la valeur du compteur global CptGi correspondant à la commande exécutée est ajoutée d'une unité. Puis le programme reboucle à l'étape 2.1 d'attente d'une commande utilisateur.

La figure 3 présente une partie du déroulement de l'étape 2.3, exécutée entre les points A et B de la figure 2.

Le moteur de reconnaissance vocale est lancé à l'étape 3.1. Dans un premier temps le son est analysé et synthétisé en phonèmes. Puis, les différents phonèmes sont comparés à un vocabulaire (ou sousvocabulaire) prédéterminé. Enfin, le moteur détermine une petite liste de mots du vocabulaire susceptible d'être celui prononcé, ces mots appelés candidats sont associés à un niveau de probabilité. Le moteur sélectionne les deux candidats CDi et CDj ayant les plus fortes

probabilités : Prob~CDi et ProbCDj (avec Prob~CDi > Prob~CDj).

Dans un premier temps, le programme compare les probabilités des deux candidats. A l'étape 3.2, il teste si l'écart entre Prob~CDi et ProbCDj est important. Si la probabilité de reconnaissance de CDi est supérieure à celle de CDj d'un seuil prédéterminé SEUIL 1, alors il n'y a pas de doute entre les deux candidats, et le programme choisit le candidat CDi en sautant à la sortie C du programme. Le seuil est par exemple de 10%, si le moteur calcule 92% pour CD1,80% pour CD2, l'écart étant supérieur à 10% alors c'est CD1 qui est choisi. Si l'écart est inférieur au seuil, alors le moteur compare le compteur global de chaque candidat (étape 3.3). De cette manière, le choix d'un candidat par rapport à l'autre est effectué selon sa fréquence d'utilisation. On considère que le programme a le moins de chances de se tromper en choisissant les candidats les plus souvent utilisés par l'utilisateur. Pour cela, le moteur calcule l'écart entre les compteurs globaux de CDi (CptGi) et CDj (CptGj), et le compare à un seuil déterminé SEUIL2. Si (CptGi-CptGj) > SEUIL2 alors le programme saute à la sortie C du programme en choisissant le candidat CDi. Sinon (étape 3.4), si (CptGj-CptGi) > SEUIL2) alors le programme saute à la sortie D du programme en

choisissant le candidat CDj. Dans l'exemple du tableau 1, si le doute existe entre CD1 et CD2, en prenant la valeur SEUIL2 égale à 5, le moteur choisit CD1 (25-18 = 7 qui est supérieur à 5).

Si le doute existe encore, le programme va comparer les compteurs d'utilisation vocale des candidats. Pour cela, le programme calcule l'écart entre les compteurs d'utilisation vocale de CDi (CptVi) et CDj (CptVj), et le compare à un seuil déterminé SEUIL3. Si à l'étape 3.5, (CptVi-CptVj) > SEUIL3 alors le programme saute à la sortie C du programme en choisissant le candidat CDi. Sinon (étape 3.6), si (CptVj-CptVi) > SEUIL3 alors le programme saute à la sortie D du programme en choisissant le candidat CDj. Dans l'exemple du tableau 1, si le doute existe entre CD2 et CD3, en prenant la valeur SEUIL3 égale à 10, le moteur ne peut choisir CD1 (15-11 = 4 qui est inférieur à 10).

Si le doute existe encore, d'autres moyens d'investigation vont être mis en oeuvre. Le programme saute à l'étape 3.7 (entrée notée E ), qui est expliqué par la figure 4.

La partie du programme référencée à l'étape 3.7 est chargée de lever le doute entre deux candidats. Le doute entre deux candidats est appelé une confusion . Le terminal mémorise toutes les confusions rencontrées au cours de l'utilisation du terminal, et met à jour les paramètres des confusions dans le tableau 2 enregistré dans la mémoire 11 et représenté ci-dessous :

<tb>
<tb> Identifiant <SEP> de <SEP> Compteur <SEP> Données <SEP> de <SEP> la <SEP> dernière <SEP> confusion
<tb> confusion <SEP> de <SEP> la <SEP> Date <SEP> & <SEP> Heure <SEP> Choix <SEP> final
<tb> confusion
<tb> (CD1,CD6) <SEP> 4 <SEP> 15:09 <SEP> / <SEP> 20:03 <SEP> CD6
<tb> (CD1,CD3) <SEP> 8 <SEP> 20:08 <SEP> / <SEP> 18:45 <SEP> CD1
<tb> ... <SEP> ...
<tb>

(CDi, <SEP> CDj) <SEP> Cpt(CDi,CDj) <SEP> DDk <SEP> : <SEP> HHk <SEP> CDi
<tb> ... <SEP> ...
<tb>

<tb>
<tb> (libre) <SEP> (libre) <SEP> (libre) <SEP> (libre)
<tb>

TABLEAU 2
Le point d'entrée de l'organigramme de la figure 4 est noté E .

A l'étape 4.1, le programme recherche si, dans le passé, il y a déjà eu une confusion entre les candidats CDi et CDj, doute que l'analyse des compteurs d'utilisation globale et vocale n'ait pas réussi à lever. La recherche consiste à balayer la première colonne du tableau et à chercher le couple d'identifiant (CDi, CDj). Si la confusion n'a jamais été rencontrée dans le passé (étape 4.2), le doute ne peut être levé que par une étape manuelle, le programme saute alors à l'étape 4.4. Si la confusion a déjà été rencontrée (étape 4. 3), le programme recherche dans la seconde colonne du tableau 2, le nombre d'occurrences Cpt (CDI, CDJ) de cette confusion et le compare à une certaine valeur déterminée. Si cette valeur n'est pas atteinte, les précédents cas sont trop peu nombreux pour être significatifs, une action manuelle de l'utilisateur est alors requise (saut à l'étape 4.3).

Avantageusement, les deux candidats sont affichés à l'écran et sont affectés d'un numéro : 1 et 2 par exemple. L'utilisateur répond manuellement avec sa télécommande (en utilisant la touche 1 s'il veut CDi et 2 s'il veut CDj). La réponse est analysée à l'étape 4.5 et le programme selon la sélection de l'utilisateur saute à l'étape 4.8 (le candidat CDi est choisi) ou à l'étape 4.9 (CDj est choisi).

Si le nombre de confusions dépasse un certain seuil (SEUIL4), alors le moteur teste à l'étape 4.6 si la date et l'heure de la dernière confusion enregistrée dans la troisième colonne du tableau 3 est récente, par exemple, si la dernière confusion qui concernait ces deux candidats, est intervenue il y a plus ou moins de 30 secondes. Si la dernière confusion n'est pas récente, le moteur décide arbitrairement de choisir Cdi ou CDj et saute à l'étape 4.8 ou 4.9. Ce choix est figé dans le programme, c'est à dire que ce sera toujours le premier candidat par exemple qui est choisi.

Une variante consiste à choisir la même commande que celle qui a été exécutée lors de la dernière confusion qui a été faite il y a un certain temps (étape 4.6bis). Sinon, la dernière confusion enregistrée est récente (intervenue par exemple il y a moins de 30 secondes), on peut alors considérer que la commande vocale en cours est une correction de la décision correspondant à la dernière confusion enregistrée. Dans ce cas, à l'étape 4.7, le moteur lit dans la dernière colonne du tableau quel fut le candidat choisi lors de la dernière confusion et décide cette fois-ci de choisir l'autre candidat. Donc, si la dernière décision pour lever la confusion a été CDj, le moteur choisit alors le candidat CDi et saute à l'étape 4.8. Si la dernière décision pour lever la confusion a été CDi, le moteur choisit alors le candidat CDj et saute à l'étape 4.9. Au cours des étapes 4.8 et 4. 9, le moteur met à jour les paramètres du tableau 2 en fonction de la confusion rencontrée et du choix finalement effectué.

L'heure et la date sont lue à partir de l'horloge 5 et inscrit dans la troisième colonne du tableau 2.

A la fin de l'étape 4. 8 qui correspond à l'entrée C, le programme augmente d'une unité le compteur d'utilisation par reconnaissance vocale du candidat CDi (étape 4. 10). Puis le programme enregistre dans une mémoire temporaire s l'identifiant i de la commande (étape 4.11) et sort du moteur de reconnaissance vocale par le point de sortie B. On a vu à l'aide de la figure 2, que la commande sélectionnée est ensuite exécutée. De même à la fin de l'étape 4.9 qui correspond à l'entrée D, le programme augmente d'une unité le compteur d'utilisation par reconnaissance vocale du candidat CDj (étape 4.12). Puis le programme enregistre dans une mémoire temporaire s l'identifiant j de la commande.

Il faut noter que la liste des commandes qui peuvent être reconnues à la fois manuellement et vocales, peut constituer qu'un sous-ensemble des commandes exécutables par l'appareil. Par exemple, les commandes consistant à introduire des chiffres, ou des commandes destinées à augmenter le volume par incrément successif, peuvent être formulées par

des mots répétitif- chaîne un un un ou volume plus, plus, plus . De telles commandes mal prononcées risqueraient de provoquer des confusions mal gérées par l'invention. La seconde répétition peut être considéré par le programme comme une correction de la première.

Le présent mode de réalisation doit être considéré à titre d'illustration mais peuvent être modifiés dans le domaine défini par la portée des revendications jointes. En particulier, l'invention ne se limite pas aux récepteurs de télévision mais peut s'appliquer à de nombreux dispositifs, en particulier des appareils électronique grand public.

Claims

Revendications

1. Procédé de reconnaissance vocale au sein d'un appareil exécutant des commandes, ledit appareil comportant un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes ; le procédé étant caractérisé en ce qu'il comporte : - une étape d'acquisition vocale (2.3) d'un ordre vocal dont le traitement fournit deux commandes candidates qui sont associées à des valeurs de probabilités, - une étape de comparaison des valeurs de probabilité et, en cas de différence inférieure à un certain seuil (SEUIL1) : - une première étape de décision (3.2, 3.3, 3.4) consistant à comparer le nombre d'exécutions des deux commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois.

2. Procédé de reconnaissance vocale selon la revendication 1 caractérisé en ce qu'il comporte en outre, une seconde étape de décision (3.5, 3.6) consistant à comparer le nombre d'exécutions des deux commandes à l'aide du moyen d'acquisition vocal des commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois à l'aide du moyen d'acquisition vocale, cette seconde étape de décision étant activée lorsque l'écart entre le nombre d'exécutions des deux commandes candidates est inférieur à un seuil déterminé (SEUIL2).

3. Procédé de reconnaissance vocale selon la revendication 2 caractérisé en ce qu'il comporte en outre : - une étape de recherche de paramètres (4.1, 4.2) liés à une confusion entre les deux commandes candidates, cette étape étant activée lorsque la différence entre le nombre d'exécutions des deux commandes candidates par le moyen d'acquisition vocal est inférieure à un seuil déterminé (SEUIL3),

- une troisième étape de décision (4.6) consistant à exécuter la même commande que celle exécutée lors de la dernière confusion.

4. Procédé de reconnaissance vocale selon la revendication 3 caractérisé en ce que la troisième étape de décision est activée lorsque (étape 4.3) le nombre de confusions entre les deux commandes candidates est supérieur à une valeur déterminée (SEUIL4).

5. Procédé de reconnaissance vocale selon la revendication 3 caractérisé en ce qu'il comporte une étape de présentation (4.4) d'une requête pour introduire manuellement la commande lorsque le nombre de confusions entre les deux commandes candidates est inférieur à une valeur déterminée (SEUIL4).

6. Procédé de reconnaissance vocale selon la revendication 3, 4 ou 5 caractérisé en ce qu'il comporte : - une étape de mémorisation (4.8, 4.9) d'un identifiant de la commande exécutée et d'un paramètre temporel tous deux associés à la dernière confusion entre les deux commandes candidates, - une quatrième étape de décision (4.6, 4.7) activée lorsque l'écart entre le moment présent et le paramètre temporel est inférieur à une durée déterminée, cette quatrième étape exécutant la commande qui n'avait pas été exécutée lors de la dernière confusion.

7. Terminal multimédia (1) exécutant des commandes doté d'un moyen d'introduction manuel (9,10) et un moyen d'acquisition vocal (6,8) des commandes ; caractérisé en ce qu'il comporte : - un moyen de comptage (3,4) par des compteurs dits globaux (CptGi) des exécutions de chaque commande pris dans un ensemble, - un moyen de calcul (3,4) de l'écart (ProbCdi-Prob-CDj) entre les taux de probabilité de deux commandes candidates (Cdi, CDj) déterminées par le moyen d'acquisition vocal à la suite d'un ordre vocal,

- un moyen de comparaison (3,4) des valeurs des deux compteurs globaux (CptGi, CptGj) associés aux commandes candidates (Cdi, CDj), - un premier moyen d'exécution (3,4) de la commande candidate dont le compteur global possède la plus grande valeur, les moyens de comparaison des compteurs globaux et premier moyen d'exécution étant activés lorsque l'écart (Prob~Cdi-Prob-CDj) est inférieur à un seuil déterminé (SEUIL 1).

8. Terminal multimédia selon la revendication 7 caractérisé en ce qu'il comporte : - un moyen de comptage par des compteurs dits spéciaux (CptVi) des exécutions de chaque commande de l'ensemble lancée par le moyen d'acquisition vocal (6,8), - un moyen de comparaison des valeurs des deux compteurs spéciaux (CptVi, CptVj) associés aux commandes candidates (Cdi, CDj), - un second moyen d'exécution de la commande candidate dont le compteur spécial possède la plus grande valeur, les moyens de comparaison des compteurs spéciaux et second moyen d'exécution étant activés lorsque l'écart entre les compteurs globaux est inférieur à un seuil déterminé (SEUIL2).

9. Terminal multimédia selon la revendication 8 caractérisé en ce qu'il comporte : - un moyen de mémorisation (3,4, 11) de paramètres liés à des confusions précédentes entre les deux commandes candidates, notamment un identifiant de la commande exécutée lors de la dernière confusion, - un moyen de recherche dans la mémoire (11) du terminal des paramètres liés à une confusion entre les deux commandes candidates (Cdi, CDj), - un troisième moyen d'exécution de la commande candidate exécutée lors de la dernière confusion, les moyens de mémorisation, de recherche et troisième moyen d'exécution étant activés lorsque l'écart entre les valeurs des compteurs spéciaux des deux commandes candidates est inférieur à un seuil déterminé (SEUIL3).

10. Terminal multimédia selon la revendication 9 caractérisé en ce que le troisième moyen d'exécution est activé lorsque le nombre de confusions entre les deux commandes candidates est supérieur à une valeur déterminée (SEUIL4).

11. Terminal multimédia selon la revendication 9 caractérisé en ce qu'il comporte un moyen de présentation à l'utilisateur d'une demande d'introduction manuelle de la commande, ce moyen étant activé lorsque le nombre de confusions entre les deux commandes candidates est inférieur à une valeur déterminée (SEUIL4).

12. Terminal multimédia selon la revendication 9,10 ou 11 caractérisé en ce qu'il comporte : - un moyen de mémorisation d'un identifiant de la commande exécutée et d'un paramètre temporel tous deux associés à la dernière confusion entre les deux commandes candidates, - un quatrième moyen d'exécution de la commande qui n'avait pas été exécutée lors de la dernière confusion, ce quatrième moyen de décision étant activé lorsque l'écart entre le moment présent et le paramètre temporel est inférieur à une durée déterminée.