FR2832540A1 - Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede - Google Patents

Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede Download PDF

Info

Publication number
FR2832540A1
FR2832540A1 FR0115135A FR0115135A FR2832540A1 FR 2832540 A1 FR2832540 A1 FR 2832540A1 FR 0115135 A FR0115135 A FR 0115135A FR 0115135 A FR0115135 A FR 0115135A FR 2832540 A1 FR2832540 A1 FR 2832540A1
Authority
FR
France
Prior art keywords
commands
command
candidate
voice
confusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0115135A
Other languages
English (en)
Inventor
Jiang Shao
Nour Eddine Tazine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Priority to FR0115135A priority Critical patent/FR2832540A1/fr
Priority to PCT/FR2002/003981 priority patent/WO2003044773A1/fr
Priority to AU2002356252A priority patent/AU2002356252A1/en
Publication of FR2832540A1 publication Critical patent/FR2832540A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

L'invention consiste en un procédé de reconnaissance vocale au sein d'un appareil exécutant des commandes. L'appareil comporte un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes. Le procédé comporte :- une étape d'acquisition vocale d'un ordre vocal dont le traitement fournit deux commandes candidates qui sont associées à des valeurs de probabilités,- une étape de comparaison des valeurs de probabilité et, en cas de différence inférieure à un certain seuil :- une étape de décision consistant à comparer le nombre d'exécutions des deux commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois. La présente invention concerne aussi le terminal mettant en oeuvre le procédé.

Description

<Desc/Clms Page number 1>
La présente invention concerne un procédé pour reconnaître des commandes vocales et un dispositif apte à les reconnaître.
Certains dispositifs possèdent un moyen d'introduction de commandes manuelles en plus du moyen d'acquisition de commandes vocales. Le moyen de reconnaissance vocale est basé sur une vérification contextuelle des commandes vocales. L'utilisation conjointe d'une télécommande manuelle et d'un moteur de reconnaissance vocale est connue en soi. La demande de brevet FR98.11838 déposée par la demanderesse décrit un système dans lequel des menus sont affichés à la suite de l'appui sur des touches, ces menus présentent les commandes vocales que l'utilisateur peut prononcer pour exécuter les fonctions accessibles à ce moment.
Les commandes vocales sont généralement reconnues par des programmes appelés moteurs de reconnaissance vocale . L'objectif de tels programmes est d'analyser le son reçu et de sélectionner dans un vocabulaire. Les mots qui correspondraient le mieux au son analysé. Les mots trouvés sont appelés candidats. Le moteur leur associe une valeur de probabilité.
Une difficulté à réaliser une interface utilisateur vocale est de trouver un équilibre entre : * L'utilisation des commandes naturelles et significatives (qui sont en général des commandes courtes), afin de faciliter l'apprentissage et l'utilisation par l'utilisateur de ces commandes, et 'L'utilisation de commandes qui sont suffisamment distinctes phonétiquement (qui sont en général des commandes longues), afin d'améliorer le taux de reconnaissance.
Ces deux aspects ne sont pas toujours compatibles. De plus, le choix des commandes vocales ne peut pas être arbitraire en général. Un exemple typique, dans le domaine de l'interface utilisateur vocale de l'électronique grand public, concerne les noms de chaînes de télévision : beaucoup de
<Desc/Clms Page number 2>
chaînes de télévision portent des noms très similaires phonétiquement, par exemple MTV et NTV , et de plus, l'utilisation d'un autre nom n'est en général pas bien acceptée par les utilisateurs.
On peut améliorer le taux de reconnaissance vocale en utilisant des sous-vocabulaires, c'est-à-dire en limitant la reconnaissance à un nombre limité de commandes. La présente invention offre une autre approche, non exclusive qui permet de reconnaître des commandes vocales.
L'objet de la présente invention est un procédé de reconnaissance vocale au sein d'un appareil exécutant des commandes, ledit appareil comportant un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes ; le procédé étant caractérisé en ce qu'il comporte : - une étape d'acquisition vocale d'un ordre vocal dont le traitement fournit deux commandes candidates qui sont associées à des valeurs de probabilités, - une étape de comparaison des valeurs de probabilité et, en cas de différence inférieure à un certain seuil : - une première étape de décision consistant à comparer le nombre d'exécutions des deux commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois.
De cette manière, lorsque le moteur de reconnaissance vocale n'a pas permis de distinguer nettement entre deux commandes candidates, c'est la commande la plus souvent exécutée qui est choisie.
Selon un premier perfectionnement, le procédé comprend une étape de comptabilisation du nombre de fois où une commande est exécutée vocalement. En cas de doute entre deux commandes, c'est la commande qui est la plus souvent activée oralement qui est choisie.
Selon un autre perfectionnement et s'il reste un doute, le procédé recherche les paramètres liés à des précédentes confusions entre les deux commandes candidates, et choisit la commande qui a été exécutée lors de la dernière confusion.
<Desc/Clms Page number 3>
Selon un autre perfectionnement, le procédé détecte que l'ordre vocal pour lequel il y a une confusion entre deux commandes candidates intervient peu de temps après la dernière confusion entre ces deux mêmes commandes. Dans ce cas, la commande qui n'avait pas été exécutée lors de la dernière confusion, est exécutée.
L'objet de la présente invention est aussi un terminal multimédia exécutant des commandes, et doté d'un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes ; caractérisé en ce qu'il comporte : - un moyen de comptage par des compteurs globaux des exécutions de chaque commande pris dans un ensemble, - un moyen de calcul de l'écart entre les taux de probabilité de deux commandes candidates déterminées par le moyen d'acquisition vocal à la suite d'un ordre vocal, - un moyen de comparaison des valeurs des deux compteurs globaux associés aux commandes candidates, - un premier moyen d'exécution de la commande candidate dont le compteur global possède la plus grande valeur, les moyens de comparaison des compteurs globaux et premier moyen d'exécution étant activés lorsque l'écart est inférieur à un seuil déterminé.
L'invention, avec ses caractéristiques et avantages, ressortira plus clairement à la lecture de la description d'un exemple de réalisation particulier non limitatif fait en référence aux dessins annexés dans lesquels : - la figure 1 est un diagramme bloc d'un système à commande vocale selon un exemple de réalisation, - la figure 2 présente un organigramme général du programme de contrôle d'interface utilisateur mettant en oeuvre le procédé d'amélioration de reconnaissance vocale selon un exemple de réalisation, - la figure 3 présente un organigramme d'une partie du programme de contrôle d'interface utilisateur mettant en oeuvre le
<Desc/Clms Page number 4>
procédé d'amélioration de reconnaissance vocale selon un exemple de réalisation, - la figure 4 présente un organigramme d'une autre partie du programme de contrôle d'interface utilisateur mettant en oeuvre le procédé d'amélioration de reconnaissance vocale selon un exemple de réalisation.
Nous allons tout d'abord décrire un exemple d'appareil pour la mise en oeuvre de l'invention. La figure 1 présente un terminal multimédia 1 connecté à un dispositif d'affichage 2 tel qu'un écran de visualisation.
Le terminal 1 peut être un récepteur de télévision ou un terminal audiovisuel doté de moyens de communication vers un réseau à haut débit, ou un terminal autonome de visualisation d'émissions audiovisuelles. Le terminal 1 comprend une unité centrale 3 reliée entre autre à une mémoire 4 contenant des programmes exécutables, une horloge 5, une interface de réception de signaux infrarouges 9 pour recevoir les signaux d'une télécommande 10, une logique de décodage audio/vidéo 1 2 pour la création des signaux audiovisuels envoyés à l'écran de télévision 2. La télécommande 10 est dotée d'un pavé numérique, de touches de navigation 1', 4",- et < -, et de touches spécifiques pour le contrôle des fonctions du terminal.
Le terminal comprend également des moyens de réception 7 tel qu'un syntoniseur (TUNER selon la terminologie anglo-saxonne) et un démultiplexeur pour recevoir des émissions audiovisuelles d'un réseau de diffusion. Le terminal comprend également un circuit 13 d'affichage de données sur l'écran, appelé souvent circuit OSD, de l'anglais"On Screen
Display" (signifiant littéralement"affichage sur l'écran"). Le circuit OSD
13 est un générateur de texte et de graphisme qui permet d'afficher à l'écran des menus, tels que des requêtes à l'intention de l'utilisateur. Le circuit OSD est contrôlé par l'Unité Centrale 3 en association avec un programme exécutable enregistré dans la mémoire 4. Le terminal
<Desc/Clms Page number 5>
comprend en outre une mémoire non volatile 11 pour le stockage des paramètres.
Le terminal comprend aussi un dispositif de prise de son sous la forme d'un microphone. Le microphone est connecté à un moteur de reconnaissance vocale 8, soit par une connexion filaire, soit par une connexion sans fils (dont l'émetteur et le récepteur RF ne sont pas représentés), comprenant un amplificateur et un convertisseur analogique/numérique. Les sons digitalisés sont analysés par un moteur de reconnaissance vocale réalisé préférentiellement sous la forme d'un programme enregistré dans la mémoire 4.
Après avoir décrit les différents éléments de l'invention, nous allons maintenant expliquer comment ceux-ci coopèrent.
L'interface utilisateur Ul dispose de deux moyens d'introduction de commandes : la télécommande 10 et l'interface vocale. Les commandes exécutables par la télécommande n'étant pas forcément les mêmes que celles exécutables par l'interface vocale, il y a lieu de définir un sous-ensemble des commandes exécutables à l'aide des deux moyens. Ce sous-ensemble peut bien évidemment englober toutes les commandes exécutables par le terminal. Le terminal comptabilise le nombre de fois que chaque commande est exécutée à partir de l'un ou l'autre des moyens. Pour cela, la mémoire 11 contient une table schématisée par le tableau 1 ci-dessous :
Figure img00050001
<tb>
<tb> Identifiant <SEP> de <SEP> Compteur <SEP> global <SEP> Compteur <SEP> d'utilisation <SEP> par
<tb> la <SEP> commande <SEP> commande <SEP> vocale
<tb> CD1 <SEP> 25 <SEP> 20
<tb> CD2 <SEP> 18 <SEP> 15
<tb> CD3 <SEP> 13 <SEP> 11
<tb> ... <SEP> .... <SEP> ....
<tb>
Cdi <SEP> CptGi <SEP> CptVi
<tb> ... <SEP> .... <SEP> ....
<tb>
<Desc/Clms Page number 6>
Figure img00060001
<tb>
<tb> CDn <SEP> 1 <SEP> 0
<tb>
TABLEAU 1
Chaque ligne correspond à une commande exécutable par le terminal. Chaque commande i est identifiée par un identifiant CDi, qui peut être un code par exemple, ou son titre tel que allumer , éteindre , hausse le son , etc. Chaque fois que la commande Cdi est exécutée, la valeur du compteur CptGi est incrémentée d'une unité. Un second compteur CptVi est affecté à chaque commande i , ce compteur est incrémenté chaque fois que la commande est exécutée à la suite d'une commande vocale.
L'interface utilisateur comporte un programme enregistré dans la mémoire 4. Ce programme contrôle les deux interfaces manuelle et vocale et en déduit des commandes CDi qui sont ensuite exécutées dans le terminal. La figure 2 présente le schéma général de ce programme de contrôle.
Le programme est lancé à la mise sous tension du terminal. Il est inactivé à la mise hors tension. La figure 2 montre sous la forme d'un organigramme les principales étapes du procédé que ce programme implémente.
A l'étape 2.1, le programme attend une commande utilisateur.
Cette étape d'attente consiste à scruter les interfaces manuelles et vocales et à continuer le programme dès que l'utilisateur a appuyé sur une touche de la télécommande ou prononcé des paroles intelligibles. A l'étape 2.2, le programme teste l'origine de la commande : si elle provient de l'interface vocale, le programme saute à l'étape 2.3 qui sera détaillée par la suite à l'aide des figures 3 et 4. Si elle découle d'une action effectuée sur les touches de la télécommande, le programme décode les données reçues de la télécommande et en déduit l'identifiant CDi de la commande (étape 2.4). Après avoir déduit par le moteur de reconnaissance ou par l'interface manuelle l'identifiant de la commande,
<Desc/Clms Page number 7>
cette dernière dont l'identifiant est dans la mémoire temporaire s est exécutée (étape 2.5). A l'étape 2.6, la valeur du compteur global CptGi correspondant à la commande exécutée est ajoutée d'une unité. Puis le programme reboucle à l'étape 2.1 d'attente d'une commande utilisateur.
La figure 3 présente une partie du déroulement de l'étape 2.3, exécutée entre les points A et B de la figure 2.
Le moteur de reconnaissance vocale est lancé à l'étape 3.1. Dans un premier temps le son est analysé et synthétisé en phonèmes. Puis, les différents phonèmes sont comparés à un vocabulaire (ou sousvocabulaire) prédéterminé. Enfin, le moteur détermine une petite liste de mots du vocabulaire susceptible d'être celui prononcé, ces mots appelés candidats sont associés à un niveau de probabilité. Le moteur sélectionne les deux candidats CDi et CDj ayant les plus fortes
Figure img00070001

probabilités : Prob~CDi et ProbCDj (avec Prob~CDi > Prob~CDj).
Dans un premier temps, le programme compare les probabilités des deux candidats. A l'étape 3.2, il teste si l'écart entre Prob~CDi et ProbCDj est important. Si la probabilité de reconnaissance de CDi est supérieure à celle de CDj d'un seuil prédéterminé SEUIL 1, alors il n'y a pas de doute entre les deux candidats, et le programme choisit le candidat CDi en sautant à la sortie C du programme. Le seuil est par exemple de 10%, si le moteur calcule 92% pour CD1,80% pour CD2, l'écart étant supérieur à 10% alors c'est CD1 qui est choisi. Si l'écart est inférieur au seuil, alors le moteur compare le compteur global de chaque candidat (étape 3.3). De cette manière, le choix d'un candidat par rapport à l'autre est effectué selon sa fréquence d'utilisation. On considère que le programme a le moins de chances de se tromper en choisissant les candidats les plus souvent utilisés par l'utilisateur. Pour cela, le moteur calcule l'écart entre les compteurs globaux de CDi (CptGi) et CDj (CptGj), et le compare à un seuil déterminé SEUIL2. Si (CptGi-CptGj) > SEUIL2 alors le programme saute à la sortie C du programme en choisissant le candidat CDi. Sinon (étape 3.4), si (CptGj-CptGi) > SEUIL2) alors le programme saute à la sortie D du programme en
<Desc/Clms Page number 8>
choisissant le candidat CDj. Dans l'exemple du tableau 1, si le doute existe entre CD1 et CD2, en prenant la valeur SEUIL2 égale à 5, le moteur choisit CD1 (25-18 = 7 qui est supérieur à 5).
Si le doute existe encore, le programme va comparer les compteurs d'utilisation vocale des candidats. Pour cela, le programme calcule l'écart entre les compteurs d'utilisation vocale de CDi (CptVi) et CDj (CptVj), et le compare à un seuil déterminé SEUIL3. Si à l'étape 3.5, (CptVi-CptVj) > SEUIL3 alors le programme saute à la sortie C du programme en choisissant le candidat CDi. Sinon (étape 3.6), si (CptVj-CptVi) > SEUIL3 alors le programme saute à la sortie D du programme en choisissant le candidat CDj. Dans l'exemple du tableau 1, si le doute existe entre CD2 et CD3, en prenant la valeur SEUIL3 égale à 10, le moteur ne peut choisir CD1 (15-11 = 4 qui est inférieur à 10).
Si le doute existe encore, d'autres moyens d'investigation vont être mis en oeuvre. Le programme saute à l'étape 3.7 (entrée notée E ), qui est expliqué par la figure 4.
La partie du programme référencée à l'étape 3.7 est chargée de lever le doute entre deux candidats. Le doute entre deux candidats est appelé une confusion . Le terminal mémorise toutes les confusions rencontrées au cours de l'utilisation du terminal, et met à jour les paramètres des confusions dans le tableau 2 enregistré dans la mémoire 11 et représenté ci-dessous :
Figure img00080001
<tb>
<tb> Identifiant <SEP> de <SEP> Compteur <SEP> Données <SEP> de <SEP> la <SEP> dernière <SEP> confusion
<tb> confusion <SEP> de <SEP> la <SEP> Date <SEP> & <SEP> Heure <SEP> Choix <SEP> final
<tb> confusion
<tb> (CD1,CD6) <SEP> 4 <SEP> 15:09 <SEP> / <SEP> 20:03 <SEP> CD6
<tb> (CD1,CD3) <SEP> 8 <SEP> 20:08 <SEP> / <SEP> 18:45 <SEP> CD1
<tb> ... <SEP> ...
<tb>
(CDi, <SEP> CDj) <SEP> Cpt(CDi,CDj) <SEP> DDk <SEP> : <SEP> HHk <SEP> CDi
<tb> ... <SEP> ...
<tb>
<Desc/Clms Page number 9>
Figure img00090001
<tb>
<tb> (libre) <SEP> (libre) <SEP> (libre) <SEP> (libre)
<tb>
TABLEAU 2
Le point d'entrée de l'organigramme de la figure 4 est noté E .
A l'étape 4.1, le programme recherche si, dans le passé, il y a déjà eu une confusion entre les candidats CDi et CDj, doute que l'analyse des compteurs d'utilisation globale et vocale n'ait pas réussi à lever. La recherche consiste à balayer la première colonne du tableau et à chercher le couple d'identifiant (CDi, CDj). Si la confusion n'a jamais été rencontrée dans le passé (étape 4.2), le doute ne peut être levé que par une étape manuelle, le programme saute alors à l'étape 4.4. Si la confusion a déjà été rencontrée (étape 4. 3), le programme recherche dans la seconde colonne du tableau 2, le nombre d'occurrences Cpt (CDI, CDJ) de cette confusion et le compare à une certaine valeur déterminée. Si cette valeur n'est pas atteinte, les précédents cas sont trop peu nombreux pour être significatifs, une action manuelle de l'utilisateur est alors requise (saut à l'étape 4.3).
Avantageusement, les deux candidats sont affichés à l'écran et sont affectés d'un numéro : 1 et 2 par exemple. L'utilisateur répond manuellement avec sa télécommande (en utilisant la touche 1 s'il veut CDi et 2 s'il veut CDj). La réponse est analysée à l'étape 4.5 et le programme selon la sélection de l'utilisateur saute à l'étape 4.8 (le candidat CDi est choisi) ou à l'étape 4.9 (CDj est choisi).
Si le nombre de confusions dépasse un certain seuil (SEUIL4), alors le moteur teste à l'étape 4.6 si la date et l'heure de la dernière confusion enregistrée dans la troisième colonne du tableau 3 est récente, par exemple, si la dernière confusion qui concernait ces deux candidats, est intervenue il y a plus ou moins de 30 secondes. Si la dernière confusion n'est pas récente, le moteur décide arbitrairement de choisir Cdi ou CDj et saute à l'étape 4.8 ou 4.9. Ce choix est figé dans le programme, c'est à dire que ce sera toujours le premier candidat par exemple qui est choisi.
<Desc/Clms Page number 10>
Une variante consiste à choisir la même commande que celle qui a été exécutée lors de la dernière confusion qui a été faite il y a un certain temps (étape 4.6bis). Sinon, la dernière confusion enregistrée est récente (intervenue par exemple il y a moins de 30 secondes), on peut alors considérer que la commande vocale en cours est une correction de la décision correspondant à la dernière confusion enregistrée. Dans ce cas, à l'étape 4.7, le moteur lit dans la dernière colonne du tableau quel fut le candidat choisi lors de la dernière confusion et décide cette fois-ci de choisir l'autre candidat. Donc, si la dernière décision pour lever la confusion a été CDj, le moteur choisit alors le candidat CDi et saute à l'étape 4.8. Si la dernière décision pour lever la confusion a été CDi, le moteur choisit alors le candidat CDj et saute à l'étape 4.9. Au cours des étapes 4.8 et 4. 9, le moteur met à jour les paramètres du tableau 2 en fonction de la confusion rencontrée et du choix finalement effectué.
L'heure et la date sont lue à partir de l'horloge 5 et inscrit dans la troisième colonne du tableau 2.
Figure img00100001
A la fin de l'étape 4. 8 qui correspond à l'entrée C, le programme augmente d'une unité le compteur d'utilisation par reconnaissance vocale du candidat CDi (étape 4. 10). Puis le programme enregistre dans une mémoire temporaire s l'identifiant i de la commande (étape 4.11) et sort du moteur de reconnaissance vocale par le point de sortie B. On a vu à l'aide de la figure 2, que la commande sélectionnée est ensuite exécutée. De même à la fin de l'étape 4.9 qui correspond à l'entrée D, le programme augmente d'une unité le compteur d'utilisation par reconnaissance vocale du candidat CDj (étape 4.12). Puis le programme enregistre dans une mémoire temporaire s l'identifiant j de la commande.
Il faut noter que la liste des commandes qui peuvent être reconnues à la fois manuellement et vocales, peut constituer qu'un sous-ensemble des commandes exécutables par l'appareil. Par exemple, les commandes consistant à introduire des chiffres, ou des commandes destinées à augmenter le volume par incrément successif, peuvent être formulées par
<Desc/Clms Page number 11>
des mots répétitif- chaîne un un un ou volume plus, plus, plus . De telles commandes mal prononcées risqueraient de provoquer des confusions mal gérées par l'invention. La seconde répétition peut être considéré par le programme comme une correction de la première.
Le présent mode de réalisation doit être considéré à titre d'illustration mais peuvent être modifiés dans le domaine défini par la portée des revendications jointes. En particulier, l'invention ne se limite pas aux récepteurs de télévision mais peut s'appliquer à de nombreux dispositifs, en particulier des appareils électronique grand public.

Claims (12)

Revendications
1. Procédé de reconnaissance vocale au sein d'un appareil exécutant des commandes, ledit appareil comportant un moyen d'introduction manuel et un moyen d'acquisition vocal des commandes ; le procédé étant caractérisé en ce qu'il comporte : - une étape d'acquisition vocale (2.3) d'un ordre vocal dont le traitement fournit deux commandes candidates qui sont associées à des valeurs de probabilités, - une étape de comparaison des valeurs de probabilité et, en cas de différence inférieure à un certain seuil (SEUIL1) : - une première étape de décision (3.2, 3.3, 3.4) consistant à comparer le nombre d'exécutions des deux commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois.
2. Procédé de reconnaissance vocale selon la revendication 1 caractérisé en ce qu'il comporte en outre, une seconde étape de décision (3.5, 3.6) consistant à comparer le nombre d'exécutions des deux commandes à l'aide du moyen d'acquisition vocal des commandes et à exécuter la commande qui a été exécutée le plus grand nombre de fois à l'aide du moyen d'acquisition vocale, cette seconde étape de décision étant activée lorsque l'écart entre le nombre d'exécutions des deux commandes candidates est inférieur à un seuil déterminé (SEUIL2).
3. Procédé de reconnaissance vocale selon la revendication 2 caractérisé en ce qu'il comporte en outre : - une étape de recherche de paramètres (4.1, 4.2) liés à une confusion entre les deux commandes candidates, cette étape étant activée lorsque la différence entre le nombre d'exécutions des deux commandes candidates par le moyen d'acquisition vocal est inférieure à un seuil déterminé (SEUIL3),
<Desc/Clms Page number 13>
- une troisième étape de décision (4.6) consistant à exécuter la même commande que celle exécutée lors de la dernière confusion.
4. Procédé de reconnaissance vocale selon la revendication 3 caractérisé en ce que la troisième étape de décision est activée lorsque (étape 4.3) le nombre de confusions entre les deux commandes candidates est supérieur à une valeur déterminée (SEUIL4).
5. Procédé de reconnaissance vocale selon la revendication 3 caractérisé en ce qu'il comporte une étape de présentation (4.4) d'une requête pour introduire manuellement la commande lorsque le nombre de confusions entre les deux commandes candidates est inférieur à une valeur déterminée (SEUIL4).
6. Procédé de reconnaissance vocale selon la revendication 3, 4 ou 5 caractérisé en ce qu'il comporte : - une étape de mémorisation (4.8, 4.9) d'un identifiant de la commande exécutée et d'un paramètre temporel tous deux associés à la dernière confusion entre les deux commandes candidates, - une quatrième étape de décision (4.6, 4.7) activée lorsque l'écart entre le moment présent et le paramètre temporel est inférieur à une durée déterminée, cette quatrième étape exécutant la commande qui n'avait pas été exécutée lors de la dernière confusion.
7. Terminal multimédia (1) exécutant des commandes doté d'un moyen d'introduction manuel (9,10) et un moyen d'acquisition vocal (6,8) des commandes ; caractérisé en ce qu'il comporte : - un moyen de comptage (3,4) par des compteurs dits globaux (CptGi) des exécutions de chaque commande pris dans un ensemble, - un moyen de calcul (3,4) de l'écart (ProbCdi-Prob-CDj) entre les taux de probabilité de deux commandes candidates (Cdi, CDj) déterminées par le moyen d'acquisition vocal à la suite d'un ordre vocal,
<Desc/Clms Page number 14>
- un moyen de comparaison (3,4) des valeurs des deux compteurs globaux (CptGi, CptGj) associés aux commandes candidates (Cdi, CDj), - un premier moyen d'exécution (3,4) de la commande candidate dont le compteur global possède la plus grande valeur, les moyens de comparaison des compteurs globaux et premier moyen d'exécution étant activés lorsque l'écart (Prob~Cdi-Prob-CDj) est inférieur à un seuil déterminé (SEUIL 1).
8. Terminal multimédia selon la revendication 7 caractérisé en ce qu'il comporte : - un moyen de comptage par des compteurs dits spéciaux (CptVi) des exécutions de chaque commande de l'ensemble lancée par le moyen d'acquisition vocal (6,8), - un moyen de comparaison des valeurs des deux compteurs spéciaux (CptVi, CptVj) associés aux commandes candidates (Cdi, CDj), - un second moyen d'exécution de la commande candidate dont le compteur spécial possède la plus grande valeur, les moyens de comparaison des compteurs spéciaux et second moyen d'exécution étant activés lorsque l'écart entre les compteurs globaux est inférieur à un seuil déterminé (SEUIL2).
9. Terminal multimédia selon la revendication 8 caractérisé en ce qu'il comporte : - un moyen de mémorisation (3,4, 11) de paramètres liés à des confusions précédentes entre les deux commandes candidates, notamment un identifiant de la commande exécutée lors de la dernière confusion, - un moyen de recherche dans la mémoire (11) du terminal des paramètres liés à une confusion entre les deux commandes candidates (Cdi, CDj), - un troisième moyen d'exécution de la commande candidate exécutée lors de la dernière confusion, les moyens de mémorisation, de recherche et troisième moyen d'exécution étant activés lorsque l'écart entre les valeurs des compteurs spéciaux des deux commandes candidates est inférieur à un seuil déterminé (SEUIL3).
<Desc/Clms Page number 15>
10. Terminal multimédia selon la revendication 9 caractérisé en ce que le troisième moyen d'exécution est activé lorsque le nombre de confusions entre les deux commandes candidates est supérieur à une valeur déterminée (SEUIL4).
11. Terminal multimédia selon la revendication 9 caractérisé en ce qu'il comporte un moyen de présentation à l'utilisateur d'une demande d'introduction manuelle de la commande, ce moyen étant activé lorsque le nombre de confusions entre les deux commandes candidates est inférieur à une valeur déterminée (SEUIL4).
12. Terminal multimédia selon la revendication 9,10 ou 11 caractérisé en ce qu'il comporte : - un moyen de mémorisation d'un identifiant de la commande exécutée et d'un paramètre temporel tous deux associés à la dernière confusion entre les deux commandes candidates, - un quatrième moyen d'exécution de la commande qui n'avait pas été exécutée lors de la dernière confusion, ce quatrième moyen de décision étant activé lorsque l'écart entre le moment présent et le paramètre temporel est inférieur à une durée déterminée.
FR0115135A 2001-11-22 2001-11-22 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede Withdrawn FR2832540A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR0115135A FR2832540A1 (fr) 2001-11-22 2001-11-22 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede
PCT/FR2002/003981 WO2003044773A1 (fr) 2001-11-22 2002-11-21 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede
AU2002356252A AU2002356252A1 (en) 2001-11-22 2002-11-21 Voice recognition method and multimedia terminal therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0115135A FR2832540A1 (fr) 2001-11-22 2001-11-22 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede

Publications (1)

Publication Number Publication Date
FR2832540A1 true FR2832540A1 (fr) 2003-05-23

Family

ID=8869691

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0115135A Withdrawn FR2832540A1 (fr) 2001-11-22 2001-11-22 Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede

Country Status (3)

Country Link
AU (1) AU2002356252A1 (fr)
FR (1) FR2832540A1 (fr)
WO (1) WO2003044773A1 (fr)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6005927A (en) * 1996-12-16 1999-12-21 Northern Telecom Limited Telephone directory apparatus and method
US6094476A (en) * 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6005927A (en) * 1996-12-16 1999-12-21 Northern Telecom Limited Telephone directory apparatus and method
US6094476A (en) * 1997-03-24 2000-07-25 Octel Communications Corporation Speech-responsive voice messaging system and method
US6377662B1 (en) * 1997-03-24 2002-04-23 Avaya Technology Corp. Speech-responsive voice messaging system and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TSAI M ET AL: "Command management system for next-generation user input", PROCEEDINGS OF THE SEVENTH WORKSHOP ON HOT TOPICS IN OPERATING SYSTEMS, 1999., 29 March 1999 (1999-03-29) - 30 March 1999 (1999-03-30), RIO RICO, AZ, USA, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, pages 179 - 184, XP010355839, ISBN: 0-7695-0237-7 *

Also Published As

Publication number Publication date
WO2003044773A1 (fr) 2003-05-30
AU2002356252A1 (en) 2003-06-10

Similar Documents

Publication Publication Date Title
KR101909807B1 (ko) 메시지 입력 방법 및 장치
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
CN101296362B (zh) 向用户提供对可能感兴趣的信息的访问的方法与系统
US6901366B1 (en) System and method for assessing TV-related information over the internet
KR102225404B1 (ko) 디바이스 정보를 이용하는 음성인식 방법 및 장치
CN105979376A (zh) 一种推荐方法和装置
CN103559880B (zh) 语音输入系统和方法
CN106796496A (zh) 显示设备及其操作方法
CN103516854A (zh) 终端装置及其控制方法
CN110430465B (zh) 一种基于智能语音识别的学习方法、终端及存储介质
CN105551488A (zh) 语音控制方法及系统
FR2788615A1 (fr) Appareil comportant une interface utilisateur vocale ou manuelle et procede d&#39;aide a l&#39;apprentissage des commandes vocales d&#39;un tel appareil
CN108962233A (zh) 用于语音对话平台的语音对话处理方法及系统
CN111327966B (zh) 视频倍速播放方法、系统及存储介质
EP1079615A2 (fr) Système d&#39;identification et d&#39;adaptation du profile d&#39;un utilisateur de télévision à l&#39;aide de la technologie de la parole
CN102469361B (zh) 一种自动下载电视插曲的方法及电视机
JPH11282857A (ja) 音声検索装置および記録媒体
EP1463059A2 (fr) Appareil d&#39;enregistrement et de reproduction
FR2832540A1 (fr) Procede de reconnaissance vocale et, terminal multimedia mettant en oeuvre le procede
CN110096612A (zh) 语音日志的在线音频分析数据的获取方法及系统
EP2134075A1 (fr) Appareil de traitement d&#39;informations, procédé et programme de traitement d&#39;informations
WO2016006088A1 (fr) Dispositif électronique, procédé et programme
CN112866793B (zh) 一种媒体模式切换方法、装置、设备和存储介质
WO2018114108A1 (fr) Procede d&#39;enregistrement d&#39;un programme telediffuse a venir
JPH08249343A (ja) 音声情報取得装置及び音声情報取得方法

Legal Events

Date Code Title Description
ST Notification of lapse