CA2942116C

CA2942116C - Reconnaissance vocale automatique avec detection d'au moins un element contextuel, et application au pilotage et a la maintenance d'un aeronef

Info

Publication number: CA2942116C
Application number: CA2942116A
Authority: CA
Inventors: Herve Girod; Paul Kou; Jean-Francois Saez
Original assignee: Dassault Aviation SA
Current assignee: Dassault Aviation SA
Priority date: 2015-09-15
Filing date: 2016-09-14
Publication date: 2023-10-10
Anticipated expiration: 2036-09-14
Also published as: US20170076722A1; FR3041140A1; BR102016021191A2; US10403274B2; BR102016021191B1; FR3041140B1; CA2942116A1

Abstract

Ce dispositif de reconnaissance vocale automatique (30) comprend une unité (32) d'acquisition d'un signal audio, un dispositif de détection (36) pour détecter l'état d'au moins un élément contextuel, et un décodeur linguistique (38) pour la détermination d'une instruction orale correspondant au signal audio. Le décodeur linguistique (38) comprend au moins un modèle acoustique (42) définissant une loi de probabilité acoustique et au moins deux modèles syntaxiques (44) définissant chacun une loi de probabilité syntaxique. Le décodeur linguistique (38) comprend également un algorithme de construction d'instruction orale (46) mettant en oeuvre le modèle acoustique (42) et une pluralité de modèles syntaxiques actifs pris parmi les modèles syntaxiques (44), un processeur de contextualisation (48) pour sélectionner, en fonction de l'état du ou de chaque élément contextuel détecté par le dispositif de détection (36), au moins un modèle syntaxique sélectionné parmi la pluralité de modèles syntaxiques actifs, et un processeur (50) de détermination de l'instruction orale correspondant au signal audio.

Description

Reconnaissance vocale automatique avec détection d'au moins un élément contextuel, et application au pilotage et à la maintenance d'un aéronef La présente invention concerne un dispositif de reconnaissance vocale automatique, du type comprenant une unité d'acquisition d'un signal audio, un organe de mise en forme du signal audio, pour le découpage du signal audio en trames, et un décodeur linguistique pour la détermination d'une instruction orale correspondant au signal audio, le décodeur linguistique comprenant :
- au moins un modèle acoustique définissant une loi de probabilité
acoustique permettant de calculer, pour chaque phonème d'une séquence de phonèmes, une probabilité acoustique pour que ledit phonème et une trame correspondante du signal audio concordent, et - au moins un modèle syntaxique définissant une loi de probabilité
syntaxique permettant de calculer, pour chaque phonème d'une séquence de phonèmes analysée au moyen dudit modèle acoustique, une probabilité syntaxique pour que ledit phonème suive le phonème ou groupe de phonèmes précédant ledit phonème dans la séquence de phonèmes.
L'invention concerne également un procédé de reconnaissance vocale automatique mis en uvre par un dispositif du type précité.
Les systèmes d'information ou de contrôle utilisent de plus en plus souvent des interfaces vocales pour rendre l'interaction avec l'utilisateur rapide et intuitive. Ces interfaces vocales emploient des dispositifs de reconnaissance vocale automatique pour reconnaître les instructions orales communiquées au système d'information ou de contrôle par l'utilisateur.
Une problématique rencontrée par les concepteurs de ces dispositifs de reconnaissance vocale automatique est de permettre l'emploi d'un langage naturel tout en atteignant un taux de reconnaissance le plus proche possible de 100%. Une autre problématique est d'atteindre un taux de reconnaissance le plus proche possible de 100%
tout en permettant la reconnaissance d'un grand nombre d'instructions.
Une solution pour concilier ces objectifs consiste à employer des modèles acoustiques très fiables permettant d'atteindre un faible taux d'erreur dans le calcul des probabilités acoustiques. Cette solution est typiquement la solution mise en oeuvre dans les dispositifs de reconnaissance vocale automatique des assistants personnels modernes et connus notamment sous les marques Siri0 et Cortana0.
Un inconvénient de cette solution est que les modèles acoustiques employés nécessitent le recours à des puissances de calcul importantes pour le traitement de très volumineuses bases de données. Cela rend cette solution difficilement utilisable en

2 situation de mobilité, en l'absence de connexion à un serveur disposant des moyens de calculs et de la mémoire nécessaires à la mise en uvre de cette solution, ce qui peut être le cas à bord d'un aéronef.
Une autre solution consiste à utiliser des dispositifs de reconnaissance vocale automatique à syntaxe contrainte, c'est-à-dire pour lesquels les phrases reconnaissables se trouvent dans un ensemble de possibilités prédéterminé. Ces dispositifs de reconnaissance permettent d'atteindre un très bon taux de reconnaissance même avec des modèles acoustiques peu fiables, et ne nécessitent pas de puissances de calcul très importantes ni de grandes bases de données ; ils sont ainsi très adaptés à une utilisation en situation de mobilité.
Un inconvénient de ces dispositifs est toutefois qu'ils ne permettent la reconnaissance que d'un nombre d'instructions limité.
Une troisième solution est divulguée dans le document Eye / voice mission planning interface (EVMPI) (F. Hatfield, E.A. Jenkins et M.W. Jennings, décembre 1995). Cette solution consiste à modifier le modèle syntaxique du décodeur linguistique d'un dispositif de reconnaissance vocale automatique en fonction de la direction du regard de l'utilisateur. A cet effet, le dispositif de reconnaissance vocale automatique comprend un détecteur de regard pour déterminer un point fixé par le regard de l'utilisateur sur un écran, et un moteur de fusion adapté pour modifier la loi de probabilité
syntaxique du modèle syntaxique en fonction d'informations communiquées par une application associée au point fixé par le regard de l'utilisateur sur l'écran.
Ce dispositif de reconnaissance vocale automatique permet ainsi de reconnaître un grand nombre d'instructions, puisqu'il est susceptible de reconnaître les instructions associées à chacune des applications affichées sur l'écran. Ce dispositif de reconnaissance vocale automatique permet dans le même temps d'obtenir un bon taux de reconnaissance, même avec un modèle acoustique peu fiable, puisque le modèle syntaxique employé à chaque instant pour reconnaître les instructions orales prononcées par l'utilisateur ne dispose que d'un vocabulaire restreint au seul vocabulaire de l'application regardée par l'utilisateur ; il y a donc de faibles chances de confusion entre deux mots à la prononciation proche.
Le fait de recalculer ainsi la loi de probabilité syntaxique en temps réel est toutefois une opération complexe, difficile à mettre en uvre, ralentie par les échanges d'informations entre le moteur de fusion et les applications, et qui empêche le fonctionnement du moteur linguistique pendant que le recalcul est en cours. Il en résulte un temps de latence important. En outre, cette solution est susceptible d'engendrer un

3 taux d'erreur important dans le cas où l'utilisateur ne regarde pas dans la direction de l'application concernée par ses instructions.
Une dernière solution est divulguée dans le document FR-A-2 744 277. Cette solution consiste à modifier le modèle syntaxique du décodeur linguistique d'un dispositif de reconnaissance vocale automatique en fonction de différents paramètres tels que les paramètres du mobile porteur, le type et la phase de la mission en cours ou l'historique des commandes précédemment exécutées.
Cette solution présente les mêmes inconvénients que la troisième solution décrite ci-dessus.
Un objectif de l'invention est ainsi de permettre la reconnaissance vocale automatique d'instructions orales sur un vocabulaire étendu, la reconnaissance vocale atteignant un taux de reconnaissance proche des 100%, avec un faible temps de latence.
Un autre objectif est que cette reconnaissance vocale puisse être mise en oeuvre de manière autonome par des appareils ayant une puissance de calcul limitée tout en étant très intuitive pour l'utilisateur et pertinente sur un plan opérationnel.
A cet effet, l'invention a pour objet un dispositif de reconnaissance vocale automatique du type précité, dans lequel le dispositif de reconnaissance vocale comprend un dispositif de détection pour détecter l'état d'au moins un élément contextuel, les modèles syntaxiques sont au moins au nombre de deux, et le décodeur linguistique comprend :
- un algorithme de construction d'instruction orale mettant en oeuvre le modèle acoustique et une pluralité de modèles syntaxiques actifs pris parmi les modèles syntaxiques pour construire, pour chaque modèle syntaxique actif, une séquence de phonèmes candidate associée audit modèle syntaxique actif pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes candidate est maximal, - un processeur de contextualisation pour sélectionner, en fonction de l'état du ou de chaque élément contextuel détecté par le dispositif de détection (36), au moins un modèle syntaxique sélectionné parmi la pluralité de modèles syntaxiques actifs, et - un processeur de détermination de l'instruction orale correspondant au signal audio, pour définir la séquence de phonèmes candidate associée au modèle syntaxique sélectionné ou, dans le cas où plusieurs modèles syntaxiques sont sélectionnés, la séquence de phonèmes, parmi les séquences de phonèmes candidates associées aux modèles acoustiques sélectionnés, pour laquelle le

4 produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes est maximal, comme constituant l'instruction orale correspondant au signal audio.
Selon des modes de réalisation particuliers de l'invention, le dispositif de reconnaissance vocal automatique présente également l'une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute(s) combinaison(s) techniquement possible(s) :
- le processeur de contextualisation est adapté pour :
o attribuer, en fonction de l'état de l'élément contextuel détecté, un numéro d'ordre à chaque modèle syntaxique actif, o rechercher, parmi les modèles syntaxiques actifs, des modèles syntaxiques candidats auxquels sont associés des séquences de phonèmes candidates pour lesquelles le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant lesdites séquences de phonèmes candidates est supérieur à un seuil prédéterminé, et o sélectionner le ou les modèle(s) syntaxique(s) candidat(s) ayant le numéro d'ordre le plus élevé ;
- au moins un élément contextuel est indépendant du signal audio ;
- le dispositif de reconnaissance vocale automatique comprend un détecteur de regard adapté pour détecter la direction d'un regard d'un utilisateur ou un détecteur de pointage adapté pour détecter la position d'un organe de pointage tel qu'un curseur ;
- le dispositif de reconnaissance vocale automatique comprend un dispositif d'affichage affichant des objets, chaque modèle syntaxique étant associé à un objet respectif parmi les objets affichés, le processeur de contextualisation étant adapté pour attribuer son numéro d'ordre à chaque modèle syntaxique en fonction de la distance entre la direction du regard de l'utilisateur ou la position du pointeur et l'objet affiché auquel est associé ledit modèle syntaxique ;
- le décodeur linguistique comprend un processeur d'activation des modules syntaxiques pour activer, en fonction de l'état de l'élément contextuel détecté, une pluralité de modèles syntaxiques formant les modèles syntaxiques actifs ;
- le décodeur linguistique comprend un processeur de désactivation des modules syntaxiques pour désactiver, en fonction de l'état de l'élément contextuel détecté, au moins un modèle syntaxique parmi les modèles syntaxiques actifs ; et - le processeur de contextualisation est adapté pour sélectionner automatiquement le ou chaque modèle syntaxique sélectionné.

L'invention a également pour objet un système d'assistance au pilotage ou à la maintenance d'un aéronef, comprenant un dispositif de reconnaissance vocale automatique tel que défini ci-dessus, et une unité d'exécution de commande pour l'exécution de l'instruction orale correspondant au signal audio.

5 Selon un mode de réalisation particulier de l'invention, le système d'assistance au pilotage présente également la caractéristique suivante :
- le dispositif de détection comprend un détecteur de phase de vol de l'aéronef ou d'un état système de l'aéronef.
L'invention a également pour objet un procédé de reconnaissance vocale automatique pour la détermination d'une instruction orale correspondant à un signal audio, le procédé étant mis en oeuvre par un dispositif de reconnaissance vocale automatique comprenant :
au moins un modèle acoustique définissant une loi de probabilité acoustique permettant de calculer, pour chaque phonème d'une séquence de phonèmes, une probabilité acoustique pour que ledit phonème et une trame correspondante du signal audio concordent, et au moins un modèle syntaxique définissant une loi de probabilité syntaxique permettant de calculer, pour chaque phonème d'une séquence de phonèmes analysée au moyen dudit modèle acoustique, une probabilité syntaxique pour que ledit phonème suive le phonème ou groupe de phonèmes précédant ledit phonème dans la séquence de phonèmes, les modèles syntaxiques étant au moins au nombre de deux, et le procédé
comprenant les étapes suivantes :
acquisition du signal audio, détection de l'état d'au moins un élément contextuel, activation d'une pluralité de modèles syntaxiques formant des modèles syntaxiques actifs, mise en forme du signal audio, ladite mise en forme comprenant le découpage du signal audio en trames, construction, pour chaque modèle syntaxique actif, à l'aide du modèle acoustique et dudit modèle syntaxique actif, d'une séquence de phonèmes candidate associée audit modèle syntaxique actif pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes candidate est maximal, sélection, en fonction de l'état de l'élément contextuel, d'au moins un modèle syntaxique sélectionné parmi les modèles syntaxiques actifs, et = CA 02942116 2016-09-14

6 définition de la séquence de phonèmes candidate associée au modèle syntaxique sélectionné ou, dans le cas où plusieurs modèles syntaxiques sont sélectionnés, la séquence de phonèmes, parmi les séquences de phonèmes candidates associées aux modèles syntaxiques sélectionnés, pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes est maximal, comme constituant l'instruction orale correspondant au signal audio.
Selon des modes de réalisation préférés de l'invention, le procédé de reconnaissance vocal automatique présente également l'une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute(s) combinaison(s) techniquement possible(s) :
- l'étape de sélection comprend les sous-étapes suivantes :
o attribution, en fonction de l'état de l'élément contextuel détecté, d'un numéro d'ordre à chaque modèle syntaxique actif, o recherche, parmi les modèles syntaxiques actifs, de modèles syntaxiques candidats auxquels sont associés des séquences de phonèmes candidates pour lesquelles le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant lesdites séquences de phonèmes candidates est supérieur à un seuil prédéterminé, et o sélection du ou des modèle(s) syntaxique(s) candidat(s) ayant le numéro d'ordre le plus élevé ;
- au moins un élément contextuel est indépendant du signal audio;
- l'élément contextuel comprend une direction d'un regard d'un utilisateur ou une position d'un organe de pointage tel qu'un curseur ;
- des objets sont affichés sur un dispositif d'affichage, chaque modèle syntaxique étant associé à un objet respectif parmi les objets affichés, et le numéro d'ordre est attribué à chaque modèle syntaxique en fonction de la distance entre la direction du regard de l'utilisateur ou la position de l'organe de pointage et l'objet affiché auquel est associé ledit modèle syntaxique ;
- la direction du regard de l'utilisateur est constituée par une direction du regard de l'utilisateur à la fin de l'acquisition du signal audio ;
- l'activation des modèles syntaxiques comprend les sous-étapes suivantes :
o désignation, en fonction de l'état de l'élément contextuel, d'une pluralité de modèles syntaxiques désignés parmi les modèles syntaxiques, et o activation des modèles syntaxiques désignés ;

7 - le procédé comprend une étape de désactivation d'au moins un modèle syntaxique parmi les modèles syntaxiques actifs en fonction de l'état de l'élément contextuel ; et - la sélection du modèle syntaxique sélectionné est effectuée automatiquement.
L'invention a également pour objet un procédé d'assistance au pilotage ou à la maintenance d'un aéronef, mis en uvre par un système d'assistance au pilotage ou par un système d'assistance à la maintenance dudit aéronef, ledit procédé
comprenant les étapes suivantes :
détermination, au moyen d'un procédé de reconnaissance vocale automatique tel que défini ci-dessus, d'une instruction orale correspondant à
un signal audio enregistré, et exécution, par le système d'assistance, de l'instruction orale.
Selon un mode de réalisation particulier de l'invention, le procédé
d'assistance au pilotage présente également la caractéristique suivante :
- l'élément contextuel comprend une phase de vol de l'aéronef ou un état système de l'aéronef.
D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description ci-dessous, donnée uniquement à titre d'exemple et faite en se référant aux dessins annexés, dans lesquels :
la Figure 1 est une représentation schématique d'un système d'assistance au pilotage d'un aéronef selon l'invention, la Figure 2 est un diagramme en blocs illustrant un procédé d'assistance au pilotage d'un aéronef mis en oeuvre par le système d'assistance au pilotage de la Figure 1, et les Figures 3 à 12 sont des exemples d'affichage sur un écran du système d'assistance au pilotage de la Figure 1.
Sur les figures 3 à 12, les écrans d'affichage sont illustratifs de systèmes d'assistance au pilotage d'aéronefs réels, et sont donc en langue anglaise, conformément à l'affichage standard dans le domaine aéronautique. Une traduction en français des indications pertinentes est donnée dans la description qui suit.
Le système d'assistance 10, représenté sur la Figure 1, est un système d'assistance au pilotage d'un aéronef. Il est typiquement intégré au cockpit d'un aéronef, ou à une station au sol pour le pilotage à distance d'un drone. En variante (non représentée), le système d'assistance 10 est un système d'assistance à la maintenance d'un aéronef.

8 Ce système d'assistance 10 comprend, de façon connue, une mémoire 12 stockant une pluralité d'applications 14, 15, 16, 17, 18, un processeur 20 associé à la mémoire 12 pour l'exécution des applications 14, 15, 16, 17, 18, et un dispositif d'affichage 22 pour l'affichage d'informations relatives aux applications 14, 15, 16, 17, 18.
Le système d'assistance 10 comprend également des entrées 24 et des sorties 26 pour l'échange de données du système d'assistance 10 avec d'autres équipements de l'aéronef tels que les moteurs, les volets, les aérofreins, les sondes, les radars, le système de géolocalisation, etc.
Les applications 14, 15, 16, 17, 18 comprennent typiquement :
une application synoptiques 14, adaptée pour récupérer des informations relatives à l'état système de l'aéronef et présenter ces informations à
l'utilisateur sous forme de synoptiques affichés sur le dispositif d'affichage dans une première fenêtre 14A (Figure 3) lorsque l'application 14 est exécutée par le processeur 20, une application vitesses 15, adaptée pour commander les vitesses de l'aéronef et pour afficher lesdites vitesses sur le dispositif d'affichage 22 dans une deuxième fenêtre 15A (Figure 3) lorsque l'application 15 est exécutée par le processeur 20, une application horloge 16, adaptée pour gérer l'horloge du système d'assistance 10 et des alarmes programmées par l'utilisateur lorsqu'elle est exécutée par le processeur 20, mais aussi pour afficher ladite horloge et lesdites alarmes sur le dispositif d'affichage 22 dans une troisième fenêtre 16A (Figure 6), une application navigation 17, adaptée pour récupérer des informations relatives au trajet suivi par l'aéronef et pour afficher lesdites informations sur le dispositif d'affichage 22 dans une quatrième fenêtre 17A (Figure 10) lorsque l'application 17 est exécutée par le processeur 20, et une application de gestion d'affichage 18, adaptée pour gérer l'affichage d'informations sur le dispositif d'affichage 22 lorsqu'elle est exécutée par le processeur 20.
En option, la mémoire 12 stocke également d'autres applications (non représentées) adaptées pour être exécutées par le processeur 20 sans toutefois afficher d'informations sur le dispositif d'affichage 22 lorsqu'elles sont exécutées par le processeur 20.

9 Outre l'exécution des applications 14, 15, 16, 17, 18 mentionnée plus haut, le processeur 20 est également adapté pour exécuter des commandes destinées au système d'assistance 10 et forme ainsi une unité d'exécution de commande.
Le dispositif d'affichage 22 est typiquement un écran.
Selon l'invention, le système d'assistance 10 comprend également un dispositif de reconnaissance vocale automatique 30 pour la reconnaissance d'instructions orales destinées au système d'assistance 10.
Ce dispositif de reconnaissance vocale automatique 30 comprend une unité 32 d'acquisition d'un signal audio, un organe 34 de mise en forme du signal audio, un dispositif 36 de détection de l'état d'au moins un élément contextuel, et un décodeur linguistique 38.
L'unité d'acquisition 32 est adaptée pour générer un signal audio représentatif d'un son capté par l'unité d'acquisition. A cet effet, l'unité d'acquisition 32 est typiquement constituée par un microphone.
L'organe de mise en forme 34 est adapté pour numériser le signal audio par échantillonnage et le découper en trames, recouvrantes ou non, de même durée ou non.
L'organe de mise en forme 34 est typiquement formé par un composant logique programmable ou par un circuit intégré dédié.
Le dispositif de détection 36 est adapté pour détecter l'état d'au moins un élément contextuel, de préférence de plusieurs d'éléments contextuels. Ces éléments contextuels sont des éléments qui permettent de déterminer le contexte dans lequel une instruction orale est prononcée par un utilisateur, et sont en particulier indépendants du signal audio.
Ces éléments contextuels comprennent typiquement la direction d'un regard de l'utilisateur, la position d'un organe de pointage sur le dispositif d'affichage 22, la phase de vol de l'aéronef ou l'état système de l'aéronef.
Dans l'exemple représenté, le dispositif de détection 36 comprend ainsi un détecteur de regard 40, adapté pour détecter la direction du regard de l'utilisateur, et un détecteur de phase de vol de l'aéronef 41. En variante ou en option, le dispositif de détection 36 comprend un détecteur de pointage (non représenté), adapté pour détecter la position d'un organe de pointage tel qu'un curseur sur le dispositif d'affichage 22, et/ou un détecteur d'état système de l'aéronef (non représenté).
Chaque élément contextuel est adapté pour prendre différents états associés à
cet élément contextuel. Un état différent est ainsi associé :
- à
la direction du regard de l'utilisateur pour chaque fenêtre d'application affichée sur le dispositif d'affichage 22 vers laquelle ledit regard peut être orienté, et la direction du regard est considérée être dans cet état lorsque le regard est orienté vers ladite fenêtre ;
- à la position de l'organe de pointage pour chaque fenêtre d'application affichée sur le dispositif d'affichage 22 que l'organe de pointage peut pointer, 5 et la position de l'organe de pointage est considérée être dans ledit état lorsque l'organe de pointage pointe vers ladite fenêtre ;
- à la phase de vol de l'aéronef pour chaque phase de vol dans laquelle l'aéronef peut se trouver, et la phase de vol de l'aéronef est considérée être dans ledit état lorsque l'aéronef se trouve dans ladite phase de vol ; et

10 - à
l'état système de l'aéronef pour chaque combinaison des états dans lesquels peuvent se trouver les systèmes de l'aéronef, et l'état système de l'aéronef est considéré être dans ledit état lorsque les états des systèmes de l'aéronef forment ladite combinaison.
Le décodeur linguistique 38 comprend un modèle acoustique 42, une pluralité de modèles syntaxiques 44, un organe 45 d'activation/désactivation des modèles syntaxiques 44, un algorithme de construction d'instruction orale 46, un processeur de contextualisation 48 et un processeur 50 de détermination d'une instruction orale correspondant au signal audio généré par l'unité d'acquisition 32.
Le modèle acoustique 42 définit une loi de probabilité acoustique permettant de calculer, pour chaque phonème d'une séquence de phonèmes, une probabilité
acoustique pour que ledit phonème et une trame correspondante du signal audio concordent.
A cet effet, le modèle acoustique 42 comprend une pluralité de vecteurs de paramètres de base, chacun desdits vecteurs de paramètre de base traduisant l'empreinte acoustique d'un phonème respectif.
Chaque modèle syntaxique 44 définit une loi de probabilité syntaxique permettant de calculer, pour chaque phonème d'une séquence de phonèmes analysée au moyen du modèle acoustique, une probabilité syntaxique pour que ledit phonème suive le phonème ou groupe de phonèmes précédant ledit phonème dans la séquence de phonèmes. A
cet effet, chaque modèle syntaxique 44 comprend une table associant à chaque phonème sa probabilité syntaxique en fonction de différentes séquences de phonèmes, ladite probabilité syntaxique étant typiquement calculée au moyen d'une méthode statistique dite en N-gram, ou d'une grammaire non contextuelle définie grâce à un ensemble de règles décrites sous la forme dite de Backus-Naur (mieux connue sous l'acronyme BNF, de l'anglais Backus-Naur Form).
Chaque modèle syntaxique 44 est associé à un état respectif d'un élément contextuel ou à une combinaison respective d'états des éléments contextuels.
Chaque

11 modèle syntaxique 44 est également associé à une phase de vol de l'aéronef, à
un état système de l'aéronef, et/ou à une application 14, 15, 16, 17, 18.
L'organe d'activation/désactivation 45 est adapté pour activer certains des modèles syntaxiques 44, les modèles syntaxiques activés formant des modèles syntaxiques actifs, et pour désactiver certains des modèles syntaxiques actifs. L'organe d'activation/désactivation 45 est en particulier adapté pour activer les modèles syntaxiques 44 associés à la phase de vol dans laquelle l'aéronef se trouve, à
l'état système de l'aéronef, et/ou aux applications 14, 15, 16, 17, 18 affichées sur le dispositif d'affichage 22, et pour désactiver les modèles syntaxiques 44 associés à des phases de vol et à des états systèmes autres que ceux dans lesquels l'aéronef se trouve, ou associés à des applications qui ne sont pas affichées sur le dispositif d'affichage 22.
L'algorithme de construction d'instruction orale 46 met en oeuvre le modèle acoustique et les modèles syntaxiques actifs pour construire, pour chaque modèle syntaxique actif, une séquence de phonèmes candidate associée audit modèle syntaxique actif pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes candidate est maximal. A
cet effet, l'algorithme de construction d'instruction orale 46 est adapté pour :
associer à chaque trame un vecteur de paramètres qui traduit l'information acoustique contenue dans la trame, par exemple au moyen de coefficients cepstraux de type MFCC (abréviation de l'expression anglaise Mel Frequency Cepstral Coefficient ), rechercher, pour chaque trame, en utilisant les probabilités syntaxiques définies par le modèle syntaxique actif, des candidats phonèmes associés à
ladite trame, calculer, pour chaque candidat phonème, la distance du vecteur de paramètres de base associé audit candidat phonème par le modèle acoustique 42 au vecteur de paramètres associé à la trame, de manière à
obtenir la probabilité acoustique du candidat phonème, établir des séquences de candidats phonèmes formées chacune de candidats phonèmes associés aux trames composant le signal acoustique, l'ordre des candidats phonèmes dans chaque séquence respectant l'ordre des trames dans le signal acoustique, calculer, pour chaque séquence de candidats phonèmes, une probabilité de séquence égale au produit des probabilités acoustiques et syntaxiques des différents candidats phonèmes composant ladite séquence, et

12 sélectionner la séquence de candidats phonèmes dont la probabilité de séquence est maximale, ladite séquence de candidats phonèmes constituant la séquence de phonèmes candidate.
Le processeur de contextualisation 48 est adapté pour sélectionner automatiquement, c'est-à-dire sans action spécifique de l'utilisateur, en fonction de l'état du ou de chaque élément contextuel détecté par le dispositif de détection 40, le ou chaque modèle syntaxique qui, parmi la pluralité de modèles syntaxiques actifs, est associé à l'état ou à la combinaison d'états du ou des élément(s) contextuel(s) détecté(s) par le dispositif détection 40. Ce ou ces modèle(s) syntaxique(s) forme(nt) un ou des modèle(s) syntaxique(s) sélectionné(s).
A cet effet, le processeur de contextualisation 48 est adapté pour :
attribuer, en fonction de l'état de l'élément contextuel détecté, un numéro d'ordre à chaque modèle syntaxique actif, rechercher, parmi les modèles syntaxiques actifs, des modèles syntaxiques candidats auxquels sont associés des séquences de phonèmes candidates dont la probabilité de séquence est supérieure à un seuil prédéterminé, et sélectionner le ou les modèle(s) syntaxique(s) candidat(s) ayant le numéro d'ordre le plus élevé.
Ledit numéro d'ordre est typiquement fonction, pour les modèles syntaxiques 44 associés aux applications 14, 15, 16, 17, de la distance entre le regard de l'utilisateur ou la position de l'organe de pointage et la fenêtre 14A, 15A, 16A, 17A de ladite application 14, 15, 16, 17, l'attribution des numéros d'ordre pour ces modèles syntaxiques étant effectuée à l'inverse du classement des distances des fenêtres 14A, 15A, 16A, 17A à la direction du regard ou à la position du pointeur ; en d'autres termes, le numéro d'ordre le plus élevé est attribué au modèle syntaxique 44 associé à l'application 14, 15, 16, 17 dont la fenêtre 14A, 15A, 16A, 17A est la plus proche de la direction du regard de l'utilisateur ou de la position de l'organe de pointage, et le numéro d'ordre le plus faible est attribué
au modèle syntaxique 44 associé à l'application 14, 15, 16, 17 dont la fenêtre 14A, 15A, 16A, 17A est la plus éloignée de la direction du regard de l'utilisateur ou de la position de l'organe de pointage.
Le numéro d'ordre attribué au modèle syntaxique 44 associé à l'application 18 est de préférence toujours le numéro d'ordre le plus élevé.
Le processeur de détermination 50 est adapté pour définir la séquence de phonèmes candidate associée au modèle syntaxique sélectionné ou, dans le cas où
plusieurs modèles syntaxiques sont sélectionnés, la séquence de phonèmes, parmi les séquences de phonèmes candidates associées aux modèles acoustiques sélectionnés,

13 pour laquelle la probabilité syntaxique est maximale, comme constituant une instruction orale correspondant au signal audio. Cette instruction orale peut être un mot ou une phrase.
On notera que, dans l'exemple de réalisation de l'invention, le décodeur linguistique 38 est réalisé sous la forme d'un logiciel stocké dans la mémoire 12 du système d'assistance 10 et apte à être exécuté par le processeur 20. En variante, le décodeur linguistique 38 est réalisé au moins partiellement sous la forme d'un composant logique programmable, ou encore sous la forme d'un circuit intégré dédié, inclus dans le système d'assistance 10.
Un procédé 100 d'assistance au pilotage d'un aéronef, mis en oeuvre par le système d'assistance 10, va maintenant être décrit, en référence aux Figures 2 à 4.
Lors d'une première étape 110, certaines des applications 14, 15, 16, 17, 18 sont affichées sur le dispositif d'affichage 22. Cette étape est illustrée sur la Figure 3 par l'affichage des fenêtres 14A et 15A associées aux applications 14 et 15. Cette étape 110 fait suite typiquement au démarrage du système d'assistance 10, ou à une modification de l'affichage du dispositif d'affichage 22 commandée par l'utilisateur.
L'utilisateur énonce ensuite une instruction orale destinée au système d'assistance 10. Cette instruction orale est, dans l'exemple représenté, constituée par l'ordre :
Change la valeur de VA à 300 noeuds . Simultanément à l'émission de cette instruction orale, il est effectué une étape 120 de détermination de l'instruction orale par le dispositif de reconnaissance vocale automatique 30 du système d'assistance 10.
Cette étape de détermination 120 comprend une première sous-étape 122 d'activation d'une pluralité de modèles syntaxiques 44 par l'organe d'activation/désactivation 45. Ladite étape 122 se produit sensiblement concomitamment avec l'étape d'affichage 110.
Cette première sous-étape 122 comprend typiquement les sous-étapes suivantes :

désignation d'une pluralité de modèles syntaxiques désignés parmi les modèles syntaxiques, et activation des modèles syntaxiques désignés.
La désignation des modèles syntaxiques est avantageusement fonction des applications 14, 15, 16, 17 affichées sur le dispositif d'affichage ; les modèles syntaxiques désignés sont alors les modèles syntaxiques associés aux applications affichées.
Optionnellement, la désignation est également fonction de l'état d'au moins un des éléments contextuels, par exemple lorsque cet élément contextuel est une phase de vol de l'aéronef ou l'état système de l'aéronef ; les modèles syntaxiques désignés sont alors les modèles syntaxiques associés à l'état de l'élément contextuel.

14 Optionnellement, des modèles syntaxiques actifs sont également désactivés au cours de la même étape 122. Les modèles syntaxiques désactivés sont de préférence fonction des applications 14, 15, 16, 17 affichées sur le dispositif d'affichage et, le cas échéant, de l'état d'au moins un des éléments contextuels, par exemple lorsque cet élément contextuel est une phase de vol de l'aéronef ou l'état système de l'aéronef. Les modèles syntaxiques désactivés sont ainsi typiquement des modèles syntaxiques associés à une application précédemment affichée sur le dispositif d'affichage 22 et dont la fenêtre a été fermée, ou des modèles syntaxiques associés à des états précédents des éléments contextuels, les éléments contextuels ayant changé d'état.
Cette première sous-étape 122 comprend ainsi, dans l'exemple représenté, la désignation des modèles syntaxiques associés aux applications 14 et 15, les modèles syntaxiques associés à l'application 15 comprenant deux modèles syntaxiques associés respectivement à une région gauche 15B et à une région droite 15C de la fenêtre 15A, et l'activation desdits modèles désignés. La première sous-étape 122 comprend également la désignation du modèle syntaxique associé à l'application 18.
L'étape de détermination 120 comprend ensuite une deuxième sous-étape 124 d'acquisition d'un signal audio correspondant à l'instruction orale émise par l'utilisateur.
Cette acquisition est réalisée par l'unité d'acquisition 32, qui capte un son incluant l'instruction orale et transcrit ce son en signal électrique. Cette deuxième sous-étape 124 est suivie d'une troisième sous-étape 126 de mise en forme du signal audio, au cours de laquelle le signal audio est numérisé et découpé en trames par l'organe de mise en forme 34.
L'étape de détermination 120 comprend également une sous-étape 128 de détection, par le dispositif de détection 36, de l'état d'au moins un élément contextuel.
L'élément contextuel dont on détecte l'état est, dans l'exemple représenté, la direction du regard de l'utilisateur. La direction du regard de l'utilisateur est, de façon connue, susceptible de changer rapidement d'état, et peut ainsi changer à
plusieurs reprise d'état au cours de l'énonciation de l'instruction orale par l'utilisateur ; il convient donc de définir précisément l'instant auquel l'état du regard de l'utilisateur est détecté. Cet instant est de préférence l'instant de fin d'acquisition du signal audio, correspondant à la fin de l'énonciation de l'instruction orale par l'utilisateur.
Dans l'exemple représenté, le regard de l'utilisateur est dirigé, à la fin de l'acquisition du signal audio, vers le coin inférieur gauche du dispositif d'affichage 22.
L'état détecté par le dispositif de détection 36 est donc regard orienté
vers la région gauche 15B de la fenêtre 15A , = CA 02942116 2016-09-14 L'étape de détermination 120 comprend encore une sous-étape 130 de construction de séquences de phonèmes candidates par l'algorithme de construction d'instruction orale 46 et une sous-étape 132 de sélection d'un modèle syntaxique 44 par le processeur de contextualisation 48.

L'étape de construction de séquences de phonèmes candidates 130 est effectuée automatiquement, c'est-à-dire sans intervention de l'utilisateur, et sensiblement simultanément à l'étape 124 d'acquisition du signal audio. Elle comprend les sous-étapes suivantes, lesdites sous-étapes étant répétées pour chaque modèle syntaxique actif :
association, à chaque trame, d'un vecteur de paramètres qui traduit l'information acoustique contenue dans la trame, par exemple au moyen de coefficients cepstraux de type MFCC (abréviation de l'expression anglaise Mel Frequency Cepstral Coefficient ), recherche, pour chaque trame, en utilisant les probabilités syntaxiques définies par le modèle syntaxique actif, de candidats phonèmes associés à

15 ladite trame, calcul, pour chaque candidat phonème, de la distance du vecteur de paramètres de base associé audit candidat phonème par le modèle acoustique 42 au vecteur de paramètres associé à la trame, de manière à
obtenir la probabilité acoustique du candidat phonème, établissement de séquences de candidats phonèmes formées chacune de candidats phonèmes associés aux trames composant le signal acoustique, l'ordre des candidats phonèmes dans chaque séquence respectant l'ordre des trames dans le signal acoustique, calcul, pour chaque séquence de candidats phonèmes, d'une probabilité de séquence égale au produit des probabilités acoustiques et syntaxiques des différents candidats phonèmes composant ladite séquence, et sélection de la séquence de candidats phonèmes dont la probabilité de séquence est maximale, ladite séquence de candidats phonèmes constituant la séquence de phonèmes candidate.
L'étape de sélection d'un modèle syntaxique 132 est effectuée automatiquement, c'est-à-dire sans intervention de l'utilisateur. Elle comprend les sous-étapes suivantes :
attribution, en fonction de l'état de l'élément contextuel détecté, d'un numéro d'ordre à chaque modèle syntaxique actif, recherche, parmi les modèles syntaxiques actifs, de modèles syntaxiques candidats auxquels sont associés des séquences de phonèmes candidates dont la probabilité de séquence est supérieure à un seuil prédéterminé, et

16 sélection du ou des modèle(s) syntaxique(s) candidat(s) ayant le numéro d'ordre le plus élevé.
L'attribution des numéros d'ordre est effectuée selon la logique décrite plus haut.
Ainsi, dans l'exemple représenté, les modèles syntaxiques 44 associés à
l'application 18 et à la région gauche 15B de la fenêtre 15A se voient attribuer le numéro d'ordre le plus élevé. Les modèles syntaxiques associés à l'application 14 et à la région droite 150 de la fenêtre se voient attribuer des numéros d'ordre plus faibles.
Les modèles syntaxiques associés aux régions gauche 15B et droite 150 de la fenêtre 15A retournent une séquence de phonèmes candidate dont la probabilité
de séquence est supérieure au seuil prédéterminé : la séquence de phonèmes candidate du modèle syntaxique associé à la région gauche 15B est change la valeur de VA
à 300 noeuds , et la séquence de phonèmes candidate du modèle syntaxique associé à
la région droite 150 est change la valeur de VE à 300 noeuds . Toutefois, dans la mesure où le numéro d'ordre du modèle syntaxique associé à la région droite 150 de la fenêtre 15A et inférieur à celui du modèle syntaxique associé à la région gauche 15B
de la fenêtre 15A, seul ce dernier modèle syntaxique est donc sélectionné.
Ainsi, bien que les vitesses VA et VE aient des prononciations très proches, le dispositif de reconnaissance vocale automatique 30 parvient à faire la discrimination entre ces deux vitesses grâce à l'orientation du regard de l'utilisateur.
L'étape de détermination 120 comprend une dernière sous-étape 134 de détermination de l'instruction orale correspondant au signal audio. Dans la mesure où le modèle syntaxique sélectionné est l'un des modèles syntaxiques auxquels avait été
attribué le numéro d'ordre le plus élevé, la transition de la sous-étape 132 à
la sous-étape 136 se fait sans intervention de l'utilisateur.
Lors de cette sous-étape 134, la séquence de phonèmes associée au modèle syntaxique sélectionné ou, dans le cas où plusieurs modèles syntaxiques sont sélectionnés, la séquence de phonèmes qui, parmi les séquences de phonèmes candidates associées aux modèles syntaxiques sélectionnés, présente la probabilité de séquence maximale, est définie comme constituant l'instruction orale correspondant au signal audio.
Dans l'exemple représenté, c'est donc la séquence de phonèmes candidate associée au modèle syntaxique associé à la région gauche 15B de la fenêtre 15A
qui est ainsi définie comme constituant l'instruction orale correspondant au signal audio.
Cette instruction orale est ensuite codée en une suite de symboles compréhensibles par l'unité d'exécution 20, puis transmise à l'unité
d'exécution 20, qui exécute cette instruction au cours d'une étape 140.

17 Dans l'exemple représenté, une instruction est ainsi envoyée au moteur gauche d'augmenter la vitesse à 300 noeuds, et l'affichage du dispositif 22 est actualisé pour afficher, dans le champ VA, la valeur 300 (voir Figure 4).
D'autres exemples de mise en oeuvre du procédé 100 sont donnés dans les Figures 4 à 12.
L'affichage est initialement dans l'état représenté à la Figure 4, les fenêtres 14A et 15A étant affichées. L'utilisateur énonce alors l'instruction orale ferme la fenêtre des vitesses , en regardant à la fin de l'instruction orale le coin inférieur droit du dispositif d'affichage 22.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 14 et 18, ainsi que les modèles syntaxiques associés à la région gauche 15B
et à la région droite 15C de la fenêtre 15A. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers la région droite de la fenêtre des vitesses . Seul le modèle syntaxique associé à l'application 18 retournant une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé, c'est donc ce modèle syntaxique qui est sélectionné au cours de l'étape 132, et c'est sa séquence de phonèmes candidate qui est définie comme constituant l'instruction orale correspondant au signal audio.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande la fermeture de la fenêtre 15A, qui disparaît alors du dispositif d'affichage, comme représenté à la Figure 5. Dans le même temps, les modèles syntaxiques associés aux régions gauche 15B et droite 150 de la région 15A sont désactivés.
L'utilisateur énonce ensuite une nouvelle instruction orale ouvre la fenêtre de l'horloge , en regardant à la fin de l'instruction orale la partie basse du dispositif d'affichage 22.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 14 et 18. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers une région vide de l'écran . Seul le modèle syntaxique associé à l'application 18 retournant une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé, c'est donc ce modèle syntaxique qui est sélectionné au cours de l'étape 132, et c'est sa séquence de phonèmes candidate qui est définie comme constituant l'instruction orale correspondant au signal audio.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande l'ouverture de la fenêtre 16A, qui apparaît alors sur le dispositif d'affichage, comme représenté à la Figure 6. Dans le même temps, les modèles syntaxiques associés à

18 l'application 16 sont activés, lesdits modèles syntaxiques comprenant des modèles syntaxiques associés à la fenêtre 16A dans son ensemble et à des régions gauche 16B et droite 16C de la fenêtre 16A, la région gauche 16B constituant une région d'affichage de l'horloge et la région droite 16C constituant une région d'affichage des alarmes programmées.
L'utilisateur énonce alors une nouvelle instruction orale programme une alarme à
16h10 , en regardant à la fin de l'instruction orale la partie basse du dispositif d'affichage 22.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 14, 16 et 18. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers la fenêtre d'horloge . Seul le modèle syntaxique associé à la fenêtre 16A retournant une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé, c'est donc ce modèle syntaxique qui est sélectionné au cours de l'étape 132, et c'est sa séquence de phonèmes candidate qui est définie comme constituant l'instruction orale correspondant au signal audio.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande la programmation de l'alarme, et l'actualisation de l'affichage pour qu'il affiche, dans la fenêtre 16A, l'heure de l'alarme ainsi programmée, comme représenté à la Figure 7.
L'utilisateur énonce ensuite une nouvelle instruction orale ouvre l'onglet moteur , en regardant à la fin de l'instruction orale le coin inférieur gauche du dispositif d'affichage 22.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 14, 16 et 18. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers la partie gauche de la fenêtre d'horloge .
Seul le modèle syntaxique associé à l'application 14 retournant une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé, c'est donc ce modèle syntaxique qui est sélectionné au cours de l'étape 132, et ce bien que son numéro d'ordre soit inférieur aux numéros d'ordre des modèles syntaxiques associés à l'application 18 et à la région gauche 16B de la fenêtre 16A.
Dans la mesure où le numéro d'ordre attribué au modèle syntaxique sélectionné
n'est pas le numéro d'ordre le plus élevé, le dispositif de reconnaissance vocale 30 demande à l'utilisateur, au cours d'une étape 136, de confirmer que son instruction correspond bien à la séquence de phonèmes candidate du modèle syntaxique sélectionné. Si cette instruction est confirmée, la séquence de phonèmes candidate du modèle syntaxique sélectionné (c'est-à-dire, dans le présent exemple, la séquence de = CA 02942116 2016-09-14

19 phonèmes candidate du modèle syntaxique associé à l'application 14) est définie comme constituant l'instruction orale correspondant au signal audio.
On voit ainsi que l'invention permet de corriger les éventuelles erreurs dans l'orientation du regard de l'utilisateur.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande l'ouverture d'un nouvel onglet dans la fenêtre 14A. L'affichage de la fenêtre 14A est ainsi modifié, comme représenté à la Figure 8.
Une nouvelle instruction orale ferme la fenêtre des synoptiques est alors prononcée par l'utilisateur, ce dernier regardant à la fin de l'instruction orale la partie haute du dispositif d'affichage 22.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 14, 16 et 18. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers la fenêtre des synoptiques .
Seul le modèle syntaxique associé à l'application 18 retournant une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé, c'est donc ce modèle syntaxique qui est sélectionné au cours de l'étape 132, et c'est sa séquence de phonèmes candidate qui est définie comme constituant l'instruction orale correspondant au signal audio.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande la fermeture de la fenêtre 14A, qui disparaît alors du dispositif d'affichage, comme représenté à la Figure 9. Dans le même temps, le modèle syntaxique associé à
l'application 14 est désactivé.
L'utilisateur énonce ensuite une nouvelle instruction orale ouvre la fenêtre de navigation , en regardant à la fin de l'instruction orale la partie haute du dispositif d'affichage 22.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 16 et 18. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers une région vide de l'écran . Seul le modèle syntaxique associé à l'application 18 retournant une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé, c'est donc ce modèle syntaxique qui est sélectionné au cours de l'étape 132, et c'est sa séquence de phonèmes candidate qui est définie comme constituant l'instruction orale correspondant au signal audio.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande l'ouverture de la fenêtre 17A, qui apparaît alors sur le dispositif d'affichage, comme représenté à la Figure 10. Dans le même temps, les modèles syntaxiques associés à

= CA 02942116 2016-09-14 l'application 17 sont activés, lesdits modèles syntaxiques comprenant un modèle syntaxique associé à la fenêtre 17A dans son ensemble, mais également d'autres modèles syntaxiques associés à différentes régions 17B, 170, 17D, 17E, 17F, 17G d'une carte affichée dans la fenêtre 17A.

L'utilisateur énonce ensuite une nouvelle instruction orale sélectionne le point de passage KCVG , en regardant à la fin de l'instruction orale la région 17B de la fenêtre 17A.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 16, 17 et 18. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers la région B de la carte . Les modèles syntaxiques associés à l'application 18, à la fenêtre 17A et à la région 17B
se voient donc attribuer le numéro d'ordre le plus élevé, pendant que les autres modèles syntaxiques se voient attribuer des numéros d'ordre plus faibles.
Les modèles syntaxiques associés aux régions 17B et 170 retournent chacun une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé : la séquence de phonèmes candidate du modèle syntaxique associé
à la région 17B est sélectionne le point de passage KCVG , et la séquence de phonèmes candidate du modèle syntaxique associé à la région 170 est sélectionne le point de passage KCVJ . Puisque le modèle syntaxique associé à la région 17B a un numéro

20 d'ordre plus élevé, c'est ce seul modèle syntaxique qui est sélectionné au cours de l'étape 132, et c'est donc sa séquence de phonèmes candidate qui est définie comme constituant l'instruction orale correspondant au signal audio.
Ainsi, bien que les points de passage KCVG et KCVJ aient des prononciations très proches, le dispositif de reconnaissance vocale automatique 30 parvient à
faire la discrimination entre ces deux points de passage grâce à l'orientation du regard de l'utilisateur.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande l'affichage des informations relatives au point de passage KCVG sur le dispositif d'affichage 22. La fenêtre 17A passe alors en plein écran, comme représenté
sur la Figure 11, pendant que la fenêtre 16A disparaît. Dans le même temps, les modèles syntaxiques associés à l'application 16 sont désactivés.
L'utilisateur énonce enfin une dernière instruction orale zoome sur la carte , en regardant à la fin de l'instruction orale la région 17B de la fenêtre 17A.
Les modèles syntaxiques actifs sont alors les modèles syntaxiques associés aux applications 17 et 18. L'état de la direction du regard détecté par le dispositif de détection 36 est l'état regard orienté vers la région B de la carte . Les modèles syntaxiques

21 associés à l'application 18, à la fenêtre 17A et à la région 17B se voient donc attribuer le numéro d'ordre le plus élevé, pendant que les autres modèles syntaxiques se voient attribuer des numéros d'ordre plus faibles.
Seul le modèle syntaxique associé à la fenêtre 17A retournant une séquence de phonèmes candidate dont la probabilité de séquence est supérieure au seuil prédéterminé, c'est donc ce modèle syntaxique qui est sélectionné au cours de l'étape 132, et c'est sa séquence de phonèmes candidate qui est définie comme constituant l'instruction orale correspondant au signal audio.
L'instruction orale est ensuite transmise à l'unité d'exécution 140, qui commande un zoom sur la carte affichée dans la fenêtre 17A. Au terme de ce zoom, seules les régions 17B et 17E de la carte demeurent affichées ; les modèles syntaxiques associés aux régions 170, 170, 17F et 17G sont alors désactivés.
L'invention décrite ci-dessus peut ainsi être mise en oeuvre de manière autonome par des appareils ayant une puissance de calcul limitée, puisque ne sont utilisés que des modèles syntaxiques susceptibles de ne reconnaître que de petits nombres de phrases, de sorte que l'on peut se contenter d'employer des modèles acoustiques ne nécessitant pas de puissance de calcul très importante.
La juxtaposition de ces modèles syntaxiques les uns aux autres permet néanmoins la reconnaissance d'un vocabulaire étendu, et la prise en compte des états des éléments contextuels permet de faire la discrimination nécessaire entre les résultats retournés par ces différents modèles syntaxiques. Il est ainsi possible d'atteindre un taux de reconnaissance proche des 100% sur un vocabulaire étendu.
En outre, l'invention permet d'abaisser le taux d'erreur en permettant la prise en compte d'instructions émises dans un mauvais contexte.
Enfin, les temps de latence sont très faibles puisque, grâce à l'architecture du décodeur linguistique 38, la détermination des séquences de phonèmes candidates peut être effectuée de manière quasiment simultanée avec l'acquisition du signal audio, et que l'étape finale, qui consiste en la sélection d'au moins un modèle syntaxique pour la détermination de l'instruction orale correspondant au signal audio, nécessite très peu de calcul et est donc presque instantanée.

Claims

REVENDICATIONS

1.- Dispositif de reconnaissance vocale automatique (30) comprenant une unité
(32) d'acquisition d'un signal audio, un organe (34) de mise en forme du signal audio, pour le découpage du signal audio en trames, et un décodeur linguistique (38) pour la détermination d'une instruction orale correspondant au signal audio, le décodeur linguistique (38) comprenant :
- au moins un modèle acoustique (42) définissant une loi de probabilité
acoustique permettant de calculer, pour chaque phonème d'une séquence de phonèmes, une probabilité acoustique pour que ledit phonème et une trame correspondante du signal audio concordent, et - au moins un modèle syntaxique (44) définissant une loi de probabilité
syntaxique permettant de calculer, pour chaque phonème d'une séquence de phonèmes analysée au moyen dudit modèle acoustique (42), une probabilité
syntaxique pour que ledit phonème suive le phonème ou groupe de phonèmes précédant ledit phonème dans la séquence de phonèmes, caractérisé en ce que le dispositif de reconnaissance vocale (30) comprend un dispositif de détection (36) pour détecter l'état d'au moins un élément contextuel, en ce que les modèles syntaxiques (44) sont au moins au nombre de deux, et en ce que le décodeur linguistique (38) comprend :
- un algorithme de construction d'instruction orale (46) mettant en ceuvre le modèle acoustique (42) et une pluralité de modèles syntaxiques actifs pris parmi les modèles syntaxiques (44) pour construire, pour chaque modèle syntaxique actif, une séquence de phonèmes candidate associée audit modèle syntaxique actif pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes candidate est maximal, - un processeur de contextualisation (48) pour sélectionner, en fonction de l'état du ou de chaque élément contextuel détecté par le dispositif de détection (36), au moins un modèle syntaxique sélectionné parmi la pluralité de modèles syntaxiques actifs, et - un processeur (50) de détermination de l'instruction orale correspondant au signal audio, pour définir la séquence de phonèmes candidate associée au modèle syntaxique sélectionné ou, dans le cas où plusieurs modèles syntaxiques sont sélectionnés, la séquence de phonèmes, parmi les séquences de phonèmes candidates associées aux modèles acoustiques sélectionnés, pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes est maximal, comme constituant l'instruction orale correspondant au signal audio.

2.- Dispositif de reconnaissance vocale automatique (30) selon la revendication 1, dans lequel le processeur de contextualisation (48) est adapté pour :
- attribuer, en fonction de l'état de l'élément contextuel détecté, un numéro d'ordre à chaque modèle syntaxique actif, - rechercher, parmi les modèles syntaxiques actifs, des modèles syntaxiques candidats auxquels sont associés des séquences de phonèmes candidates pour lesquelles le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant lesdites séquences de phonèmes candidates est supérieur à un seuil prédéterminé, et - sélectionner le ou les modèle(s) syntaxique(s) candidat(s) ayant le numéro d'ordre le plus élevé.

3.- Dispositif de reconnaissance vocale automatique (30) selon la revendication 1 ou 2, dans lequel au moins un élément contextuel est indépendant du signal audio.

4.- Dispositif de reconnaissance vocale automatique (30) selon l'une quelconque des revendications 1 à 3, dans lequel le dispositif de détection (36) comprend un détecteur de regard (40) adapté pour détecter la direction d'un regard d'un utilisateur ou un détecteur de pointage adapté pour détecter la position d'un organe de pointage.

5.- Dispositif de reconnaissance vocale automatique (30) selon la revendication 4, dans lequel l'organe de pointage est un curseur.

6.- Dispositif de reconnaissance vocale automatique (30) selon la revendication 2, dans lequel le dispositif de détection (36) comprend un détecteur de regard (40) adapté
pour détecter la direction d'un regard d'un utilisateur ou un détecteur de pointage adapté
pour détecter la position d'un organe de pointage, le dispositif de reconnaissance vocale (30) comprenant un dispositif d'affichage (22) affichant des objets, chaque modèle syntaxique (44) étant associé à un objet respectif parmi les objets affichés, le processeur de contextualisation (48) étant adapté pour attribuer son numéro d'ordre à
chaque modèle syntaxique en fonction de la distance entre la direction du regard de l'utilisateur ou la position du pointeur et l'objet affiché auquel est associé ledit modèle syntaxique (44).

7.- Dispositif de reconnaissance vocale automatique (30) selon la revendication 6, dans lequel l'organe de pointage est un curseur.

8.- Système (10) d'assistance au pilotage ou à la maintenance d'un aéronef, caractérisé en ce qu'il comprend un dispositif de reconnaissance vocale automatique (30) selon l'une quelconque des revendications 1 à 7, et une unité (20) d'exécution de commande pour l'exécution de l'instruction orale correspondant au signal audio.

9.- Système d'assistance (10) selon la revendication 8, dans lequel le dispositif de détection (36) comprend un détecteur de phase de vol de l'aéronef ou d'un état système de l'aéronef (41).

10.- Procédé de reconnaissance vocale automatique (120) pour la détermination d'une instruction orale correspondant à un signal audio, le procédé étant mis en ceuvre par un dispositif de reconnaissance vocale automatique (30) comprenant :
- au moins un modèle acoustique (42) définissant une loi de probabilité
acoustique permettant de calculer, pour chaque phonème d'une séquence de phonèmes, une probabilité acoustique pour que ledit phonème et une trame correspondante du signal audio concordent, et - au moins un modèle syntaxique (44) définissant une loi de probabilité
syntaxique permettant de calculer, pour chaque phonème d'une séquence de phonèmes analysée au moyen dudit modèle acoustique (42), une probabilité syntaxique pour que ledit phonème suive le phonème ou groupe de phonèmes précédant ledit phonème dans la séquence de phonèmes, caractérisé en ce que les modèles syntaxiques (44) sont au moins au nombre de deux, et en ce que le procédé (120) comprend les étapes suivantes :
- acquisition (124) du signal audio, - détection (128) de l'état d'au moins un élément contextuel, - activation (122) d'une pluralité de modèles syntaxiques formant des modèles syntaxiques actifs, - mise en forme du signal audio (126), ladite mise en forme (126) comprenant le découpage du signal audio en trames, - construction (130), pour chaque modèle syntaxique actif, à l'aide du modèle acoustique et dudit modèle syntaxique actif, d'une séquence de phonèmes candidate associée audit modèle syntaxique actif pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes candidate est maximal, - sélection (132), en fonction de l'état de l'élément contextuel, d'au moins un modèle syntaxique sélectionné parmi les modèles syntaxiques actifs, et - définition (134) de la séquence de phonèmes candidate associée au modèle syntaxique sélectionné ou, dans le cas où plusieurs modèles syntaxiques sont sélectionnés, la séquence de phonèmes, parmi les séquences de phonèmes candidates associées aux modèles syntaxiques sélectionnés, pour laquelle le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant ladite séquence de phonèmes est maximal, comme constituant l'instruction orale correspondant au signal audio.

11.- Procédé de reconnaissance vocale automatique (120) selon la revendication 10, dans lequel l'étape de sélection (132) comprend les sous-étapes suivantes :
- attribution, en fonction de l'état de l'élément contextuel détecté, d'un numéro d'ordre à chaque modèle syntaxique actif, - recherche, parmi les modèles syntaxiques actifs, de modèles syntaxiques candidats auxquels sont associés des séquences de phonèmes candidates pour lesquelles le produit des probabilités acoustiques et syntaxiques des différents phonèmes constituant lesdites séquences de phonèmes candidates est supérieur à un seuil prédéterminé, et - sélection du ou des modèle(s) syntaxique(s) candidat(s) ayant le numéro d'ordre le plus élevé.

12.- Procédé de reconnaissance vocale automatique (120) selon la revendication ou 11, dans lequel au moins un élément contextuel est indépendant du signal audio.

13.- Procédé de reconnaissance vocale automatique (120) selon l'une quelconque des revendications 10 à 12, dans lequel l'élément contextuel comprend une direction d'un regard d'un utilisateur ou une position d'un organe de pointage.

14.- Procédé de reconnaissance vocale automatique (120) selon la revendication 13, dans lequel l'organe de pointage est un curseur.

15.- Procédé de reconnaissance vocale automatique selon la revendication 11, dans lequel l'élément contextuel comprend une direction d'un regard d'un utilisateur ou une position d'un organe de pointage, et dans lequel des objets sont affichés sur un dispositif d'affichage (22), chaque modèle syntaxique (44) étant associé à un objet respectif parmi les objets affichés, et le numéro d'ordre est attribué à
chaque modèle syntaxique en fonction de la distance entre la direction du regard de l'utilisateur ou la position de l'organe de pointage et l'objet affiché auquel est associé ledit modèle syntaxique (44).

16.- Procédé de reconnaissance vocale automatique (120) selon la revendication 15, dans lequel l'organe de pointage est un curseur,

17.- Procédé de reconnaissance vocale automatique (120) selon l'une quelconque des revendications 13 à 16, dans lequel la direction du regard de l'utilisateur est constituée par une direction du regard de l'utilisateur à la fin de l'acquisition du signal audio.

18.- Procédé (100) d'assistance au pilotage ou à la maintenance d'un aéronef, mis en ceuvre par un système d'assistance au pilotage (10) ou par un système d'assistance à
la maintenance dudit aéronef, caractérisé en ce qu'il comprend les étapes suivantes :
- détermination, au moyen d'un procédé de reconnaissance vocale automatique (120) selon l'une quelconque des revendications 10 à 17, d'une instruction orale correspondant à un signal audio enregistré, et - exécution (140), par le système d'assistance, de l'instruction orale.

19.- Procédé d'assistance (100) selon la revendication 18, dans lequel l'élément contextuel comprend une phase de vol de l'aéronef ou un état système de l'aéronef.