EP1588351A1

EP1588351A1 - Production automatique d'interfaces de reconnaissance vocale pour un domaine d'application

Info

Publication number: EP1588351A1
Application number: EP03799565A
Authority: EP
Inventors: Pascal Thales Intellectual Property BISSON; Célestin Thales Intellectual Property SEDOGBO; Olivier Thales Intellectual Property GRISVARD; Claire Thales Intellectual Property LAUDY; Bénédicte Thales Intellectual Property GOUJON
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2002-12-31
Filing date: 2003-12-15
Publication date: 2005-10-26
Also published as: US20060089835A1; WO2004059617A1; CN1745409A; AU2003299231A1; FR2849515A1; FR2849515B1

Abstract

Le dispositif de production automatisée d'interfaces de reconnaissance vocale de l'invention comporte des moyens de saisie graphique (1) d'un modèle conceptuel, des moyens de dérivation (3), des moyens de fourniture d'un modèle générique (2) et des moyens (6) d'exécution de la grammaire spécifique du domaine d'application considéré.

Description

PRODUCTION AUTOMATIQUE D'INTERFACES DE RECONNAISSANCE VOCALE POUR UN DOMAINE D'APPLICATION

La présente invention se rapporte à un procédé générique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application et à un dispositif de mise en œuvre de ce procédé.

Des interfaces de reconnaissance vocale sont utilisées, en particulier dans des systèmes d'interaction opérateur-système, qui sont des cas particuliers d'interfaces homme-machine. Une interface de ce type est le moyen qui permet à un opérateur d'accéder aux fonctions incluses dans un système ou une machine. Plus précisément, cette interface permet à l'opérateur d'évaluer l'état du système au travers de modalités de perception et de modifier cet état à l'aide de modalités d'action. Une telle interface est généralement le fruit d'une réflexion et d'un travail de conception menés en amont sur l'interaction opérateur-système, discipline visant à étudier les relations entre un utilisateur et le système avec lequel il interagit.

L'interface d'un système, par exemple l'interface homme-machine d'un système informatique, doit être naturelle, performante, intelligente (susceptible de s'adapter en fonction du contexte), fiable, intuitive (c'est-à- dire facile à comprendre et à utiliser), autrement dit la plus « transparente » possible, afin de permettre à l'utilisateur d'accomplir sa tâche sans accroître sa charge de travail par des activités ne relevant pas de son objectif premier.

En faisant appel à des canaux de communication qui nous sont familiers, comme la parole et le geste de désignation, les interfaces vocales sont à la fois plus conviviales et plus performantes. Néanmoins, leur mise en place s'avère être plus complexe que celle des interfaces traditionnelles, graphiques par exemple, car elle nécessite l'acquisition de connaissances multiples, généralement de haut niveau, et la mise en place de traitements complexes visant à exploiter ces connaissances pour gérer « intelligemment » le dialogue entre l'opérateur et le système.

Actuellement, les interfaces vocales sont réalisées « manuellement », c'est-à-dire qu'à chaque nouvelle interface, il faut réétudier toutes les fonctions de l'interface sans pouvoir faire appel à à une quelconque assistance ( automates par exemple) pour en faciliter la réalisation. La présente invention a pour objet un procédé permettant d'automatiser la réalisation d'interfaces vocales de la façon la plus facile possible et la plus simple possible, avec un temps et un coût de développement les plus réduits possible. La présente invention a également pour objet un dispositif de mise en œuvre de ce procédé, dispositif qui soit simple à utiliser et peu onéreux.

Le procédé conforme à l'invention est caractérisé par le fait qu'on saisit un modèle conceptuel du domaine d'application de l'interface vocale, que l'on produit un ensemble de règles de grammaire générique représentative d'une classe d'applications, que l'on exemplifie les différentes règles de grammaire générique dont les contraintes sont satisfaites, que l'on produit la grammaire du domaine d'application considéré à partir de la grammaire générique exemplifiée et du modèle conceptuel, et que l'on gère l'interaction opérateur/système. Le dispositif de production automatisée d'interfaces vocales conforme à l'invention comporte des moyens de saisie d'un modèle conceptuel, des moyens de dérivation, des moyens de fourniture d'un modèle générique et des moyens d'exécution de la grammaire spécifique du domaine d'application considéré. La présente invention sera mieux comprise à la lecture de la description détaillée d'un mode de mise en œuvre, pris à titre d'exemple non limitatif et illustré par le dessin annexé, sur lequel :

- la figure 1 est un bloc-diagramme des principaux moyens mis en œuvre par l'invention, - la figure 2 est un bloc-diagramme plus détaillé que celui de la figure 1 , et

- la figure 3 est un bloc-diagramme détaillé des moyens d'exécution des figures 1 et 2.

Sur la figure 1 , on a représenté des moyens de saisie 1 permettant de saisir les différentes données décrivant le modèle conceptuel du domaine d'application considéré et les relations reliant ces données. Ces données peuvent être, par exemple, dans le cas de la commande vocale utilisée pour le pilotage d'un avion, la terminologie de tous les appareils et de toutes les fonctions d'un avion, ainsi que leurs différentes relations mutuelles. Par ailleurs, on construit et on mémorise un ensemble 2 de règles de grammaire pour former un modèle générique représentant une classe d'applications (pour l'exemple précédemment cité, cette classe serait celle se rapportant à la commande des véhicules en général). A partir du modèle conceptuel 1 et du modèle générique 2, des moyens de dérivation 3 calculent de façon automatique l'ensemble des ressources nécessaires à la production de l'interface vocale désirée, et en déduisent l'ensemble des énoncés de langage susceptibles d'être traités par cette interface dans le contexte de l'application traitée. En outre, le dispositif de l'invention comporte des moyens de révision 4 et des moyens d'explication 5. Les moyens de révision 4 sont supervisés par l'opérateur du dispositif ou par son concepteur. Ils ont pour rôle de réviser les données saisies par l'opérateur à l'aide des moyens 1 , dans le but de corriger des termes contraires à la sémantique de l'application considérée et/ou d'ajouter de nouveaux termes pour enrichir la grammaire du domaine d'application. Les moyens d'explication 5 permettent de faciliter la révision des données saisies par l'opérateur en exposant les règles qui ont été appliquées lors de l'élaboration de la grammaire spécifique du domaine d'application. Les moyens d'exécution 6 sont chargés de produire automatiquement l'interface vocale du domaine d'application considéré. Le procédé de production de cette interface repose sur la distinction entre les ressources qui dépendent de l'application et sont des ressources spécifiques (c'est-à-dire l'ensemble des concepts constituant le modèle conceptuel saisi par les moyens 1 et l'ensemble des termes constituant le lexique), et les ressources qui ne dépendent pas de cette application (ressources génériques), à savoir les règles syntaxiques de la grammaire et l'ensemble du lexique de base, qui sont propres à la langue utilisée.

Pour mettre en œuvre ce procédé, le concepteur de l'interface vocale doit décrire à l'aide des moyens de saisie 1 les ressources spécifiques à l'application considérée, c'est-à-dire le modèle conceptuel et le lexique de cette application. Il s'agit pour lui de définir les concepts de l'application qu'il souhaite pouvoir être régis par la voix, puis de verbaliser ces concepts. Ce travail de saisie peut être facilité par l'utilisation d'un modèle formel de l'application envisagée, sous réserve que ce modèle existe et soit disponible.

Lorsque les ressources spécifiques à l'application sont ainsi acquises, les moyens de dérivation 3, qui fonctionnent de manière entièrement automatique, calculent à partir de ces ressources spécifiques et des ressources génériques fournies par les moyens 2 le modèle linguistique de l'interface vocale pour ladite application. Ce modèle linguistique se compose de la grammaire et du lexique du sous-langage dédié à cette interface. Les moyens de dérivation 3 permettent également de calculer l'ensemble des énoncés de ce sous-langage (c'est-à-dire sa phraséologie), ainsi que l'ensemble des connaissances relatives à l'application et nécessaires à la gestion du dialogue opérateur-système.

Les moyens de révision 4 permettent ensuite à l'opérateur de visualiser tout ou partie de la phraséologie correspondant à son travail de saisie, afin de pouvoir affiner cette phraséologie par ajout, suppression ou modification. Afin d'aider l'opérateur dans cette tâche, les moyens 5 de production d'explications permettent de repérer automatiquement quelles données conceptuelles et lexicales saisies par l'opérateur sont à l'origine d'une caractéristique donnée d'un énoncé ou d'un ensemble d'énoncés du sous-langage produit.

Enfin, les moyens d'exécution 6 constituent l'environnement auquel il est fait appel lors de l'utilisation de l'interface vocale produite, afin de valider cette interface. A cet effet, les moyens d'exécution exploitent l'ensemble des données fournies par les moyens de saisie 1 et les moyens de dérivation 3.

On a représenté en figure 2 un exemple de réalisation du dispositif de mise en œuvre du procédé de l'invention. L'opérateur dispose d'une interface de saisie 7, telle qu'une interface graphique, pour saisir le modèle conceptuel 8 de l'application considérée. Il dispose par ailleurs d'une base de données 9 comprenant les entités ou concepts de l'application, et d'un lexique 10 de cette application. Ainsi, le modèle conceptuel est formé des entités de l'application et de leurs associations mutuelles, c'est-à-dire des relations prédicatives liant entre eux les concepts de l'application. La saisie du modèle conceptuel est conçue comme un processus itératif et assisté faisant appel à deux sources de connaissance principales, qui sont la grammaire générique 11 et le lexique de base 12.

L'une des façons de réaliser les moyens de dérivation 3 consiste à étendre une grammaire syntaxique et sémantique de manière à autoriser la prise en compte de contraintes conceptuelles. Il est ainsi possible de définir dans ce formalisme de haut niveau une grammaire générique dont l'adaptation au domaine d'application s'effectue de façon automatique au travers des données saisies par l'opérateur. Les moyens de dérivation permettent ainsi de calculer la grammaire syntaxico-sémantique et le lexique propres au domaine d'application. Ainsi, comme schématisé en figure 2, à partir du modèle conceptuel 8 saisi par l'opérateur, le dispositif déduit le modèle linguistique qu'il transmet aux moyens de dérivation 13. Il faut noter ici que le modèle conceptuel est utilisé non seulement pour calculer le modèle linguistique et les sous-modèles qui lui sont liés (modèle linguistique pour la reconnaissance , modèle linguistique pour l'analyse et modèle linguistique pour la génération, mais sert également à la gestion du dialogue opérateur- système pour tout ce qui relève de la référence aux concepts et aux objets de l'application.

Les moyens de révision- explication 14, pour leur fonction de révision, sont accessibles via l'interface graphique 7 de saisie du modèle conceptuel de l'application. Ils font appel à un générateur de grammaire 15 qui calcule la grammaire correspondant au modèle saisi et offre des mécanismes pour afficher tout ou partie des énoncés correspondants. A cet effet, le générateur de grammaire 15 comprend une grammaire 16 syntaxique et sémantique d'analyse d'énoncés, une grammaire 17 de génération d'énoncés et une grammaire 18 de reconnaissance vocale.

Les moyens de révision-explication 14, pour leur fonction d'explication, se basent sur une analyse formelle du calcul effectué par les moyens de dérivation 13 pour identifier les données qui sont à l'origine des caractéristiques de ces énoncés. Ces moyens permettent à l'opérateur de concevoir de façon itérative son modèle tout en s'assurant que les énoncés qui seront produits répondent bien à ses attentes.

On a détaillé en figure 3 un exemple de réalisation des moyens d'exécution 6 de l'interface vocale. Ces moyens comportent : - un dispositif 19 de reconnaissance de parole, qui utilise la grammaire 18 dérivée du modèle linguistique de manière automatique ;

- un analyseur d'énoncés 20 qui utilise le modèle linguistique fourni par les moyens de dérivation 13. Il vérifie syntaxiquement et sémantiquement l'exactitude des énoncés ;

- un processeur de dialogue 21 qui utilise le modèle conceptuel saisi par l'opérateur, ainsi que la base de données 9 des entités linguistiques de l'application, saisie par l'opérateur ou construite automatiquement par l'application 22 ;

- un générateur d'énoncés 23, qui utilise la grammaire de génération d'énoncés 17 dérivée du modèle linguistique de manière automatique ;

- un dispositif 24 de synthèse de parole. L'ensemble des éléments 19 à 21 et 23, 24 d'exécution de l'interface vocale est géré dans le cas présent par un système 25 de type multi-agents.

On va maintenant expliquer la mise en œuvre des moyens de saisie, des moyens de révision et des moyens d'explication à l'aide d'un exemple très simple.

A) Moyens de saisie

Si l'on souhaite rendre accessibles à la voix les concepts de chaîne de télévision (CHANNEL), programme télévisé (PROGRAMME), film

(MOVIE), dessin animé (CARTOON), ainsi que le fait qu'une chaîne de télévision diffuse (PLAY) des programmes télévisés, il faut d'abord utiliser les moyens de saisie pour décrire le lexique, se rapportant à des concepts, que l'on souhaite prendre en compte. Dans un premier temps, les moyens de saisie permettent d'aider le concepteur de l'interface vocale lors de la constitution du lexique. Pour cela, des mécanismes sont mis en œuvre afin de proposer, pour un terme donné (par exemple « movie » pour la version anglaise du lexique et « film » pour la version française) l'ensemble des formes fléchies correspondant à ce terme (singulier et pluriel d'un nom commun ou conjugaisons d'un verbe, par exemple). Le concepteur du lexique n'a donc qu'à sélectionner parmi toutes ces formes, celles qu'il souhaite retrouver dans l'interface vocale.

Les concepts qui doivent être accessibles à la voix sont ensuite créés via ces mêmes moyens de saisie. Il s'agit dans le cas présent de créer des entités CHANNEL, PROGRAMME, MOVIE et CARTOON et une relation PLAY. Ces concepts sont reliés à un ensemble de termes du lexique. Ainsi, le concept MOVIE sera relié aux termes « movie », « movies », « film » et « films ». Ces liens permettront de créer un certain nombre de clauses utilisées par les moyens de dérivation : • entity ([CARTOON, [cartoon]])

• entity ([MOVIE, [movie]])

• entity ([PROGRAMME, [programme]])

• entity ([CHANNEL, [channel 5, cnn]])

• ... etc Dans le cas de la relation PLAY, il faut expliciter les acteurs de cette relation : la chaîne télévisée et le programme. Ceci donne lieu à un autre type de clauses à destination des moyens de dérivation :

• functional_structure ([PLAY, Subject (CHANNEL), DirectObject (PROGRAMME), [play]]). Les moyens de saisie permettent ensuite d'expliciter un certain nombre de relations supplémentaires entre ces concepts. Par exemple, un film est un type de programme télévisé. Ces relations auront comme conséquence de créer d'autres clauses utilisées par les moyens de dérivation : • is_a (MOVIE, PROGRAMME)

• ... etc.

La mise en place de ces moyens de saisie permet avant tout de faciliter la saisie des ressources spécifiques nécessaires à la mise en œuvre de l'interface vocale. En effet, cette saisie s'effectue en grande partie grâce à la sélection de certains critères parmi un ensemble de critères proposés via une interface graphique. Le fichier de ressources (clauses) nécessaire aux moyens de dérivation est généré automatiquement à partir de cette représentation graphique de l'ensemble des critères choisis. Ceci permet au concepteur de l'interface vocale de ne pas faire d'erreur de syntaxe dans le fichier de ressources, ni d'oubli. B) Moyens de révision

Les moyens de révision permettent au concepteur de l'interface vocale de valider ou corriger le modèle conceptuel qui a été créé via les moyens de saisie.

Une première étape du processus de révision consiste à visualiser tout ou partie de la phraséologie correspondant au modèle conceptuel.

Dans le présent exemple, on pourrait visualiser les phrases suivantes :

1) Un film

2) Un dessin animé

3) Un film diffuse Channel 5 4) ... etc La phrase « Un film diffuse Channel 5 » est incorrecte. Les moyens d'explication permettent de voir que cette erreur vient du fait que la relation PLAY a été mal définie :

• functional_structure ([PLAY, Subject (PROGRAMME), DirectObject (CHANNEL), [play]]). PROGRAMME joue le rôle du sujet

Au lieu de :

• functional_structure (PLAY, Subject (CHANNEL), DirectObject (PROGRAMME), [play]]).

CHANNEL joue le rôle de sujet Les moyens de révision permettent au concepteur de l'interface vocale de visualiser cette erreur, et de modifier le modèle conceptuel de façon à la corriger.

C) Moyens d'explication

Les moyens d'explication ont pour fonction d'identifier et de décrire le sous-ensemble ou la caractéristique du modèle conceptuel dont la compilation produit la sous-grammaire correspondant à un énoncé particulier, à une expression langagière - un morceau d'énoncé - particulière, ou à une propriété langagière - une caractéristique d'expression - particulière.

Ainsi, grâce aux moyens d'explication, l'utilisateur a la possibilité, en sélectionnant un énoncé, une expression ou une propriété engendrée par la grammaire, de retrouver et de comprendre le sous-ensemble ou la caractéristique du modèle conceptuel qui en est l'origine.

Dès lors, il peut modifier le modèle conceptuel pour modifier l'énoncé, l'expression ou la propriété engendrée et, en réitérant le processus, affiner le modèle conceptuel afin d'obtenir la grammaire du langage souhaité. A titre d'exemple, la possibilité d'utiliser le pluriel dans la relation entre l'entité unité et l'entité mission dans les quatre expressions ci-dessous est fonction de la cardinalité de cette relation.

1. « la mission de l'unité »

2. « les missions de l'unité » 3. « la mission des unités »

4. « les missions des unités »

La relation en question est décrite par la règle conceptuelle suivante :

entité (unité, relation (mission, X, Y))

Si X = 1 et Y = 1 , seule l'expression 1. est autorisée par la grammaire. Si X = 1 et Y = n, seules les expressions 1. et 2. sont autorisées par la grammaire. Si X = n et Y = 1 , seules les expressions 1. et 3. sont autorisées par la grammaire. Enfin, si X = n et Y = n, toutes les expressions sont autorisées par la grammaire (n > 2).

Dans cet exemple, les moyens d'explication doivent permettre à l'utilisateur d'identifier qu'il faut modifier la cardinalité de la règle conceptuelle pour obtenir la grammaire correspondant aux expressions plurielles qu'il souhaite inclure dans son langage.

Un mode de réalisation des moyens d'explication consiste à construire un procédé d'analyse en arrière (« backtracking » en anglais) sur le procédé de compilation de la grammaire, qui va permettre de partir du résultat pour retrouver les règles conceptuelles qui aboutissent à ce résultat et par la suite de les décrire à l'utilisateur.

Claims

REVENDICATIONS

1. Procédé générique de production automatique d'interfaces de reconnaissance vocale pour un domaine d'application, caractérisé par le fait qu'on saisit (1, 7) un modèle conceptuel du domaine d'application de l'interface vocale, que l'on produit un ensemble de règles de grammaire générique (11 ) représentative d'une classe d'applications, que l'on exemplifie les différentes règles de grammaire générique dont les contraintes sont satisfaites, que l'on produit la grammaire du domaine d'application considéré (6) à partir de la grammaire générique exemplifiée et du modèle conceptuel (13) et que l'on gère l'interaction opérateur-système.

2. Procédé selon la revendication 1, caractérisé par le fait que l'on révise les données saisies et que l'on corrige les termes contraires à la sémantique de l'application considérée.

3. Procédé selon la revendication 1 ou 2, caractérisé par le fait que l'on révise (4) les données saisies et que l'on ajoute de nouveaux termes pour enrichir la grammaire du domaine d'application.

4. Procédé selon l'une des revendications précédentes, caractérisé par le fait que l'on produit des explications (5) exposant les règles qui ont été appliquées lors de l'élaboration de la grammaire spécifique du domaine d'application.

5. Dispositif de production automatisée d'interfaces de reconnaissance vocale pour un domaine d'application, caractérisé par le fait qu'il comporte des moyens de saisie (1 , 7) d'un modèle conceptuel, des moyens de dérivation (3, 13), des moyens de fourniture d'un modèle générique (2, 11) et des moyens d'exécution de la grammaire spécifique du domaine d'application considéré (6, 15).

6. Dispositif selon la revendication 5, caractérisé par le fait qu'il comporte en outre des moyens de révision (4, 14).

7. Dispositif selon la revendication 5 ou 6, caractérisé par le fait qu'il comporte en outre des moyens d'explication (5, 14).