FR2878990A1

FR2878990A1 - Construction informatique d'un automate compilant des regles de transcription grapheme/phoneme

Info

Publication number: FR2878990A1
Application number: FR0413100A
Authority: FR
Inventors: Edmond Lassalle
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2004-12-08
Filing date: 2004-12-08
Publication date: 2006-06-09

Abstract

Un système informatique (OD) automatise les construction et compilation de règles de transcription graphème/phonème produites par analyse d'un corpus de transcription dans une base de données (BD). Le corpus comprend des couples de chaîne d'éléments graphiques et chaîne d'éléments phonétiques. Un module (MR) recense des règles de transcription en analysant des correspondances gauche et droite de chaque correspondance graphème/phonème dans chaque couple de chaînes graphique et phonétique. Les correspondances sont déterminées par un module (MA) alignant des éléments graphiques aux éléments phonétiques. Dans les couples un module (MC) construit et enregistre sous forme de fichier l'automate comportant des états et transitions d'état déduits des règles de transcription recensées. Chaque état est un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique. Chaque transition chaîne deux états ayant en commun une correspondance.

Description

Construction informatique d'un automate compilant

des règles de transcription graphème/phonème

La présente invention concerne la construction informatique d'un automate compilant des règles de transcription graphème/phonème. Plus particulièrement, elle a trait à la construction d'un automate pour le traitement automatique de la transcription graphème/phonème dans une langue prédéterminée.

Il est connu que la nature concaténative de la transcription graphème/phonème utilise un système de transcription comportant un automate à états finis pour effectuer le traitement automatique de la

transcription.

L'automate du système de transcription est construit jusqu'à présent selon les étapes suivantes. Une première étape définit un langage de description de l'automate. Il s'agit d'un cadre formel décrivant des règles de transcription en présentant à la fois la manière de coder chaque règle ainsi que la manière dont chaque règle sera traduite au niveau de l'automate. Le langage de description est obtenu, par exemple, par une approche séquentielle dans laquelle la procédure de transcription analyse une chaîne graphique et applique les règles, l'une après l'autre. Chaque interprétation donne lieu à une transformation locale de la chaîne graphique analysée en une nouvelle chaîne, qui est à son tour analysée à l'étape suivante de transcription. L'approche séquentielle est exécutée par un passage progressif de la chaîne graphique à une chaîne phonétique avec des représentations mixtes comprenant des graphèmes et des phonèmes pendant des étapes intermédiaires de détermination de règle phonologique. Ce passage progressif est représenté par une mise en cascade de plusieurs automates élémentaires chacun englobant un paquet de règles de transcription phonétique reflétant un phénomène de transcription linguistique observé. Les automates en cascade peuvent être utilisés tels quels dans une structure d'analyse en cascade comme suit.

- le graphème est pris en entrée par le premier automate qui produit en sortie une représentation 10 mixte comprenant des graphèmes et des phonèmes dans une même chaîne, - la représentation ainsi produite est prise en entrée par le deuxième automate, lequel produit à son tour une nouvelle représentation, et - cette nouvelle représentation devient l'entrée de l'automate suivant et ainsi de suite jusqu'au dernier automate qui va sortir le résultat final.

La mise en cascade d'automates est informatiquement exploitable pour des modèles déterministes où un résultat unique est produit en sortie. Pour des modèles non déterministes, typiquement quand on admet plusieurs prononciations possibles pour un même graphème, l'analyse en cascade, en général, n'est pas viable car chaque sortie d'automates produit pour l'automate suivant plusieurs entrées à analyser, ce qui conduit à une explosion des résultats à la sortie, sans compter la difficulté d'interclasser les solutions en sortie. Dans le cas de modèles non déterministes, une solution serait de combiner les automates élémentaires en un unique automate comportant un très grand nombre d'états, ce qui implique de prévoir un espace mémoire considérable pour l'automate.

Une deuxième étape de construction de l'automate 35 fait intervenir un expert humain qui doit: - comprendre le langage de description des règles définies précédemment, - connaître la nature des phénomènes de transcription à observer, - observer un corpus de transcription, généraliser les phénomènes observés et les traduire par la suite en règles de transcription dans le cadre formel défini par le langage de description, et - procéder par la suite à une révision ou à une mise lo à jour des règles déjà décrites.

Une troisième étape de construction de l'automate du système de transcription consiste à implémenter un module informatique d'interprétation des règles décrites par l'expert humain. Une alternative à l'interprétation des règles consiste à mettre en oeuvre un module de traduction des règles en un programme exécutable ou éventuellement interprétable sous forme de table d'analyse, comportant, par exemple, une fonction pour chaque règle de transcription. Cette seconde option correspondant à la compilation des règles s'avère difficilement réalisable du fait de la nature complexe du langage de description des règles.

Les règles de transcription phonétique sont

généralement exprimées de manière naturelle sous forme de règles contextuelles. Par exemple dans la transcription de "an", la forme phonétique correspondante est "-a" si "an" est suivi d'une consonne, par exemple comme dans "candidat" et est retranscrite en "an" si "an" est suivi d'une voyelle, par exemple comme dans "plane". La difficulté du système de transcription réside à la fois dans la manière de traduire automatiquement les règles de transcription en un automate sans recourir à un expert humain et dans la manière de décrire lesdites règles de transcription. Les défauts identifiés de ce type de système de transcription sont les suivants: - difficulté de maintenir des règles qui ont été construites à la main; en effet, en ajoutant une règle pour étendre la couverture du phénomène traité, les résultats régressent fréquemment; - l'écriture des règles reste proche de la programmation et une personne autre que leur auteur a souvent des difficultés à faire évoluer les règles déjà écrites; - l'extension de la langue prédéterminée à des caractéristiques régionales nécessite une réécriture quasi-complète des règles; - le codage des caractères influence sur l'écriture des règles les règles de transcription n'étant pas les mêmes en français suivant que l'on utilise des caractères accentués ou des caractères non accentués.

L'invention vise à s'affranchir des inconvénients ci-dessus et ainsi à automatiser la construction et la compilation de règles de transcription phonologique. Ainsi, dans un processus de transcription que l'on souhaite non supervisé par un expert humain, les règles doivent être produites par une simple analyse d'un corpus de transcription initial.

Pour atteindre cet objectif, l'invention a pour objet un procédé pour construire informatiquement un automate compilant des règles de transcription graphème/phonème à partir d'un corpus de transcription initial comprenant des couples composés chacun d'une chaîne graphique incluant des éléments graphiques et d'une chaîne phonétique incluant des éléments phonétiques. Le procédé est caractérisé en ce qu'il comprend les étapes suivantes, après un enregistrement de correspondances graphème/phonème dans une base de données par alignement des éléments graphiques des chaînes graphiques avec les éléments phonétiques des chaînes phonétiques associées aux chaînes graphiques: recensement et enregistrement dans la base des règles de transcription à partir d'une analyse de correspondances gauche et droite de chaque correspondance graphème/phonème dans chaque couple de chaînes graphique et phonétique associées, et construction et enregistrement sous la forme d'un fichier dans la base dudit automate comportant des états et transitions d'état déduits des règles de transcription recensées, chaque état étant un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique, et chaque transition chaînant deux états ayant en commun une correspondance.

L'automate selon l'invention est basé sur une approche parallèle de langage de description, différente de l'approche séquentielle connue, par l'utilisation d'états et de transitions induisant une chaîne phonétique produite distincte de la chaîne graphique analysée. La chaîne phonétique est construite progressivement et en même temps que l'analyse avance dans la chaîne graphique. Toutes les règles de transcription sont reconnues simultanément comme un ensemble de contraintes qu'il faut satisfaire à chaque étape de transcription de graphème en phonème.

L'automate est construit directement à partir de l'analyse d'un corpus de transcription initial, une évolution de l'automate consiste à modifier le corpus 6 2878990 de transcription initial tout simplement. Les méthodes d'apprentissage utilisées permettent en outre de traiter toutes langues ou variantes de langue utilisant un alphabet comme système d'écriture. En effet, pour disposer d'un autre automate traitant une autre langue, il suffit de disposer d'un corpus de transcription graphème/phonème initial relatif à la langue à traiter.

Selon une autre caractéristique de l'invention, la construction de l'automate comprend une création et une numérotation des états en fonction des règles de transcription recensées et un chaînage des états entre eux par des transitions dépendant de correspondances communes aux états.

Selon une autre caractéristique de l'invention, le procédé comprend une création d'états initial et final représentatifs respectivement d'états de début et de fin de l'automate.

L'invention concerne également un système informatique de construction d'un automate pour la mise en oeuvre du procédé de l'invention comportant une base de données dans laquelle est mémorisé un corpus de transcription initial comprenant des couples composés chacun d'une chaîne graphique incluant des éléments graphiques et d'une chaîne phonétique incluant des éléments phonétiques, caractérisé en ce qu'il comprend: un module pour recenser et enregistrer dans la base des règles de transcription à partir d'une analyse de correspondances gauche et droite de chaque correspondance graphème/phonème dans chaque couple de chaînes graphique et phonétique, toutes les correspondances étant déterminées par un module d'alignement alignant des éléments graphiques des chaînes graphiques aux éléments phonétiques des chaînes phonétiques en des correspondances graphème/phonème enregistrées dans la base de données, et un module pour construire et enregistrer sous la forme d'un fichier dans la base ledit automate comportant des états et transitions d'état déduits

des règles de transcription recensées, chaque état

étant un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique, et chaque transition chaînant deux états ayant en commun une correspondance.

L'invention concerne encore, un programme d'ordinateur apte à être mis en oeuvre sur le système informatique de l'invention. Le programme comprend des instructions de programme qui, lorsque le programme est chargé et exécuté sur le système informatique, réalisent les étapes du procédé de l'invention.

D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention, données à titre d'exemples non limitatifs, en référence aux dessins annexés correspondants dans lesquels: - la figure 1 est un bloc-diagramme d'un système informatique selon l'invention; - la figure 2 est un algorithme général d'un procédé selon une réalisation de l'invention; - la figure 3 est un diagramme schématique d'un chaînage des états d'un automate compilant des règles de transcription selon l'invention; - la figure 4 est un algorithme d'un sous- procédé d'alignement du procédé selon l'invention; - la figure 5 est un algorithme d'un sous-procédé de recensement de règles de transcription du procédé selon l'invention; et - les figures 6 et 7 représentent un algorithme d'un sous-procédé de chaînage du procédé selon l'invention.

Un automate compilant des règles de

transcription selon l'invention et construit

informatiquement a pour rôle de reconnaître la validité d'une chaîne graphique CG pour avoir une transcription effective en chaîne phonétique CP.

En référence à la figure 1, un ordinateur OD, ou un serveur, en tant que système informatique de construction d'automate:. selon l'invention, comprend au moins trois modules: un module d'alignement MA pour aligner en correspondance des graphèmes de chaînes graphiques et des phonèmes de chaînes phonétiques appartenant à un corpus de transcription initial C, un module de recensement MR pour recenser des règles de transcription, et un module de construction MC pour construire un automate à états finis. L'ordinateur incorpore une base de données BD du type de celles utilisées en intelligence artificielle, ou accède localement ou à travers un réseau de télécommunication à un serveur gérant la base de données.

La base de données BD mémorise un corpus de transcription initial C, un corpus d'alignement CA, une table de règle de transcription TR et une table d'états TE. Le corpus d'alignement CA, la table de règle de transcription TR et la table d'états TE sont créés lors de l'exécution du procédé de construction et de compilation des règles de transcription. Après construction de l'automate AU, l'ordinateur envoie, par exemple, sous forme d'un fichier, des instructions et des données représentatives des fonctionnalités de l'automate AU à un analyseur implanté, par exemple, dans un serveur SA.

L'analyseur transcrit des chaînes graphiques appliquées en entrée de l'analyseur en des chaînes phonétiques résultantes en sortie de l'analyseur, par exemple dans le cadre de correction orthographique au cours d'une recherche de patronyme dans un annuaire.

Comme montré à la figure 2, le procédé de construction d'automate selon l'invention comprend des étapes principales EO à E3. Ces étapes sont pour la plupart mises en oeuvre sous la forme d'un programme implémenté dans l'ordinateur OD et lié par exemple à un système de correction de fautes lexicales qui peut être intégré à un système de traitement de texte ou à un système d'exercice linguistique. Le corpus de transcription initial C dans la base de données BD inclut des transcriptions qui font correspondre des chaînes graphiques CG, telles que des mots ou patronymes, composées chacune d'un ou plusieurs éléments typographiques (caractères), appelés ci-après éléments graphiques ga d'un alphabet G = {gl, ..., gA} à A éléments dans une langue prédéterminée, respectivement à des chaînes phonétiques CP composées chacune d'un ou plusieurs éléments phonétiques Pb d'un alphabet P = {pl, pg} à B éléments phonétiques avec A # B a priori. Par exemple un extrait du corpus de transcription est le suivant lorsque la langue prédéterminée est l'anglais: ABBREVIATE obriviat ABBREVIATED obri vi a tod ABBREVIATES obriviats ABBREVIATING obri vi a ti G ABBREVIATION obri vi aSon ABBREVIATIONS obriviaSonz l0 ABBRUZZESE obrutsazi.

A la suite d'une lecture du corpus de transcription initial C à l'étape E0, le module d'alignement MA de l'ordinateur aligne à l'étape El par un processus de syllabation, des graphèmes et phonèmes de type gi:pi des transcriptions élémentaires. La transcription élémentaire gi:pi est une correspondance ou transduction entre un ou plusieurs éléments graphiques d'une chaîne graphique CG constituant un graphème gi et un ou plusieurs éléments phonétiques de la chaîne phonétique associée CP constituant un phonème pi. L'étape d'alignement El est détaillée lors de la description de la figure 4.

En se référant à l'extrait cité précédemment du corpus de transcription initial C, le module MA fournit les correspondances suivantes à l'étape El:

A BB R E V I A TE

o b* r i v i a t*

A BB R E V I A T E D

o b* r i a t o d

A BB R E I A TE S

o b* r i v i a t* s

A BB R E V I T IN G

o b* r i v i a t G

A BB R E V I A TI O N

o b* r i v i a S* o n

A BB R E V I A TI O N S

o b* r i v i a S* o n z

A BB R U Z Z E S E

o b* r u t s a z I Dans chacun des couples de lignes ci-dessus représentatifs de transcriptions de chaînes, la ligne supérieure représente la chaîne graphique CG décomposée en M éléments graphiques gm et la ligne inférieure représente la chaîne phonétique CP associée décomposée en N éléments phonétiques pn. Le symbole * désigne un élément phonétique muet et sans signification. Ces correspondances, ou transductions, graphème/phonème sont enregistrées dans la base de données BD pour constituer progressivement le corpus d'alignement CA.

A partir de cet alignement de graphème/phonème, le module de recensement MR de l'ordinateur OD recense des règles de transcription à l'étape E2. Une règle de transcription est représentée de la manière suivante: gi:pi gi_I:pi-1_gi+I:pi+l, où gi-1:pi-1 est la correspondance gauche et gi+l:pi+1 est la correspondance droite de la correspondance gi:pi dans la chaîne graphique CG = (...,gi-i,gi,gi+I,...) et la chaîne phonétique associée CP = (...,pi_ 1,Pi'Pi+l'...) La règle transcrit une correspondance d'un graphème gi en un phonème pi en fonction des contextes encadrant la correspondance. Le contexte gauche, respectivement droit, de la correspondance est constitué d'une ou de plusieurs correspondances situées à gauche, respectivement à droite, de ladite correspondance. Dans une variante de l'invention, une seule correspondance à gauche, respectivement à droite, suffit. Par exemple dans l'alignement:

A BB R U Z Z E S E

o b* r u t s a z i le module MR déduit pour la correspondance BB:b*, la règle suivante: BB:b* A:o_R:r.

Cette règle signifie qu'il faut et il suffit que la correspondance située à gauche d'une correspondance donnée soit A:o et la correspondance située à droite de la correspondance donnée soit R:r pour que la correspondance donnée soit BB:b*.

Pour des correspondances en début et fin de chaque couple de chaînes, le module d'alignement MA insère à l'étape El des correspondances terminales :* et :* désignant les contextes gauche et droit extrêmes des chaînes. Pour l'exemple précédent, le module MA établit les règles terminales suivantes: A:o :* BB:b* et E:i S:z :* L'étape E2 de recensement des règles de transcription est détaillée lors de la description de la figure 5.

A l'étape E3, le module de construction d'automate MC construit l'automate compilant les règles de transcription recensées R. L'automate comprend des états Et et des transitions T déduits de l'analyse de chaque règle de transcription R. Un état définit un lien entre deux correspondances consécutives dans des chaînes graphique et phonétique associées. Une règle de transcription possède deux états de l'automate. Par exemple, pour une règle Ri telle que: 1'3 gi:Pi un premier état définit le lien entre la correspondance gi-l:pi-1 et la correspondance gi:pi et un deuxième état définit le lien entre la correspondance gi:pi et la correspondance gi+1:pi+1É Chaque état Etq=glq:plq_g2q:p2q représente donc un lien entre une première correspondance glq:plq et une deuxième correspondance g2q:p2q. Un état initial Etinit et un état final Etfin, ne dépendant pas des

règles de transcription, sont créés lors de

l'exécution du procédé.

Le module de construction MC effectue également le chaînage reliant les états Et entre eux en fonction de l'analyse de chaque règle de transcription R recensée. L'étape E3 pour construire un automate compilant toutes les règles de transcription à états finis est détaillée lors de la description des figures 6 et 7.

En fin d'exécution du procédé, l'automate compilant toutes les règles de transcription R recensées à partir du corpus de transcription initial C est construit comme représenté à la figure 3. La figure 3 schématise l'automate en commençant par l'état initial Etinit chaîné à des états Etl, Et2 et Et3 incluant une correspondance terminale de début :*. Par exemple l'état Etl= :*_A:o est lié à l'état initial. Chaque état est chaîné au moins à un autre état selon une transition équivalente à la règle de transcription associant les deux états de la transition. Par exemple l'état Etl est chaîné à l'état Et4 selon la règle de transcription ou la transition T=A:oa :* BB:b*. Tout état incluant une correspondance terminale de fin :* est chaîné à l'état final Etfin.

La figure 4 montre des sous-étapes E11 à E15 de l'étape El exécutées par le module d'alignement MA relative à la correspondance de chaque élément graphique gm d'une chaîne graphique CG à chaque élément phonétique pn de la chaîne phonétique associée CP. Les alignements exécutés à l'étape El résultent d'une analyse de tous les couples de chaînes (CG, CP) dans le corpus C. L'étape d'alignement repose sur la lecture EO du corpus de transcription initial C comportant les chaînes graphiques CG composées de M éléments graphiques gm et les chaînes phonétiques CP associées aux chaînes graphiques CG et composées de N éléments phonétiques pn.

A la sous-étape E11, des premières probabilités de correspondance P(gapn) pour qu'un élément graphique gm corresponde à l'élément phonétique pn sont en priorité estimées à partir des chaînes graphiques CG et des chaînes phonétiques CP du corpus de transcription initial C et sont enregistrées dans la base de données BD avec le corpus de transcription C. La première probabilité de la correspondance gm:p est énoncée en fonction notamment du nombre de fois où l'élément graphique gm est retranscrit en l'élément phonétique pn dans les diverses transcriptions de chaînes graphique et phonétique CG, CP incluses dans le corpus C et en fonction du rang de l'élément phonétique pm dans la chaîne phonétique CP déduit du rang de l'élément graphique gn dans la chaîne graphique CG.

A la sous-étape E12, des deuxièmes probabilités P(gl,...gmlpl...pn) sont déterminées pour chaque chaîne graphique CG et chaque chaîne phonétique CP du corpus de transcription C. La chaîne graphique CG comprend M éléments graphiques consécutifs gl à gm et la chaîne 2878990 15 phonétique CP correspondant à la chaîne CG comprend N éléments phonétiques consécutifs pl à PN avec l'entier N différent, ou éventuellement égal à l'entier M. La probabilité P(CGICP) est déterminée par une programmation dynamique, en utilisant la formule d'itération suivante pour tout couple m,n tel que 1 n N et 1 m M: P (gig2... gmlplp2.. . pn) =P (gmIPn) max [P (g1g2... gmiIPiP2... pn) , P (gig2...gmIP1P2.. -pn-1) , P (gig2...gm-llP1P2...pn-1) ] où P(gmlpn) est la première probabilité de transcription élémentaire estimée à la sous-étape précédente E11 pour qu'un élément graphique gm corresponde à l'élément phonétique pn et où P (gig2... gm-1IP1P2 É É É Pn) , P (gig2... gmlPlp2... pn-1) et P(gig2. Égm-hIPlP2ÉÉÉPn-1) sont trois deuxièmes probabilités déterminées lors des itérations précédentes. A chaque itération, le module d'alignement MA construit et mémorise progressivement une matrice de deuxièmes probabilités P(gl,ÉÉÉgmlPl,ÉÉ.pn) à m colonnes pour concaténations successives des M éléments graphiques et à N lignes pour concaténations successives des N éléments phonétiques, en opérant ligne par ligne et en commençant par la probabilité P(g1Ip1) et en finissant par la probabilité P (gl, . ÉgMIPli É É ÉPN) A la sous-étape E13, chaque itération relative à la (m.n)ième transcription [(gi,ÉÉÉgm)I(pi,ÉÉÉpn)] établit un lien entre le couple (gm,pn) et le couple à la plus grande probabilité des trois deuxièmes probabilités déterminées précédemment parmi les trois couples (gm-1,Pn), (gm,pn-1) et (gm-1,pn-1)É Ainsi à chaque détermination de probabilité P (g1,ÉÉÉgm)I(pl,ÉÉÉPn) est enregistré dans le module MA un lien. Les liens tracent un chemin unique mémorisé progressivement dans le module MA et reliant le premier couple (g1, pl) au dernier couple (gM, pN) dans la matrice à m colonnes et N lignes. La topologie du chemin unique dans la matrice de taille M.N segmente les chaînes graphiques CG en graphèmes et les chaînes phonétiques CP en phonèmes et aligne les éléments graphiques gm et les éléments phonétiques pn en correspondance biunivoque.

Eventuellement à la sous-étape E14, grâce à la capacité de traitement élevée de l'ordinateur OD, d'autres boucles itératives de sous- étapes E11 à E13 peuvent être exécutées jusqu'à la convergence de l'étape d'alignement El, c'est-à-dire jusqu'à ce que le chemin établi devienne constant d'une boucle à la suivante.

A la fin de l'étape El, à la sous-étape E15, pour chaque couple de chaînes graphique et phonétique segmentées, une correspondance terminale de début est ajoutée au début :* du couple de chaînes et une correspondance terminale de fin :* est ajoutée à la fin du couple de chaînes. Les résultats de l'alignement sont ensuite mémorisés dans le corpus d'alignement CA de chaînes graphiques et chaînes phonétiques alignées dans la base de données BD.

En référence à la figure 5, le module de recensement MR exécute à l'étape E2 comportant des sous-étapes E20 à E28, le recensement des règles de transcription R à partir des correspondances fournies par le corpus d'alignement CA dans la base de données BD.

Suite à une lecture du corpus d'alignement CA à la sous-étape E20, le module de recensement MR crée la table de règles de transcription TR dans la base de données BD à la sous-étape E21. On rappelle qu'une règle dépend de correspondances gauche et droite d'une correspondance graphème/phonème gi:pi.

Le module de recensement MR recense les règles par itérations sur des pointeurs dans le corpus CA relatifs à l'indice k des couples de chaînes CGk, CPk et l'indice i des correspondances gi:pi dans le corpus CA, avec 1<_i<Ik et l<_k<_K, de manière à lire un couple de chaînes graphique CGk et phonétique CPk à la sous-étape E22 et une correspondance gi:pi de ce couple de chaînes à la sous-étape E23. Le module de recensement MR lit les correspondances gauche gi_ 1:pi-1 et droite gi+l:pi+1 à la sous-étape E24 de la correspondance gi:pi. Puis le module MR en déduit la règle de transcription associée Ri: 9i piagi-1 pi1_gi+lpi+1 et la mémorise dans la table de règles de transcription TR à la sous-étape E25. Tant que toutes les correspondances des chaînes graphique CGC et phonétique CPk, comportant un nombre de correspondances CIk, ne sont pas lues à la sous-étape E26, le module MR place le pointeur i sur la correspondance suivante gi+1:Pi+1 après la sous-étape E26. Puis tant que toutes les chaînes graphiques et les chaînes phonétiques du corpus d'alignement CA comportant J couples de chaînes ne sont pas lues, le module MR place le pointeur k sur le couple de chaînes graphique CGk+1 et phonétique CPk+l après la sous-étape E27.

Quand toutes les règles dé transcription R sont

recensées et enregistrées dans la table TR, le module de recensement supprime toutes les règles redondantes dans la table TR à la sous-étape E28.

En référence maintenant aux figures 6 et 7, le module de construction MC exécute des sous-étapes E40 à E60 de l'étape E3 de construction de l'automate à états finis. Cette construction comporte une première phase E40-E49 pour créer et numéroter des états Et de l'automate et une deuxième phase E50-E60 pour chaîner des états Et entre eux selon les règles de transcription R mémorisées dans la table de règles TR.

Au début de la première phase à la sous-étape E40, le module de construction MC lit progressivement les Ri règles de transcription que comporte la table TR. Le module de construction MC crée, la table d'états d'automate TE dans la base de données BD à la sous-étape E41.

A chaque lecture d'une règle de transcription Rr

désignée par un pointeur r dans la table de règles TR, un premier état est défini à la sous-étape E42, correspondant au lien entre la correspondancegr:pr exprimée par la règle Rr et sa correspondance gauche gr:pr. L'état est représenté de la manière suivante: Etq=gr-l:pr-1_gr:prÉ Le module de construction MC vérifie la présence de l'état Etq dans la table d'états TE à la sous-étape E43.. Si l'état Etq est nouveau, le module MC mémorise et numérote l'état Etq par l'indice q dans la table d'états TE à la sousétape E44, et incrémente l'indice q.

Puis à la sous-étape E45, toujours selon la règle de transcription Rr est défini un deuxième état correspondant au lien entre la correspondance gr:pr exprimée par la règle Rr et sa correspondance droite gr+l:pr+1É L'état est représenté de la manière suivante: Etq=gr:pr_gr+ l:pr+i. Aux sous-étapes E46 et 47, comme aux sous-étapes E43 et 44, le module de construction MC vérifie la présence de l'états Etq dans la table d'états TE et si l'état Etq est nouveau, le module mémorise et numérote l'état Etq par l'indice q dans la table d'états TE, et incrémente l'indice q. Sinon le module MC passe à la détermination d'états relatifs à d'autres règles, si toutes les règles n'ont pas encore été pointées à la sous-étape E48.

Dès que tous les états relatifs aux règles de transcription ont été créés, le module de construction MC crée un état initial Etinit et un état final Etfin indépendant des règles de

transcription R, à la sous-étape E49.

En se référant à la figure 7, au début de la deuxième phase à la sous-étape E50, le module de construction MC lit progressivement la table d'états TE afin de chaîner les états par des liens. Pour construire chaque lien entre deux états, le module de construction MC incrémente deux pointeurs u et w dans la table TE afin de comparer l'état désigné par le premier pointeur u à l'état désigné par le deuxième pointeur w. Comme explicité préalablement, un état Et = glu:plu^g2u:p2u relie une première correspondance glu:plu à une deuxième correspondance g2u:p2u. A la sous-étape E51, le premier pointeur u désigne un état Etu dans la table d'états TE et à la sous-étape E52, le deuxième pointeur w désigne l'état suivant Etw=Etu+i dans la table TE.

A partir de l'état Etu désigné par le premier pointeur u, le module de construction MC compare, à la sous-étape E53, la première correspondance glu:plu de cet état avec la correspondance terminale de début de chaîne :*. Si glu:plu correspond à :*, le module de construction MC lie l'état initial Etinit à l'état Etu à la sous-étape E54, et les deux pointeurs sont ensuite incrémentés. Si glu:plu ne correspond pas à :*, le module de construction MC compare la deuxième correspondance g2u:p2u de l'état Etu à la correspondance terminale de fin de chaîne :*, à la sous-étape E55. Si g2u:p2u correspond à :*, le module de construction lie l'état final Etfin à l'état Etu et les deux pointeurs sont incrémentés, à la sous-étape E56.

Si glu:plu ne correspond pas à :* et g2u:p2u ne correspond pas à :*, le module MC exécute plusieurs itérations des sous-étapes E57 à E60. A chaque itération le module MC compare, à la sous- étape E57, la deuxième correspondance g2u:p2u de l'état Etu à la première correspondance glw:plw de l'état Etw désigné par le deuxième pointeur w. Si g2u:p2u est identique à glw:plw, le module de construction lie, l'état Etu à l'état Etw par une transition T, qui est équivalente à une règle de transcription R et qui chaîne les deux états Etu et Etw, à la sous-étape E58: T=g2u:p2ugglu:plu^g2w:p2w, où glu:plu est la correspondance gauche de la correspondance g2u:p2u (=glw:plw) et g2w:p2w est la correspondance droite de la correspondance g2u:p2u commune aux états Etu et Etw. Tant que le deuxième pointeur w n'a pas atteint le nombre E d'états dans la table d'états TE à la sous-étape E59, le pointeur w est incrémenté et la comparaison à la sous-étape E57 est réitérée. De même, tant que le premier pointeur u n'a pas atteint le nombre d'états E à la sous-étape E60, le pointeur u est incrémenté.

Chaque transition représentant un maillon du chaînage entre deux états déterminé par le module de construction MC est mémorisée dans la table d'états TE.

A la fin du chaînage, le module MC compile toutes les règles de transcription R déterminées sur la base du corpus d'alignement CA afin de construire l'automate AU composé d'un treillis de transducteurs correspondant respectivement aux états Et et liés par les transitions T selon les règles R à caractère déontique. L'automate est enregistré dans la base de données BD et ultérieurement lu par l'ordinateur OD pour le transmettre au serveur analyseur SA. Par exemple le serveur analyseur recherche un mot ou un nom dans un annuaire à partir d'une requête transmise depuis un terminal d'usager et incluant un mot ou nom mal orthographié et appliquée à l'automate, la langue prédéterminée de l'automate étant celle de l'annuaire.

Selon une implémentation préférée, les étapes du procédé de l'invention sont déterminées par les instructions d'un programme incorporé dans un système informatique de construction d'automate, tel que l'ordinateur ou un serveur. Le programme comporte des instructions de programme qui, lorsque ledit programme est chargé et exécuté dans le système informatique dont le fonctionnement est alors commandé par l'exécution du programme, réalisent les étapes du procédé selon l'invention.

En conséquence, l'invention s'applique également à un programme d'ordinateur, notamment un programme d'ordinateur sur ou dans un support d'informations, adapté à mettre en oeuvre l'invention. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable pour implémenter le procédé selon l'invention.

Le support d'informations peut être n'importe 35 quelle entité ou dispositif capable de mémoriser le programme. Par exemple, le support peut comporter un moyen de mémorisation, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy disc) ou un disque dur.

D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type internet.

Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé selon l'invention.

Claims

23 REVENDICATIONS

1 - Procédé pour construire informatiquement un automate compilant des règles de transcription graphème/phonème à partir d'un corpus de transcription initial (C) comprenant des couples composés chacun d'une chaîne graphique (CG) incluant des éléments graphiques (gm) et d'une chaîne phonétique (CP) incluant des éléments phonétiques (Pn), caractérisé en ce que le procédé comprend les étapes suivantes, après un enregistrement (El) de correspondances graphème/phonème (gi:pi) dans une base de données (BD) par alignement des éléments graphiques (gm) des chaînes graphiques (CG) avec les éléments phonétiques (Pn) des chaînes phonétiques (CP) associées aux chaînes graphiques: recensement et enregistrement dans la base (E2) des règles de transcription (R) à partir d'une analyse de correspondances gauche (gi-1:pi-1) et droite (gi+1:Pi+1) de chaque correspondance graphème/phonème (gi:pi) dans chaque couple de chaînes graphique et phonétique associées, et construction et enregistrement sous la forme d'un fichier dans la base (E3) dudit automate comportant des états (Et) et transitions d'état (T) déduits des règles de transcription recensées (R), chaque état étant un lien entre deux correspondances graphème/phonème consécutives (gi-1:Pi-1,gi:Pi gi:pi, gi+l:Pi+1) dans un couple de chaînes graphique et phonétique, et chaque transition (T) chaînant deux états ayant en commun une correspondance.

2 - Procédé conforme à la revendication 1, selon lequel la construction de l'automate comprend une création et une numérotation (E43 - E47) des états (Et) en fonction des règles de transcription recensées (R) et un chaînage (E58) des états entre eux par des transitions (T) dépendant de correspondances communes aux états.

3 - Procédé conforme à la revendication 1 ou 2, comprenant une création (E49) d'états initial (Etinit) et final (Etfin) représentatifs respectivement d'états de début et de fin de 10 l'automate.

4 - Procédé conforme à l'une quelconque des revendications 1 à 3, selon lequel l'alignement (El) comprend une insertion (E15) de correspondances graphème/phonème terminales placées au début et à la fin de chaque couple de chaînes graphique et phonétique (CG, CP).

- Système informatique de construction d'un automate compilant des règles de transcription graphème/phonème comportant une base de données (BD) dans laquelle est mémorisé un corpus de transcription initial (C) comprenant des couples composés chacun d'une chaîne graphique (CG) incluant des éléments graphiques (gm) et d'une chaîne phonétique (CP) incluant des éléments phonétiques (pn), caractérisé en ce qu'il comprend: un module (MR) pour recenser et enregistrer dans la base des règles de transcription (R) à partir d'une analyse de correspondances gauche (gi-l:pi-1) et droite (gi+1:pi+1) de chaque correspondance graphème/phonème (gi:pi) dans chaque couple de chaînes graphique et phonétique, toutes les correspondances étant déterminées par un module d'alignement (MA) alignant des éléments graphiques (gm) des chaînes graphiques (CG) aux éléments phonétiques (pn) des chaînes phonétiques (CP) en des correspondances graphème/phonème (gi:pi) enregistrées dans la base de données (BD), et un module (MC) pour construire et enregistrer sous la forme d'un fichier dans la base ledit automate comportant des états (Et) et transitions d'état (T) déduits des règles de transcription recensées (R), chaque état étant un lien entre deux l0 correspondances graphème/phonème consécutives (gi_ 1 pi lgi:pi gi:pi,gi+I:pi+1) dans un couple de chaînes graphique et phonétique, et chaque transition (T) chaînant deux états ayant en commun une correspondance.

6 - Programme d'ordinateur apte à être mis en uvre sur un système informatique pour construire un automate compilant des règles de transcription graphème/phonème à partir d'un corpus de transcription initial (C) comprenant des couples composés chacun d'une chaîne graphique (CG) incluant des éléments graphiques (gm) et d'une chaîne phonétique (CP) incluant des éléments phonétiques (pn), caractérisé en ce que le programme comprend des instructions de programme qui, lorsque le programme est chargé et exécuté sur un système informatique, réalisent les étapes suivantes, après un enregistrement (El) de correspondances graphème/phonème (gi:pi) dans une base de données (BD) par alignement des éléments graphiques (gm) des chaînes graphiques (CG) avec les éléments phonétiques (pn) des chaînes phonétiques (CP) associées aux chaînes graphiques: recensement et enregistrement dans la base (E2)

des règles de transcription (R) à partir d'une

analyse de correspondances gauche (gi-l:pi-1) et droite (gi+l:pi+ 1) de chaque correspondance graphème/phonème (gi:pi) dans chaque couple de chaînes graphique et phonétique associées, et construction et enregistrement sous la forme d'un fichier dans la base (E3) dudit automate comportant des états (Et) et transitions d'état (T) déduits des règles de transcription recensées (R), chaque état étant un lien entre deux correspondances lo graphème/phonème consécutives (gi-1:pi-1,gi:pi gi'pi,gi+1'pi+1) dans un couple de chaînes graphique et phonétique, et chaque transition (T) chaînant deux états ayant en commun une correspondance.