FR2878991A1 - Construction informatique d'un phonetiseur pour un systeme verificateur de faute d'usage - Google Patents
Construction informatique d'un phonetiseur pour un systeme verificateur de faute d'usage Download PDFInfo
- Publication number
- FR2878991A1 FR2878991A1 FR0413101A FR0413101A FR2878991A1 FR 2878991 A1 FR2878991 A1 FR 2878991A1 FR 0413101 A FR0413101 A FR 0413101A FR 0413101 A FR0413101 A FR 0413101A FR 2878991 A1 FR2878991 A1 FR 2878991A1
- Authority
- FR
- France
- Prior art keywords
- phonetic
- graphic
- transitions
- transcription
- phonetizer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000007704 transition Effects 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013518 transcription Methods 0.000 claims abstract description 87
- 230000035897 transcription Effects 0.000 claims abstract description 87
- 238000004590 computer program Methods 0.000 claims abstract description 8
- 238000010276 construction Methods 0.000 claims description 25
- 239000013256 coordination polymer Substances 0.000 claims description 10
- 238000012795 verification Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 3
- 244000007021 Prunus avium Species 0.000 claims 5
- 235000010401 Prunus avium Nutrition 0.000 claims 5
- DQCKKXVULJGBQN-XFWGSAIBSA-N naltrexone Chemical compound N1([C@@H]2CC3=CC=C(C=4O[C@@H]5[C@](C3=4)([C@]2(CCC5=O)O)CC1)O)CC1CC1 DQCKKXVULJGBQN-XFWGSAIBSA-N 0.000 claims 2
- 230000003287 optical effect Effects 0.000 claims 2
- 229940110294 revia Drugs 0.000 claims 2
- 238000004377 microelectronic Methods 0.000 claims 1
- 238000011017 operating method Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000001944 accentuation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
Un système informatique vérifie l'exactitude d'une chaîne graphique requise. Un module (MCA, MDP) construit un phonétiseur par construction d'un automate compilant des règles de transcription (R) et par détermination de probabilités de transitions entre des correspondances graphème/phonème. Un moyen (MCD) construit un dictionnaire de signatures phonétiques (DSP) en transcrivant les chaînes graphiques d'un dictionnaire de chaînes graphiques en des signatures phonétiques et en les reliant aux chaînes graphiques et détermine des probabilités des transcriptions des chaînes graphiques en les signatures. Un moyen (MTCRQ) détermine une transcription de la chaîne graphique requise en une signature de requête et détermine une probabilité de la transcription précédente. Ledit moyen recherche des signatures dans le dictionnaire des signatures sensiblement identiques à ladite signature de requête pour en déduire des chaînes graphiques attestées mémorisées dans le dictionnaire de chaînes graphiques.
Description
2878991 1
Construction informatique d'un phonétiseur pour un système vérificateur de faute d'usage La présente invention concerne le traitement automatique de l'écrit, au moyen d'un système vérificateur de faute dans une langue prédéterminée. Plus particulièrement, elle a trait à la construction informatique d'un phonétiseur à intégrer dans un système vérificateur de faute d'usage souvent inclus dans un correcteur orthographique et au fonctionnement dudit système vérificateur.
Actuellement, on distingue parmi les systèmes vérificateurs opérationnels ceux qui vérifient des fautes lexicales ou d'usage en traitant l'écriture inexacte de mots, et ceux qui vérifient des fautes de syntaxe, portant sur l'articulation de phrases, ou plus rarement ceux qui vérifient le sens de phrases.
L'invention s'intéresse aux fautes lexicales rencontrées qui sont traditionnellement de deux types - les fautes typographiques liées à l'usage d'un clavier pour saisir le texte, comme le défaut d'accentuation de certains éléments graphiques (caractères) ; et - les fautes d'usage dues à la méconnaissance de l'orthographe exacte de chaînes graphiques (mots).
Les systèmes vérificateurs de faute d'usage ont pour hypothèse de travail le comportement de l'utilisateur saisissant le texte. Celui-ci en cas de méconnaissance de l'orthographe exacte a tendance à écrire la chaîne graphique comme il la prononcerait. La vérification consiste donc à déterminer une chaîne phonétique constituant une signature phonétique de la chaîne graphique à vérifier et corriger, puis à extraire la signature correspondante d'un dictionnaire de signatures phonétiques, et enfin à déterminer la ou les chaînes graphiques associées à la signature correspondante.
Pour déterminer une signature phonétique plus fine, un système vérificateur comporte un phonétiseur déterminant la transcription d'une chaîne graphique en une chaîne phonétique constituant une signature phonétique. Le phonétiseur est basé sur des règles de transcription phonétique, chaque règle traduisant un phénomène linguistique observé. Les règles de transcription phonétiques sont exprimées de manière naturelle sous forme de règles contextuelles dépendant de l'entourage immédiat de la chaîne graphique. Ces systèmes de correction ont les défauts suivants: - difficulté de maintenir les règles qui ont été construites à la main; en effet, en ajoutant une règle pour étendre la couverture du phénomène traité, les résultats régressent fréquemment; l'écriture des règles reste proche de la programmation et une personne autre que l'auteur des règles a souvent des difficultés à faire évoluer les règles déjà écrites; - les modèles de phonétiseur, la plupart déterministes, ne peuvent prendre en compte les variantes de prononciation d'une même chaîne graphique; - l'extension de la langue prédéterminée à des caractéristiques régionales nécessite une réécriture quasi-complète des règles; et - le codage des éléments graphiques, par exemple l'accentuation ou non de ceux-ci, influence sur l'écriture des règles de transcription.
L'invention vise à s'affranchir des inconvénients ci-dessus et ainsi à automatiser la construction d'un phonétiseur qui ensuite est intégré dans un système vérificateur de faute d'usage.
Pour atteindre cet objectif, un procédé pour construire informatiquement un phonétiseur à partir d'un corpus enregistré dans une base de données et comprenant des couples composés chacun d'une chaîne graphique incluant des éléments graphiques et d'une chaîne phonétique incluant des éléments phonétiques,est caractérisé en ce qu'il comprend les étapes suivantes: construction informatique et enregistrement dans la base, d'un automate compilant des règles de transcription résultant d'une analyse de correspondances graphème/phonème dans les couples de chaînes lus dans le corpus, ledit automate comportant des états et transitions d'état déduits des règles de transcription, chaque état étant un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique, et chaque transition chaînant deux états ayant en commun une correspondance graphème/phonème, les transitions relatives à la transcription d'une chaîne graphique en une chaîne phonétique formant un chemin de transitions dans l'automate, et détermination et enregistrement dans la base, de probabilités des transitions en sortie de noeuds de l'automate situant les correspondances graphème/phonème communes aux transitions, afin de construire le phonétiseur en combinant l'automate et les probabilités de transitions déterminées.
Le phonétiseur de l'invention est stochastique 35 et donc non déterministe puisqu'il transcrit une 2878991 4 chaîne graphique en une ou plusieurs chaînes phonétiques, dites signatures phonétiques, en dépendance de prononciations multiples. Le phonétiseur est construit automatiquement à partir d'une analyse du corpus, et peut être amélioré par enrichissement du corpus notamment lors de l'évolution de la langue du corpus.
Puisque le phonétiseur est fondé sur un corpus, l'invention peut construire plusieurs phonétiseurs à l'aide de plusieurs corpus compatibles respectivement avec différentes langues.
L'étape de détermination de probabilités de transitions peut comprendre les sous-étapes suivantes: pondération de chaque transition de l'automate par une probabilité de transition choisie arbitrairement, détermination de probabilité d'au moins un chemin de transitions représentatif de la transcription de chaque chaîne graphique en au moins une chaîne phonétique associée en fonction des probabilités des transitions du chemin, sélection pour chaque chaîne graphique du chemin de transitions ayant la plus grande probabilité, incrémentation de variables respectivement associées aux transitions et représentatives de nombres de traversées des transitions par les chemins de transitions sélectionnés, et estimation de nouvelles probabilités de transition en fonction des variables de transition précédemment déterminées.
L'étape de détermination de probabilités de transitions peut comprendre en outre une réitération des étapes de détermination de probabilité de chemin, sélection, incrémentation et estimation en fonction 2878991 5 des nouvelles probabilités de transition jusqu'à une sensible convergence desdites probabilités de transition afin de combiner l'automate et les probabilités de transition en le phonétiseur.
L'invention est relative également à un système informatique de construction un phonétiseur. Le système est caractérisé en ce qu'il comprend: un module pour construire informatiquement et enregistrer dans la base, un automate compilant des règles de transcription résultant d'une analyse de correspondances graphème/phonème dans les couples de chaînes lus dans le corpus, ledit automate comportant des états et transitions d'état déduits des règles de transcription, chaque état étant un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique, et chaque transition chaînant deux états ayant en commun une correspondance graphème/phonème, les transitions relatives à la transcription d'une chaîne graphique en une chaîne phonétique formant un chemin de transitions dans l'automate, et un module pour déterminer et enregistrer dans la base, des probabilités des transitions en sortie de noeuds de l'automate situant les correspondances graphème/phonème communes aux transitions, afin de construire le phonétiseur en combinant l'automate et les probabilités de transitions déterminées.
L'invention concerne encore un premier programme d'ordinateur apte à être mis en oeuvre sur le système informatique de construction de phonétiseur selon l'invention. Le programme comprend des instructions de programme qui, lorsque le programme est chargé et exécuté sur le système informatique, réalisent les étapes du procédé de construction de phonétiseur selon l'invention.
2878991 6 L'invention concerne également une utilisation du phonétiseur construit selon l'invention. A cette fin, un procédé informatique pour vérifier l'exactitude d'une chaîne graphique requise au moyen d'un phonétiseur et d'un dictionnaire informatique de chaînes graphiques, est caractérisé en ce que le procédé comprend les étapes suivantes: construction du phonétiseur par construction informatique d'un automate compilant des règles de transcription résultant d'une analyse de correspondances graphème/phonème dans des couples de chaînes graphique et phonétique lus dans un corpus et par détermination de probabilités de transitions entre des correspondances graphème/phonème, au moyen du phonétiseur, construction d'un dictionnaire informatique de signatures phonétiques en transcrivant les chaînes graphiques du dictionnaire de chaînes graphiques chacune en au moins une signature phonétique et en les reliant informatiquement aux chaînes graphiques, et détermination de probabilités des transcriptions des chaînes graphiques en les signatures phonétiques, au moyen du phonétiseur, détermination d'une transcription de la chaîne graphique requise en au moins une signature phonétique de requête et détermination d'une probabilité de la transcription précédente, et recherche de signatures phonétiques dans le dictionnaire de signatures phonétiques sensiblement identiques à ladite au moins une signature phonétique de requête pour en déduire des chaînes graphiques attestées mémorisées dans le dictionnaire de chaînes graphiques et reliées à ladite au moins une signature phonétique.
2878991 7 L'invention est relative également à un système informatique de vérification de l'exactitude d'une chaîne graphique requise. Ce système comprend un phonétiseur et un dictionnaire informatique de chaînes graphiques, et est caractérisé en ce qu'il comprend: un module pour construire le phonétiseur par construction informatique d'un automate compilant des règles de transcription résultant d'une analyse de correspondances graphème/phonème dans des couples de chaînes graphique et phonétique lus dans un corpus et par détermination de probabilités de transitions entre des correspondances graphème/phonème, un moyen à l'aide du phonétiseur pour construire un dictionnaire informatique de signatures phonétiques en transcrivant les chaînes graphiques du dictionnaire de chaînes graphiques chacune en au moins une signature phonétique et en les reliant informatiquement aux chaînes graphiques, un moyen à l'aide du phonétiseur pour déterminer des probabilités des transcriptions des chaînes graphiques en les signatures phonétiques, un moyen à l'aide du phonétiseur pour déterminer une transcription de la chaîne graphique requise en au moins une signature phonétique de requête, un moyen pour déterminer une probabilité de la transcription précédente, et un moyen pour rechercher des signatures phonétiques dans le dictionnaire de signatures phonétiques sensiblement identiques à ladite au moins une signature phonétique de requête pour en déduire des chaînes graphiques attestées mémorisées dans le dictionnaire de chaînes graphiques et reliées à ladite au moins une signature phonétique.
L'invention concerne encore un deuxième programme d'ordinateur apte à être mis en oeuvre sur le système informatique de vérification d'exactitude de chaîne graphique selon l'invention. Le deuxième programme comprend des instructions de programme qui, lorsque le deuxième programme est chargé et exécuté sur le système informatique, réalisent les étapes du procédé de vérification d'exactitude de chaîne graphique selon l'invention.
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention, données à titre d'exemples non limitatifs, en référence aux dessins annexés correspondants dans lesquels: - la figure 1 est un bloc-diagramme schématique d'un système informatique selon l'invention; - la figure 2 est un algorithme de construction informatique du phonétiseur de l'invention; - la figure 3 est un algorithme de construction d'un automate compilant des règles de transcription; - la figure 4 est un diagramme schématique d'un chaînage des états de l'automate; - la figure 5 est un algorithme de construction d'un phonétiseur stochastique de l'invention; et - la figure 6 est un algorithme de procédé de vérification de faute d'usage mis en oeuvre dans un système vérificateur de faute d'usage comportant le phonétiseur, selon l'invention.
En référence à la figure 1, un ordinateur OD, ou un serveur, en tant que système informatique selon l'invention, construit un phonétiseur stochastique P de l'invention et assure les fonctionnalités d'un système vérificateur de faute d'usage comportant ledit phonétiseur. Le système vérificateur détermine une ou des chaînes graphiques qui constituent des solutions attestées à une chaîne graphique requise erronée, voire inconnue, incluse dans une requête. Après construction du phonétiseur, l'ordinateur OD peut compiler des instructions et des données représentatives du phonétiseur en un fichier et transmettre le fichier vers un autre système informatique.
L'ordinateur OD incorpore une base de données BD du type de celle utilisée en intelligence artificielle ou accède localement ou à travers un réseau de télécommunications à un serveur gérant la base de données. La base de données mémorise initialement un corpus informatique C et un dictionnaire informatique de chaînes graphique DG sous forme de fichiers. Le corpus C comporte des couples de chaînes graphique CG et phonétique CP, chaque chaîne graphique CG incluant des éléments graphiques gm et chaque chaîne phonétique CP incluant des éléments phonétiques pn. Le dictionnaire de chaînes graphiques DG comporte des chaînes graphiques CGD, par exemple des noms patronymiques ou des mots d'un annuaire dans une langue prédéterminée. Lors du fonctionnement du système vérificateur de faute d'usage, la base de données mémorise un dictionnaire de signatures phonétiques DSP comportant des chaînes phonétiques, dites signatures phonétiques CPD, produites à partir de la transcription des chaînes graphiques CGD du dictionnaire de chaînes graphiques DG.
L'ordinateur OD comporte deux modules pour construire le phonétiseur stochastique P de l'invention: un module de construction d'un automate 2878991 i0 MCA pour compiler des règles de transcription R et un module de détermination de probabilités de transcription MDP pour déterminer depuis l'automate, les probabilités de transcription d'une chaîne graphique en une ou plusieurs chaînes phonétiques.
L'ordinateur OD comporte également des modules du phonétiseur après la construction de celui-ci, et des modules de fonctionnement du système vérificateur de faute d'usage.
Le phonétiseur comprend: - un module de construction MCD pour construire le dictionnaire de signatures phonétiques DSP à partir de la transcription des chaînes graphiques CGD du dictionnaire de chaînes graphiques DG par le phonétiseur stochastique P; - un module d'établissement de liens MEL pour établir des liens entre les signatures phonétiques CPD du dictionnaire des signatures phonétiques DSP et les chaînes graphiques CGD correspondantes du dictionnaires de chaînes graphiques DG, une signature phonétique pouvant être liée à une ou plusieurs chaînes graphiques et inversement; et - un module de transcription stochastique MTCRQ pour transcrire une chaîne graphique requise CGRQ d'une requête en une ou plusieurs signatures phonétiques de requête CPRQ.
Le système vérificateur comprend: - un module de recherche MRCD pour rechercher des signatures phonétiques CPD dans le dictionnaire de signatures phonétiques DSP en fonction des chaînes phonétiques CPRQ résultant de la transcription de la chaîne graphique requise CGRQ; - un module de détermination de probabilités d'usage MDPU pour déterminer des probabilités d'usage Il des chaînes graphiques attestées CGA associées aux signatures phonétiques CPRQ; et - un module de classement MC pour classer les chaînes graphiques attestées CGA selon leurs probabilités d'usage.
Comme montré à la figure 2, le procédé de construction de phonétiseur selon l'invention comprend des étapes principales El et E2. Ces étapes sont mises en oeuvre sous la forme d'un programme implémenté dans l'ordinateur OD.
L'ordinateur OD dispose initialement du corpus graphème/phonème C dans la base de données BD pour décrire le phénomène de phonétisation à prendre en compte. Le module MCA de l'ordinateur OD analyse le corpus C et y extrait des couples de chaînes graphique et phonétique pour en déduire des règles de
transcription compilées dans un automate de
transcription, à l'étape El. L'automate ainsi
construit est non déterministe puisqu'une chaîne graphique donnée correspond à une ou plusieurs chaînes phonétiques possibles, dites signatures phonétiques. L'étape El est détaillée lors de la description des figures 3 et 4.
Le module MDP de l'ordinateur OD construit ensuite le phonétiseur à l'étape E2 en déterminant des probabilités de transitions à des noeuds de l'automate. L'étape E2 est détaillée lors de la description de la figure 5.
La figure 3 illustre l'étape de construction d'automate El comprenant des sous-étapes E10 à E13. Le corpus C dans la base de données BD inclut des transcriptions qui font correspondre des chaînes graphiques CG telles que des mots ou patronymes, composées chacune d'un ou plusieurs éléments typographiques (caractères), appelés ci-après éléments graphiques gm d'un alphabet de la langue prédéterminée, respectivement à des chaînes phonétiques CP composées chacune d'un ou plusieurs éléments phonétiques pn. Par exemple un extrait d'un corpus C est le suivant lorsque la langue prédéterminée est l'anglais: ABBREVIATE obriviat ABBREVIATED obriviatod ABBREVIATES obriviats A la suite d'une lecture du corpus C à l'étape E10, le module MCA aligne à l'étape E11 par un processus de syllabation, des graphèmes et phonèmes
de type gi:pi des transcriptions élémentaires. La
transcription élémentaire gi:pi est une correspondance ou transduction entre un ou plusieurs éléments graphiques gm d'une chaîne graphique CG constituant un graphème gi et un ou plusieurs éléments phonétiques Pn de la chaîne phonétique associée CP constituant un phonème pi. En se référant à l'extrait cité précédemment du corpus C, le module MCA fournit les correspondances suivantes:
Claims (3)
- 23 REVENDICATIONS1 - Procédé pour construire informatiquement un phonétiseur à partir d'un corpus (C) enregistré dans une base de données (BD) et comprenant des couples composés chacun d'une chaîne graphique (CG) incluant des éléments graphiques et d'une chaîne phonétique (CP) incluant des éléments phonétiques, caractérisé en ce qu'il comprend les étapes suivantes: construction informatique (El) et enregistrement dans la base (BD), d'un automate compilant des règles de transcription (R) résultant d'une analyse de correspondances graphème/phonème dans les couples de chaînes lus dans le corpus (C), ledit automate comportant des états (Et) et transitions d'étatdéduits des règles de transcription, chaque étatétant un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique, et chaque transition (T) chaînant deux états ayant en commun une correspondance graphème/phonème, les transitions relatives à la transcription d'une chaîne graphique en une chaîne phonétique formant un chemin de transitions dans l'automate, et détermination (E2) et enregistrement dans la base, de probabilités (P(T)) des transitions en sortie de noeuds de l'automate situant les correspondances graphème/phonème communes aux transitions, afin de construire le phonétiseur (P) en combinant l'automate et les probabilités de transitions déterminées.2 - Procédé conforme à la revendication 1, selon lequel la construction d'automate comprend les sous- étapes suivantes: 2878991 24 alignement (E11) des éléments graphiques des chaînes graphiques (CG) avec les éléments phonétiques des chaînes phonétiques (CP) associées aux chaînes graphiques en des correspondances graphème/phonème, recensement (E12) des règles de transcription à partir d'une analyse de correspondances gauche et droite de chaque correspondance dans chaque couple de chaînes graphique et phonétique associées, et construction (E13) et enregistrement sous la forme d'un fichier dans la base dudit automate comportant des états (Et) et transitions (T) déduits des règles de transcription recensées 3 Procédé conforme à la revendication 1 ou 2, selon lequel l'étape de détermination de probabilités de transitions comprend les sous-étapes suivantes: pondération (E20) de chaque transition (Tn) de l'automate par une probabilité de transition (P(Tn)) choisie arbitrairement, détermination (E21) de probabilité (P(CT)) d'au moins un chemin de transitions représentatif de la transcription de chaque chaîne graphique en au moins une chaîne phonétique associée en fonction des probabilités des transitions du chemin, sélection (E22) pour chaque chaîne graphique du chemin de transitions (CTmax) ayant la plus grande probabilité, incrémentation (E23) de variables (VT) respectivement associées aux transitions et représentatives de nombres de traversées des transitions par les chemins de transitions sélectionnés (CTmax), et estimation (E25) de nouvelles probabilités de transition (P(T)) en fonction des variables de transition (VT) précédemment déterminées.
- 2878991 25 4 - Procédé conforme à la revendication 3, selon lequel l'étape de détermination de probabilités de transitions comprend en outre une réitération (E26) des étapes de détermination de probabilité de chemin, sélection, incrémentation et estimation en fonction des nouvelles probabilités de transition jusqu'à une sensible convergence desdites probabilités de transition afin de combiner l'automate et les probabilités de transition en le phonétiseur (P).- Système informatique pour construire un phonétiseur à partir d'un corpus (C) enregistré dans une base de données (BD) et comprenant des couples composés chacun d'une chaîne graphique (CG) incluant des éléments graphiques et d'une chaîne phonétique (CP) incluant des éléments phonétiques, caractérisé en ce qu'il comprend: un module (MCA) pour construire informatiquement et enregistrer dans la base (BD), un automate compilant des règles de transcription (R) résultant d'une analyse de correspondances graphème/phonème dans les couples de chaîne lus dans le corpus (C), ledit automate comportant des états (Et) et transitions d'état déduits des règles de transcription, chaque état étant un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique, et chaque transition (T) chaînant deux états ayant en commun une correspondance graphème/phonème, les transitions relatives à la transcription d'une chaîne graphique en une chaîne phonétique formant un chemin de transitions dans l'automate, et un module (MDP) pour déterminer et enregistrer dans la base, des probabilités (P(T)) des transitions 2878991 26 en sortie de noeuds de l'automate situant les correspondances graphème/phonème communes aux transitions, afin de construire le phonétiseur (P) en combinant l'automate et les probabilités de transitions déterminées.6 - Programme d'ordinateur apte à être mis en oeuvre sur un système informatique pour construire un phonétiseur (P) à partir d'un corpus (C) enregistré dans une base de données (BD) et comprenant des couples composés chacun d'une chaîne graphique (CG) incluant des éléments graphiques et d'une chaîne phonétique (CP) incluant des éléments phonétiques, caractérisé en ce qu'il comprend des instructions de programme qui, lorsque le programme est chargé et exécuté sur ledit système informatique, réalisent les étapes: construction informatique (El) et enregistrement dans la base (BD), d'un automate compilant des règles de transcription (R) résultant d'une analyse de correspondances graphème/phonème dans les couples de chaînes lus dans le corpus (C), ledit automate comportant des états (Et) et transitions d'état déduits des règles de transcription, chaque état étant un lien entre deux correspondances graphème/phonème consécutives dans un couple de chaînes graphique et phonétique, et chaque transition (T) chaînant deux états ayant en commun une correspondance graphème/phonème, les transitions relatives à la transcription d'une chaîne graphique en une chaîne phonétique formant un chemin de transitions dans l'automate, et détermination (E2) et enregistrement dans la base, de probabilités (P(T)) des transitions en sortie de noeuds de l'automate situant les 2878991 27 correspondances graphème/phonème communes aux transitions, afin de construire le phonétiseur (P) en combinant l'automate et les probabilités de transitions déterminées.
- 7 Procédé informatique pour vérifier l'exactitude d'une chaîne graphique requise (CGRQ) au moyen d'un phonétiseur (P) et d'un dictionnaire informatique de chaînes graphiques (DG), caractérisé en ce que le procédé comprend les étapes suivantes: construction (El, E2) du phonétiseur par construction informatique d'un automate compilant des règles de transcription (R) résultant d'une analyse de correspondances graphème/phonème dans des couples de chaînes graphique et phonétique lus dans un corpus (C) et par détermination de probabilités (P(T)) de transitions entre des correspondances graphème/phonème, au moyen du phonétiseur (P), construction (E3, E4) d'un dictionnaire informatique de signatures phonétiques (DSP) en transcrivant les chaînes graphiques (CGD) du dictionnaire de chaînes graphiques (DG) chacune en au moins une signature phonétique (CPD) et en les reliant informatiquement aux chaînes graphiques, et détermination deprobabilités des transcriptions des chaînesgraphiques en les signatures phonétiques, au moyen du phonétiseur (P), détermination (E5) d'une transcription de la chaîne graphique requise (CGRQ) en au moins une signature phonétique de requête (CPRQ) et détermination d'une probabilité de la transcription précédente, et recherche (E6) de signatures phonétiques (CPD) dans le dictionnaire de signatures phonétiques (DSP) 35 sensiblement identiques à ladite au moins une 2878991 28 signature phonétique de requête (CPRQ) pour en déduire des chaînes graphiques attestées (CGA) mémorisées dans le dictionnaire de chaînes graphiques (DG) et reliées à ladite au moins une signature phonétique.8 - Procédé conforme à la revendication 7, comprenant en outre une détermination (E7) de probabilités d'usage des chaînes graphiques attestées en fonction de ladite probabilité de transcription précédente déterminée, et un classement (E8) des chaînes graphiques attestées en fonction des probabilités d'usage déterminées.9 - Système informatique pour vérifier l'exactitude d'une chaîne graphique requise (CGRQ), comprenant un phonétiseur (P) et un dictionnaire informatique de chaînes graphiques (DG), caractérisé en ce qu'il comprend: un module (MCA, MDP) pour construire le phonétiseur par construction informatique d'un automate compilant des règles de transcription (R) résultant d'une analyse de correspondances graphème/phonème dans des couples de chaînes graphique et phonétique lus dans un corpus (C) et par détermination de probabilités (P(T)) de transitions entre des correspondances graphème/phonème, un moyen (MCD) à l'aide du phonétiseur pour construire un dictionnaire informatique de signatures phonétiques (DSP) en transcrivant les chaînes graphiques (CGD) du dictionnaire de chaînes graphiques (DG) chacune en au moins une signature phonétique (CPD) et en les reliant informatiquement aux chaînes graphiques, 2878991 29 un moyen (MCD) à l'aide du phonétiseur pour déterminer des probabilités des transcriptions des chaînes graphiques (CGD) en les signatures phonétiques, un moyen (MTCRQ) à l'aide du phonétiseur pour déterminer une transcription de la chaîne graphique requise (CGRQ) en au moins une signature phonétique de requête (CPRQ), un moyen (MTCRQ) pour déterminer une probabilitéde la transcription précédente, etun moyen (MRCD) pour rechercher des signatures phonétiques (CPD) dans le dictionnaire de signatures phonétiques (DSP) sensiblement identiques à ladite au moins une signature phonétique de requête (CPRQ) pour en déduire des chaînes graphiques attestées (CGA) mémorisées dans le dictionnaire de chaînes graphiques (DG) et reliées à ladite au moins une signature phonétique.10 - Programme d'ordinateur apte à être mis en oeuvre sur un système informatique pour vérifier l'exactitude d'une chaîne graphique requise (CGRQ), comprenant un phonétiseur (P) et un dictionnaire informatique de chaînes graphiques (DG), caractérisé en ce que le programme comprend des instructions de programme qui, lorsque le programme est chargé et exécuté sur ledit système informatique, réalisent les étapes de: construction (El, E2) du phonétiseur par construction informatique d'un automate compilant des règles de transcription (R) résultant d'une analyse de correspondances graphème/phonème dans des couples de chaînes graphique et phonétique lus dans un corpus (C) et par détermination de probabilités (P(T)) de 2878991 30 transitions entre des correspondances graphème/phonème, construction (E3, E4) d'un dictionnaire informatique de signatures phonétiques (DSP) en transcrivant les chaînes graphiques (CGD) du dictionnaire de chaînes graphiques (DG) chacune en au moins une signature phonétique (CPD) et en les reliant informatiquement aux chaînes graphiques, et détermination de probabilités des transcriptions des chaînes graphiques en les signatures phonétiques, détermination (E5) d'une transcription de la chaîne graphique requise (CGRQ) en au moins une signature phonétique de requête (CPRQ) etdétermination d'une probabilité de la transcription précédente, et recherche (E6) de signatures phonétiques (CPD) dans le dictionnaire de signatures phonétiques (DSP) sensiblement identiques à ladite au moins une signature phonétique de requête (CPRQ) pour en déduire des chaînes graphiques attestées (CGA) mémorisées dans le dictionnaire de chaînes graphiques (DG) et reliées à ladite au moins une signature phonétique.11 - Phonétiseur pour transcrire une chaîne graphique requise (CGRQ) en une signature phonétique, recourant à un dictionnaire informatique de chaînes graphiques (DG), caractérisé en ce qu'il comprend: un moyen (MCD) pour construire un dictionnaire informatique de signatures phonétiques (DSP) en transcrivant les chaînes graphiques (CGD) du dictionnaire de chaînes graphiques (DG) chacune en au moins une signature phonétique (CPD) et en les reliant informatiquement aux chaînes graphiques, un moyen (MCD) pour déterminer des probabilités de transcriptions des chaînes graphiques en les signatures phonétiques, un moyen (MTCRQ) pour déterminer une transcription de la chaîne graphique requise (CGRQ) en au moins une signature phonétique (CPRQ), et un moyen (MTCRQ) pour déterminer une probabilité de la transcription précédente.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0413101A FR2878991A1 (fr) | 2004-12-08 | 2004-12-08 | Construction informatique d'un phonetiseur pour un systeme verificateur de faute d'usage |
EP05292593A EP1669886A1 (fr) | 2004-12-08 | 2005-12-06 | Construction d'un automate compilant des règles de transcription graphème/phonème pour un phonétiseur |
US11/295,689 US20060149543A1 (en) | 2004-12-08 | 2005-12-07 | Construction of an automaton compiling grapheme/phoneme transcription rules for a phoneticizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0413101A FR2878991A1 (fr) | 2004-12-08 | 2004-12-08 | Construction informatique d'un phonetiseur pour un systeme verificateur de faute d'usage |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2878991A1 true FR2878991A1 (fr) | 2006-06-09 |
Family
ID=34952577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR0413101A Withdrawn FR2878991A1 (fr) | 2004-12-08 | 2004-12-08 | Construction informatique d'un phonetiseur pour un systeme verificateur de faute d'usage |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2878991A1 (fr) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6393444B1 (en) * | 1998-10-22 | 2002-05-21 | International Business Machines Corporation | Phonetic spell checker |
US20040093567A1 (en) * | 1998-05-26 | 2004-05-13 | Yves Schabes | Spelling and grammar checking system |
-
2004
- 2004-12-08 FR FR0413101A patent/FR2878991A1/fr not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093567A1 (en) * | 1998-05-26 | 2004-05-13 | Yves Schabes | Spelling and grammar checking system |
US6393444B1 (en) * | 1998-10-22 | 2002-05-21 | International Business Machines Corporation | Phonetic spell checker |
Non-Patent Citations (3)
Title |
---|
CASEIRO D ET AL: "Grapheme-to-phone using finite-state transducers", SPEECH SYNTHESIS, 2002. PROCEEDINGS OF 2002 IEEE WORKSHOP ON 11-13 SEPT. 2002, PISCATAWAY, NJ, USA,IEEE, 11 September 2002 (2002-09-11), pages 215 - 218, XP010653649, ISBN: 0-7803-7395-2 * |
HAN SHU AND I LEE HETHERINGTON SPOKEN LANGUAGE SYSTEMS GROUP LABORATORY FOR COMPUTER SCIENCE MASSACHUSETTS INSTITUTE OF TECHNOLOGY: "EM TRAINING OF FINITE-STATE TRANSDUCERS AND ITS APPLICATION TO PRONUNCIATION MODELING", ICSLP 2002 : 7TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING. DENVER, COLORADO, SEPT. 16 - 20, 2002, INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING. (ICSLP), ADELAIDE : CAUSAL PRODUCTIONS, AU, vol. VOL. 4 OF 4, 16 September 2002 (2002-09-16), pages 1293, XP007011545, ISBN: 1-876346-40-X * |
YVES SCHABES, EMMANUEL ROCHE: "Exact Generalization of Finite-state Transductions: Application to Grapheme-to-Phoneme Transcription", March 1995, TECHNICAL REPORT TR-95-08, MITSUBISHI ELECTRIC RESEARCH LABORATORIES, CAMBRIDGE RESEARCH CENTER, CAMBRIDGE, MA, XP002329482 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11005995B2 (en) | System and method for performing agent behavioral analytics | |
EP1669886A1 (fr) | Construction d'un automate compilant des règles de transcription graphème/phonème pour un phonétiseur | |
US7865356B2 (en) | Method and apparatus for providing proper or partial proper name recognition | |
US8583438B2 (en) | Unnatural prosody detection in speech synthesis | |
Polzehl et al. | Anger recognition in speech using acoustic and linguistic cues | |
CN110148400B (zh) | 发音类型的识别方法、模型的训练方法、装置及设备 | |
US7292976B1 (en) | Active learning process for spoken dialog systems | |
Del Rio et al. | Earnings-21: A practical benchmark for ASR in the wild | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
US8719025B2 (en) | Contextual voice query dilation to improve spoken web searching | |
FR2880709A1 (fr) | Procede de recherche, reconnaissance et localisation dans l'encre, dispositif, programme et langage correspondants | |
JPH06505349A (ja) | 言語学的に動機づけした隠れマルコフモデルを用いる音声の認識方法 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
US11553085B2 (en) | Method and apparatus for predicting customer satisfaction from a conversation | |
FR2876815A1 (fr) | Analyse critique de l'ordre des pronoms clitiques en francais | |
KR20040086842A (ko) | 문법 저작에서의 세그먼테이션 모호성의 자동 해결 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
FR2878991A1 (fr) | Construction informatique d'un phonetiseur pour un systeme verificateur de faute d'usage | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
WO2020162239A1 (fr) | Dispositif d'apprentissage de modèle d'estimation d'informations paralinguistiques, dispositif d'estimation d'informations paralinguistiques, et programme | |
Hahn et al. | Optimizing CRFs for SLU tasks in various languages using modified training criteria | |
JP2014160168A (ja) | 学習データ選択装置、識別的音声認識精度推定装置、学習データ選択方法、識別的音声認識精度推定方法、プログラム | |
EP1981020A1 (fr) | Procédé et système de reconnaissance automatique de la parole adaptés à la détection d'énoncés hors-domaine | |
Andersen et al. | A self-learning approach to transcription of danish proper names. | |
WO2005062292A2 (fr) | Procede de correspondance automatique entre des elements graphiques et des elements phonetiques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |
Effective date: 20060831 |