EP1711936A2 - Method for automatic correspondence between graphical and phonetic elements - Google Patents

Method for automatic correspondence between graphical and phonetic elements

Info

Publication number
EP1711936A2
EP1711936A2 EP04816413A EP04816413A EP1711936A2 EP 1711936 A2 EP1711936 A2 EP 1711936A2 EP 04816413 A EP04816413 A EP 04816413A EP 04816413 A EP04816413 A EP 04816413A EP 1711936 A2 EP1711936 A2 EP 1711936A2
Authority
EP
European Patent Office
Prior art keywords
phonetic
graphic
elements
chain
chains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP04816413A
Other languages
German (de)
French (fr)
Inventor
Edmond Lassalle
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1711936A2 publication Critical patent/EP1711936A2/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Definitions

  • the present invention generally relates to the automatic extraction of linguistic knowledge from a corpus of transcriptions of graphic chains into phonetic chains. More particularly, it relates to the transcription of typographic elements such as characters in a predetermined language into phonetic elements.
  • each word of a language constitutes a graphic chain which is transcribed phonetically into a chain of phonemes by a phonetician.
  • the phonetician For any new word to add to a learning corpus, the phonetician must intervene to transcribe this new word phonetically.
  • the learning corpus thus provides only global grapheme / phoneme transcriptions. For example in the global transcription "lane" / [ry ⁇ 1], the corpus indicates that overall, the graphic chain "lane” translates into phonetic chain. However, it is not explained that in any way, unitarily, the typographic element "r" is transcribed phonetically.
  • the global transcription does not also indicate the syllables or graphemes making up the graphic chain and the phonetic elements making up the phonetic chain.
  • the invention aims to automatically deduce raw transcriptions of graphic strings, such as words and surnames, for example, into phonetic strings, transcriptions of graphic elements, such as characters, into phonetic elements composing the phonetic strings in order to automatically segment any graphic chain into graphemes and any phonetic chain into phonemes.
  • the elementary transcriptions graphic element by graphic element that is to say character by character, then facilitate the automatic global transcription of any additional graphic chain brought to the corpus of graphic chains, on the basis in particular of a concatenation of phonetic elements unequivocally corresponding to the characters of the additional graphic string.
  • a method according to the invention automatically corresponds graphic elements making up given graphic strings to phonetic elements making up corresponding phonetic chains, after having initially entered global transcriptions of graphic chains into phonetic chains in a database accessible by the computer and having estimated and recorded in the base of the first probabilities of elementary transcriptions of the graphic elements respectively into the phonetic elements.
  • the method is characterized by the following stages: for each transcription of a graphic chain given to M graphic elements into a phonetic chain corresponding to N phonetic elements, determine second probabilities of MN second transcriptions of M graphic chains successively concatenating the M graphic elements in N phonetic chains successively concatenating the N phonetic elements, each according to a respective first probability and the greatest of three respective second probabilities determined previously, and establishing and memorizing a link between the last elements of the graphic and phonetic chains of each second transcription and the last elements of the graphic and phonetic chains of the transcription relating to the largest of the three respective second probabilities so that links established in a matrix of size MN relating to the second probability és constitutes a unique path between the last and first pairs of graphical and phonetic elements of the matrix to segment the given graphic chain into graphemes corresponding respectively to phonemes segmenting the corresponding phonetic chain and to record the correspondences between the graphemes and phonemes in basically, the number of graphic elements in a grapheme being identical to the number of phonetic elements in the
  • the respective first probability for determining a second probability relating to a second transcription of a graphic chain concatenating m graphic elements into a phonetic chain concatenating n phonetic elements is relative to the last elements in the graphic chain with m graphic elements and the phonetic chain with n phonetic elements.
  • the three respective second probabilities previously determined for the second transcription of the graphic chain with m graphic elements in the phonetic chain with n phonetic elements preferably relate respectively to a second transcription of a graphic chain with m-1 graphic elements in the chain phonetic with n phonetic elements, a second transcription of the graphic chain with m graphic elements into a phonetic chain with n-1 phonetic elements and a second transcription of the graphic chain with m-1 graphic elements into the phonetic chain with n-1 elements phonetic.
  • the invention transcribes phonetically from the corpus of global transcriptions such as "lane”
  • the invention can be likened to a syllabation which makes it possible by analysis to decompose a global transcription into elementary transcriptions, and to locally match grapheme / phoneme sub-transcriptions.
  • the division into initial graphemes and phonemes and the one-to-one correspondence of each graphic element to each phonetic element of the cut phonemes is called grapheme
  • the invention produces the following alignment: M -. H "u”"e""binds" [r] [y] [ ⁇ ] [1 **].
  • the symbol * indicates a silent and meaningless phonetic element.
  • FIG. 1 is an algorithm of main steps of the automatic correspondence method according to the invention
  • - Figure 2 is a sub-step algorithm of a step of determining first individual probabilities included in the automatic matching method.
  • the method of automatic correspondence of graphic elements and phonetic elements comprises main steps El to Eli. These steps are for the most part implemented for example in the form of software i implemented in a terminal, such as a personal computer or a mobile in a cellular radiocommunication network, and linked in particular to a software system for spell checking. of lexical errors which can be integrated into a word processing system or a system of linguistic exercise.
  • the terminal contains or can access a database of the type used in artificial intelligence.
  • the database stores a corpus C of initial global transcriptions.
  • step E1 the global transcriptions (CG
  • the segmentation of the chain CG into syllables or graphemes each comprising one or more graphic elements is ignored, and the segmentation of the chain CP into phonemes each comprising one or more phonetic elements.
  • the alphabets G and P have around thirty elements. They thus present a possibility of 30 ⁇ 30,900 possible pairs of graphic element and of phonetic element.
  • the corpus C contains at least 100,000 global transcriptions of typographic strings CG into phonetic strings CP, which preserves the invention from gross errors in probability estimates, as will be seen below.
  • the first elementary transcription probabilities P (gjjp- j ) so that an element graph g ⁇ corresponds to the phonetic element p are first estimated and recorded in the database with the corpus of global transcriptions C.
  • the estimated values of the first probabilities are as close as possible respectively to the maximum probability values sought so that the method of the invention operating by iterations converges quickly while avoiding retaining local maxima.
  • the initial estimation algorithm E2 of the first probabilities P comprises the following sub-steps E21 to E27.
  • IJ contingency numbers ⁇ gi p j 'respectively associated with the elementary transcriptions (jjp j ) of a graphic element of the alphabet G and of a phonetic element of the alphabet P are set to zero .
  • the number of contingencies K qj _ p is equal at the end of step E2 to the number of times estimated where the graphic element gj is transcribed in the phonetic element pj in the various global transcriptions of typographic chains CG into phonetic chains CP included in the corpus C.
  • the ranks of the graphic elements in the chain CG and the ranks of the phonetic elements in the chain CP are normalized as a function of the respective lengths l g and 1 wearingof the chains CG and CP which may be different.
  • the number of contingencies K g ⁇ pj associated with the elementary transcription of the graphic element g. j _ in the phonetic element pj is then incremented by 1 only if the phonetic element p-4 is located at the deduced rank r in the chain CP, as indicated in substeps E24 and E25.
  • Sub-steps E22 to E25 are repeated for each global transcription (CG
  • each graphic chain CG read in the corpus of the database in order to automatically correspond in a one-to-one manner each segment of the chain CG , called grapheme, comprising one or more one-segment graphic elements, called phoneme, comprising one or more phonetic elements resulting from a segmentation of the corresponding phonetic chain CP.
  • a graphic chain CG comprises M consecutive graphic elements g ⁇ to g M and the phonetic chain CP corresponding to the chain CG comprises N consecutive phonetic elements p 1 to p N with the integer N different, or possibly equal to the integer M.
  • the probability P (g 1 # ... g m , ... g M ⁇ p lr ...
  • P ( ⁇ g 2 - • • g m + ⁇ lP ⁇ P2 • • • - n + l ) only depends on the probabilities of three possible transcriptions: either P (g x g 2 ... g m
  • a link is memorized in the computer.
  • the links trace a unique path also gradually memorized in the computer and connecting the first couple (g-
  • the single path topology in the size matrix MN segments the graphic chains CG into graphemes and the phonetic chains CP into phonemes and aligns the graphic elements and the phonetic elements in one-to-one correspondence.
  • a segment of the path follows a portion of a line between two graphic elements
  • the concatenation of the graphic elements of the line portion corresponds to the phonetic element of the line supplemented by one or more silent and meaningless phonetic elements in order to form a pair of graphemes and phonemes having the same number of elements, which pair is stored in the computer.
  • the graphic element of the column supplemented by one or more graphic elements without meaning corresponds to the concatenation of the phonetic elements of the portion of column in order to form a couple of graphemes and of phoneme having the same number of elements, which couple is memorized in the computer.
  • a change of direction of the path towards the horizontal, the vertical or the diagonal in the matrix indicates a segmentation of the chains CG and CP.
  • the symbol ⁇ - indicates that the couple (g m , p n ) is linked to the couple (g m -i Pn . ) ' ⁇ - e symbol indicates that the couple (g m , p n ) is linked to the couple (g m , p n _ - [ _); and the symbol indicates that the couple (g m , p n ) is related to the couple (g m -i / Pn- 1 ⁇ •
  • bo) indicates that the latter is deduced and therefore linked to the transcription (b
  • the symbol indicates a segmentation border between pairs of graphemes and phonemes.
  • p j ) transcriptions of each of the graphic elements respectively into the J phonetic elements (step E2) and in particular the contingency numbers ⁇ g l p l to K gI pj (sub-step E25) are again estimated in function in particular of the ranks of elements p honetic placed in the given phonetic chains CG which were segmented into phonemes in the previous step E10.
  • second probabilities P (g x , ... g pi • • - n ) of MN second transcriptions of each global transcription of a graphic chain given to M graphic elements (CG) into a corresponding phonetic chain (CP) to N phonetic elements are determined by the execution of steps E3 to E10 so that in the next step E10 links are established between couples (g m / P n ) of a new matrix with M columns and N rows and therefore a corrected path connecting the last couple (9M / PN) to the First couple (g ⁇ , P ⁇ ) in the new matrix of second probabilities of size MN.
  • Any new graphic chain added to the corpus can then be automatically transcribed into a phonetic chain segmented into phonemes using in particular the correspondences previously established and recorded according to the invention, which progressively enriches the corpus in the database and increases the accuracy of transcriptions.
  • phonetic transcriptions are useful for correcting software systems misspelling to recognize lexical mistakes when entering text on a terminal keyboard.
  • the phonetic chain segmented into phonemes by means of the recorded correspondences is used for a spelling correction of the new graphic chain entered.
  • the method of the invention can also be used as a tool for automatically generating short SMS messages from text written in everyday language.
  • the sentence in French "I look busy" entered in the terminal is automatically transcribed into a short message according to Gl 'ROQP to be transmitted by the terminal, "phonetic strings” [G], [1 '], [R] and [OQP] being phonetically readable by any non-phonetic user.
  • the "phonetic chains” [G], [1 '], [R] and [OQP] can be assimilated to phonetic elements to constitute a phonetic chain [Gl'ROQP].
  • the steps of the method of the invention are determined by the instructions of a computer program incorporated in a computer such as a terminal, a personal computer, a server or any other computer system.
  • the program automatically matches graphic elements composing given graphic chains to phonetic elements making up corresponding phonetic chains, after having initially entered global transcriptions of graphic chains into phonetic chains in a database accessible by the computer and having estimated and recorded in the base of the first probabilities of elementary transcriptions of the graphic elements respectively into the phonetic elements.
  • the program includes program instructions which, when said program is loaded and executed in the computer whose operation is then controlled by the execution of the program, carry out the steps of the method according to the invention.
  • the invention also applies to a computer program, in particular a computer program on or in an information medium, suitable for implementing the invention.
  • This program can use any programming language, and be in the form of source code, object code, or intermediate code between code source and object code such as in a partially compiled form, or in any other form desirable for implementing the method according to the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Debugging And Monitoring (AREA)

Abstract

The invention relates to a method for automatically segmenting any graphical chain into graphemes and any phonetic chain into phonemes by rewriting graphical chains (words) into phonetic chains. The inventive method consists in assessing first probabilities of the rewrite of graphical elements into phonetic elements (E2), in determining (E3-E9) second probabilities (p(g1, gm/p1, ,pn)) of MN rewrites of M graphical chains successively concatenating M graphical elements into N phonetic chains successively concatenating N graphical elements for each rewrite of a given graphical chain having M graphical elements into a corresponding phonetic chain having N graphical elements and in establishing links between the last elements (gm, pn) of the graphical and phonetic chains of the second rewrites in order to constitute, a path segmenting the given graphical chain into graphemes corresponding to phonemes segmenting the corresponding phonetic chain, respectively in the matrix MN of the second probabilities.

Description

Procédé de correspondance automatique entre des éléments graphiques et des éléments phonétiques Method for automatic correspondence between graphic elements and phonetic elements
La présente invention concerne en général l'extraction automatique de connaissances linguistiques dans un corpus de transcriptions de chaînes graphiques en des chaînes phonétiques . Plus particulièrement, elle concerne la transcription d'éléments typographiques tels que des caractères dans une langue prédéterminée en des éléments phonétiques .The present invention generally relates to the automatic extraction of linguistic knowledge from a corpus of transcriptions of graphic chains into phonetic chains. More particularly, it relates to the transcription of typographic elements such as characters in a predetermined language into phonetic elements.
Actuellement, chaque mot d'une langue constitue une chaîne graphique qui est transcrite phonétiquement en une chaîne de phonèmes par un phonéticien. Pour tout nouveau mot à ajouter à un corpus d'apprentissage, le phonéticien doit intervenir pour transcrire phonétiquement ce nouveau mot. Le corpus d'apprentissage ne fournit ainsi que des transcriptions graphème/phonème globales. Par exemple dans la transcription globale "ruelle"/ [ryε 1] , le corpus indique que globalement, la chaîne graphique "ruelle" se traduit en chaîne phonétique. Cependant, il n'est pas explicité que de quelque manière, unitairement , l'élément typographique "r" se retranscrit phonétiquement. La transcription globale n'indique pas également les syllabes ou graphèmes composant la chaîne graphique et les éléments phonétiques composant la chaîne phonétique. Or la connaissance de la transcription élémentaire de chaque élément typographique permet, par la suite, par analyse caractère par caractère de toute chaîne graphique, de déterminer une ou plusieurs chaînes phonétiques associées à la chaîne graphique. Les transcriptions phonétiques sont utiles à des systèmes correcteurs de fautes pour reconnaître des fautes lexicales lors de la saisie de texte sur un clavier. Il existe donc un besoin à partir d'une transcription brute d'extraire des transcriptions élémentaires plus fines.Currently, each word of a language constitutes a graphic chain which is transcribed phonetically into a chain of phonemes by a phonetician. For any new word to add to a learning corpus, the phonetician must intervene to transcribe this new word phonetically. The learning corpus thus provides only global grapheme / phoneme transcriptions. For example in the global transcription "lane" / [ryε 1], the corpus indicates that overall, the graphic chain "lane" translates into phonetic chain. However, it is not explained that in any way, unitarily, the typographic element "r" is transcribed phonetically. The global transcription does not also indicate the syllables or graphemes making up the graphic chain and the phonetic elements making up the phonetic chain. Now knowing the elementary transcription of each typographic element makes it possible thereafter, by character-by-character analysis of any graphic chain, to determine one or more phonetic chains associated with the graphic chain. Phonetic transcriptions are useful error correction systems to recognize lexical errors when entering text on a keyboard. There is therefore a need from a raw transcription to extract finer elementary transcriptions.
L'invention vise à déduire automatiquement des transcriptions brutes de chaînes graphiques, telles que mots et noms patronymiques, par exemple, en des chaînes phonétiques, des transcriptions d'éléments graphiques, telles que caractères, en des éléments phonétiques composant les chaînes phonétiques afin de segmenter automatiquement toute chaîne graphique en graphèmes et toute chaîne phonétique en phonèmes. Les transcriptions élémentaires élément graphique par élément graphique, c'est-à-dire caractère par caractère, facilitent ensuite la transcription globale automatique de toute chaîne graphique supplémentaire apportée au corpus des chaînes graphiques, sur la base notamment d'une concaténation d'éléments phonétiques correspondant de manière biunivoque aux caractères de la chaîne graphique supplémentaire . A cette fin, un procédé selon l'invention fait correspondre automatiquement des éléments graphiques composant des chaînes graphiques données à des éléments phonétiques composant des chaînes phonétiques correspondantes, après avoir saisi initialement des transcriptions globales des chaînes graphiques en les chaînes phonétiques dans une base accessible par l'ordinateur et avoir estimé et enregistré dans la base des premières probabilités de transcriptions élémentaires des éléments graphiques respectivement en les éléments phonétiques. Le procédé est caractérisé par les étapes suivantes : pour chaque transcription d'une chaîne graphique donnée à M éléments graphiques en une chaîne phonétique correspondante à N éléments phonétiques, déterminer des deuxièmes probabilités de MN deuxièmes transcriptions de M chaînes graphiques concaténant successivement les M éléments graphiques en N chaînes phonétiques concaténant successivement les N éléments phonétiques, en fonction chacune d'une première probabilité respective et de la plus grande de trois deuxièmes probabilités respectives déterminées précédemment, et établir et mémoriser un lien entre les derniers éléments des chaînes graphique et phonétique de chaque deuxième transcription et les derniers éléments des chaînes graphique et phonétique de la transcription relative à la plus grande des trois deuxièmes probabilités respectives afin que des liens établis dans une matrice de taille MN relative aux deuxièmes probabilités constitue un chemin unique entre des dernier et premier couples d'éléments graphique et phonétique de la matrice pour segmenter la chaîne graphique donnée en des graphèmes correspondant respectivement à des phonèmes segmentant la chaîne phonétique correspondante et pour enregistrer les correspondances entre les graphèmes et phonèmes dans la base, le nombre d'éléments graphiques dans un graphème étant identique au nombre d'éléments phonétiques dans le phonème correspondant, afin que toute nouvelle chaîne graphique soit automatiquement transcrite en une chaîne phonétique segmentée en phonèmes au moyen des correspondances enregistrées. Selon d'autres caractéristiques de l'invention, la première probabilité respective pour la détermination d'une deuxième probabilité relative à une deuxième transcription d'une chaîne graphique concaténant m éléments graphiques en une chaîne phonétique concaténant n éléments phonétiques, avec 1 < m < M et l ≤ n ≤ N, est relative aux derniers éléments dans la chaîne graphique à m éléments graphiques et la chaîne phonétique à n éléments phonétiques. Les trois deuxièmes probabilités respectives déterminées précédemment pour la deuxième transcription de la chaîne graphique à m éléments graphiques en la chaîne phonétique à n éléments phonétiques sont de préférence respectivement relatives à une deuxième transcription d'une chaîne graphique à m-1 éléments graphiques en la chaîne phonétique à n éléments phonétiques, une deuxième transcription de la chaîne graphique à m éléments graphiques en une chaîne phonétique à n-1 éléments phonétiques et une deuxième transcription de la chaîne graphique à m-1 éléments graphiques en la chaîne phonétique à n-1 éléments phonétiques. Par exemple, l'invention transcrit phonétiquement à partir du corpus de transcriptions globales telles que "ruelle"| [ryεl] les éléments graphiques "r", "u", "e", "lie" respectivement en les éléments phonétiques [r] , [y] , [ε] , [1] . L'invention peut être assimilée à une syllabation qui permet par analyse de décomposer une transcription globale en transcriptions élémentaires, et de mettre en correspondance localement des sous- transcriptions graphème/phonème. Le découpage en graphèmes et phonèmes initiaux et la mise en correspondance biunivoque de chaque élément graphique à chaque élément phonétique des phonèmes découpés est appelée alignement graphème|phonème . Selon l'exemple précédent, l'invention produit l'alignement suivant : M -.H "u" "e" "lie" [r] [y] [ε] [1**] . Le symbole * désigne un élément phonétique muet et sans signification.The invention aims to automatically deduce raw transcriptions of graphic strings, such as words and surnames, for example, into phonetic strings, transcriptions of graphic elements, such as characters, into phonetic elements composing the phonetic strings in order to automatically segment any graphic chain into graphemes and any phonetic chain into phonemes. The elementary transcriptions graphic element by graphic element, that is to say character by character, then facilitate the automatic global transcription of any additional graphic chain brought to the corpus of graphic chains, on the basis in particular of a concatenation of phonetic elements unequivocally corresponding to the characters of the additional graphic string. To this end, a method according to the invention automatically corresponds graphic elements making up given graphic strings to phonetic elements making up corresponding phonetic chains, after having initially entered global transcriptions of graphic chains into phonetic chains in a database accessible by the computer and having estimated and recorded in the base of the first probabilities of elementary transcriptions of the graphic elements respectively into the phonetic elements. The method is characterized by the following stages: for each transcription of a graphic chain given to M graphic elements into a phonetic chain corresponding to N phonetic elements, determine second probabilities of MN second transcriptions of M graphic chains successively concatenating the M graphic elements in N phonetic chains successively concatenating the N phonetic elements, each according to a respective first probability and the greatest of three respective second probabilities determined previously, and establishing and memorizing a link between the last elements of the graphic and phonetic chains of each second transcription and the last elements of the graphic and phonetic chains of the transcription relating to the largest of the three respective second probabilities so that links established in a matrix of size MN relating to the second probability és constitutes a unique path between the last and first pairs of graphical and phonetic elements of the matrix to segment the given graphic chain into graphemes corresponding respectively to phonemes segmenting the corresponding phonetic chain and to record the correspondences between the graphemes and phonemes in basically, the number of graphic elements in a grapheme being identical to the number of phonetic elements in the corresponding phoneme, so that any new graphic chain is automatically transcribed into a phonetic chain segmented into phonemes by means of recorded correspondences. According to other features of the invention, the respective first probability for determining a second probability relating to a second transcription of a graphic chain concatenating m graphic elements into a phonetic chain concatenating n phonetic elements, with 1 <m < M and l ≤ n ≤ N, is relative to the last elements in the graphic chain with m graphic elements and the phonetic chain with n phonetic elements. The three respective second probabilities previously determined for the second transcription of the graphic chain with m graphic elements in the phonetic chain with n phonetic elements preferably relate respectively to a second transcription of a graphic chain with m-1 graphic elements in the chain phonetic with n phonetic elements, a second transcription of the graphic chain with m graphic elements into a phonetic chain with n-1 phonetic elements and a second transcription of the graphic chain with m-1 graphic elements into the phonetic chain with n-1 elements phonetic. For example, the invention transcribes phonetically from the corpus of global transcriptions such as "lane" | [ryεl] the graphic elements "r", "u", "e", "lie" respectively in the phonetic elements [r], [y], [ε], [1]. The invention can be likened to a syllabation which makes it possible by analysis to decompose a global transcription into elementary transcriptions, and to locally match grapheme / phoneme sub-transcriptions. The division into initial graphemes and phonemes and the one-to-one correspondence of each graphic element to each phonetic element of the cut phonemes is called grapheme | phoneme alignment. According to the previous example, the invention produces the following alignment: M -. H "u""e""binds" [r] [y] [ε] [1 **]. The symbol * indicates a silent and meaningless phonetic element.
D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs réalisations préférées de l'invention, à titre d'exemples non limitatifs, en référence aux dessins annexés correspondants dans lesquels : la figure 1 est un algorithme d'étapes principales du procédé de correspondance automatique selon l'invention; et - la figure 2 est un algorithme de sous-étapes d'une étape de détermination de premières probabilités individuelles incluse dans le procédé de correspondance automatique.Other characteristics and advantages of the present invention will appear more clearly on reading the following description of several preferred embodiments of the invention, by way of nonlimiting examples, with reference to the corresponding appended drawings in which: FIG. 1 is an algorithm of main steps of the automatic correspondence method according to the invention; and - Figure 2 is a sub-step algorithm of a step of determining first individual probabilities included in the automatic matching method.
Comme montré à la figure 1, le procédé de correspondance automatique d'éléments graphiques et d'éléments phonétiques selon l'invention comprend des étapes principales El à Eli. Ces étapes sont pour la plupart mises en oeuvre par exemple sous la forme d'un logiciel i plémenté dans un terminal, tel qu'un ordinateur personnel ou un mobile dans un réseaun de radiocommunication cellulaire, et lié notamment à un système logiciel de correction orthographique de fautes lexicales qui peut être intégré à un système de traitement de texte ou à un système d'exercice linguistique. Le terminal contient ou peut accéder à une base de données du type de celles utilisées en intelligence artificielle. La base mémorise un corpus C de transcriptions globales initiales. Initialement à l'étape El, les transcriptions globales (CG|CP) sont constituées par des couples faisant correspondre chacun une chaîne graphique CG, telle qu'un mot dans une langue prédéterminée ou un nom patronymique, à une chaîne phonétique CP . Ces transcriptions ont été déterminées et saisies par un phonéticien au moyen d'un formulaire adéquat affiché par l'ordinateur. Le corpus C fait correspondre des chaînes graphiques GC composées chacune d'un ou plusieurs éléments typographiques (caractères) , appelés ci-après éléments graphiques g^ d'un alphabet G = {STi/ •••/ 9ι) à I éléments dans la langue prédéterminée, avec 1 < i < M, respectivement à des chaînes phonétiques CP composées chacune d'un ou plusieurs éléments phonétiques p d'un alphabet P = {Pi, ... , Pj} à J éléments phonétiques avec 1 < j < J et I ≠ J a priori. Toutefois, on ignore à ce stade la segmentation de la chaîne CG en syllabes ou en graphèmes comprenant chacun un ou plusieurs éléments graphiques, et la segmentation de la chaîne CP en phonèmes comprenant chacun un ou plusieurs éléments phonétiques . Typiquement, les alphabets G et P ont une trentaine d'éléments. Ils présentent ainsi une possibilité de 30 x 30 900 couples possibles d'élément graphique et d'élément phonétique. En pratique, le corpus C contient au moins 100.000 transcriptions globales de chaînes typographiques CG en chaînes phonétiques CP, ce qui préserve l'invention d'erreurs grossières dans des estimations de probabilités, comme on le verra ci-après. A l'étape E2 , des premières probabilités de transcription élémentaire P(gjjp-j) pour qu'un élément graphique g^ corresponde à l'élément phonétique p sont en priorité estimées et enregistrées dans la base de données avec le corpus de transcriptions globales C. Les valeurs estimées des premières probabilités sont autant que possible proches respectivement de valeurs de probabilité maximales recherchées afin que le procédé de l'invention opérant par itérations converge rapidement tout en évitant de retenir des maxima locaux. La nature concaténative des transcriptions globales des chaînes conduit à l'hypothèse d'une corrélation entre le rang rq des éléments graphiques dans une chaîne graphique CG et le rang rp des éléments phonétiques dans la chaîne phonétique correspondante CP . Par exemple dans la transcription globale (beau|bo) , il est plus probable que l'élément graphique b, de par sa position en début de chaîne CG, se traduise en élément phonétique [b] plutôt qu'il ne se traduise en [o] phonétique positionné en fin de la chaîne correspondante CP . Dans cet exemple, la corrélation des rangs rapproche les éléments graphiques [b] et [e] de l'élément phonétique [b] , et les éléments graphiques [a] et [u] de l'élément phonétique [o] . L'algorithme d'estimation initiale E2 des premières probabilités P(gjjpj) comprend des sous- étapes suivantes E21 à E27. A la sous-étape E21, IJ nombres de contingence κgipj ' respectivement associés aux transcriptions élémentaires ( jjpj) d'un élément graphique de l'alphabet G et d'un élément phonétique de l'alphabet P sont mis à zéro. Le nombre de contingence Kqj_p est égal à la fin de l'étape E2 au nombre de fois estimé où l'élément graphique gj est retranscrit en l'élément phonétique pj dans les diverses transcriptions globales de chaînes typographiques CG en chaînes phonétiques CP incluses dans le corpus C. Pour chaque transcription de chaîne (CG|CP) , comme indiqué à la sous-étape E22, les rangs des éléments graphiques dans la chaîne CG et les rangs des éléments phonétiques dans la chaîne CP sont normalisés en fonction des longueurs respectives lg et 1„ des chaînes CG et CP qui peuvent être différentes. A la sous-étape E23, le rang r d'un élément phonétique dans la chaîne CP est déduit du rang rg;j_ d'un élément graphique g^ dans la chaîne CG auquel sera associé l'élément phonétique de rang r, selon la relation suivante : r = partie entière (rgj_ . lp/lq) . Le nombre de contingences Kg^pj associé à la transcription élémentaire de l'élément graphique g.j_ en l'élément phonétique p-j n'est alors incrémenté de 1 que si l'élément phonétique p-4 est situé au rang déduit r dans la chaîne CP, comme indiqué aux sous- étapes E24 et E25. Les sous-étapes E22 à E25 son réitérées pour chaque transcription globale (CG|CP) du corpus C, comme indiqué à la sous-étape E26. Lorsque toutes les transcriptions globales du corpus ont été parcourues, la sous-étape suivante 26 estime toutes les premières probabilités P (g- p ) de transcription élémentaire entre les éléments graphiques et les éléments phonétiques, selon les relations suivantes pour chaque élément graphique gj_ : j=J P(9ilPj) = Kgipj / ∑ Kgipj j=ι après avoir calculé le terme somme au dénominateur pour l'élément graphique g-j.. En revenant à la figure 1, le procédé de correspondance est poursuivi par des étapes E3 à E10 qui segmentent chaque chaîne graphique CG lue dans le corpus de la base de données afin de faire correspondre automatiquement d'une manière biunivoque chaque segment de la chaîne CG, appelé graphème, comprenant un ou plusieurs éléments graphiques à un segment, appelé phonème, comprenant un ou plusieurs éléments phonétiques résultant d'une segmentation de la chaîne phonétique correspondante CP. Une chaîne graphique CG comprend M éléments graphiques consécutifs g^ à gM et la chaîne phonétique CP correspondant à la chaîne CG comprend N éléments phonétiques consécutifs p1 à pN avec l'entier N différent, ou éventuellement égal à 1 ' entier M. La probabilité P (g1# ...gm, ... gM\pl r ...pn, ...pN) pour que la chaîne CG corresponde à la chaîne CP, avec 1 < m < M et l ≤ n ≤ N, est déterminée en fonction des premières probabilités de transcription élémentaire P(SfjJpj) estimées et enregistrées précédemment à l'étape E2 , et d'une similarité entre les chaînes CG et CP. La similarité est basée sur la distance d'édition de Damerau-Levenshtein DLM (Damerau-Levenshtein Metric) , mais en effectuant une maximalisation et non une minimisation. La probabilité P(CG|CP) est déterminée par une programmation dynamique, en utilisant la formule d'itération suivante pour tout couple m,n tel que 1 < n ≤ N et l ≤ m ≤ M :As shown in FIG. 1, the method of automatic correspondence of graphic elements and phonetic elements according to the invention comprises main steps El to Eli. These steps are for the most part implemented for example in the form of software i implemented in a terminal, such as a personal computer or a mobile in a cellular radiocommunication network, and linked in particular to a software system for spell checking. of lexical errors which can be integrated into a word processing system or a system of linguistic exercise. The terminal contains or can access a database of the type used in artificial intelligence. The database stores a corpus C of initial global transcriptions. Initially in step E1, the global transcriptions (CG | CP) are formed by pairs each matching a graphic chain CG, such as a word in a predetermined language or a patronymic name, with a phonetic chain CP. These transcriptions were determined and entered by a phonetician using an appropriate form displayed by the computer. Corpus C makes GC graphic chains each composed of one or more typographical elements (characters), called graphic elements g ^ of an alphabet G = {STi / ••• / 9ι) correspond to I elements in the predetermined language, with 1 <i <M, respectively to phonetic chains CP each composed of one or more phonetic elements p of an alphabet P = {Pi, ..., P j } to J phonetic elements with 1 <j <J and I ≠ J a priori. However, at this stage, the segmentation of the chain CG into syllables or graphemes each comprising one or more graphic elements is ignored, and the segmentation of the chain CP into phonemes each comprising one or more phonetic elements. Typically, the alphabets G and P have around thirty elements. They thus present a possibility of 30 × 30,900 possible pairs of graphic element and of phonetic element. In practice, the corpus C contains at least 100,000 global transcriptions of typographic strings CG into phonetic strings CP, which preserves the invention from gross errors in probability estimates, as will be seen below. In step E2, the first elementary transcription probabilities P (gjjp- j ) so that an element graph g ^ corresponds to the phonetic element p are first estimated and recorded in the database with the corpus of global transcriptions C. The estimated values of the first probabilities are as close as possible respectively to the maximum probability values sought so that the method of the invention operating by iterations converges quickly while avoiding retaining local maxima. The concatenative nature of the global transcriptions of the chains leads to the hypothesis of a correlation between the rank r q of the graphic elements in a graphic chain CG and the rank r p of the phonetic elements in the corresponding phonetic chain CP. For example in the global transcription (beau | bo), it is more likely that the graphic element b, by its position at the beginning of the CG chain, translates into a phonetic element [b] rather than it translates into [ o] phonetics positioned at the end of the corresponding chain CP. In this example, the correlation of ranks brings the graphic elements [b] and [e] closer to the phonetic element [b], and the graphic elements [a] and [u] to the phonetic element [o]. The initial estimation algorithm E2 of the first probabilities P (g j jpj) comprises the following sub-steps E21 to E27. In sub-step E21, IJ contingency numbers κ gi p j 'respectively associated with the elementary transcriptions (jjp j ) of a graphic element of the alphabet G and of a phonetic element of the alphabet P are set to zero . The number of contingencies K qj _ p is equal at the end of step E2 to the number of times estimated where the graphic element gj is transcribed in the phonetic element pj in the various global transcriptions of typographic chains CG into phonetic chains CP included in the corpus C. For each chain transcription (CG | CP), as indicated in substep E22, the ranks of the graphic elements in the chain CG and the ranks of the phonetic elements in the chain CP are normalized as a function of the respective lengths l g and 1 „of the chains CG and CP which may be different. In sub-step E23, the rank r of a phonetic element in the chain CP is deduced from the rank r g; j _ of a graphic element g ^ in the chain CG with which the phonetic element of rank r will be associated, according to the following relation: r = whole part (r gj _. l p / l q ). The number of contingencies K g ^ pj associated with the elementary transcription of the graphic element g. j _ in the phonetic element pj is then incremented by 1 only if the phonetic element p-4 is located at the deduced rank r in the chain CP, as indicated in substeps E24 and E25. Sub-steps E22 to E25 are repeated for each global transcription (CG | CP) of the corpus C, as indicated in sub-step E26. When all the global transcriptions of the corpus have been traversed, the following sub-step 26 estimates all the first probabilities P (g- p) of elementary transcription between the graphic elements and the phonetic elements, according to the following relationships for each graphic element g j _: j = JP (9ilPj) = K gip j / ∑ Kgipj j = ι after calculating the term sum in the denominator for the graphic element g- j .. Returning to FIG. 1, the correspondence process is continued by steps E3 to E10 which segment each graphic chain CG read in the corpus of the database in order to automatically correspond in a one-to-one manner each segment of the chain CG , called grapheme, comprising one or more one-segment graphic elements, called phoneme, comprising one or more phonetic elements resulting from a segmentation of the corresponding phonetic chain CP. A graphic chain CG comprises M consecutive graphic elements g ^ to g M and the phonetic chain CP corresponding to the chain CG comprises N consecutive phonetic elements p 1 to p N with the integer N different, or possibly equal to the integer M. The probability P (g 1 # ... g m , ... g M \ p lr ... p n , ... p N ) so that the chain CG corresponds to the chain CP, with 1 <m <M and l ≤ n ≤ N, is determined as a function of the first elementary transcription probabilities P (SfjJpj) estimated and recorded previously in step E2, and of a similarity between the chains CG and CP. Similarity is based on the editing distance of Damerau-Levenshtein DLM (Damerau-Levenshtein Metric), but by maximizing and not minimizing. The probability P (CG | CP) is determined by dynamic programming, using the following iteration formula for any couple m, n such that 1 <n ≤ N and l ≤ m ≤ M:
P(g2...gm|p!P2. • .pn)=P(gm|pn)max[P(gιg2...gm_ι|p1p2. • -Pn) P ( g 2 ... g m | p ! P 2. • .p n ) = P (g m | p n ) max [P (g ιg2 ... g m _ι | p 1 p 2. • - P n )
P(9ig2- • •9mlPlP2- -Pn-l) / P(9l92- -Pn-1> 1 La nature concaténative des transcriptions globales de chaînes et des transcriptions graphèmes/phonèmes permet d'appliquer de manière efficace les modèles de Markov. Pour la probabilité donnée d'une transcription d'une chaîne g^, g2 • • • m en une chaîne p1p2...pn, l'extension de la chaîne graphique, respectivement phonétique, par un nouvel élément graphique gm+ι, respectivement Pn+i donne lieu soit à la même chaîne phonétique, respectivement graphique, soit à l'adjonction d'un nouvel élément phonétique, respectivement graphique. Exprimé en terme de probabilité, P ( χg2 - • •gm+ιlPιP2 • • - n+l) ne dépend que des probabilités de trois transcriptions possibles : soit P(gxg2...gm|pχP2...pn+1) soit P(g1g2.-.gm+ιlPιP2- -Pn> soit P (gxg2... g ^ • • • Pn> • Cette dépendance est exprimée par la distance d'édition égale à la plus grande des trois probabilités indiquée ci-dessus. Après avoir mis les indices m et n à zéro pour une transcription globale (CG|CP) à l'étape E3 et incrémenté les indices m et n de 1 aux étapes E4 et E5, des itérations commencent aux étapes E6 et E7 en déterminant les probabilités pour que les M concaténations successives des éléments graphiques g1 à gM de la chaîne CG correspondent au premier élément phonétique p^_ de la chaîne CP, soit : P(9lz •••gmIPl> = p(gmlPl) max[P(g1, ...gm-ιlPι)3 avec 1 < m < M, en commençant par la probabilité élémentaire P(gιlPι). Puis comme illustré par l'étape E8, le procédé est poursuivi par des itérations pour déterminer les probabilités pour que les M concaténations des éléments graphiques g-j_ à gM de la chaîne CG correspondent aux deux premiers éléments phonétiques -p^ et p2 de la chaîne CP, en utilisant les probabilités précédemment déterminées pour le premier élément graphique P]_, soit : P (9l , • • - gmIPl ' 2 ) = P (gmI 2 ) ma [P (g! , . . . gm_ι|p2 ) , p (gι , • • . gm|Pι) . ( ι • - gm-ιl ι> l Puis le procédé est poursuivi en ajoutant un élément phonétique pn pour déterminer les M probabilités P (gi i, . • -pn) à P (g-^ ... ,gM|Pι, • - -Pn) jusqu'aux M probabilités relatives à la chaîne CP = (p-]_, ... u) . L'ordinateur construit et mémorise progressivement par itérations des étapes E4 à E8, une matrice de deuxièmes probabilités P(g1,...gm| p-j_, ... pn) à M colonnes pour concaténations successives des M éléments graphiques et à N lignes pour concaténations successives des N éléments phonétiques, en opérant ligne par ligne selon l'exemple ci-dessus et en commençant par la probabilité (gιl ι) et en finissant par la probabilité P(g1, ...gM|pι, ...pN) . Chaque itération relative à la (m.n)ième transcription [ (g ... gm) | (pi, ...pn) ] établit un lien entre le couple (gm,Pn) et le couple à la plus grande probabilité des trois probabilités déterminées précédemment parmi les trois couples (9m-l' n) 'P (9ig 2 - • • 9mlPlP2- -Pn-l) / P (9l92- -Pn-1> 1 The concatenative nature of global chain transcriptions and grapheme / phoneme transcriptions makes it possible to apply effective Markov models. For the given probability of a transcription of a chain g ^, g 2 • • • m into a chain p 1 p 2 ... p n , the extension of the graphic chain, respectively phonetic, by a new graphic element g m + ι, respectively P n + i gives rise either to the same phonetic chain, respectively graphic, or to the addition of a new phonetic element, respectively graphic. Expressed in terms of probability, P (χg 2 - • • g m + ιlPιP2 • • - n + l ) only depends on the probabilities of three possible transcriptions: either P (g x g 2 ... g m | pχP 2 . ..p n + 1 ) either P ( g 1 g 2 .-. g m + ιlPιP2- -Pn> or P (g x g 2 ... g ^ • • • P n > • This dependence is expressed by the editing distance equal to the greater of the three probabilities indicated above After having set the indices m and n to zero for a global transcription (CG | CP) in step E3 and incrementing the indices m and n by 1 in steps E4 and E5, iterations begin in steps E6 and E7 by determining the probabilities so that the M successive concatenations of the graphic elements g 1 to g M of the chain CG correspond to the first phonetic element p ^ _ of the chain CP, either: P (9lz ••• g m IPl> = p (gmlPl) max [P (g 1 , ... g m -ιlPι) 3 with 1 <m <M, starting with the elementary probability P (gιlPι) Then as illustrated by Step E8, the method is continued by iterations to determine the probability that M concatenations graphics g- j _ to g M GC chain correspond to the first two phonetic elements -p ^ and p 2 of the chain PC, using the probabilities previously determined for the first graphic element P ] _, that is: P (9 l , • • - g m IP l '2) = P (g m I 2) ma [P (g!,... G m _ι | p 2 ), p (gι, • •. G m | Pι). (ι • - gm-ιl ι> l Then the process is continued by adding a phonetic element p n to determine the M probabilities P (gi i,. • -p n ) to P (g- ^ ..., g M | Pι, • - -P n ) up to M probabilities relating to the chain CP = (p- ] _, ... u) The computer constructs and memorizes gradually by iterations of steps E4 to E8, a matrix of second probabilities P (g 1 , ... g m | p- j _, ... p n ) with M columns for successive concatenations of the M graphic elements and with N lines for successive concatenations of the N phonetic elements, by operating line by line according to the example above and starting with the probability (gιl ι) and ending with the probability P (g 1 , ... g M | pι, ... p N ). Each iteration relating to the (mn) th transcription [(g ... g m ) | (pi, ... p n )] establishes a link between the pair (g m , P n ) and the pair with the greatest probability of the three probabilities previously determined p among the three couples (9m- l 'n)'
(9π n-l) et (gm-l'Pn-1^ • Le lien est mémorisé dans l'ordinateur. Lorsque le couple (gm/Pn) est relié au couple (Sm-l' n) ' ^ s'agit d'une transcription élémentaire de (gm-i'9m) en gm ' lorsque le couple (gm,pn) est relié au couple (9m'Pn-l) ' ^ s'agit d'une transcription élémentaire de gm en (pn-i/ n) ; et lorsque le couple (gm/Pn) est relié au couple (gm_ 1/Pn-ι) ' ϋ s'agit d'une transcription élémentaire de gm en pn. Ainsi à chaque détermination de probabilité P (g1; ... gm) | ( ]_, ...pn) est mémorisé dans l'ordinateur un lien. Les liens tracent un chemin unique également mémorisé progressivement dans l'ordinateur et reliant le premier couple (g-|_, px) au dernier couple (gM, pN) dans la matrice à M colonnes et N lignes. La topologie du chemin unique dans la matrice de taille M.N segmente les chaînes graphiques CG en graphèmes et les chaînes phonétiques CP en phonèmes et aligne les éléments graphiques et les éléments phonétiques en correspondance biunivoque . Si un segment du chemin suit une portion d'une ligne entre deux éléments graphiques, la concaténation des éléments graphiques de la portion de ligne correspond à l'élément phonétique de la ligne complété par un ou des éléments phonétiques muets et sans signification afin de former un couple de graphème et de phonème ayant le même nombre d'éléments, lequel couple est mémorisé dans l'ordinateur. Si un segment du chemin suit une portion de colonne entre deux éléments phonétiques, l'élément graphique de la colonne complété par un ou des éléments graphiques sans signification correspond à la concaténation des éléments phonétiques de la portion de colonne afin de former un couple de graphème et de phonème ayant le même nombre d'éléments, lequel couple est mémorisé dans l'ordinateur. Un changement de direction du chemin vers l'horizontale, la verticale ou la diagonale dans la matrice indique une segmentation des chaînes CG et CP. A titre d'exemple simple, on cherche à segmenter la transcription globale du mot CG = "beau" en la chaîne phonétique CP = [bo] en supposant que l'étape E2 a estimé les premières probabilités individuelles suivantes dans le corpus C :(9π nl) and (gm-l'Pn-1 ^ • The li is stored in the computer. When the torque (m g / P n) is connected to the pair (Sm-l 'n) ^ s' acts of an elementary transcription of ( gm-i'9m) in gm 'when the couple (g m , p n ) is connected to the couple (9m'Pn-l)' ^ it is an elementary transcription of g m in (p n -i / n) ; and when the couple (g m / P n ) is linked to the couple (g m _ 1 / Pn-ι) 'ϋ it is an elementary transcription of g m in p n . Thus, at each probability determination P (g 1; ... g m ) | ( ] _, ... p n ) a link is memorized in the computer. The links trace a unique path also gradually memorized in the computer and connecting the first couple (g- | _, p x ) to the last couple (g M , p N ) in the matrix with M columns and N rows. The single path topology in the size matrix MN segments the graphic chains CG into graphemes and the phonetic chains CP into phonemes and aligns the graphic elements and the phonetic elements in one-to-one correspondence. If a segment of the path follows a portion of a line between two graphic elements, the concatenation of the graphic elements of the line portion corresponds to the phonetic element of the line supplemented by one or more silent and meaningless phonetic elements in order to form a pair of graphemes and phonemes having the same number of elements, which pair is stored in the computer. If a segment of the path follows a portion of column between two phonetic elements, the graphic element of the column supplemented by one or more graphic elements without meaning corresponds to the concatenation of the phonetic elements of the portion of column in order to form a couple of graphemes and of phoneme having the same number of elements, which couple is memorized in the computer. A change of direction of the path towards the horizontal, the vertical or the diagonal in the matrix indicates a segmentation of the chains CG and CP. As a simple example, we seek to segment the global transcription of the word CG = "beautiful" into the phonetic chain CP = [bo] assuming that step E2 has estimated the following first individual probabilities in the corpus C:
P(b|b)=0,9 ; P(e|b)=0,l ; P(a|b)=0,l ; P(u|b)=0,l P(e|o)=0,2 ; P(a|o)=0,l ; P(u|o)=0,2 ; P(b|o)=0,l. Pour la transcription (beau|bo) du corpus, les M=4 itérations des étapes E5, E6 et E7 pour chacune des M=2 lignes de la matrice de taille (4,2] produisent le tableau suivant :P (b | b) = 0.9; P (e | b) = 0.1; P (a | b) = 0.1; P (u | b) = 0.1, P (e | o) = 0.2; P (a | o) = 0, l; P (u | o) = 0.2; P (b | o) = 0, l. For the transcription (beau | bo) of the corpus, the M = 4 iterations of steps E5, E6 and E7 for each M = 2 rows of the size matrix (4.2] produce the following table:
Le symbole <- indique que le couple (gm , pn) est relié au couple (gm-i Pn.) ' ^-e symbole indique que le couple (gm , pn) est relié au couple (gm, pn_ -[_) ; et le symbole indique que le couple (gm , pn) est relié au couple (gm-i/ Pn-1^ • Le symbole t\ associé à la transcription (be|bo) indique que cette dernière est déduite et donc liée à la transcription (b|b) qui la précède. Le symbole indique une frontière de segmentation entre des couples de graphème et phonème. On en déduit de ce tableau l'alignement suivant : b eau b o**. Le symbole * désigne un élément phonétique muet et sans signification. Afin de parfaire les correspondances entre les graphèmes et les phonèmes et les correspondances entre les éléments graphiques et les éléments phonétiques, de préférence comme indiqué par l'étape Eli, les premières probabilités P(gι|pι) à (P(gj|pj) des transcriptions de chacun des éléments graphiques respectivement en les J éléments phonétiques (étape E2) et en particulier les nombres de contingence κglpl à KgIpj (sous-étape E25) sont à nouveau estimés en fonction notamment des rangs des éléments phonétiques placés dans les chaînes phonétiques données CG qui ont été segmentées en phonèmes à l'étape précédente E10. A nouveau des deuxièmes probabilités P (gx, ...g pi • • - n) de MN deuxièmes transcriptions de chaque transcription globale d'une chaîne graphique donnée à M éléments graphiques (CG) en une chaîne phonétique correspondante (CP) à N éléments phonétiques sont déterminées par l'exécution des étapes E3 à E10 afin qu'à l'étape suivante E10 des liens soient établis entre des couples (gm/Pn) d'une nouvelle matrice à M colonnes et N lignes et par conséquent un chemin corrigé reliant le dernier couple (9M/ PN) au Premier couple (gχ,Pι) dans la nouvelle matrice de deuxièmes probabilités de taille MN. Eventuellement, grâce à la capacité et la rapidité élevées de traitement de l'ordinateur, d'autres boucles itératives d'étapes E2 à Eli peuvent être exécutées dans l'ordinateur jusqu'à la convergence du procédé de correspondance, c'est-à- dire jusqu'à ce que le chemin établi devienne constant d'une boucle à la suivante. Après la segmentation de toutes les chaînes graphiques et phonétiques du corpus G en graphèmes et phonèmes, la base a enregistrée toutes les correspondances entre les éléments graphiques et phonétiques et les correspondances entre les graphèmes et phonèmes pour tout le corpus C parcouru. The symbol <- indicates that the couple (g m , p n ) is linked to the couple (g m -i Pn . ) '^ - e symbol indicates that the couple (g m , p n ) is linked to the couple (g m , p n _ - [ _); and the symbol indicates that the couple (g m , p n ) is related to the couple (g m -i / Pn- 1 ^ • The symbol t \ associated with the transcription (be | bo) indicates that the latter is deduced and therefore linked to the transcription (b | b) which precedes it. The symbol indicates a segmentation border between pairs of graphemes and phonemes. The following alignment is deduced from this table: b eau bo **. The symbol * designates a silent phonetic element In order to perfect the correspondences between the graphemes and the phonemes and the correspondences between the graphic elements and the phonetic elements, preferably as indicated by the step Eli, the first probabilities P (gι | pι) to (P ( g j | p j ) transcriptions of each of the graphic elements respectively into the J phonetic elements (step E2) and in particular the contingency numbers κ g l p l to K gI pj (sub-step E25) are again estimated in function in particular of the ranks of elements p honetic placed in the given phonetic chains CG which were segmented into phonemes in the previous step E10. Again second probabilities P (g x , ... g pi • • - n ) of MN second transcriptions of each global transcription of a graphic chain given to M graphic elements (CG) into a corresponding phonetic chain (CP) to N phonetic elements are determined by the execution of steps E3 to E10 so that in the next step E10 links are established between couples (g m / P n ) of a new matrix with M columns and N rows and therefore a corrected path connecting the last couple (9M / PN) to the First couple (gχ, Pι) in the new matrix of second probabilities of size MN. Possibly, thanks to the high processing capacity and speed of the computer, other iterative loops of steps E2 to Eli can be executed in the computer until the convergence of the correspondence process, that is to say - say until the established path becomes constant from one loop to the next. After the segmentation of all the graphic and phonetic chains of the corpus G into graphemes and phonemes, the base recorded all the correspondences between the graphic and phonetic elements and the correspondences between the graphemes and phonemes for all the corpus C traversed.
Toute nouvelle chaîne graphique ajoutée au corpus peut être ensuite automatiquement transcrite en une chaîne phonétique segmentée en des phonèmes à l'aide notamment des correspondances précédemment établies et enregistrées selon l'invention, ce qui enrichit progressivement le corpus dans la base de données et augmente la précision des transcriptions. Comme déjà dit, les transcriptions phonétiques sont utiles à des systèmes logiciels correcteurs orthographiques de fautes pour reconnaître des fautes lexicales lors de la saisie de texte sur un clavier de terminal . Ainsi lorsque la nouvelle chaîne graphique ajoutée au corpus est saisie sur un clavier d'un terminal, la chaîne phonétique segmentée en phonèmes au moyen des correspondances enregistrées est utilisée pour une correction orthographique de la nouvelle chaîne graphique saisie. Le procédé de 1 ' invention peut être également utilisé comme outil de génération automatique de messages courts SMS à partir d'un texte rédigé dans la langue courante. Il nécessite pour ce faire un corpus d'apprentissage C dont les transcriptions sont adaptées à la génération automatique de messages courts et font correspondre respectivement des chaînes graphiques CG, telles que des mot et des locutions, à des chaînes phonétiques CP dont les "phonèmes" sont phonétiquement lisibles par toute personne non phonéticienne. Par exemple, le corpus établit les correspondances en français suivantes entre chaînes graphiques et chaînes phonétiques: air R occupé OQP cas K. Ainsi une nouvelle chaîne graphique saisie dans un terminal est automatiquement transcrite par le procédé de l'invention en une chaîne phonétique segmentée en phonèmes lisibles par toute personne non phonéticienne au moyen des correspondances enregistrées pour être incluse dans un message court. Selon l'exemple précédent, la phrase en français "j'ai l'air occupé" saisie dans le terminal est transcrite automatiquement en un message court de suivant Gl ' ROQP à transmettre par le terminal, les "chaînes phonétiques" [G], [1 ' ] , [R] et [OQP] étant phonétiquement lisibles par tout usager non phonéticien. En variante, les "chaînes phonétiques" [G] , [1 ' ] , [R] et [OQP] peuvent être assimilées à des éléments phonétiques pour constituer une chaîne phonétique [Gl'ROQP].Any new graphic chain added to the corpus can then be automatically transcribed into a phonetic chain segmented into phonemes using in particular the correspondences previously established and recorded according to the invention, which progressively enriches the corpus in the database and increases the accuracy of transcriptions. As already said, phonetic transcriptions are useful for correcting software systems misspelling to recognize lexical mistakes when entering text on a terminal keyboard. Thus when the new graphic chain added to the corpus is entered on a keyboard of a terminal, the phonetic chain segmented into phonemes by means of the recorded correspondences is used for a spelling correction of the new graphic chain entered. The method of the invention can also be used as a tool for automatically generating short SMS messages from text written in everyday language. To do this, it requires a learning corpus C, the transcriptions of which are adapted to the automatic generation of short messages and which correspond respectively to graphic chains CG, such as words and phrases, to phonetic chains CP including "phonemes". are phonetically readable by any non-phonetic person. For example, the corpus establishes the following correspondences in French between graphic and phonetic chains: air R busy OQP case K. Thus a new graphic chain entered in a terminal is automatically transcribed by the method of the invention into a phonetic chain segmented into phonemes readable by any non-phonetic person by means of the correspondences recorded to be included in a message. short. According to the previous example, the sentence in French "I look busy" entered in the terminal is automatically transcribed into a short message according to Gl 'ROQP to be transmitted by the terminal, "phonetic strings" [G], [1 '], [R] and [OQP] being phonetically readable by any non-phonetic user. As a variant, the "phonetic chains" [G], [1 '], [R] and [OQP] can be assimilated to phonetic elements to constitute a phonetic chain [Gl'ROQP].
Selon une implémentation préférée du procédé de l'invention, les étapes du procédé de l'invention sont déterminées par les instructions d'un programme d'ordinateur incorporé dans un ordinateur tel qu'un terminal, un ordinateur personnel, un serveur ou tout autre système informatique. Le programme fait correspondre automatiquement des éléments graphiques composant des chaînes graphiques données à des éléments phonétiques composant des chaînes phonétiques correspondantes, après avoir saisi initialement des transcriptions globales des chaînes graphiques en les chaînes phonétiques dans une base accessible par l'ordinateur et avoir estimé et enregistré dans la base des premières probabilités de transcriptions élémentaires des éléments graphiques respectivement en les éléments phonétiques. Le programme comporte des instructions de programme qui, lorsque ledit programme est chargé et exécuté dans l'ordinateur dont le fonctionnement est alors commandé par l'exécution du programme, réalisent les étapes du procédé selon l'invention. En conséquence, l'invention s'applique également à un programme d'ordinateur, notamment un programme d'ordinateur sur ou dans un support d'informations, adapté à mettre en œuvre l'invention. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable pour implementer le procédé selon l'invention. According to a preferred implementation of the method of the invention, the steps of the method of the invention are determined by the instructions of a computer program incorporated in a computer such as a terminal, a personal computer, a server or any other computer system. The program automatically matches graphic elements composing given graphic chains to phonetic elements making up corresponding phonetic chains, after having initially entered global transcriptions of graphic chains into phonetic chains in a database accessible by the computer and having estimated and recorded in the base of the first probabilities of elementary transcriptions of the graphic elements respectively into the phonetic elements. The program includes program instructions which, when said program is loaded and executed in the computer whose operation is then controlled by the execution of the program, carry out the steps of the method according to the invention. Consequently, the invention also applies to a computer program, in particular a computer program on or in an information medium, suitable for implementing the invention. This program can use any programming language, and be in the form of source code, object code, or intermediate code between code source and object code such as in a partially compiled form, or in any other form desirable for implementing the method according to the invention.

Claims

REVENDICATIONS
1 - Procédé mis en oeuvre dans un ordinateur pour faire correspondre automatiquement des éléments graphiques (g-j_) composant des chaînes graphiques données à des éléments phonétiques (pj ) composant des chaînes phonétiques correspondantes, après avoir saisi (El) initialement des transcriptions globales (CG|CP) des chaînes graphiques en les chaînes phonétiques dans une base accessible par l'ordinateur et avoir estimé et enregistré dans la base (E2) des premières probabilités (P(gjjpj)) de transcriptions élémentaires des éléments graphiques respectivement en les éléments phonétiques, caractérisé par les étapes suivantes : pour chaque transcription d'une chaîne graphique donnée (CG) à M éléments graphiques en une chaîne phonétique correspondante (CP) à N éléments phonétiques, déterminer (E3 - E9) des deuxièmes probabilités (P (gl7...gm|p1, ...pn) ) de MN deuxièmes transcriptions de M chaînes graphiques concaténant successivement les M éléments graphiques en N chaînes phonétiques concaténant successivement les N éléments phonétiques, en fonction chacune d'une première probabilité respective et de la plus grande de trois deuxièmes probabilités respectives déterminées précédemment , et établir et mémoriser (E10) un lien entre les derniers éléments ( ' n) des chaînes graphique et phonétique de chaque deuxième transcription et les derniers éléments des chaînes graphique et phonétique de la transcription relative à la plus grande des trois deuxièmes probabilités respectives afin que des liens établis dans une matrice de taille MN relative aux deuxièmes probabilités constitue un chemin unique entre des dernier et premier couples d'éléments graphique et phonétique de la matrice pour segmenter la chaîne graphique donnée en des graphèmes correspondant respectivement à des phonèmes segmentant la chaîne phonétique correspondante et pour enregistrer les correspondances entre les graphèmes et phonèmes dans la base, le nombre d'éléments graphiques dans un graphème étant identique au nombre d'éléments phonétiques dans le phonème correspondant, afin que toute nouvelle chaîne graphique soit automatiquement transcrite en une chaîne phonétique segmentée en phonèmes au moyen des correspondances enregistrées. 2 - Procédé conforme à la revendication 1, selon lequel la première probabilité respective pour la détermination (E3 - E9) d'une deuxième probabilité (P(g-L, .. - m|Pi/ • ..pn) ) relative à une deuxième transcription d'une chaîne graphique concaténant m éléments graphiques en une chaîne phonétique concaténant n éléments phonétiques, avec 1 < m < M et 1 ≤ n < N, est relative aux derniers éléments dans la chaîne graphique à m éléments graphiques et la chaîne phonétique à n éléments phonétiques.1 - Process implemented in a computer to automatically correspond graphic elements (g- j _) composing given graphic strings to phonetic elements (p j ) composing corresponding phonetic chains, after having entered (El) transcriptions initially global (CG | CP) of the graphic chains into the phonetic chains in a base accessible by the computer and having estimated and recorded in the base (E2) of the first probabilities (P (gjjp j )) of elementary transcriptions of the graphic elements respectively phonetic elements, characterized by the following steps: for each transcription of a given graphic chain (CG) with M graphic elements into a corresponding phonetic chain (CP) with N phonetic elements, determine (E3 - E9) of the second probabilities (P (g l7 ... g m | p 1 , ... p n )) of MN second transcriptions of M graphic chains concatenating successively the M graphic elements in N phonetic chains successively concatenating the N phonetic elements, each according to a respective first probability and the greatest of three respective second probabilities determined previously, and establishing and memorizing (E10) a link between the last elements ('n) graphic and phonetic chains of each second transcription and the last elements of the graphic and phonetic chains of the transcription relating to the largest of the three respective second probabilities so that links established in a matrix of size MN relating to the second probabilities constitutes a unique path between last and first pairs of graphic and phonetic elements of the matrix to segment the given graphic chain into graphemes corresponding respectively to phonemes segmenting the corresponding phonetic chain and to record the correspondences between the graphemes and phonemes in the base, the number of graphic elements in a grapheme being identical to the number of phonetic elements in the corresponding phoneme, so that any new graphic chain is automatically transcribed into a phonetic chain segmented into phonemes by means of the recorded correspondences. 2 - Method according to claim 1, according to which the first respective probability for the determination (E3 - E9) of a second probability (P (gL, .. - m | Pi / • ..p n )) relating to a second transcription of a graphic chain concatenating m graphic elements into a phonetic chain concatenating n phonetic elements, with 1 <m <M and 1 ≤ n <N, relates to the last elements in the graphic chain with m graphic elements and the phonetic chain with n phonetic elements.
3 - Procédé conforme à la revendication 1 ou 2 , selon lequel les trois deuxièmes probabilités respectives déterminées précédemment pour la deuxième transcription de la chaîne graphique à m éléments graphiques en la chaîne phonétique à n éléments phonétiques sont respectivement relatives à une deuxième transcription d'une chaîne graphique à m-1 éléments graphiques en la chaîne phonétique à n éléments phonétiques, une deuxième transcription de la chaîne graphique à m éléments graphiques en une chaîne phonétique à n-1 éléments phonétiques et une deuxième transcription de la chaîne graphique à m-1 éléments graphiques en la chaîne phonétique à n-1 éléments phonétiques.3 - Process according to claim 1 or 2, according to which the three respective second probabilities determined previously for the second transcription of the graphic chain with m graphic elements into the phonetic chain with n phonetic elements respectively relate to a second transcription of a graphic chain with m-1 graphic elements in the phonetic chain with n phonetic elements, a second transcription of the graphic chain with m graphic elements in one phonetic chain with n-1 phonetic elements and a second transcription of the graphic chain with m-1 graphic elements into the phonetic chain with n-1 phonetic elements.
4 - Procédé conforme à l'une quelconque des revendications 1 à 3, comprenant une estimation d'autres premières probabilités (P(gjJPj)) de transcriptions de chacun des éléments graphiques respectivement en les éléments phonétiques en fonction notamment des rangs des éléments phonétiques placés dans les chaînes phonétiques données (CG) qui ont été segmentées en phonèmes afin à nouveau de déterminer (E6) des deuxièmes probabilités (P(gl7... gm| i • • -Pn ) de MN deuxièmes transcriptions de chaque transcription d'une chaîne graphique donnée à M éléments graphiques (CG) en une chaîne phonétique correspondante (CP) à N éléments phonétiques et établir un chemin corrigé reliant le dernier couple (9M'PN) au Premier couple (g_ Pι) dans une nouvelle matrice de deuxièmes probabilités de taille MN.4 - Method according to any one of claims 1 to 3, comprising an estimation of other first probabilities (P (gjJPj)) of transcriptions of each of the graphic elements respectively into the phonetic elements depending in particular on the ranks of the phonetic elements placed in the given phonetic chains (CG) which have been segmented into phonemes in order to again determine (E6) second probabilities (P (g l7 ... g m | i • • -Pn) of MN second transcriptions of each transcription d a graphic string given to M graphics (CG) into a corresponding phonetic string (CP) N phonetic elements and establish a fixed path from the last couple (9M'PN) to Prof. Emier couple (g_ Pι) in a new matrix of second probabilities of size MN.
5 - Procédé conforme à l'une quelconque des revendications 1 à 4, selon lequel la nouvelle chaîne graphique est saisie sur un clavier d'un terminal et la chaîne phonétique segmentée en phonèmes au moyen des correspondances enregistrées est utilisée pour une correction orthographique de la nouvelle chaîne graphique saisie.5 - Method according to any one of claims 1 to 4, according to which the new graphic chain is entered on a keyboard of a terminal and the phonetic chain segmented into phonemes by means of the recorded correspondences is used for a spelling correction of the new graphic chain entered.
6 - Procédé conforme à l'une quelconque des revendications 1 à 4, selon lequel les chaînes phonétiques sont phonétiquement lisibles par toute personne non phonéticienne, et la nouvelle chaîne graphique est automatiquement transcrite en une chaîne phonétique segmentée en phonèmes lisibles par toute personne non phonéticienne au moyen des correspondances enregistrées pour être incluse dans un message court .6 - Process according to any one of claims 1 to 4, according to which the phonetic strings are phonetically readable by any non-phonetic person, and the new graphic chain is automatically transcribed into a phonetic chain segmented into phonemes readable by any non-phonetic person by means of recorded correspondence to be included in a short message.
7 - Programme d'ordinateur apte à être mis en oeuvre dans un ordinateur pour faire correspondre automatiquement des éléments graphiques (g^) composant des chaînes graphiques données à des éléments phonétiques (p-j ) composant des chaînes phonétiques correspondantes, après avoir saisi (El) initialement des transcriptions globales (CG|CP) des chaînes graphiques en les chaînes phonétiques dans une base accessible par l'ordinateur et avoir estimé et enregistré dans la base (E2) des premières probabilités (P(gil -)) de transcriptions élémentaires des éléments graphiques respectivement en les éléments phonétiques, ledit programme comprenant des instructions qui, lorsque le programme est chargé et exécuté dans l'ordinateur, réalisent les étapes suivantes : pour chaque transcription d'une chaîne graphique donnée (CG) à M éléments graphiques en une chaîne phonétique correspondante (CP) à N éléments phonétiques, déterminer (E3 - E9) des deuxièmes probabilités (P (g-^ ...gm|Pι, .. -Pn) ) de MN deuxièmes transcriptions de M chaînes graphiques concaténant successivement les M éléments graphiques en N chaînes phonétiques concaténant successivement les N éléments phonétiques, en fonction chacune d'une première probabilité respective et de la plus grande de trois deuxièmes probabilités respectives déterminées précédemment , et établir et mémoriser (E10) un lien entre les derniers éléments (gm/Pn) dLes chaînes graphique et phonétique de chaque deuxième transcription et les derniers éléments des chaînes graphique et phonétique de la transcription relative à la plus grande des trois deuxièmes probabilités respectives afin que des liens établis dans une matrice de taille MN relative aux deuxièmes probabilités constitue un chemin unique entre des dernier et premier couples d'éléments graphique et phonétique de la matrice pour segmenter la chaîne graphique donnée en des graphèmes correspondant respectivement à des phonèmes segmentant la chaîne phonétique correspondante et pour enregistrer les correspondances entre les graphèmes et phonèmes dans la base, le nombre d'éléments graphiques dans un graphème étant identique au nombre d'éléments phonétiques dans le phonème correspondant, afin que toute nouvelle chaîne graphique soit automatiquement transcrite en une chaîne phonétique segmentée en phonèmes au moyen des correspondances enregistrées. 7 - Computer program able to be implemented in a computer to automatically correspond graphic elements (g ^) making up given graphic strings to phonetic elements (p- j ) making up corresponding phonetic strings, after entering ( El) initially global transcriptions (CG | CP) of graphic strings into phonetic chains in a base accessible by the computer and having estimated and recorded in the base (E2) of the first probabilities (P (gil -)) of elementary transcriptions graphic elements respectively into phonetic elements, said program comprising instructions which, when the program is loaded and executed in the computer, carry out the following steps: for each transcription of a given graphic chain (CG) with M graphic elements in a corresponding phonetic chain (CP) with N phonetic elements, determine (E3 - E9) of the second pro babilities (P (g- ^ ... g m | Pι, .. -P n )) of MN second transcriptions of M graphic chains successively concatenating the M graphic elements into N phonetic chains successively concatenating the N phonetic elements, each in function of a respective first probability and the greatest of three respective second probabilities determined previously, and establishing and memorizing (E10) a link between the last elements (g m / P n ) d The graphic chains and phonetics of each second transcription and the last elements of the graphic and phonetic chains of the transcription relating to the largest of the three respective second probabilities so that links established in a matrix of size MN relating to the second probabilities constitutes a unique path between last and first pairs of graphical and phonetic elements of the matrix to segment the given graphic chain into graphemes corresponding respectively to phonemes segmenting the corresponding phonetic chain and to record the correspondences between graphemes and phonemes in the base, the number of graphic elements in a grapheme being identical to the number of phonetic elements in the corresponding phoneme, so that any new graphic chain is automatically transcribed into a phonetic chain segmented into phonemes by means of recorded correspondences.
EP04816413A 2003-12-18 2004-12-17 Method for automatic correspondence between graphical and phonetic elements Ceased EP1711936A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0314928A FR2864281A1 (en) 2003-12-18 2003-12-18 Phonetic units and graphic units matching method for lexical mistake correction system, involves establishing connections between last units of graphic and phonetic series to constitute path segmenting graphic series by grapheme
PCT/FR2004/003278 WO2005062292A2 (en) 2003-12-18 2004-12-17 Method for automatic correspondence between graphical and phonetic elements

Publications (1)

Publication Number Publication Date
EP1711936A2 true EP1711936A2 (en) 2006-10-18

Family

ID=34630305

Family Applications (1)

Application Number Title Priority Date Filing Date
EP04816413A Ceased EP1711936A2 (en) 2003-12-18 2004-12-17 Method for automatic correspondence between graphical and phonetic elements

Country Status (4)

Country Link
US (1) US20070055515A1 (en)
EP (1) EP1711936A2 (en)
FR (1) FR2864281A1 (en)
WO (1) WO2005062292A2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102203B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker
US9947311B2 (en) 2015-12-21 2018-04-17 Verisign, Inc. Systems and methods for automatic phonetization of domain names
US9910836B2 (en) * 2015-12-21 2018-03-06 Verisign, Inc. Construction of phonetic representation of a string of characters
US10102189B2 (en) * 2015-12-21 2018-10-16 Verisign, Inc. Construction of a phonetic representation of a generated string of characters
CN110956959B (en) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 Speech recognition error correction method, related device and readable storage medium
US11908488B2 (en) * 2021-05-28 2024-02-20 Metametrics, Inc. Assessing reading ability through grapheme-phoneme correspondence analysis

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6684185B1 (en) * 1998-09-04 2004-01-27 Matsushita Electric Industrial Co., Ltd. Small footprint language and vocabulary independent word recognizer using registration by word spelling
DE19942178C1 (en) * 1999-09-03 2001-01-25 Siemens Ag Method of preparing database for automatic speech processing enables very simple generation of database contg. grapheme-phoneme association
DE10042943C2 (en) * 2000-08-31 2003-03-06 Siemens Ag Assigning phonemes to the graphemes generating them
US20030088416A1 (en) * 2001-11-06 2003-05-08 D.S.P.C. Technologies Ltd. HMM-based text-to-phoneme parser and method for training same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2005062292A2 *

Also Published As

Publication number Publication date
US20070055515A1 (en) 2007-03-08
WO2005062292A3 (en) 2005-12-22
WO2005062292A2 (en) 2005-07-07
FR2864281A1 (en) 2005-06-24

Similar Documents

Publication Publication Date Title
US11238845B2 (en) Multi-dialect and multilingual speech recognition
WO2023065544A1 (en) Intention classification method and apparatus, electronic device, and computer-readable storage medium
KR102222317B1 (en) Speech recognition method, electronic device, and computer storage medium
US20190087403A1 (en) Online spelling correction/phrase completion system
WO2018097091A1 (en) Model creation device, text search device, model creation method, text search method, data structure, and program
JP2007512608A (en) Topic-specific models for text formatting and speech recognition
FR2848688A1 (en) Text language identifying device for linguistic analysis of text, has analyzing unit to analyze chain characters of words extracted from one text, where each chain is completed so that each time chains are found in word
CN111883137B (en) Text processing method and device based on voice recognition
WO2017161899A1 (en) Text processing method, device, and computing apparatus
US20060241936A1 (en) Pronunciation specifying apparatus, pronunciation specifying method and recording medium
CN109710087A (en) Input method model generation method and device
CN103488752A (en) POI (point of interest) searching method
CN110275940A (en) A kind of Chinese address recognition methods and equipment
WO2005062292A2 (en) Method for automatic correspondence between graphical and phonetic elements
JP2004258531A (en) Voice recognition error correction method, system, and program
CN111971744B (en) Processing speech to text conversion
CN115174285B (en) Conference record generation method and device and electronic equipment
CN111428479A (en) Method and device for predicting punctuation in text
US7853597B2 (en) Product line extraction
JP4005477B2 (en) Named entity extraction apparatus and method, and numbered entity extraction program
CN111626059B (en) Information processing method and device
CN111695350B (en) Word segmentation method and word segmentation device for text
JP2000259176A (en) Voice recognition device and its recording medium
Hahn et al. Optimizing CRFs for SLU tasks in various languages using modified training criteria
US20240311560A1 (en) Apparatus and method for deep learning-based coreference resolution using dependency relation

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20060608

AK Designated contracting states

Kind code of ref document: A2

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU MC NL PL PT RO SE SI SK TR

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20081023

RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: FRANCE TELECOM

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20090329