FR2790586A1 - Foreign language pronunciation interactive speech recognition learning method having computer data base vocabulary and similar/different phonetic parts recognition/vocabulary list comparison. - Google Patents

Foreign language pronunciation interactive speech recognition learning method having computer data base vocabulary and similar/different phonetic parts recognition/vocabulary list comparison. Download PDF

Info

Publication number
FR2790586A1
FR2790586A1 FR9902771A FR9902771A FR2790586A1 FR 2790586 A1 FR2790586 A1 FR 2790586A1 FR 9902771 A FR9902771 A FR 9902771A FR 9902771 A FR9902771 A FR 9902771A FR 2790586 A1 FR2790586 A1 FR 2790586A1
Authority
FR
France
Prior art keywords
vocabulary
sentence
word
words
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9902771A
Other languages
French (fr)
Other versions
FR2790586B1 (en
Inventor
Bernard Muller
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AURALOG
Original Assignee
AURALOG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AURALOG filed Critical AURALOG
Priority to FR9902771A priority Critical patent/FR2790586B1/en
Priority to DE2000110232 priority patent/DE10010232B4/en
Publication of FR2790586A1 publication Critical patent/FR2790586A1/en
Application granted granted Critical
Publication of FR2790586B1 publication Critical patent/FR2790586B1/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

The interactive learning speech recognition technique has a data base vocabulary. During repetition of words being learnt, incorrect pronunciation is separated from correct pronunciation word parts. Phrases are recognized from the vocabulary, and the nearest incorrect word found with respect to the reference phrase. The speech recognition interactive learning technique has a vocabulary base containing different words. From these words a number of reference phrases are determined. During speech recognition the nearest phonetic words are found. These words are then compared to the active vocabulary to determine which words are phonetically the nearest and whether the phrase is correct or not.

Description

PROCEDE ET DISPOSITIF DE RECONNAISSANCE VOCALEVOICE RECOGNITION METHOD AND DEVICE

La présente invention concerne un procédé et un dispositif  The present invention relates to a method and a device

de reconnaissance vocale.voice recognition.

L'invention se rapporte au domaine de la reconnaissance vocale. Elle s'applique à tout dispositif de reconnaissance vocale acceptant en entrée, d'une part un ensemble (ou vocabulaire) de phrases prédéfinies et d'autre part une phrase à reconnaître (le terme "phrase" doit être compris au sens large et désigne notamment un mot ou un assemblage de mots),  The invention relates to the field of voice recognition. It applies to any voice recognition device accepting as input, on the one hand a set (or vocabulary) of predefined sentences and on the other hand a sentence to be recognized (the term "sentence" must be understood in the broad sense and designates including a word or a collection of words),

et délivrant en sortie une phrase reconnue, cette dernière10 étant la phrase du vocabulaire qui est phonétiquement la plus proche de la phrase à reconnaître.  and outputting a recognized sentence, the latter10 being the sentence of the vocabulary which is phonetically closest to the sentence to be recognized.

De tels dispositifs comprennent des moyens matériels (électroniques), des moyens logiciels, ou les deux. Ils sont présents, par exemple, dans les micro-ordinateurs. Ils sont alors utilisés par des logiciels qui présentent une fonction de reconnaissance vocale, par exemple pour la saisie de textes  Such devices include hardware (electronic) means, software means, or both. They are present, for example, in microcomputers. They are then used by software which has a voice recognition function, for example for entering texts.

ou de commandes par l'utilisateur.or user commands.

Notamment, l'invention s'applique à un système interactif d'apprentissage d'une langue étrangère. Un tel système comprend un micro-ordinateur avec notamment un dispositif de reconnaissance vocale et des organes périphériques (écran, clavier, souris, microphone, haut-parleurs, etc...), ainsi qu'un logiciel pour faire fonctionner le micro-ordinateur sous la commande d'un utilisateur. Cependant, d'autres applications  In particular, the invention applies to an interactive system for learning a foreign language. Such a system includes a microcomputer with in particular a voice recognition device and peripheral organs (screen, keyboard, mouse, microphone, speakers, etc.), as well as software for operating the microcomputer. under the control of a user. However, other applications

du principe de l'invention sont envisageables.  of the principle of the invention are conceivable.

L'utilisateur d'un système interactif d'apprentissage d'une langue étrangère doit, selon certains exercices pratiques, prononcer oralement certaines phrases dans la langue étrangère. Par exemple, un exercice classique consiste à lire ou répéter à haute voix une phrase qui lui est proposée,  The user of an interactive foreign language learning system must, according to certain practical exercises, orally pronounce certain sentences in the foreign language. For example, a classic exercise consists in reading or repeating aloud a sentence which is proposed to him,

respectivement sous forme visible (sur l'écran du micro-  respectively in visible form (on the screen of the micro-

ordinateur) ou audible (à l'aide d'un dispositif de synthèse vocale du micro-ordinateur). Dans d'autres exercices, l'utilisateur doit répondre à haute voix à une question qui lui est posée sous forme visible ou audible, la réponse attendue ayant en général une structure préalablement définie au moyen d'un exemple. Une phrase ainsi prononcée par l'utilisateur est une phrase à reconnaître fournie en entrée du dispositif de reconnaissance vocale. Celui-ci comprend des moyens pour  computer) or audible (using a computer's voice synthesis device). In other exercises, the user must answer aloud a question which is asked to him in visible or audible form, the expected answer generally having a structure defined beforehand by means of an example. A sentence thus pronounced by the user is a sentence to be recognized supplied at the input of the voice recognition device. This includes means for

délivrer une phrase reconnue, ainsi qu'il a été dit plus haut.  issue a recognized sentence, as mentioned above.

La phrase reconnue est comparée à une phrase de référence.  The recognized sentence is compared to a reference sentence.

Cette phrase de référence est la phrase attendue correctement prononcée dans la langue étrangère. En cas d'égalité, le logiciel poursuit son exécution pour aborder l'exercice suivant. Dans les autres cas, le logiciel peut inviter l'utilisateur à prononcer à nouveau la même phrase, afin  This reference sentence is the expected sentence correctly pronounced in the foreign language. In the event of a tie, the software continues to run to cover the next exercise. In other cases, the software can invite the user to say the same sentence again, in order to

d'améliorer sa prononciation.to improve his pronunciation.

Cependant, l'utilisateur ignore en général en quoi sa première prononciation était incorrecte. Il ne peut donc pas toujours comprendre sur quelle(s) partie(s) de la phrase il  However, the user generally does not know why his first pronunciation was incorrect. He cannot therefore always understand on which part (s) of the sentence he

doit améliorer sa prononciation.must improve his pronunciation.

Une solution consiste à afficher la phrase reconnue sur l'écran du microordinateur, afin de permettre à l'utilisateur de se rendre compte par lui-même de la façon dont le dispositif de reconnaissance vocale a (de manière erronée) compris la phrase qu'il a prononcée. Néanmoins, l'interprétation par l'utilisateur de la phrase reconnue n'est  One solution is to display the recognized sentence on the screen of the microcomputer, in order to allow the user to realize for himself how the voice recognition device has (erroneously) understood the sentence that he pronounced. However, the user's interpretation of the recognized sentence is not

pas aisée, surtout lorsque la phrase à prononcer est longue.  not easy, especially when the sentence to be pronounced is long.

C'est pourquoi les systèmes d'apprentissage d'une langue étrangère connus ne permettent pas, en général, la  This is why the known foreign language learning systems do not, in general, allow the

prononciation de phrases longues. Ceci est regrettable.  pronunciation of long sentences. This is unfortunate.

Le but de l'invention est de permettre la détection et la localisation d'une erreur relative à un ou plusieurs mots déterminés d'une phrase reconnue par un dispositif de reconnaissance vocale, notamment en vue de permettre la prononciation de phrases relativement longues dans les  The object of the invention is to allow the detection and localization of an error relating to one or more specific words of a sentence recognized by a voice recognition device, in particular with a view to allowing the pronunciation of relatively long sentences in the

systèmes interactifs d'apprentissage d'une langue étrangère.  interactive foreign language learning systems.

Ce but est atteint, conformément à l'invention, grâce à un procédé de reconnaissance vocale, notamment pour système d'apprentissage interactif d'une langue étrangère, caractérisé en ce qu'il comporte les étapes suivantes: a) génération d'un vocabulaire de base E comprenant N mots différents, o N est un nombre entier; b) pour chaque mot déterminé Mi d'une phrase de référence ayant Q mots distincts, o Q est un nombre entier supérieur à l'unité, génération d'un vocabulaire spécifique EMi à partir du vocabulaire de base E, en retirant de celui-ci les Pi mots phonétiquement les plus proches dudit mot Mi, o Pi est un nombre entier qui est inférieur à N et qui peut être nul; c) génération d'un vocabulaire actif comprenant la phrase de référence et en outre d'autres phrases qui se distinguent de la phrase de référence par la valeur d'au moins un mot Mi de rang déterminé i dans la phrase, chacune de ces phrases étant une des alternatives de la phrase de référence comprenant, à la place dudit mot Mi, l'un des mots du vocabulaire spécifique associé à ce mot Mi; d) comparaison d'une phrase à reconnaître aux phrases du vocabulaire actif, pour reconnaître celle des phrases de ce vocabulaire qui est phonétiquement la plus proche de la phrase à reconnaître, et, le cas échéant, identification, en fonction de la phrase ainsi reconnue, du rang i d'un mot incorrect par  This object is achieved, in accordance with the invention, by means of a voice recognition method, in particular for an interactive foreign language learning system, characterized in that it comprises the following steps: a) generation of a vocabulary basic E comprising N different words, where N is an integer; b) for each determined word Mi of a reference sentence having Q distinct words, o Q is an integer greater than unity, generation of a specific vocabulary EMi from the basic vocabulary E, by removing from it ci the Pi words phonetically closest to said word Mi, where Pi is an integer which is less than N and which can be zero; c) generation of an active vocabulary comprising the reference sentence and in addition other sentences which are distinguished from the reference sentence by the value of at least one word Mi of determined rank i in the sentence, each of these sentences being one of the alternatives of the reference sentence comprising, in place of said word Mi, one of the words of the specific vocabulary associated with this word Mi; d) comparison of a sentence to be recognized with the sentences of the active vocabulary, to recognize that of the sentences of this vocabulary which is phonetically closest to the sentence to be recognized, and, where appropriate, identification, as a function of the sentence thus recognized , of rank i of an incorrect word by

rapport à la phrase de référence.  compared to the reference sentence.

Ainsi, il est possible de détecter et de localiser au moins une erreur, par rapport à une phrase de référence, relative à au moins un mot particulier dans la phrase prononcée par25 l'utilisateur (i.e., la phrase à reconnaître). Cette localisation résulte de l'identification du rang i du mot (ou des mots) incorrect(s) dans la phrase reconnue. Ainsi, dans le cas d'un système interactif d'apprentissage d'une langue étrangère, une éventuelle erreur de prononciation d'au moins un mot particulier dans la phrase peut être indiquée à l'utilisateur afin qu'il améliore sa prononciation de ce mot  Thus, it is possible to detect and locate at least one error, with respect to a reference sentence, relating to at least one particular word in the sentence spoken by the user (i.e., the sentence to be recognized). This localization results from the identification of the rank i of the incorrect word (or words) in the recognized sentence. Thus, in the case of an interactive system for learning a foreign language, a possible pronunciation error of at least one particular word in the sentence can be indicated to the user so that he improves his pronunciation of this language. word

plus particulièrement.more particularly.

De plus, en modifiant la valeur du rapport Pi/N, on peut modifier la tolérance du système d'apprentissage de la langue étrangère par rapport au mot Mi correspondant. Par tolérance, on entend la propriété du logiciel de ne pas tenir compte de faibles erreurs de prononciation, c'est à dire la propriété de considérer qu'une phrase à été correctement prononcée même si en fait elle ne l'a été que de manière imparfaite. Une certaine tolérance est considérée comme une qualité du système  In addition, by modifying the value of the Pi / N ratio, it is possible to modify the tolerance of the system for learning the foreign language with respect to the corresponding word Mi. By tolerance, we mean the property of the software not to take into account small pronunciation errors, that is to say the property of considering that a sentence has been correctly pronounced even if in fact it was only so imperfect. A certain tolerance is considered a quality of the system

d'apprentissage d'une langue étrangère.  learning a foreign language.

D'autres caractéristiques et avantages de l'invention  Other characteristics and advantages of the invention

apparaîtront encore à la lecture de la description détaillée  will still appear on reading the detailed description

qui va suivre.who will follow.

Dans la description qui suit, on considère l'exemple non  In the following description, we consider the example not

limitatif de l'application à un système d'apprentissage d'une langue étrangère. Un tel système comprend un logiciel qui est exécuté par un micro-ordinateur, sous la commande d'un utilisateur. Lors de l'utilisation, ce dernier prononce à haute voix des phrases qu'il faut reconnaître pour les  limiting the application to a foreign language learning system. Such a system includes software which is executed by a microcomputer, under the control of a user. During use, the latter pronounces aloud sentences that must be recognized for

comparer à des phrases de référence.  compare to reference sentences.

Une phrase prononcée par l'utilisateur est transformée en un signal électrique au moyen d'un microphone. Ce signal électrique est éventuellement amplifié. Puis il est transformé  A sentence spoken by the user is transformed into an electrical signal by means of a microphone. This electrical signal is possibly amplified. Then he is transformed

en données numériques au moyen d'un convertisseur analogique-  into digital data using an analog converter

numérique. Ces données sont traitées par un dispositif de reconnaissance vocale du micro-ordinateur. Un tel dispositif  digital. These data are processed by a voice recognition device of the microcomputer. Such a device

est par exemple un logiciel exécuté par le micro-ordinateur.  is for example software executed by the microcomputer.

On notera que, dans certaines applications, les données numériques correspondantes peuvent placées dans un fichier d'entrée du dispositif de reconnaissance vocale. En variante le dispositif de reconnaissance peut être un circuit  It will be noted that, in certain applications, the corresponding digital data may be placed in an input file of the voice recognition device. As a variant, the recognition device can be a circuit

électronique dédié à cette tâche.  dedicated to this task.

Une phrase de référence PhR comporte par exemple Q mots (o Q est un nombre entier supérieur à l'unité) et se présente sous la forme suivante (on fait abstraction de la ponctuation): PhR: M1 M2 M3... MQ-1 MQ Le procédé de reconnaissance vocale selon l'invention  A PhR reference sentence comprises for example Q words (where Q is an integer greater than one) and is presented in the following form (punctuation is disregarded): PhR: M1 M2 M3 ... MQ-1 MQ The voice recognition method according to the invention

comporte essentiellement quatre étapes principales.  basically has four main steps.

La première étape consiste à générer un vocabulaire de base E comprenant N mots différents, o N est un nombre entier. Un tel vocabulaire de base comprend des mots dans la langue étrangère concernée, qui sont sélectionnés afin d'avoir des longueurs et des sonorités les plus variées possibles. Dit autrement, les mots du vocabulaire de base E sont  The first step is to generate a basic vocabulary E comprising N different words, where N is an integer. Such a basic vocabulary includes words in the foreign language concerned, which are selected in order to have the most varied lengths and tones possible. In other words, the basic vocabulary words E are

préférentiellement phonétiquement variés.  preferably phonetically varied.

Une méthode de génération de ce vocabulaire de base consiste à sélectionner ces mots aléatoirement dans un dictionnaire de taille importante. Cette sélection peut être automatique, c'est à dire exécutée par un logiciel adapté, ou manuelle. Eventuellement, des mots phonétiquement trop proches d'autres mots du vocabulaire sont supprimés, de manière  One method of generating this basic vocabulary is to select these words randomly from a large dictionary. This selection can be automatic, ie executed by suitable software, or manual. Possibly, words phonetically too close to other words in the vocabulary are deleted, so

automatique ou manuelle.automatic or manual.

Le vocabulaire de base ne correspond donc pas forcément à un dictionnaire complet dans la langue étrangère. Mais on verra que plus N est grand, et meilleurs sont les résultats pour l'utilisateur, c'est à dire meilleur est la fiabilité du système d'apprentissage (un système d'apprentissage fiable est un système qui présente une tolérance homogène vis à vis d'erreurs de prononciation de même gravité). Cependant, plus N est grand, et plus la puissance de calcul nécessaire est importante. Un vocabulaire de base peut ainsi comporter quelques dizaines à quelques milliers de mots différents, selon la capacité de traitement du micro-ordinateur et selon  The basic vocabulary therefore does not necessarily correspond to a complete dictionary in the foreign language. But we will see that the larger N, the better the results for the user, i.e. the better the reliability of the learning system (a reliable learning system is a system which has a homogeneous tolerance towards screws of pronunciation errors of the same gravity). However, the larger N, the greater the computing power required. A basic vocabulary can thus include a few tens to a few thousand different words, depending on the processing capacity of the microcomputer and according to

la fiabilité attendue du système d'apprentissage.  the expected reliability of the learning system.

On notera qu'il n'y a pas de lien particulier entre les mots du vocabulaire de base ainsi généré et les mots contenus dans les phrases de références. Dit autrement, le vocabulaire de base dont il est ici question ne comprend pas forcément les mots des phrases de références. Mais cela peut être la cas si les règles de sélection des mots du vocabulaire de base ne  It will be noted that there is no particular link between the words of the basic vocabulary thus generated and the words contained in the reference sentences. In other words, the basic vocabulary in question here does not necessarily include the words of the reference sentences. But this may be the case if the rules for selecting words in the basic vocabulary do not

l'excluent pas.do not exclude it.

La seconde étape consiste, pour chaque mot déterminé Mi d'une phrase de référence ayant Q mots distincts (o Q est un nombre entier supérieur à l'unité), à générer un vocabulaire spécifique EMi à partir du vocabulaire de base E généré à la première étape. Ceci est réalisé en retirant de celui-ci les Pi mots phonétiquement les plus proches dudit mot déterminé Mi (o Pi est un nombre entier qui est inférieur à N et qui peut  The second step consists, for each determined word Mi of a reference sentence having Q distinct words (where Q is an integer greater than unity), to generate a specific vocabulary EMi from the basic vocabulary E generated at the first stage. This is achieved by removing from it the Pi words phonetically closest to said determined word Mi (o Pi is an integer which is less than N and which can

être nul).be zero).

En effet, le système est plus tolérant si le vocabulaire spécifique ne comporte pas de mots phonétiquement proches des mots des phrase de référence. On notera que, en modifiant la valeur du rapport Pi/N, on peut modifier la tolérance du système d'apprentissage de la langue étrangère par rapport au mot Mi correspondant. Plus précisément, pour une valeur de N donnée, le système est d'autant plus tolérant que Pi est grand.  Indeed, the system is more tolerant if the specific vocabulary does not include words phonetically close to the words of the reference sentences. It will be noted that, by modifying the value of the ratio Pi / N, it is possible to modify the tolerance of the system for learning the foreign language with respect to the corresponding word Mi. More precisely, for a given value of N, the system is all the more tolerant as Pi is large.

Néanmoins, cette deuxième étape n'est pas obligatoire.  However, this second step is not compulsory.

Notamment, dans les cas o le vocabulaire de base ne comprend aucun mot des phrases de référence, le nombre Pi peut être  In particular, in cases where the basic vocabulary does not include any word from the reference sentences, the number Pi can be

nul. Dans ce cas, le système est peu tolérant.  no. In this case, the system is not very tolerant.

En outre, dans un mode de réalisation simplifié, le nombre Pi de mots retirés du vocabulaire de base E pour former le vocabulaire spécifique EMi associé à un mot Mi de rang i de la phrase de référence est égal à un même nombre P pour chaque mot Mi de la phrase de référence. Dit autrement, Pi est égal à P quel que soit i. On parle alors de tolérance globale du  In addition, in a simplified embodiment, the number Pi of words removed from the basic vocabulary E to form the specific vocabulary EMi associated with a word Mi of rank i of the reference sentence is equal to the same number P for each word Mid of the reference sentence. In other words, Pi is equal to P whatever i. We then speak of global tolerance of

système d'apprentissage pour désigner le rapport P/N.  learning system to designate the P / N ratio.

Dans un mode de réalisation avantageux, le vocabulaire spécifique EMi est généré de manière itérative en utilisant les moyens de reconnaissance vocale du dispositif. A la première itération, le vocabulaire d'entrée est le vocabulaire de base E, et la phrase à reconnaître est constituée par le mot Mi correctement prononcé. Le dispositif fournit alors le mot du vocabulaire de base qui est phonétiquement le plus25 proche d'un mot particulier Mi. Il peut même s'agir du mot Mi lui-même si celui-ci était présent dans le vocabulaire de base E. Ce mot le plus proche est alors supprimé du vocabulaire d'entrée et on répète les étapes ci-dessus Pi fois avec, à chaque itération, le vocabulaire d'entrée réduit de un mot. A la fin, le vocabulaire d'entrée obtenu constitue le vocabulaire spécifique EMi. Il est enregistré dans un fichier de vocabulaires spécifiques. Une troisième étape du procédé consiste à générer un vocabulaire actif comprenant la phrase de référence et, en outre, d'autres phrases. Ces dernières se distinguent de la phrase de référence par la valeur d'au moins un mot Mi de rang déterminé i dans la phrase. Chacune de ces phrases est une des alternatives de la phrase de référence comprenant, à la place du mot Mi l'un des mots du vocabulaire spécifique associé à ce mot Mi. Les indications ci-dessous sont données dans le cas simple o Pi=P quel que soit i. Elles se généralisent aisément dans les autres cas. Dans un premier mode de réalisation, le vocabulaire actif généré à la troisième étape est d'un premier type comme étant constitué par la phrase de référence et par toutes les phrases obtenues à partir de la phrase de référence en remplaçant tour à tour chaque mot Mi, successivement par les N-Pi mots du  In an advantageous embodiment, the specific vocabulary EMi is generated iteratively using the voice recognition means of the device. At the first iteration, the input vocabulary is the basic vocabulary E, and the sentence to be recognized consists of the word Mi correctly pronounced. The device then provides the basic vocabulary word which is phonetically closest to a particular word Mi. It may even be the word Mi itself if it was present in basic vocabulary E. This word the nearest one is then deleted from the input vocabulary and the above steps are repeated Pi times with, at each iteration, the input vocabulary reduced by one word. At the end, the input vocabulary obtained constitutes the specific EMi vocabulary. It is saved in a specific vocabulary file. A third step of the method consists in generating an active vocabulary comprising the reference sentence and, in addition, other sentences. The latter are distinguished from the reference sentence by the value of at least one word Mi of determined rank i in the sentence. Each of these sentences is one of the alternatives of the reference sentence comprising, in place of the word Mi one of the words of the specific vocabulary associated with this word Mi. The indications below are given in the simple case o Pi = P whatever i. They are easily generalized in other cases. In a first embodiment, the active vocabulary generated in the third step is of a first type as consisting of the reference sentence and by all the sentences obtained from the reference sentence by replacing each word Mi in turn. , successively by the N-Pi words of

vocabulaire spécifique EMi associé à ce mot Mi.  specific EMi vocabulary associated with this word Mi.

Dans ce cas, en notant EMi(j) les mots du vocabulaire spécifique EMi (o j est un indice compris entre 1 et N-Pi), les phrases du vocabulaire actif sont du type: Ph1(i,j): M1 M2... Mi-1 EMi(j) Mi+,... MQ_1 MQ avec i variant de 1 variant de 1 à Q et j variant de 1 à N-Pi On pourra vérifier que le vocabulaire actif comporte alors  In this case, by noting EMi (j) the words of the specific vocabulary EMi (oj is an index between 1 and N-Pi), the sentences of the active vocabulary are of the type: Ph1 (i, j): M1 M2 .. Mi-1 EMi (j) Mi +, ... MQ_1 MQ with i varying from 1 varying from 1 to Q and j varying from 1 to N-Pi We can verify that the active vocabulary then comprises

l+(N-P)xQ phrases distinctes.l + (N-P) xQ separate sentences.

Dans un second mode de réalisation, le vocabulaire actif généré à la troisième étape est d'un second type comme étant constitué par toutes les combinaisons distinctes possibles de Q mots, chaque mot de rang déterminé i pouvant être soit le mot Mi correspondant dans la phrase de référence soit l'un quelconque des mots du vocabulaire spécifique EMi associé à ce  In a second embodiment, the active vocabulary generated in the third step is of a second type as consisting of all the possible distinct combinations of Q words, each word of determined rank i can be either the corresponding word Mi in the sentence of reference is any of the words of the specific EMi vocabulary associated with this

mot Mi.word Mi.

Dans ce cas, en notant EMi(j) les mots du vocabulaire spécifique EMi (o j est un indice compris entre 1 et N-Pi), et en notant EMi(0) le mot Mi, les phrases du vocabulaire actif sont du type: Ph2(il,...,iQ): EMi(il) EM2(i2)...EMj(ij)...EMQ(iQ) avec il,--..-,iQ variant de 0 à N-P On pourra vérifier que le vocabulaire actif comporte alors  In this case, by noting EMi (j) the words of the specific vocabulary EMi (oj is an index between 1 and N-Pi), and by noting EMi (0) the word Mi, the sentences of the active vocabulary are of the type: Ph2 (il, ..., iQ): EMi (il) EM2 (i2) ... EMj (ij) ... EMQ (iQ) with it, --..-, iQ varying from 0 to NP We can check that the active vocabulary then has

(l+N-P)Q phrases distinctes.(l + N-P) Q separate sentences.

Le premier mode de réalisation ci-dessus permet la détection d'une erreur relative à un seul mot à la fois dans la phrase. Dit autrement, le procédé ne permet alors de détecter des erreurs de prononciation que sur un seul mot par phrase à la fois. Ceci est suffisant dans les cas de phrases simples. Le deuxième mode de réalisation est le plus performant car il permet de détecter des erreurs simultanément sur chacun des mots de la phrase. Néanmoins il nécessite une puissance de calcul très importante et un dispositif de reconnaissance vocale très performant. Des modes de réalisation intermédiaires sont bien entendu envisageables, afin de pouvoir détecter des erreurs simultanément sur un  The first embodiment above allows the detection of an error relating to only one word at a time in the sentence. In other words, the method then only allows errors of pronunciation to be detected on one word per sentence at a time. This is sufficient in the case of simple sentences. The second embodiment is the most efficient since it allows errors to be detected simultaneously on each of the words in the sentence. However, it requires very large computing power and a very efficient voice recognition device. Intermediate embodiments are of course conceivable, in order to be able to detect errors simultaneously on a

nombre quelconque de mots de la phrase.  any number of words in the sentence.

Le vocabulaire actif est stocké dans une mémoire du micro-  The active vocabulary is stored in a memory of the micro-

ordinateur sous la forme d'un fichier indexé par les 2-uplets correspondant aux indices i et j (pour un vocabulaire du premier type) ou par les Q-uplets correspondant aux indices  computer in the form of a file indexed by the 2-tuples corresponding to the indices i and j (for a vocabulary of the first type) or by the Q-tuples corresponding to the indices

i1...,iQ (pour un vocabulaire du second type).  i1 ..., iQ (for a vocabulary of the second type).

Le procédé comporte enfin une quatrième et dernière étape consistant à comparer une phrase à reconnaître aux phrases du vocabulaire actif généré à la troisième étape ci-dessus, pour reconnaître celle des phrases de ce vocabulaire qui est phonétiquement la plus proche de la phrase à reconnaître, et, la cas échéant, identifier en fonction de la phrase ainsi reconnue, le rang i d'un mot incorrect par rapport à la phrase de référence. Dans l'application envisagée, cette étape permet l'identification du rang i auquel se situe une erreur de prononciation d'un mot. Et cette identification est réalisée en fonction de la phrase reconnue par le dispositif de reconnaissance vocale. En effet, il n'y a que deux cas  The method finally comprises a fourth and final step consisting in comparing a sentence to be recognized with the sentences of the active vocabulary generated in the third step above, in order to recognize that of the sentences in this vocabulary which is phonetically closest to the sentence to be recognized, and, where appropriate, identify according to the sentence thus recognized, the rank i of an incorrect word with respect to the reference sentence. In the application envisaged, this step makes it possible to identify the rank i at which there is an error in pronunciation of a word. And this identification is carried out according to the sentence recognized by the voice recognition device. Indeed, there are only two cases

distincts, en fonction de la phrase reconnue.  distinct, depending on the recognized phrase.

- soit la phrase reconnue est la phrase de référence, et alors cela signifie qu'il n'y a aucune erreur de prononciation dans la phrase; - soit la phrase reconnue est une autre phrase du vocabulaire actif. Si le vocabulaire actif est du premier type (premier mode de réalisation), et si la phrase reconnue est la phrase Ph1(i,j), alors cela signifie qu'il y a une erreur sur le mot Mi (i.e., que le mot Mi est incorrect parce qu'il a été mal prononcé). Si le vocabulaire actif est du second type (second mode de réalisation), et si la phrase reconnue est la phrase Ph2(il,...,iQ), alors cela signifie qu'il y a une erreur sur chacun des mots Mi1 à MiQ correspondant à ceux des  - either the recognized sentence is the reference sentence, and then this means that there is no pronunciation error in the sentence; - either the recognized sentence is another sentence of the active vocabulary. If the active vocabulary is of the first type (first embodiment), and if the recognized sentence is the sentence Ph1 (i, j), then this means that there is an error on the word Mi (ie, that the word Mi is incorrect because it was mispronounced). If the active vocabulary is of the second type (second embodiment), and if the recognized sentence is the sentence Ph2 (il, ..., iQ), then this means that there is an error on each of the words Mi1 to MiQ corresponding to those of

indices i1...., iQ qui ne sont pas égaux à zéro.  indices i1 ...., iQ which are not equal to zero.

Connaissant le phrase reconnue, il est en effet aisé de retrouver ces indices par comparaison avec le fichier  Knowing the recognized sentence, it is indeed easy to find these indices by comparison with the file

contenant le vocabulaire actif.containing the active vocabulary.

Dans la plupart des cas, les phrases de références sont connues à l'avance par le système d'apprentissage de la langue étrangère (elles résultent de la conception du logiciel). Dans ce cas, les première, deuxième et troisièmes étapes peuvent être effectuées à l'avance pour chaque phrase de référence (par exemple lors de la conception du logiciel, ou bien lors de son installation dans le micro-ordinateur, ou encore au début de chaque exécution du logiciel). Le ou les vocabulaires actifs correspondant sont stockés dans une mémoire, par exemple avec le logiciel lui-même (cette mémoire peut être constituée par tout support de données approprié tel qu'un disque optique numérique). Seule la quatrième étape est ensuite effectuée lors de l'exécution du logiciel. Elle est répétée plusieurs fois, une fois pour une chaque phrase à reconnaître (c'est à dire normalement pour chaque exercice de prononciation). Comme on l'a dit plus haut, on peut modifier la tolérance globale du système d'apprentissage en modifiant le rapport P/N. Pour un système particulièrement tolérant adapté aux débutants, le rapport P/N peut atteindre 10% à 30%. Pour un système d'apprentissage de haut niveau, permettant de détecter des erreurs de prononciation subtiles, la tolérance est faible. Le rapport P/N est alors inférieur à 1%. Le fait d'avoir un rapport Pi/N éventuellement différent pour chaque mot permet de focaliser la détection d'erreurs de prononciation de certains mots seulement, en permettant une tolérance plus grande sur les autres mots de la phrase. Mais le fait que Pi=P quel que soit i simplifie la mise en oeuvre  In most cases, the reference sentences are known in advance by the foreign language learning system (they result from the software design). In this case, the first, second and third steps can be carried out in advance for each reference sentence (for example when designing the software, or when installing it in the microcomputer, or even at the start of each time the software is run). The corresponding active vocabulary or vocabularies are stored in a memory, for example with the software itself (this memory can be constituted by any suitable data medium such as a digital optical disc). Only the fourth step is then carried out during the execution of the software. It is repeated several times, once for each sentence to be recognized (ie normally for each pronunciation exercise). As mentioned above, the overall tolerance of the learning system can be modified by modifying the P / N ratio. For a particularly tolerant system suitable for beginners, the P / N ratio can reach 10% to 30%. For a high-level learning system that can detect subtle pronunciation errors, the tolerance is low. The P / N ratio is then less than 1%. The fact of having a possibly different Pi / N ratio for each word makes it possible to focus the detection of pronunciation errors of certain words only, by allowing greater tolerance on the other words of the sentence. But the fact that Pi = P whatever i simplifies the implementation

du procédé.of the process.

L'invention propose aussi un dispositif de reconnaissance vocale, notamment pour un système d'apprentissage d'une langue étrangère, qui comporte des moyens pour identifier le rang d'un mot incorrect, par rapport à une phrase de référence, dans une phrase à reconnaître. Ceci permet, dans l'application envisagée, de détecter et localiser une erreur de  The invention also provides a voice recognition device, in particular for a system for learning a foreign language, which comprises means for identifying the rank of an incorrect word, with respect to a reference sentence, in a sentence to recognize. This allows, in the envisaged application, to detect and locate an error of

prononciation dans une phrase prononcée par l'utilisateur.  pronunciation in a sentence spoken by the user.

Le dispositif de reconnaissance vocale comprend des moyens pour comparer la phrase à reconnaître aux phrases d'un vocabulaire déterminé, pour reconnaître celle des phrases de ce vocabulaire qui est phonétiquement la plus proche de la phrase à reconnaître, et pour en déduire, le cas échéant, le rang du mot incorrect dans cette phrase. Dans ce cas, le dispositif peut mettre en oeuvre un procédé de reconnaissance vocale tel que décrit ci-dessus. De façon avantageuse, le vocabulaire spécifique EMi est généré de manière itérative en  The voice recognition device comprises means for comparing the sentence to be recognized with the sentences of a determined vocabulary, for recognizing that of the sentences in this vocabulary which is phonetically closest to the sentence to be recognized, and for deducing therefrom, if necessary , the rank of the incorrect word in this sentence. In this case, the device can implement a voice recognition method as described above. Advantageously, the specific vocabulary EMi is generated iteratively in

utilisant les moyens de reconnaissance vocale du dispositif.  using the voice recognition means of the device.

L'invention propose également un système interactif d'apprentissage d'une langue étrangère qui comprend un tel dispositif. Dans un exemple, ce système comprend également, en plus du dispositif de reconnaissance vocale, l'un ou plusieurs des éléments suivants: un micro- ordinateur, un logiciel pour le faire fonctionner, un microphone, un écran, un clavier, une souris, des haut-parleurs, un dispositif de synthèse vocale,  The invention also provides an interactive system for learning a foreign language which includes such a device. In one example, this system also comprises, in addition to the voice recognition device, one or more of the following elements: a microcomputer, software for operating it, a microphone, a screen, a keyboard, a mouse, speakers, a text-to-speech device,

etc...etc ...

Claims (12)

REVENDICATIONS 1. Procédé de reconnaissance vocale, notamment pour système d'apprentissage interactif d'une langue étrangère, caractérisé en ce qu'il comporte les étapes suivantes: a) génération d'un vocabulaire de base E comprenant N mots différents, o N est un nombre entier; b) pour chaque mot déterminé Mi d'une phrase de référence ayant Q mots distincts, o Q est un nombre entier supérieur à l'unité, génération d'un vocabulaire spécifique EMi à partir du vocabulaire de base E, en retirant de celui-ci les Pi mots phonétiquement les plus proches dudit mot Mi, o Pi est un nombre entier qui est inférieur à N et qui peut être nul; c) génération d'un vocabulaire actif comprenant la phrase de référence et en outre d'autres phrases qui se distinguent de la phrase de référence par la valeur d'au moins un mot Mi de rang déterminé i dans la phrase, chacune de ces phrases étant une des alternatives de la phrase de référence comprenant, à la place dudit mot Mi, l'un des mots du vocabulaire spécifique associé à ce mot Mi; d) comparaison d'une phrase à reconnaître aux phrases du vocabulaire actif, pour reconnaître celle des phrases de ce vocabulaire qui est phonétiquement la plus proche de la phrase à reconnaître, et, la cas échéant, identification en fonction de la phrase ainsi reconnue, du rang i d'un mot incorrect par  1. A method of voice recognition, in particular for an interactive learning system of a foreign language, characterized in that it comprises the following stages: a) generation of a basic vocabulary E comprising N different words, o N is a whole number; b) for each determined word Mi of a reference sentence having Q distinct words, o Q is an integer greater than unity, generation of a specific vocabulary EMi from the basic vocabulary E, by removing from it ci the Pi words phonetically closest to said word Mi, where Pi is an integer which is less than N and which can be zero; c) generation of an active vocabulary comprising the reference sentence and in addition other sentences which are distinguished from the reference sentence by the value of at least one word Mi of determined rank i in the sentence, each of these sentences being one of the alternatives of the reference sentence comprising, in place of said word Mi, one of the words of the specific vocabulary associated with this word Mi; d) comparison of a sentence to be recognized with the sentences of the active vocabulary, to recognize that of the sentences of this vocabulary which is phonetically closest to the sentence to be recognized, and, where appropriate, identification as a function of the sentence thus recognized, of rank i of an incorrect word by rapport à la phrase de référence.  compared to the reference sentence. 2. Procédé selon la revendication 1, caractérisé en ce que le vocabulaire actif généré à l'étape c) est d'un premier type comme étant constitué par la phrase de référence et toutes les phrases obtenues à partir de la phrase de référence en  2. Method according to claim 1, characterized in that the active vocabulary generated in step c) is of a first type as consisting of the reference sentence and all the sentences obtained from the reference sentence in remplaçant tour à tour chaque mot Mi, successivement par les N-Pi mots du vocabulaire spécifique associé à ce mot Mi.  alternately replacing each word Mi, successively with the N-Pi words from the specific vocabulary associated with this word Mi. 3. Procédé selon la revendication 1, caractérisé en ce que le vocabulaire actif généré à l'étape c) est d'un second type comme étant constitué par toutes les combinaisons distinctes possibles de Q mots, chaque mot de rang déterminé i pouvant être soit le mot Mi correspondant dans la phrase de référence soit l'un quelconque des mots du vocabulaire  3. Method according to claim 1, characterized in that the active vocabulary generated in step c) is of a second type as consisting of all the possible distinct combinations of Q words, each word of determined rank i being either the corresponding Mi word in the reference sentence is any of the vocabulary words spécifique associé à ce mot Mi.specific associated with this word Mi. 4. Procédé selon l'une des revendications 1 à 3,  4. Method according to one of claims 1 to 3, caractérisé en ce que les étapes a) à c) sont effectuées à l'avance pour au moins une phrase de référence, et en ce que l'étape d) est ensuite répétée pour plusieurs phrases à  characterized in that steps a) to c) are performed in advance for at least one reference sentence, and in that step d) is then repeated for several sentences to reconnaître.recognize. 5. Procédé selon l'une des revendications 1 à 4,  5. Method according to one of claims 1 to 4, caractérisé en ce que le nombre Pi de mots retirés du vocabulaire de base E pour former le vocabulaire spécifique EMi associé au mot Mi de rang i de la phrase de référence est égal à un même nombre P pour chaque mot Mi de la phrase de référence.  characterized in that the number Pi of words removed from the basic vocabulary E to form the specific vocabulary EMi associated with the word Mi of rank i of the reference sentence is equal to the same number P for each word Mi of the reference sentence. 6. Procédé selon la revendication 5, caractérisé en ce que6. Method according to claim 5, characterized in that le rapport P/N peut atteindre 10% à 30%.  the P / N ratio can reach 10% to 30%. 7. Procédé selon la revendication 5, caractérisé en ce que  7. Method according to claim 5, characterized in that le rapport P/N est inférieur à 1%.  the P / N ratio is less than 1%. 8. Dispositif de reconnaissance vocale, notamment pour un système d'apprentissage d'une langue étrangère, caractérisé en ce qu'il comporte des moyens pour identifier le rang d'un mot incorrect, par rapport à une phrase de référence, dans une  8. Voice recognition device, in particular for a system for learning a foreign language, characterized in that it includes means for identifying the rank of an incorrect word, with respect to a reference sentence, in a phrase à reconnaître.sentence to recognize. 9. Dispositif selon la revendication 8, caractérisé en ce qu'il comporte des moyens pour comparer la phrase à reconnaître aux phrases d'un vocabulaire déterminé, pour reconnaître celle des phrases de ce vocabulaire qui est phonétiquement la plus proche de la phrase à reconnaître, et pour en déduire, le cas échéant, le rang du mot incorrect dans  9. Device according to claim 8, characterized in that it comprises means for comparing the sentence to be recognized with the sentences of a determined vocabulary, to recognize that of the sentences of this vocabulary which is phonetically closest to the sentence to be recognized , and to deduce, if necessary, the rank of the incorrect word in cette phrase.this sentence. 10. Dispositif selon la revendication 9 caractérisé en ce  10. Device according to claim 9 characterized in that qu'il met en oeuvre un procédé selon l'une des revendications  that it implements a method according to one of claims 1 à 7.1 to 7. 11. Dispositif selon la revendication 10, caractérisé en ce que le vocabulaire spécifique EMi est généré de manière itérative en utilisant les moyens de reconnaissance vocale du dispositif.  11. Device according to claim 10, characterized in that the specific vocabulary EMi is generated iteratively using the voice recognition means of the device. 12. Système interactif d'apprentissage d'une langue étrangère caractérisé en ce qu'il comprend un dispositif selon12. Interactive system for learning a foreign language, characterized in that it includes a device according to l'une des revendications 8 à 11.one of claims 8 to 11.
FR9902771A 1999-03-05 1999-03-05 VOICE RECOGNITION METHOD AND DEVICE Expired - Lifetime FR2790586B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
FR9902771A FR2790586B1 (en) 1999-03-05 1999-03-05 VOICE RECOGNITION METHOD AND DEVICE
DE2000110232 DE10010232B4 (en) 1999-03-05 2000-03-02 Method and device for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9902771A FR2790586B1 (en) 1999-03-05 1999-03-05 VOICE RECOGNITION METHOD AND DEVICE

Publications (2)

Publication Number Publication Date
FR2790586A1 true FR2790586A1 (en) 2000-09-08
FR2790586B1 FR2790586B1 (en) 2001-05-18

Family

ID=9542878

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9902771A Expired - Lifetime FR2790586B1 (en) 1999-03-05 1999-03-05 VOICE RECOGNITION METHOD AND DEVICE

Country Status (2)

Country Link
DE (1) DE10010232B4 (en)
FR (1) FR2790586B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206274A (en) * 2015-10-30 2015-12-30 北京奇艺世纪科技有限公司 Voice recognition post-processing method and device as well as voice recognition system

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7752045B2 (en) 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements
AT414283B (en) * 2003-12-16 2006-11-15 Siemens Ag Oesterreich METHOD FOR OPTIMIZING LANGUAGE RECOGNITION PROCESSES

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5766015A (en) * 1996-07-11 1998-06-16 Digispeech (Israel) Ltd. Apparatus for interactive language training

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3786822T2 (en) * 1986-04-25 1994-01-13 Texas Instruments Inc Speech recognition system.

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5766015A (en) * 1996-07-11 1998-06-16 Digispeech (Israel) Ltd. Apparatus for interactive language training

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"READING TUTOR USING AN AUTOMATIC SPEECH RECOGNITION", IBM TECHNICAL DISCLOSURE BULLETIN,US,IBM CORP. NEW YORK, vol. 36, no. 8, pages 287-289, XP000390225, ISSN: 0018-8689 *
MOSTOW J ET AL: "TOWARDS A READING COACH TAHT LISTENS: AUTOMATED DETECTION OF ORAL READING ERRORS", PROCEEDINGS AAAI, NATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE, XP000770077 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105206274A (en) * 2015-10-30 2015-12-30 北京奇艺世纪科技有限公司 Voice recognition post-processing method and device as well as voice recognition system

Also Published As

Publication number Publication date
FR2790586B1 (en) 2001-05-18
DE10010232B4 (en) 2004-08-05
DE10010232A1 (en) 2000-10-26

Similar Documents

Publication Publication Date Title
US11238845B2 (en) Multi-dialect and multilingual speech recognition
US11164566B2 (en) Dialect-specific acoustic language modeling and speech recognition
EP1362343B1 (en) Method, module, device and server for voice recognition
US9697201B2 (en) Adapting machine translation data using damaging channel model
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
US10140976B2 (en) Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
FR2911201A1 (en) Written text editing method for correcting spelling error, involves calculating difference between apparition frequency of one n-gram in text and in language using n-gram by n-gram technique
FR2982388A1 (en) SYSTEM AND METHOD FOR PRODUCTIVE GENERATION OF COMPOUND WORDS IN AUTOMATIC STATISTIC TRANSLATION
EP1836651A1 (en) Method for searching, recognizing and locating a term in ink, and a corresponding device, program and language
EP1769489A1 (en) Voice recognition method and system adapted to non-native speakers' characteristics
EP1585110A1 (en) System for speech controlled applications
CN110335608B (en) Voiceprint verification method, voiceprint verification device, voiceprint verification equipment and storage medium
US20150242386A1 (en) Using language models to correct morphological errors in text
Skantze Galatea: A discourse modeller supporting concept-level error handling in spoken dialogue systems
Coats Double modals in contemporary British and Irish speech
FR3017474A1 (en) ASSISTED SEIZURE OF RULES IN A KNOWLEDGE BASIS
FR2738382A1 (en) VOICE DIALOGUE SYSTEM FOR AUTOMATED INFORMATION PROVIDING
FR2790586A1 (en) Foreign language pronunciation interactive speech recognition learning method having computer data base vocabulary and similar/different phonetic parts recognition/vocabulary list comparison.
WO2016116459A1 (en) Lemmatisation method, and corresponding device and program
WO2006042943A1 (en) Voice recognition method comprising a temporal marker insertion step and corresponding system
WO2020110744A1 (en) Information processing device, information processing method, and program
EP1981020A1 (en) Method and system for automatic speech recognition adapted for detecting utterances out of context
EP1741092B1 (en) Voice recognition based on the contextual modelling of voice units
CA2654961C (en) Corrector, computer program and method for semantic, syntax and lexical correction of an erroneous expression in a numeric text
US20230133027A1 (en) Method and apparatus for intent-guided automated speech recognition

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 18

PLFP Fee payment

Year of fee payment: 19

PLFP Fee payment

Year of fee payment: 20