EP1490862A1 - Procede de reconnaissance de la parole - Google Patents

Procede de reconnaissance de la parole

Info

Publication number
EP1490862A1
EP1490862A1 EP03722681A EP03722681A EP1490862A1 EP 1490862 A1 EP1490862 A1 EP 1490862A1 EP 03722681 A EP03722681 A EP 03722681A EP 03722681 A EP03722681 A EP 03722681A EP 1490862 A1 EP1490862 A1 EP 1490862A1
Authority
EP
European Patent Office
Prior art keywords
lexical
sub
model
entities
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP03722681A
Other languages
German (de)
English (en)
Inventor
Alexandre Ferrieux
Lionel Delphin-Poulat
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1490862A1 publication Critical patent/EP1490862A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to a method of translating input data into at least one lexical output sequence, including a step of decoding the input data during which lexical entities of which said data are representative are identified by means of at least one model.
  • Such methods are commonly used in speech recognition applications, where at least one model is implemented to recognize acoustic symbols present in the input data, a symbol being able to be constituted for example by a set of parameter vectors a continuous acoustic space, or by a label awarded to a sub-lexical entity.
  • the qualifier "lexical” will apply to a sentence considered as a whole, as a series of words, and the sub-lexical entities will then be words, while in other applications, the qualifier "lexical "will apply to a word, and the sub-lexical entities will then be phonemes or syllables capable of forming such words, if these are of literal nature, or numbers, if words are of numeric nature, that is, numbers.
  • a first approach for operating speech recognition consists in using a particular type of model which has a regular topology and is intended to learn all of the pronunciation variants of each lexical entity, i.e. for example a word, included. in the model.
  • the parameters of a set of acoustic vectors specific to each input symbol corresponding to an unknown word must be compared to sets of acoustic parameters each corresponding to one of the very many symbols contained in the model, to identify a modeled symbol to which the input symbol most likely corresponds.
  • Such an approach guarantees in theory a high recognition rate if the model used is well designed, that is to say quasi-exhaustive, but such quasi-exhaustiveness can only be obtained at the cost of a long process of learning the model, which must assimilate a huge amount of data representative of all the pronunciation variants of each of the words included in this model.
  • a second approach has been designed with the aim of reducing the learning time necessary for speech recognition applications, a reduction which is essential for translation applications on very large vocabularies which can contain several hundreds of thousands of words, which second approach consists in operating a factorization of the lexical entities by considering them as assemblies of sub-lexical entities, in generating a sub-lexical model modeling said sub-lexical entities in order to allow their identification in the input data, and a model of articulation modeling different possible combinations of these sub-lexical entities.
  • a new dynamic model forming the articulation model is formed from each sub-lexical entity newly identified in the input data, which model dynamic reports all the assemblies made possible starting from the sub-lexical entity considered, and determines a likelihood value for each possible assembly.
  • the articulation model is of a bi-gram type, that is to say that it accounts for the possibilities of assembling two successive words and the probabilities of existence of such assemblies, each word retained at the outcome of the identification sub-step must be studied, with reference to the articulation model, with all the other words retained that may have preceded the word considered. If P words have been selected at the end of the identification sub-step, P pairs of words must be constructed for each word to be identified, with P values of probability of existence, each associated with a possible couple.
  • the articulation model should include, for each word to identify, P times P triplets of words with as many probability of existence values.
  • the articulation models implemented in the second approach therefore have a simple structure, but represent a considerable volume of data to memorize, update and consult. It is easy to see that the creation and use of such models gives rise to memory accesses, the management of which is made complex by the volume of data to be processed, and by the distribution of said data.
  • each word can itself be considered with respect to syllables or phonemes which compose it as a lexical entity of a level lower than that of a sentence, lexical entity for the modeling of which it is also necessary use an N-gram type articulation model with several dozen possible lexical entities in the case of phonemes. It is clear that the multiple duplications of the sub-lexical models used by the articulation models in the known implementations of the second approach prohibit the use of the latter in speech recognition applications within the framework of speech applications.
  • the object of the invention is to remedy this drawback to a large extent, by proposing a translation method which does not require multiple duplications of sub-lexical models to validate assemblies of sub-lexical entities, and thus simplifies the implementation of said translation process, and in particular the management of memory accesses useful for this process.
  • a translation method in accordance with the introductory paragraph including a decoding step during which sub-lexical entities whose input data are representative are identified by means of a first model constructed on the basis of entities predetermined sub-lexicals, and during which are generated, as the sub-lexical entities are identified and with reference to at least a second model constructed on the basis of lexical entities, various possible combinations of said entities under -lexical, is characterized according to the invention in that the decoding step includes a sub-step of memorizing a plurality of possible combinations of said sub-lexical entities, the most likely combination being intended to form the lexical sequence of exit.
  • the storage of a combination is subject to validation carried out with reference to at least the second model.
  • This embodiment makes it possible to carry out in a simple manner a filtering of the assemblies which seem unlikely in light of the second model. Only the most plausible assemblies will be retained and memorized, the other assemblies not being memorized and therefore not subsequently taken into consideration.
  • the validation of memorization could be carried out with reference to several models of equivalent and / or different levels, a level reflecting the sub-lexical, lexical or even grammatical nature of a model.
  • a validation of memorization of a combination is accompanied by an allocation to the combination to be memorized with a probability value representative of the likelihood of said combination.
  • This embodiment makes it possible to modulate the binary nature of the filtering effected by the validation or the absence of validation of the memorization of a combination, by assigning a quantitative appreciation to each memorized combination. This will allow a better appreciation of the plausibility of the various combinations which will have been memorized, and therefore a better quality translation of the input data.
  • the decoding step implements a Niterbi algorithm applied to a first Markov model consisting of sub-lexical entities, under dynamic control of a second Markov model representative of possible combinations of sub-lexical entities.
  • This embodiment is advantageous in that it uses proven means which are individually known to those skilled in the art, the dynamic control obtained thanks to the second Markov model making it possible to validate the assemblies of sub-lexical entities as and when measure that said entities are identified by means of the Niterbi algorithm, which avoids having to build after identification of each sub-lexical entity a new dynamic model incorporating all the possible sub-lexical entities similar to those used in the implementations known from the second approach mentioned above.
  • FIG. .l is a functional diagram describing an acoustic recognition system in which a method according to the invention is implemented
  • Fig.2 is a block diagram describing a decoder for performing a first decoding step in this particular embodiment of the invention
  • Fig.3 is a block diagram describing a decoder for performing a second step decoding according to the method according to the invention.
  • Fig.l schematically represents an acoustic recognition system SYST according to a particular embodiment of the invention, intended to translate an acoustic input signal ASin into a lexical output sequence OUTSQ.
  • the input signal ASin consists of an analog electronic signal, which may for example come from a microphone not shown in the figure.
  • the system SYST includes an input stage FE, containing an analog / digital conversion device ADC, intended to supply a digital signal ASin (l: n), formed of samples ASin (l) , ASin (2) ...
  • the SYST system also includes a first decoder DEC1, intended to provide a selection Intl, Int2 ... IntK of possible interpretations of the sequence of acoustic vectors AVin with reference to a model MD1 constructed on the basis of sub-lexical entities predetermined.
  • the SYST system also includes a second decoder DEC2 in which a translation method in accordance with the invention is implemented with a view to analyzing input data constituted by the acoustic vectors AVin with reference to a first model built on the base of predetermined sub-lexical entities, for example the MDl model, and with reference to at least one second model MD2 constructed on the basis of lexical entities representative of the interpretations Intl, Int2 ...
  • FIG.2 shows in more detail the first decoder DEC1, which includes a first Viterbi VMl machine, intended to execute a first sub-step of decoding the sequence of acoustic vectors AVin representative of the input acoustic signal and previously generated by the input stage FE, which sequence will also advantageously be stored in a storage unit MEM1 for reasons which will appear in the following description.
  • the first decoding sub-step is carried out with reference to a Markov MDl 1 model allowing in loop all the sub-lexical entities, preferably all the phonemes of the language into which the acoustic input signal must be translated if the it is considered that the lexical entities are words, the sub-lexical entities being represented in the form of predetermined acoustic vectors.
  • the first Viterbi VMl machine is capable of restoring a sequence of Phsq phonemes which constitutes the closest phonetic translation of the sequence of AVin acoustic vectors.
  • the subsequent processing carried out by the first decoder DEC1 will thus be done at the phonetic level, and no longer at the vector level, which considerably reduces the complexity of said processing, each vector being a multidimensional entity having r components, while a phoneme can in principle be identified by a unique one-dimensional label, such as for example an "OR" label assigned to an oral vowel "u”, or a "CH” label assigned to a non-voiced frictional consonant "J".
  • the sequence of Phsq phonemes generated by the first Viterbi VMl machine thus consists of a succession of labels that are more easily manipulated than would be the acoustic vectors.
  • the first DECl decoder includes a second Viterbi VM2 machine intended to execute a second sub-step of decoding the sequence of Phsq phonemes generated by the first Viterbi VM1 machine.
  • This second decoding step is performed with reference to a Markov MDl 2 model made up of sub-lexical transcriptions of lexical entities, that is to say in this example of phonetic transcriptions of words present in the vocabulary of the language in which the input acoustic signal must be translated.
  • the second Viterbi machine is intended to interpret the sequence of Phsq phonemes, which is highly noisy because the MD11 model used by the first Viterbi VMl machine is very simple, and implements predictions and comparisons between sequences of phoneme labels contained in the sequence of phonemes Phsq and various possible combinations of phoneme labels provided for in the Markov MDl 2 model. Although a Viterbi machine usually returns only that of the sequences which has the greatest probability , the second machine of Viterbi VM2 implemented here will advantageously restore all the sequences of phonemes lsql, lsq2 ... 1sqN that said second machine VM2 will have been able to reconstruct, with associated probability values pi, p2 ...
  • the first and second machines of Viterbi VMl and VM2 can operate in parallel, the first machine of Viterbi VMl then gradually generates phoneme labels which will be immediately taken into account by the second machine of Viterbi VM2, which allows reduce the total delay perceived by a user of the system necessary for the combination of the first and second decoding sub-steps by authorizing the implementation of all the computing resources necessary for the operation of the first DECl decoder as soon as the vectors Acoustic AVins representative of the input acoustic signal appear, and not after they have been fully translated into a complete sequence of Phsq phonemes by the first Viterbi VMl machine.
  • Fig.3 shows in more detail a second decoder DEC2 in accordance with a particular embodiment of the invention.
  • This second decoder DEC2 includes a third Viterbi machine VM3 intended for analyzing the sequence of acoustic vectors AVin representative of the input acoustic signal previously stored in the storage unit MEM1.
  • the third Viterbi VM3 machine is intended to execute an identification sub-step during which the sub-lexical entities whose acoustic vectors AVin are representative are identified by means of a first model built on the basis of predetermined sub-lexical entities, in this example the Markov MDl 1 model implemented in the first decoder and already described above.
  • the third Viterbi VM3 machine also generates, as and when these entities are identified and with reference to at least one specific Markov model MD3 constructed on the basis of lexical entities, various possible combinations of the sub-lexical entities, the most likely combination being intended to form the lexical output sequence OUTSQ.
  • the specific Markov model MD3 is here specially generated for this purpose by a module for creating the MGEN model, and is only representative of possible assemblies of phonemes within the sequences of words formed by the various phonetic interpretations Intl, Int2, .. .IntK of the acoustic input signal delivered by the first decoder, which assemblies are represented by sub-models extracted from the lexical model MD2 by the module for creating the MGEN model.
  • the specific Markov model MD3 therefore has a limited size due to its specificity.
  • the third machine of Viterbi VM3 When the third machine of Viterbi VM3 is in a state ni given, with which are associated a history hp and a probability value Sp, if there exists in the model of Markov MD11 a transition from said state neither to a state nj provided with a marker M, which marker can for example consist of the label of a phoneme whose last state is ni or a phoneme whose first state is nj, the third Niterbi NM3 machine will associate with state nj a new history hq and a new probability value Sq which will be generated with reference to the specific model MD3, on the basis of the history hp, of its associated probability value Sp and of the marker M, the probability value Sp can also be modified with reference to the Markov model MDll.
  • Each state nj is memorized in a storage unit MEM2 with its different histories hq and a probability value Sq specific to each history, until the third Niterbi machine VM3 has identified all the phonemes contained in the sequence of input acoustic vectors AVin and has reached a last state nf over a plurality of hf histories representing the various possible combinations of the identified phonemes.
  • the one of these histories to which the highest probability value Sf ma aura will have been assigned will be retained by an MDEC memory decoder to form the lexical output sequence OUTSQ.
  • the Markov MD3 model therefore operates a dynamic control making it possible to validate the assemblages of phonemes as and when said phonemes are identified by the third machine of Niterbi VM3, which avoids having to duplicate these phonemes to form models such those used in the known implementations of the second approach mentioned above.
  • access to the storage units MEM1 and MEM2, as well as to the different Markov models MDl 1, MDl 2, MD2 and MD3 implemented in the example described above require little complex management, because the simplicity of structure of said models and of information intended to be memorized and read in said storage units. These memory accesses can therefore be executed quickly enough to make the

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

La présente invention concerne un procédé de traduction de données d'entrée AVin en au moins une séquence de sortie (OUTSQ), incluant une étape de décodage au cours de laquelle des entités sous-lexicales dont les données d'entrée (Avin) sont représentatives sont identifiées au moyen d'un premier modèle (MD 11), et au cours de laquelle sont générées, au fur et à mesure que les entités sous-lexicales sont identifiées et en référence à au moins un deuxième modèle (MD3), diverses combinaisons possibles desdites entités sous-lexicales. L'invention prévoit de mémoriser une pluralité de combinaisons possibles [nj;hq;Sq] desdites entités sous-lexicales, la combinaison la plus vraisemblable étant destinée à former la séquence lexicale de sortie (OUTSQ), une telle mémorisation permettant de simplifier la structure du deuxième modèle (MD3).

Description

PROCEDE DE RECONNAISSANCE DE LA PAROLE
Procédé de traduction de données autorisant une gestion de mémoire simplifiée
La présente invention concerne un procédé de traduction de données d'entrée en au moins une séquence lexicale de sortie, incluant une étape de décodage des données d'entrée au cours de laquelle des entités lexicales dont lesdites données sont représentatives sont identifiées au moyen d' au moins un modèle.
De tels procédés sont communément utilisés dans des applications de reconnaissance de parole, où au moins un modèle est mis en œuvre pour reconnaître des symboles acoustiques présents dans les données d'entrée, un symbole pouvant être constitué par exemple par un ensemble de vecteurs de paramètres d'un espace acoustique continu, ou encore par un label attribué à une entité sous-lexicale.
Dans certaines applications, le qualificatif "lexical" s'appliquera à une phrase considérée dans son ensemble, en tant que suite de mots, et les entités sous-lexicales seront alors des mots, alors que dans d'autres applications, le qualificatif "lexical" s'appliquera à un mot, et les entités sous-lexicales seront alors des phonèmes ou encore des syllabes aptes à former de tels mots, si ceux-ci sont de nature littérale, ou des chiffres, si les mots sont de nature numérique, c'est-à-dire des nombres. Une première approche pour opérer une reconnaissance de parole consiste à utiliser un type particulier de modèle qui présente une topologie régulière et est destiné à apprendre toutes les variantes de prononciation de chaque entité lexicale, c'est-à-dire par exemple un mot, inclus dans le modèle. Selon cette première approche, les paramètres d'un ensemble de vecteurs acoustiques propre à chaque symbole d'entrée correspondant à un mot inconnu doivent être comparés à des ensembles de paramètres acoustiques correspondant chacun à l'un des très nombreux symboles contenus dans le modèle, afin d'identifier un symbole modélisé auquel correspond le plus vraisemblablement le symbole d'entrée. Une telle approche garantit en théorie un fort taux de reconnaissance si le modèle utilisé est bien conçu, c'est-à- dire quasi-exhaustif, mais une telle quasi-exhaustivité ne peut être obtenue qu'au prix d'un long processus d'apprentissage du modèle, qui doit assimiler une énorme quantité de données représentatives de toutes les variantes de prononciation de chacun des mots inclus dans ce modèle. Cet apprentissage est en principe réalisé en faisant prononcer par un grand nombre de personnes tous les mots d'un vocabulaire donné, et à enregistrer toutes les variantes de prononciation de ces mots. Il apparaît clairement que la construction d'un modèle lexical quasi-exhaustif n'est pas envisageable en pratique pour des vocabulaires présentant une taille supérieure à quelques centaines de mots. Une deuxième approche a été conçue dans le but de réduire le temps d'apprentissage nécessaire aux applications de reconnaissance de parole, réduction qui est essentielle à des applications de traduction sur de très grands vocabulaires pouvant contenir plusieurs centaines de milliers de mots, laquelle deuxième approche consiste à opérer une factorisation des entités lexicales en les considérant comme des assemblages d'entités sous-lexicales, à générer un modèle sous-lexical modélisant lesdites entités sous-lexicales en vue de permettre leur identification dans les données d'entrée, et un modèle d'articulation modélisant différentes combinaisons possibles de ces entités sous-lexicales. Selon cette deuxième approche, un nouveau modèle dynamique formant le modèle d'articulation est constitué à partir de chaque entité sous-lexicale nouvellement identifiée dans les données d'entrée, lequel modèle dynamique rend compte de tous les assemblages rendus possibles en partant de l'entité sous-lexicale considérée, et détermine une valeur de vraisemblance pour chaque assemblage possible.
Une telle approche, décrite par exemple au chapitre 16 du manuel "Automatic Speech and Speaker Récognition" édité par Kluwer Académie Publishers, permet de réduire considérablement, par rapport au modèle utilisé dans le cadre de la première approche décrite plus haut, les durées individuelles des processus d'apprentissage du modèle sous-lexical et du modèle d'articulation, car chacun de ces modèles présente une structure simple par rapport au modèle lexical utilisé dans la première approche. Cependant, dans la plupart des implémentations connues de la deuxième approche décrite ci-dessus, le modèle sous-lexical est dupliqué à de multiples reprises dans le modèle d'articulation. Ceci peut être aisément compris en considérant un exemple où l'unité lexicale est une phrase et les unités sous-lexicales sont des mots. Si le modèle d'articulation est d'un type bi-gramme, c'est-à-dire qu'il rend compte de possibilités d'assemblage de deux mots successifs et de probabilités d'existence de tels assemblages, chaque mot retenu à l'issue de la sous-étape d'identification devra être étudié, en référence au modèle d'articulation, avec tous les autres mots retenus ayant pu précéder le mot considéré. Si P mots ont été retenus à l'issue de la sous-étape d'identification, P couples de mots devront être construits pour chaque mot à identifier, avec P valeurs de probabilité d'existence, chacune associée à un couple possible. Dans le cas d'un modèle d'articulation plus réaliste de type tri-gramme, qui rend compte de possibilités d'assemblage de trois mots successifs et de probabilités d'existence de tels assemblages, le modèle d'articulation devra comporter, pour chaque mot à identifier, P fois P triplets de mots avec autant de valeurs de probabilité d'existence. Les modèles d'articulation mis en œuvre dans la deuxième approche ont donc une structure simple, mais représentent un volume considérable de données à mémoriser, à mettre à jour et à consulter. On conçoit aisément que la création et l'exploitation de tels modèles donne lieu à des accès mémoire dont la gestion est rendue complexe par le volume de données à traiter, et par la répartition desdites données. Dans des applications de type langage naturel, pour lesquelles des modèles plus réalistes de type N-gramme, où N est le plus souvent supérieur à deux, sont mis en œuvre, les accès mémoire évoqués précédemment présentent des temps d'exécution incompatibles avec des contraintes de type "temps réel" nécessitant des accès mémoire très rapides. Par ailleurs, chaque mot peut lui-même être considéré vis-à-vis de syllabes ou de phonèmes qui le composent comme une entité lexicale d'un niveau inférieur à celui d'une phrase, entité lexicale pour la modélisation de laquelle il faut également recourir à un modèle d'articulation de type N-gramme avec plusieurs dizaines d'entités sous- lexicales possibles dans le cas des phonèmes. II apparaît clairement que les multiples duplications des modèles sous-lexicaux auxquelles font appel les modèles d'articulation dans les implémentations connues de la deuxième approche prohibent l'utilisation de celle-ci dans des applications de reconnaissance de parole dans le cadre d'applications de type très grands vocabulaires, qui comportent plusieurs centaines de milliers de mots. L'invention a pour but de remédier dans une large mesure à cet inconvénient, en proposant un procédé de traduction qui ne nécessite pas de multiples duplications de modèles sous-lexicaux pour valider des assemblages d'entités sous-lexicales, et simplifie ainsi l'implémentation dudit procédé de traduction, et en particulier la gestion d'accès mémoire utiles à ce procédé. En effet, un procédé de traduction conforme au paragraphe introductif, incluant une étape de décodage au cours de laquelle des entités sous-lexicales dont les données d'entrée sont représentatives sont identifiées au moyen d'un premier modèle construit sur la base d'entités sous-lexicales prédéterminées, et au cours de laquelle sont générées, au fur et à mesure que les entités sous-lexicales sont identifiées et en référence à au moins un deuxième modèle construit sur la base d'entités lexicales, diverses combinaisons possibles desdites entités sous-lexicales, est caractérisé selon l'invention en ce que l'étape de décodage inclut une sous-étape de mémorisation d'une pluralité de combinaisons possibles desdites entités sous-lexicales, la combinaison la plus vraisemblable étant destinée à former la séquence lexicale de sortie. Du fait que divers assemblages d'entités sous-lexicales sont mémorisés au fur et à mesure que ces entités sont produites, il n'est plus nécessaire de construire après identification de chacune desdites entités sous-lexicales un modèle dynamique reprenant toutes les entités sous-lexicales possibles, ce qui permet d'éviter les duplications évoquées plus haut et les problèmes de gestion mémoire y afférant.
La possibilité de mémoriser plusieurs combinaisons différentes permet de garder une trace de plusieurs assemblages possibles d'entités sous-lexicales, chacun présentant une vraisemblance propre à l'instant où cet assemblage est généré, laquelle vraisemblance pouvant être affectée favorablement ou défavorablement après analyse de sous-entités lexicales ultérieurement produites. Ainsi, une sélection d'un assemblage présentant la plus forte vraisemblance à un instant donné, mais qui sera finalement jugé peu vraisemblable à la lumière d'entités sous-lexicales ultérieures ne provoquera pas une élimination systématique d'autres assemblages, qui pourront finalement s'avérer plus pertinents. Cette variante de l'invention permet donc de conserver des données représentant, sous forme de différents historiques, différentes interprétations des données d'entrée, interprétations dont la plus vraisemblable pourra être identifiée et retenue pour former la séquence lexicale de sortie lorsque toutes les entités sous-lexicales auront elles-même été identifiées.
Dans un mode de réalisation particulier de cette variante de l'invention, la mémorisation d'une combinaison est assujettie à une validation opérée en référence au moins au deuxième modèle.
Ce mode de réalisation permet de réaliser de manière simple un filtrage des assemblages qui paraissent peu vraisemblables à la lumière du deuxième modèle. Seuls seront retenus et mémorisés les assemblages les plus plausibles, les autres assemblages n'étant pas mémorisés et donc pas ultérieurement pris en considération.
Dans une variante de ce mode de réalisation, la validation de mémorisation pourra être effectuée en référence à plusieurs modèles de niveaux équivalents et/ou différentes, un niveau rendant compte de la nature sous-lexicale, lexicale ou encore grammaticale d'un modèle. Dans un mode de réalisation particulièrement avantageux de cette variante de l'invention, une validation de mémorisation d'une combinaison est accompagnée d'une attribution à la combinaison à mémoriser d'une valeur de probabilité représentative de la vraisemblance de ladite combinaison. Ce mode de réalisation permet de moduler la nature binaire du filtrage opérée par la validation ou l'absence de validation de la mémorisation d'une combinaison, en affectant une appréciation quantitative à chaque combinaison mémorisée. Ceci permettra une meilleure appréciation de la vraisemblance des diverses combinaisons qui auront été mémorisées, et donc une traduction de meilleure qualité des données d'entrée.
On pourra en outre prévoir que différentes opérations de validation portant sur différentes combinaisons relatives à un même état du premier modèle sont exécutées de façon contiguë dans le temps.
Ceci permettra de réduire encore le volume des accès mémoire et des duplications de calcul, en traitant en une seule fois toute une famille d'informations qu'il faudra sinon mémoriser et lire à de multiples reprises.
Dans un mode de réalisation particulier de l'invention, l'étape de décodage met en œuvre un algorithme de Niterbi appliqué à un premier modèle de Markov constitué d'entités sous-lexicales, sous contrôle dynamique d'un deuxième modèle de Markov représentatif de combinaisons possibles d'entités sous-lexicales.
Ce mode de réalisation est avantageux en ce qu'il utilise des moyens éprouvés et individuellement connus de l'homme du métier, le contrôle dynamique obtenu grâce au deuxième modèle de Markov permettant de valider les assemblages d'entités sous- lexicales au fur et à mesure que lesdites entités sont identifiées au moyen de l'algorithme de Niterbi, ce qui évite d'avoir à construire après identification de chaque entité sous-lexicale un nouveau modèle dynamique reprenant toutes les entités sous- lexicales possibles semblable à ceux utilisés dans les implémentations connues de la deuxième approche évoquée plus haut.
L'invention concerne également un système de reconnaissance de signaux acoustiques mettant en œuvre un procédé tel que décrit ci-dessus. Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels : La Fig.l est un schéma fonctionnel décrivant un système de reconnaissance acoustique dans lequel un procédé conforme à l'invention est mis en œuvre,
La Fig.2 est un schéma fonctionnel décrivant un décodeur destiné à exécuter une première étape de décodage dans ce mode de mise en œuvre particulier de l'invention, et La Fig.3 est un schéma fonctionnel décrivant un décodeur destiné à exécuter une deuxième étape de décodage conforme au procédé selon l'invention.
La Fig.l représente schématiquement un système SYST de reconnaissance acoustique selon un mode de mise en œuvre particulier de l'invention, destiné à traduire un signal acoustique d'entrée ASin en une séquence lexicale de sortie OUTSQ. Le signal d'entrée ASin est constitué par un signal électronique analogique, qui pourra provenir par exemple d'un microphone non représenté sur la figure. Dans le mode de réalisation décrit ici, le système SYST inclut un étage d'entrée FE, contenant un dispositif de conversion analogique/numérique ADC, destiné à fournir un signal numérique ASin(l:n), formé d'échantillons ASin(l), ASin(2)...ASin(n) codés chacun sur b bits, et représentatif du signal acoustique d'entrée ASin, et un module d'échantillonnage SA, destiné à convertir le signal acoustique numérisé ASin(l :n) en une séquence de vecteurs acoustiques AVin, chaque vecteur étant muni de composantes ANI, AN2...ANr où r est la dimension d'un espace acoustique défini pour une application donnée à laquelle le système de traduction SYST est destiné, chacune des composantes ANi (pour i=l à r) étant évaluée en fonction de caractéristiques propres à cet espace acoustique.
Le système SYST inclut en outre un premier décodeur DEC1, destiné à fournir une sélection Intl, Int2...IntK d'interprétations possibles de la séquence de vecteurs acoustiques AVin en référence à un modèle MD1 construit sur la base d'entités sous- lexicales prédéterminées. Le système SYST inclut de plus un deuxième décodeur DEC2 dans lequel un procédé de traduction conforme à l'invention est mis en œuvre en vue d'analyser des données d'entrée constituées par les vecteurs acoustiques AVin en référence à un premier modèle construit sur la base d'entités sous-lexicales prédéterminées, par exemple le modèle MDl, et en référence à au moins un deuxième modèle MD2 construit sur la base d'entités lexicales représentatives des interprétations Intl, Int2...IntK sélectionnées par le premier décodeur DEC1, en vue d'identifier celle desdites interprétations qui devra constituer la séquence lexicale de sortie OUTSQ. La fig.2 représente plus en détail le premier décodeur DEC1, qui inclut une première machine de Viterbi VMl, destinée à exécuter une première sous-étape de décodage de la séquence de vecteurs acoustiques AVin représentative du signal acoustique d'entrée et préalablement générée par l'étage d'entrée FE, laquelle séquence sera en outre avantageusement mémorisée dans une unité de stockage MEM1 pour des raisons qui apparaîtront dans la suite de l'exposé. La première sous- étape de décodage est opérée en référence à un modèle de Markov MDl 1 autorisant en boucle toutes les entités sous-lexicales, de préférence tous les phonèmes de la langue dans laquelle le signal acoustique d'entée doit être traduit si l'on considère que les entités lexicales sont des mots, les entités sous-lexicales étant représentées sous forme de vecteurs acoustiques prédéterminés. La première machine de Viterbi VMl est apte à restituer une séquence de phonèmes Phsq qui constitue la plus proche traduction phonétique de la séquence de vecteurs acoustiques AVin. Les traitements ultérieurs réalisés par le premier décodeur DEC1 se feront ainsi au niveau phonétique, et non plus au niveau vectoriel, ce qui réduit considérablement la complexité desdits traitements, chaque vecteur étant une entité multidimensionnelle présentant r composantes, tandis qu'un phonème peut en principe être identifié par un label unidimensionnel qui lui est propre, comme par exemple un label "OU" attribué à une voyelle orale "u", ou un label "CH" attribué à une consonne frictive non-voisée "J". La séquence de phonèmes Phsq générée par la première machine de Viterbi VMl est ainsi constituée d'une succession de labels plus aisément manipulables que ne le seraient des vecteurs acoustiques. Le premier décodeur DECl inclut une deuxième machine de Viterbi VM2 destinée à exécuter une deuxième sous-étape de décodage de la séquence de phonèmes Phsq générée par la première machine de Viterbi VMl. Cette deuxième étape de décodage est opérée en référence à un modèle de Markov MDl 2 constitué de transcriptions sous-lexicales d'entités lexicales, c'est-à-dire dans cet exemple de transcriptions phonétiques de mots présents dans le vocabulaire de la langue dans laquelle le signal acoustique d'entrée doit être traduit. La deuxième machine de Viterbi est destinée à interpréter la séquence de phonèmes Phsq, qui est fortement bruitée du fait que le modèle MD11 utilisé par la première machine de Viterbi VMl est d'une grande simplicité, et met en œuvre des prédictions et des comparaisons entre des suites de labels de phonèmes contenus dans la séquence de phonèmes Phsq et diverses combinaisons possibles de labels de phonèmes prévues dans le modèle de Markov MDl 2. Bien qu'une machine de Viterbi ne restitue usuellement que celle des séquences qui présente la plus grande probabilité, la deuxième machine de Viterbi VM2 mise en œuvre ici restituera avantageusement toutes les séquences de phonèmes lsql, lsq2...1sqN que ladite deuxième machine VM2 aura pu réconstituer, avec des valeurs de probabilité associées pi, p2...pN qui auront été calculées pour lesdites séquences et seront représentatives de la fiabilité des interprétations du signal acoustique que ces séquences représentent. Toutes les interprétations possibles lsql, lsq2...1sqN étant rendues automatiquement disponibles à l'issue de la deuxième sous-étape de décodage, une sélection de K interprétations Intl, Int2...IntK qui présentent les plus fortes valeurs de probabilité est aisée quelle que soit la valeur de K qui aura été choisie.
Les première et deuxième machines de Viterbi VMl et VM2 peuvent fonctionner en parallèle, la première machine de Viterbi VMl générant alors au fur et à mesure des labels de phonèmes qui seront immédiatement pris en compte par la deuxième machine de Viterbi VM2, ce qui permet de réduire le délai total perçu par un utilisateur du système nécessaire à la combinaison des première et deuxième sous- étapes de décodage en autorisant la mise en œuvre de l'ensemble des ressources de calcul nécessaires au fonctionnement du premier décodeur DECl dès que les vecteurs acoustiques AVin représentatifs du signal acoustique d'entrée apparaissent, et non pas après qu'ils aient été entièrement traduits en une séquence complète de phonèmes Phsq par la première machine de Viterbi VMl.
La Fig.3 représente plus en détail un deuxième décodeur DEC2 conforme à un mode de réalisation particulier de l'invention. Ce deuxième décodeur DEC2 inclut une troisième machine de Viterbi VM3 destinée à analyser la séquence de vecteurs acoustiques AVin représentative du signal acoustique d'entrée préalablement mémorisée dans l'unité de stockage MEM1.
A cet effet, la troisième machine de Viterbi VM3 est destinée à exécuter une sous-étape d'identification au cours de laquelle les entités sous-lexicales dont les vecteurs acoustiques AVin sont représentatifs sont identifiées au moyen d'un premier modèle construit sur la base d'entités sous-lexicales prédéterminées, dans cet exemple le modèle de Markov MDl 1 mis en œuvre dans le premier décodeur et déjà décrit plus haut. La troisième machine de Viterbi VM3 génère en outre, au fur et à mesure que ces entités sont identifiées et en référence à au moins un modèle de Markov spécifique MD3 construit sur la base d'entités lexicales, diverses combinaisons possibles des entités sous-lexicales, la combinaison la plus vraisemblable étant destinée à former la séquence lexicale de sortie OUTSQ. Le modèle de Markov spécifique MD3 est ici spécialement généré à cet effet par un module de création de modèle MGEN, et est uniquement représentatif d'assemblages possibles de phonèmes au sein des séquences de mots formées par les diverses interprétations phonétiques Intl, Int2,...IntK du signal acoustique d'entrée délivrées par le premier décodeur, lesquels assemblages sont représentés par des sous-modèles extraits du modèle lexical MD2 par le module de création de modèle MGEN. Le modèle de Markov spécifique MD3 présente donc une taille restreinte du fait de sa spécificité.
Lorsque la troisième machine de Viterbi VM3 se trouve dans un état ni donné, auquel sont associés un historique hp et une valeur de probabilité Sp, s'il existe dans le modèle de Markov MD11 une transition dudit état ni vers un état nj munie d'un marqueur M, lequel marqueur pouvant par exemple être constitué par le label d'un phonème dont le dernier état est ni ou d'un phonème dont le premier état est nj, la troisième machine de Niterbi NM3 associera à l'état nj un nouvel historique hq et une nouvelle valeur de probabilité Sq qui seront générés en référence au modèle spécifique MD3, sur la base de l'historique hp, de sa valeur de probabilité associée Sp et du marqueur M, la valeur de probabilité Sp pouvant en outre être également modifiée en référence au modèle de Markov MDll. Cette opération sera répétée pour tous les historiques associés à l'état ni. Si un même historique hk est associé à plusieurs reprises à un même état du modèle de Markov MDl l avec différentes valeurs de probabilité Spl,...Spq, conformément à l'algorithme de Niterbi, seule la valeur de probabilité la plus élevée sera conservée et attribuée en tant que valeur de probabilité Sp à l'historique hk.
Chaque état nj est mémorisé dans une unité de stockage MEM2 avec ses différents historiques hq et une valeur de probabilité Sq propre à chaque historique, et ce jusqu'à ce que la troisième machine de Niterbi VM3 ait identifié tous les phonèmes contenus dans la séquence de vecteurs acoustiques d'entrée AVin et ait atteint un dernier état nf au fil d'une pluralité d'historiques hf représentant les diverses combinaisons possibles des phonèmes identifiés. Celui de ces historiques auquel aura été attribuée la plus forte valeur de probabilité Sfmaχ sera retenu par un décodeur de mémoire MDEC pour former la séquence lexicale de sortie OUTSQ. Le modèle de Markov MD3 opère donc un contrôle dynamique permettant de valider les assemblages de phonèmes au fur et à mesure que lesdits phonèmes sont identifiés par la troisième machine de Niterbi VM3, ce qui évite d'avoir à dupliquer ces phonèmes pour former des modèles tels ceux utilisés dans les implémentations connues de la deuxième approche évoquée plus haut. De la sorte, les accès aux unités de stockage MEMl et MEM2, ainsi qu'au différents modèles de Markov MDl l, MDl 2, MD2 et MD3 mis en œuvre dans l'exemple décrit ci-dessus nécessitent une gestion peu complexe, du fait de la simplicité de structure desdits modèles et des informations destinées à être mémorisées et lues dans lesdites unités de stockage. Ces accès mémoire peuvent donc être exécutés suffisamment rapidement pour rendre le

Claims

système décrit dans cet exemple apte à accomplir des traductions en temps réel de données acoustiques d'entrée en séquences lexicales de sortie.
Bien que l'invention ait été décrite ici dans le cadre d'une application au sein d'un système incluant deux décodeurs disposés en cascade, il est tout-à-fait envisageable, dans d'autres modes de mise en œuvre de l'invention, de n'utiliser qu'un unique décodeur semblable au deuxième décodeur décrit plus haut, qui pourra par exemple opérer une analyse acoustico-phonétique et mémoriser, au fur et à mesure que des phonèmes seront identifiés, diverses combinaisons possibles desdits phonèmes, la combinaison de phonèmes la plus vraisemblable étant destinée à former la séquence lexicale de sortie.
REVENDICATIONS
1) Procédé de traduction de données d'entrée en au moins une séquence lexicale de sortie, incluant une étape de décodage des données d'entrée au cours de laquelle des entités sous-lexicales dont lesdites données sont représentatives sont identifiées au moyen d'un premier modèle construit sur la base d'entités sous-lexicales prédéterminées, et au cours de laquelle sont générées, au fur et à mesure que les entités sous-lexicales sont identifiées et en référence à au moins un deuxième modèle construit sur la base d'entités lexicales, diverses combinaisons possibles desdites entités sous-lexicales, procédé caractérisé en ce que l'étape de décodage inclut une sous-étape de mémorisation d'une pluralité de combinaisons possibles desdites entités sous- lexicales, la combinaison la plus vraisemblable étant destinée à former la séquence lexicale de sortie.
2) Procédé de traduction selon la revendication 1, caractérisé en ce que la mémorisation d'une combinaison est assujettie à une validation opérée en référence au moins au deuxième modèle.
3) Procédé de traduction selon la revendication 2, caractérisé en ce qu'une validation de mémorisation d'une combinaison est accompagnée d'une attribution à la combinaison à mémoriser d'une valeur de probabilité représentative de la vraisemblance de ladite combinaison. 4) Procédé de traduction selon l'une des revendications 2 ou 3, caractérisé en ce que différentes opérations de validation portant sur différentes combinaisons relatives à un même état du premier modèle sont exécutées de façon contiguë dans le temps.
5) Procédé de traduction selon la revendication 1, caractérisé en ce que l'étape de décodage met en œuvre un algorithme de Viterbi appliqué à un premier modèle de Markov constitué d'entités sous-lexicales, sous contrôle dynamique d'un deuxième modèle de Markov représentatif de combinaisons possibles d'entités sous-lexicales.
6) Système de reconnaissance vocale mettant en œuvre un procédé de traduction conforme à l'une des revendications 1 à 5.
EP03722681A 2002-03-29 2003-03-19 Procede de reconnaissance de la parole Withdrawn EP1490862A1 (fr)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0204285A FR2837969A1 (fr) 2002-03-29 2002-03-29 Procede de traduction de donnees autorisant une gestion de memoire simplifiee
FR0204285 2002-03-29
PCT/FR2003/000653 WO2003083830A1 (fr) 2002-03-29 2003-03-19 Procede de reconnaissance de la parole

Publications (1)

Publication Number Publication Date
EP1490862A1 true EP1490862A1 (fr) 2004-12-29

Family

ID=27839436

Family Applications (1)

Application Number Title Priority Date Filing Date
EP03722681A Withdrawn EP1490862A1 (fr) 2002-03-29 2003-03-19 Procede de reconnaissance de la parole

Country Status (5)

Country Link
US (1) US20050154581A1 (fr)
EP (1) EP1490862A1 (fr)
AU (1) AU2003229846A1 (fr)
FR (1) FR2837969A1 (fr)
WO (1) WO2003083830A1 (fr)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729656A (en) * 1994-11-30 1998-03-17 International Business Machines Corporation Reduction of search space in speech recognition using phone boundaries and phone ranking
DE60036486T2 (de) * 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO03083830A1 *

Also Published As

Publication number Publication date
WO2003083830A1 (fr) 2003-10-09
FR2837969A1 (fr) 2003-10-03
AU2003229846A1 (en) 2003-10-13
US20050154581A1 (en) 2005-07-14

Similar Documents

Publication Publication Date Title
US7720683B1 (en) Method and apparatus of specifying and performing speech recognition operations
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
WO2018118442A1 (fr) Dispositif de reconnaissance vocale de réseau neuronal acoustique-mot
US11227579B2 (en) Data augmentation by frame insertion for speech data
BE1011945A3 (fr) Methode, dispositif et article de fabrication pour la generation basee sur un reseau neural de prononciations postlexicales a partir de prononciations post-lexicales.
JP6622681B2 (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
WO2009071795A1 (fr) Systeme d'interpretation simultanee automatique
Chen et al. Multitask learning for phone recognition of underresourced languages using mismatched transcription
Scharenborg et al. Speech technology for unwritten languages
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
Wooters Lexical modeling in a speaker independent speech understanding system
Rosenberg Speech, prosody, and machines: Nine challenges for prosody research
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Oneață et al. Multimodal speech recognition for unmanned aerial vehicles
Johnson et al. Automatic dialect density estimation for African American English
EP1285435B1 (fr) Analyse syntaxique et semantique de commandes vocales
EP1490863B1 (fr) Procede de reconnaissance de parole au moyen d'un transducteur unique
WO2003083830A1 (fr) Procede de reconnaissance de la parole
Pantazoglou et al. Implementation of the generic greek model for cmu sphinx speech recognition toolkit
WO2006042943A1 (fr) Procede de reconnaissance vocale comprenant une etape d ' insertion de marqueurs temporels et systeme correspondant
EP1981020A1 (fr) Procédé et système de reconnaissance automatique de la parole adaptés à la détection d'énoncés hors-domaine
Juan et al. Exploiting resources from closely-related languages for automatic speech recognition in low-resource languages from Malaysia

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20040902

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LI LU MC NL PT RO SE SI SK TR

AX Request for extension of the european patent

Extension state: AL LT LV MK

RIN1 Information on inventor provided before grant (corrected)

Inventor name: DELPHIN-POULAT, LIONEL

Inventor name: FERRIEUX, ALEXANDRE

17Q First examination report despatched

Effective date: 20060818

17Q First examination report despatched

Effective date: 20060818

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20080202