FR2627887A1

FR2627887A1 - SPEECH RECOGNITION SYSTEM AND METHOD OF FORMING MODELS THAT CAN BE USED IN THIS SYSTEM

Info

Publication number: FR2627887A1
Application number: FR8902598A
Authority: FR
Inventors: Jack Elliott Porter
Original assignee: International Standard Electric Corp
Current assignee: International Standard Electric Corp
Priority date: 1988-02-29
Filing date: 1989-02-28
Publication date: 1989-09-01
Anticipated expiration: 2009-02-28
Also published as: JPH01255000A; GB2216320A; FR2627887B1; GB2216320B; JP3046029B2; GB8902475D0

Abstract

La présente invention concerne un appareil et des procédés pouvant être utilisés en liaison avec des systèmes de reconnaissance de parole du type employant des modèles pour comparer le modèle avec une parole entrante. Lorsque des modèles ont le même rapport signal/bruit qu'un signal de parole inconnu, le rendement de reconnaissance est amélioré. Pour réaliser l'invention, le rapport signal/bruit d'un signal entrant est prédit et le rendement de reconnaissance est donc optimisé en modifiant les modèles avant qu'ils ne soient utilisés, de façon qu'ils soient comme s'ils étaient engendrés à partir d'une parole présentant le même rapport signal/bruit que la parole imminente inconnue. Il est prévu un appareil servant à prédire le rapport signal/bruit de la parole imminente ainsi qu'un appareil qui modifie les modèles exempts de bruit ou à faible bruit conformément auxdites valeurs prédites.The present invention relates to apparatus and methods that can be used in connection with speech recognition systems of the type employing models to compare the model with incoming speech. When models have the same signal-to-noise ratio as an unknown speech signal, the recognition efficiency is improved. To carry out the invention, the signal-to-noise ratio of an incoming signal is predicted and the recognition efficiency is therefore optimized by modifying the models before they are used, so that they are as if they were generated. from a speech having the same signal-to-noise ratio as the unknown impending speech. There is provided an apparatus for predicting the signal-to-noise ratio of the impending speech as well as an apparatus which modifies the noise free or low noise models in accordance with said predicted values.

Description

26Z788726Z7887

- La présente invention concerne, en général, des systèmes de - The present invention relates, in general, to

reconnaissance de parole et, en particulier, un système de reconnais- speech recognition and, in particular, a recognition system

sance de parole utilisant des modèles, dans lequel chacun de ces mo- speech using models, in which each of these mo-

dèles est produit par l'addition sélective de bruit pour augmenter la probabilité de reconnaissance de parole. On constate que le domaine de la reconnaissance de parole en général a été largement exploré au cours des dernières années et que des systèmes de reconnaissance de parole ont été employés sous de nombreuses formes. Le principe de reconnaissance de parole Implique que l'information obtenue dans un son parlé puisse être directement utilisée pour actionner un ordinateur ou d'autres équipements. Pour l'essèntiel, la technique antérieure considérait qu'un élément clé de reconnaissance de l'information contenue dans un son parlé était la répartition de l'énergie par rapport à la fréquence. Les fréquences de formants sont celles o les crêtes d'énergie sont particulièrement This is produced by the selective addition of noise to increase the probability of speech recognition. It can be seen that the field of speech recognition in general has been widely explored in recent years and that speech recognition systems have been used in many forms. The principle of speech recognition implies that the information obtained in a spoken sound can be directly used to operate a computer or other equipment. For the most part, the prior art considered that a key element for recognizing the information contained in a spoken sound was the distribution of energy with respect to frequency. The frequencies of formants are those where the energy peaks are particularly

importantes. Les fréquences de formants sont les résonances acousti- important. The frequencies of formants are the acoustic resonances

ques de la cavité buccale et sont commandées par la langue, la mâ- of the oral cavity and are controlled by the tongue, the male

choire et les lèvres. Pour un auditeur humain, la détermination des choir and lips. For a human listener, the determination of

deux ou trois premières fréquences de formants est généralement suf- first two or three formant frequencies is usually enough

fisante pour reconnaître les sons des voyelles. De cette manière, les machines de reconnaissance connues comprenaient-certains moyens pour déterminer le spectre d'amplitude ou de puissance du signal de parole entrant. La première étape de la reconnaissance de parole est appelée to recognize the sounds of vowels. In this way, known recognition machines included certain means for determining the amplitude or power spectrum of the incoming speech signal. The first stage of speech recognition is called

prétraitement, car elle transforme un signal de parole en des carac- pretreatment because it transforms a speech signal into characters

téristiques ou des paramètres qui sont reconnaissables et qui ramè- recognizable parameters that reduce

nent le flux de données à des proportions en permettant le traite- bring the data flow to proportions by allowing processing

ment. Par conséquent, l'un des moyens pour y parvenir consiste à me- is lying. One way to do this, therefore, is to

surer la fréquence de passage par zéro du signal dans plusieurs ban- monitor the frequency of zero crossing of the signal in several banks

des de fréquenees larges, pour donner- une estimation des fréquences wide frequencies, to give an estimate of the frequencies

de formants dans ces bandes.formants in these bands.

Un autre moyen consiste à représenter le signal de parole en termes de paramètres du filtre dont le spectre correspond le mieux à -2- celui du signal de parole d'entrée. Cette technique est connue sous Another way is to represent the speech signal in terms of filter parameters whose spectrum best matches -2- that of the input speech signal. This technique is known as

le nom de codage linéaire prédictif'(CLP). Le codage linéaire prédic- the name of predictive linear coding '(CLP). Linear coding predic-

tif ou CLP a gagné en popularité en raison de son efficacité, de sa tif or CLP has grown in popularity due to its efficiency,

précision et de sa simplicité. On établit une moyenne des caractéris- precision and simplicity. An average of the characteristics is established.

tiques de reconnaissance extraites de la parole sur 10 à 40 millise- recognition ticks extracted from speech on 10 to 40 millise-

condes, puis on les échantillonne entre 50 et 100 fois par seconde. condes, then they are sampled between 50 and 100 times per second.

Les paramètres utilisés pour représenter la parole dans le but d'une reconnaissance peuvent être directement ou indirectement fonction du spectre d'amplitude ou de puissance. Les fréquences de formants et les coefficients de filtre de prédiction linéaire sont des exemples de paramètres qui sont indirectement fonction du spectre The parameters used to represent speech for the purpose of recognition can be directly or indirectly a function of the amplitude or power spectrum. The formant frequencies and the linear prediction filter coefficients are examples of parameters which are indirectly a function of the spectrum.

de parole. D'autres exemples sont les paramètres spectraux et les pa- of speech. Other examples are the spectral parameters and the pa-

rameètres du rapport de surface logarithmique. Dans ces cas et dans la reameters of the logarithmic area ratio. In these cases and in the

plupart des autres cas, les paramètres de parole utilisés pour la re- In most other cases, the speech parameters used for the re-

connaissance sont ou peuvent être dérivés de paramètres spectraux. La knowledge are or can be derived from spectral parameters. The

présente invention concerne l'addition sélective de bruit aux paramè- The present invention relates to the selective addition of noise to the parameters.

tres spectraux produisant des paramètres de reconnaissance de parole. very spectral producing parameters of speech recognition.

La présente invention s'applique à toutes les formes de reconnaissan- The present invention applies to all forms of recognition.

ce de parole utilisant des paramètres de parole qui sont ou peuvent this speech using speech parameters that are or can

être dérivés de paramètres spectraux. be derived from spectral parameters.

En tout état de cause, l'une des approches les plus couran- In any event, one of the most common approaches

tes de la reconnaissance de parole par le passé a été l'utilisation de modèles pour réaliser une adaptation. Dans cette approche, des Speech recognition in the past has been the use of models to achieve adaptation. In this approach,

mots sont typiquement présentés sous la forme de séquences de paramè- words are typically presented in the form of parameter sequences

tres. La reconnaissance est réalisée en utilisant une mesure de simi- very. Recognition is carried out using a measurement of simi-

larité prédéfinie pour comparer l'élément de modèle inconnu avec des modèles mémorisés. Dans de nombreux cas, des algorithmes d'alignement dans le temps sont utilisés pour tenir compte de la variation de la the predefined scale for comparing the unknown model element with stored models. In many cases, time alignment algorithms are used to account for variation in the

fréquence de production des mots. Des systèmes d'adaptation à des mo- frequency of word production. Systems for adapting to

dèles permettent donc d'atteindre une efficacité élevée avec un cor- therefore allow high efficiency to be achieved with a cor-

pus réduit de mots acoustiquement distincts. Certains chercheurs se sont penchés sur l'aptitude de tels systèmes à effectuer, à terme, reduced from acoustically distinct words. Some researchers have looked into the ability of such systems to perform, over time,

une distinction phonétique fine parmi un vaste éventail de locuteurs. a fine phonetic distinction among a wide range of speakers.

On se reportera, par exemple, à l'article intitulé "Performing Fine Phonetic Distinctions: Templates versus Features in Variability and See, for example, the article entitled "Performing Fine Phonetic Distinctions: Templates versus Features in Variability and

- 3 -- 3 -

Invariance in Speech Processes" de J.S. Perkel et D.H. Klatt, édi- Invariance in Speech Processes "by J.S. Perkel and D.H. Klatt, edi-

teurs, Hillsdale, New Jersey: Lawrence Erlbaum-Associates, 1985, au- Hillsdale, New Jersey: Lawrence Erlbaum-Associates, 1985, au-

teurs R.A. Cole, R.M. Stern et M.J. Lasry. authors R.A. Cole, R.M. Stern and M.J. Lasry.

Comme solution de remplacement, beaucoup proposent une.ap- As an alternative, many offer an.

proche de la reconnaissance de parole basée sur les caractéristiques, close to speech recognition based on characteristics,

selon laquelle il faut d'abord identifier un groupe de caractéristi- according to which it is first necessary to identify a group of characteristics

ques acoustiques contenant l'information phonétiquement pertinente contenue dans le signal de.parole. Avec ces éléments, des algorithmes peuvent être créés pour' extraire les caractéristiques du signal de acoustic ques containing phonetically relevant information contained in the speech signal. With these elements, algorithms can be created to 'extract the characteristics of the signal from

parole. Un classeur est alors utilisé pour combiner les caractéristi- speech. A workbook is then used to combine the characteristics

ques et prendre une décision de reconnaissance. Certains estiment ques and make a recognition decision. Some believe

qu'un système basé sur les caractéristiques est plus capable d'effec- that a feature-based system is more capable of performing

tuer des distinctions phonétiques fines qu'un système d'adaptation à des modèles et qu'il lui est donc intrinsèquement supérieur. Dans tous les cas, l'adaptation à des modèles est une technique-souvent utilisée pour la reconnaissance des formes, auquel cas une inconnue kill fine phonetic distinctions that a system of adaptation to models and that it is therefore intrinsically superior to it. In all cases, adaptation to models is a technique-often used for pattern recognition, in which case an unknown

est comparée à des prototypes pour déterminer celui auquel elle res- is compared to prototypes to determine which one it is

semble le plus.seems the most.

Selon cette définition, des reconnaissances de parole basées According to this definition, speech recognitions based

sur les caractéristiques et utilisant des modèles Gaussiens à plu- on the characteristics and using Gaussian models with more

sieurs variables pour effectuer une classification réalisent égale- different variables to perform a classification also realize

ment une adaptation à des modèles. Dans ce cas, le classeur statisti- an adaptation to models. In this case, the statistical workbook

que utilise simplement un vecteur cd or mistqu sIose cnfkiguratirn.De même, si l'on prend l'amplitude spectrale et les coefficients de CLP comme caractéristiques, les techniques basées sur le spectre sont that simply uses a vector cd or mistqu sIose cnfkiguratirn. Similarly, if we take the spectral amplitude and the CLP coefficients as characteristics, the techniques based on the spectrum are

également basées sur les caractéristiques. also based on specifications.

En ce qui concerne l'utilisation, les systèmes d'adaptation Regarding use, adaptation systems

à des modèles et les systèmes basés sur les caractéristiques consti- to models and systems based on the characteristic features

tuent véritablement différents points d'un même continuum. L'un des problèmes les plus complexes posés par l'approche de l'adaptation à actually kill different points on the same continuum. One of the most complex problems posed by the adaptation to

des modèles réside dans la difficuIté à définir des mesures de dis- of the models resides in the difficulty of defining measures of

tance suffisamment sensibles pour effectuer des distinctions phonéti- sufficiently sensitive to make phonetic distinctions

ques fines, mais suffisamment insensibles aux variations spectrales only fine, but sufficiently insensitive to spectral variations

non pertinentes.not relevant.

Ce problème se manifeste notamment par une importance exces- This problem manifests itself in particular by an excessive importance-

4 -- 26278874 - 2627887

sive accordée à des variations négligeables entre les trames dans le spectre d'une voyelle longue et stable. Par conséquent, les systèmes sive tuned to negligible variations between frames in the spectrum of a long and stable vowel. Therefore, the systems

connus, conscients de ce type de problèmes, ont proposé-plusieurs mé- known, aware of this type of problem, have proposed-several methods

triques de distances qui sont censées être sensibles aux distances phonétiques et qui sont insensibles aux écarts acoustiques non pertinents. On se reportera, par exemple, à l'article intitulé "Prediction distance triques which are supposed to be sensitive to phonetic distances and which are insensitive to irrelevant acoustic deviations. See, for example, the article titled "Prediction

of Perceived Phonetic Distance from Critical Band Spectra" de D.H. of Perceived Phonetic Distance from Critical Band Spectra "by D.H.

Klatt, publié dans Procedures ICASSP-82, Catalogue IEEE no CH1746-7, Klatt, published in ICASSP-82 Procedures, IEEE Catalog no CH1746-7,

pages 1278 à 1281, 1982.pages 1278 to 1281, 1982.

Dans tous les cas, pour mieux comprendre les systèmes de In any case, to better understand the

transmission de parole, on se réfèrera à Proceedings of the IEEE, no- speech transmission, see Proceedings of the IEEE, no-

vembre 1985, volume 73, no 11, pages 1537 à 1696. Cette publication vember 1985, volume 73, no 11, pages 1537 to 1696. This publication

du IEEE présente divers articles consacrés aux systèmes de transmis- of the IEEE presents various articles devoted to transmission systems

sion de parole homme-machine et donne un bon aperçu des problèmes man-machine speech and gives a good overview of the problems

particuliers qu'ils posent. On comprendra qu'un des principaux as- individuals they pose. It will be understood that one of the main as-

pects de tout système de reconnaissance de parole est sa capacité à pects of any speech recognition system is its ability to

accomplir la tâche qui lui est confiée, à savoir reconnaître une pa- accomplish the task entrusted to it, namely to recognize a part

role, quel que soit l'environnement. role, whatever the environment.

Comme indiqué, de nombreux systèmes de reconnaissance de pa- As noted, many pa-

role utilisent des modèles. Pour l'essentiel, ces systèmes convertis- role use models. For the most part, these converted systems

sent des énoncés en séquences de paramètres qui sont mémorisées dans l'ordinateur. Des ondes sonores passent de la bouche d'un locuteur, feels statements in sequences of parameters that are stored in the computer. Sound waves pass from the mouth of a speaker,

par l'intermédiaire d'un microphone, à un convertisseur analogique- via a microphone, to an analog converter

numérique o elles sont filtrées et numérisées avec, par exemple, le bruit de fond éventuellement présent. Le signal numérisé est ensuite digital where they are filtered and digitized with, for example, any background noise. The digitized signal is then

à nouveau filtré, converti en paramètres de reconnaissance et compa- filtered again, converted to recognition parameters and compared

ré, sous cette forme, à des modèles de parole mémorisés pour détermi- in this form, to stored speech models to determine

ner le choix le plus probable pour le mot énoncé. Pour de plus amples the most likely choice for the word. For further information

exemples de ces techniques, on se reportera à IEEE Spectrum, vol. 24. examples of these techniques, see IEEE Spectrum, vol. 24.

no 4, publié en avril 1977. Voir l'article intitulé "Putting Speech no 4, published in April 1977. See the article entitled "Putting Speech

Recognizers to Work", pages 55 à 57 de T. Wallich. Recognizers to Work ", pages 55 to 57 by T. Wallich.

Comme on peut le constater à la lecture de cet article, les utilisations des systèmes de reconnaissance de parole sont de plus en plus diversifiées et il existe de nombreux modèles déjà disponibles As we can see from reading this article, the uses of speech recognition systems are becoming more and more diverse and there are many models already available.

qui sont employés pour diverses applications indiquées dans cet arti- which are used for various applications indicated in this article

- 2627887- 2627887

cle. La formation de modèles est également très bien maîtrisée dans la technique connue. Ces modèles sont employés avec de nombreux types de systèmes de reconnaissance de parole différents. L'un de ces types de systèmes est connu sous le nom de "système de reconnaissance de mots clés" décrit dans la publication intitulée "An Efficient Elas- tic- Template Method for Determining Given Words in Running Speech" de J.S. Bridle, "British Accoustical Society Spring Meeting", pages 1 à key. The training of models is also very well mastered in the known technique. These models are used with many different types of speech recognition systems. One of these types of systems is known as the "keyword recognition system" described in the publication "An Efficient Elastic- Template Method for Determining Given Words in Running Speech" by JS Bridle, "British Accoustical Society Spring Meeting ", pages 1 to

4, avril 1973. Dans cet article, l'auteur parle de la création de mo- 4, April 1973. In this article, the author talks about the creation of mo-

dèles élastiques à partir d'une représentation paramétrique d'exem- elastic models from a parametric representation of examples

ples parlés de mots clés à détecter. Une représentation paramétrique ples spoken of keywords to detect. Parametric representation

similaire de la parole entrante est comparée en continu avec ces mo- similar incoming speech is continuously compared with these mo-

dèles pour mesurer la similarité entre la parole et les mots clés flags to measure the similarity between speech and keywords

desquels les modèles sont dérivés. from which the models are derived.

Le système de reconnaissance détermine qu'un mot a été pro- The recognition system determines that a word has been pro-

noncé lorsqu'un segment de parole entrante est suffisamment similaire au modèle correspondant. Les modèles de mots sont considérés comme "élastiques" car ils peuvent être étendus et comprimés dans le temps spoken when an incoming speech segment is sufficiently similar to the corresponding pattern. Word patterns are considered "elastic" because they can be extended and compressed over time

pour tenir compte des variations de la vitesse d'élocution et des va- to account for variations in speech rate and values

riations locales dans le débit.de prononciation des mots. local riations in the flow of word pronunciation.

La reconnaissance de mots clés est similaire à la reconnais- Recognizing keywords is similar to recognizing

sance de parole classique. Dans la première, des modèles ne sont mé- classical speaking session. In the first, models are only mixed

morisés que pour des mots "clés" qui doivent être reconnus parmi des mots ou des sons arbitraires, tandis que dans la seconde, des modèles sont mémorisés pour toutes les paroles dont on pense qu'elles seront moralized only for "key" words which must be recognized among arbitrary words or sounds, while in the second, models are memorized for all the words which one thinks that they will be

prononcées. Tous ces systèmes, que ce soit les systèmes de reconnais- pronounced. All of these systems, whether it's recognition systems,

sance de mots clés ou les.systèmes de reconnaissance de parole clas- sance of keywords or .class speech recognition systems

siques utilisant des modèles, se heurtent aux mêmes problèmes, à sa- siques using models, face the same problems, with-

voir leur incapacité à reconnaître le mot prononcé lorsqu'il est énoncé par exemple par différents individus ou par un même individu see their inability to recognize the word spoken when it is spoken for example by different individuals or by the same individual

dans différentes conditions.under different conditions.

La présente invention a donc pour but de fournir un appareil The present invention therefore aims to provide an apparatus

et des procédés pour réaliser un système automatique de reconnaissan- and methods for making an automatic recognition system

ce de parole perfectionné.this perfected speech.

La présente invention a également pour but de fournir un système de reconnaissance de parole s'adaptant automatiquement à une The present invention also aims to provide a speech recognition system automatically adapting to a

- 6 - 2627887- 6 - 2627887

ambiance bruyante.noisy atmosphere.

-* Comme on le verra ultérieurement à la lecture de la descrip- - * As we will see later on reading the description -

tion annexée, la plupart des systèmes de reconnaissance de parole fonctionnent moins bien en'présence de bruit. Cette dégradation est particulièrement marquée lorsque les modèles ont été dérivés de paro- les ne comportant pas ou peu de bruit, ou comportant un bruit d'une In the annex, most speech recognition systems work less well in the presence of noise. This deterioration is particularly marked when the models were derived from words with little or no noise, or with noise from a

qualité différente de celle existant lors de la tentative de recon- quality different from that existing when trying to recon-

naissance. Les procédés antérieurs destinés à remédier à cette diffi- birth. The prior methods intended to remedy this difficulty

culté impliquent de créer de nouveaux modèles en présence du nouveau bruit. Cette création exige de recueillir une nouvelle parole et un nouveau bruit. Dans ce système particulier, on procède à une addition cult involve creating new patterns in the presence of new noise. This creation requires to collect a new word and a new noise. In this particular system, we add

analytique de bruit aux modèles, ce qui permet d'augmenter la proba- noise analysis to the models, which increases the proba-

bilité de reconnaissance et d'améliorer ainsi sensiblement le rende- recognition and thus significantly improve the return

ment du système, sans pour autant avoir à recueillir de nouvelles pa- of the system, without having to collect new pa-

roles pour produire des modèles.roles to produce models.

Dans un système de reconnaissance de parole du type compre- In a speech recognition system of the compression type

nant un'analyseur de spectre pour fournir, à une sortie, des valeurs providing a spectrum analyzer to provide values to an output

d'amplitude spectrale des énoncés et pour comparer des modèles mémo- spectral amplitude of the statements and to compare memo models

risés à des valeurs spectrales traitées pour fournir une sortie en cas de comparaison favorable indiquant la-présence de parole dans ces énoncés, le perfectionnement consiste en un appareil pour fournir les modèles mémorisés, comprenant un premier moyen connecté à l'analyseur de spectre pour fournir un signal représentatif du signal de bruit attendu d'un signal entrant, et un moyen connecté au premier moyen et répondant au signal de bruit prédit pour en Er des Morles qui sont laughed at spectral values processed to provide an output in the event of a favorable comparison indicating the presence of speech in these statements, the improvement consists of an apparatus for supplying the stored models, comprising a first means connected to the spectrum analyzer for supplying a signal representative of the noise signal expected from an incoming signal, and a means connected to the first means and responding to the predicted noise signal for in Er des Morles which are

modifiés en fonction du signal de bruit prédit. modified according to the predicted noise signal.

Les différents obJets et caractéristiques de l'invention se- The different objects and characteristics of the invention are

ront maintenant détaillés dans la description qui va suivre, faite à will now be detailed in the description which follows, made to

titre d'exemple non limitatif, en se reportant aux dessins anne- by way of nonlimiting example, referring to the drawings anne-

xés sur lesquels: - la figure 1Aest 'un bloc-diagramme représentant un système which: - Figure 1A is a block diagram representing a system

de reconnaissance de parole utilisant des paramètres de reconnaissan- speech recognition using speech recognition parameters

ce dérivés d'un spectre conforme à la présente invention, - la figure lB est un bloc-diagramme repa t une avariante d'un this derivatives of a spectrum in accordance with the present invention, FIG. 1B is a block diagram repeating an avariant of a

système de reconnaissance de parole utilisant des paramètres de re- speech recognition system using speech parameters

-7 -2627887-7 -2627887

connaissance de caractère spectral conformément à la présente inven- knowledge of spectral character in accordance with this invention

t-ion, - la figure 2, un bloc-diagramme détaillé représentant une technique conforme à la présente invention pour former des données de modèle opérationnelles, t-ion, FIG. 2, a detailed block diagram representing a technique in accordance with the present invention for forming operational model data,

- la figure 3, un tableau donnant les définitions des diffé- - Figure 3, a table giving the definitions of the different

rentes sorties indiquées à la figure 2,, - la figure 4, un bloc-diagramme détaillé d'un autre mode de réalisation de la présente invention, output annuities indicated in FIG. 2 ,, - FIG. 4, a detailed block diagram of another embodiment of the present invention,

- les figures 5A à 5C, des diagrammes illustrant le fonc- - Figures 5A to 5C, diagrams illustrating the function

tionnement d'un détecteur de parole et de bruit conforme à la présen- operation of a speech and noise detector in accordance with the present

te invention,the invention,

- la figure 6, un tableau donnant les définitions des para- - Figure 6, a table giving the definitions of the para-

mètres techniques conformes aux figures 5A à 5C. technical meters in accordance with Figures 5A to 5C.

- Comme on le verra, la présente invention s'applique à tous - As we will see, the present invention applies to all

les systèmes de reconnaissance utilisant des paramètres qui sont de. recognition systems using parameters which are.

caractère spectral ou qui sont dérivés de ceux qui sont de caractère spectral. Dans ce dernier cas, il peut être nécessaire de mémoriser' les modèles sous deux formes: spectraux pour l'addition analytique spectral character or which are derived from those which are of spectral character. In the latter case, it may be necessary to memorize the models in two forms: spectral for analytical addition

de bruit et modèles opérationnels. noise and operational models.

La figure 1A représente un bloc-diagramme d'un système de FIG. 1A represents a block diagram of a system of

reconnaissance de parole conforme à la présente invention, qui utili- speech recognition according to the present invention, which uses

se des paramètres de reconnaissance dérivés.du spectre. recognition parameters derived from the spectrum.

Un microphone 10, dans lequel parle un locuteur utilisant le A microphone 10, in which a speaker using the

système, est représenté. De manière classique, le microphone 10 con- system, is shown. Conventionally, the microphone 10 con-

vertit les ondes sonores en signaux électriques qui sont amplifiés au turns sound waves into electrical signals which are amplified at

moyen d'un amplificateur 11. La sortie de l'amplificateur 11 est con- by means of an amplifier 11. The output of amplifier 11 is con-

nectée à un analyseur de spectre 12. L'analyseur de spectre peut être du type à large bande ou à bande étroite et posséder une capacité d'analyse rapide. Le fonctionnement et la structure de l'analyseur de spectre sont bien connus et peuvent être réalisés selon plusieurs techniques. L'analyseur de spectre intervient pour diviser la parole en Connected to a spectrum analyzer 12. The spectrum analyzer can be of the broadband or narrowband type and have a rapid analysis capacity. The operation and structure of the spectrum analyzer are well known and can be achieved by several techniques. The spectrum analyzer intervenes to divide the speech into

trames brèves et fournit, à sa sortie, une représentation paramétri- short frames and provides a parametric representation upon its output

que de chaque trame. Le type d'analyse acoustique effectuée par that of each frame. The type of acoustic analysis performed by

- 8- 2627887- 8- 2627887

l'analyseur de spectre n'est pas capital pour la présente invention et de nombreux analyseurs acoustiques ou analyseurs de spectre connus peuvent être utilisés. On en trouve des exemples dans les demandes de the spectrum analyzer is not essential for the present invention and many known acoustic analyzers or spectrum analyzers can be used. Examples are found in requests for

brevet américain n0 439.018, déposée le 3 novembre 1982 pour G. Vens- US Patent No. 439,018, filed November 3, 1982 for G. Vens-

ko et al.,'et n 473.422 déposée le 9 mars 1983 pour G. Vensko et al. ko et al., 'and n 473.422 filed March 9, 1983 for G. Vensko et al.

Ces deux demandes sont conjointement cédées à ITT Corporation, consi- These two requests are jointly assigned to ITT Corporation, considered

dere comme la cessionnaire)et intégrées ici par référence. dere as the assignee) and integrated here by reference.

On se reportera également à la demande de brevet américain n0 655.958, déposée le 28 septembre 1984 pour A.L. Higgins et al. et I! Reference will also be made to American patent application No. 655.958, filed on September 28, 1984 for A.L. Higgins et al. and I!

intitulée KEYWORD RECOGNITION SYSTEM AND METHOD USING TEMPLATE-CONCA- titled KEYWORD RECOGNITION SYSTEM AND METHOD USING TEMPLATE-CONCA-

TENATION MODEIúTENATION MODEIú

L'analyseur de spectre 12 peut comprendre un agencement de filtre passebande à 14 canaux et utilise une taille de trame de 20 millisecondes ou plus. Ces paramètres spectraux sont traités comme indiqué à la figure 1A. Comme indiqué, la sortie de l'analyseur de spectre est connectée à un commutateur 13 qui peut être plaé en mis The spectrum analyzer 12 can include a 14-channel bandwidth filter arrangement and uses a frame size of 20 milliseconds or more. These spectral parameters are treated as indicated in FIG. 1A. As indicated, the output of the spectrum analyzer is connected to a switch 13 which can be set to put

Reconnaitre, Former un Modèle ou Modifier un Modèle. Recognize, Train a Model or Modify a Model.

Lorsque le commutateur 13 est placé en mode Former un Modè- When the switch 13 is placed in form a Modem-

le, la sortie de l'analyseur de spectre 12 est connectée à un module the, the output of the spectrum analyzer 12 is connected to a module

14 appelé forme spectrale des modèles. Le module 14 a pour but d'ai- 14 called the spectral form of the models. The purpose of module 14 is to help

der à la formation des modèles à partir de la sortie de l'analyseur der to the training of models from the output of the analyzer

de spectre. Les modèles formés dans le module 14 sont une forme spec- spectrum. The models formed in module 14 are a spec-

trale de modèles et de nombreuses techniques de formation de ces mo- of models and many techniques for forming these mo-

dèles sont bien connues. Pour l'essentiel, en mode Former un Modèle, la sortie de l'analyseur de spectre 12 est traitée par le module 14 qui fournit des modèles en fonction des énoncés faits par le locuteur à travers le microphone 10. Le locuteur est invité à prononcer des mots à reconnaître, et des modèles représentatifs des mots prononcés sonterfenrés. Ces modèles sont utilisés par le module 15 pour dériver these are well known. Essentially, in Train a Model mode, the output of the spectrum analyzer 12 is processed by the module 14 which provides models according to the statements made by the speaker through the microphone 10. The speaker is invited to speak words to be recognized, and representative models of the words spoken are shown. These models are used by module 15 to derive

des paramètres de reconnaissance provenant des modèles formés spec- recognition parameters from spec- formed models

tralement paour earer des modèles définitifs, comme indiqué par le module 16 en présence d'un bruit faible ou nul. Comme indiqué par le for final models, as indicated by module 16 in the presence of little or no noise. As indicated by the

module 16, les modèles correspondant au bruit nul sont ensuite sto- module 16, the models corresponding to zero noise are then sto-

ckés et sont représentatifs d'énoncés particuliers, tels que des ckés and are representative of particular statements, such as

mots, des expressions, etc., prononcés par un locuteur particulier. words, expressions, etc., pronounced by a particular speaker.

À 9- 2627887AT 9- 2627887

Les modèles mémorisés sont couplés, par l'intermédiaire d'un commutateur 100, à un processeur 160 qui effectue un -algorithme de The memorized models are coupled, via a switch 100, to a processor 160 which performs an algorithm of

reconnaissance. Comme on peut le constater, le processeur 160 fonc- recognition. As can be seen, the processor 160 operates

tionne donc.en mode reconnaissance pour comparer la parole inconnue à des modèles qui sont mémorisés dans le module 16 et qui ont été pro- So in recognition mode to compare the unknown speech with models which are memorized in the module 16 and which have been pro-

duits pour des conditions de bruit nul. Par conséquent, comme le mon- duits for zero noise conditions. Therefore, as my-

tre la figure 1A, on réalise, en mode Former un Modèle, une forme spectrale de forme de modèles pour obtenir des paramètres de modèles qui sont ensuite utilisés pour former des modèles pour des conditions de bruit nul ou faible. Comme expliqué ultérieurement, le processeur utilisé peut fonctionner avec les modèles mémorisés dans le module 16 In FIG. 1A, in Model Formation mode, a spectral form of model form is produced to obtain model parameters which are then used to form models for zero or low noise conditions. As explained later, the processor used can operate with the models stored in module 16

pour des conditions de bruit nul ou faible. Le fonctionnement du pro- for zero or low noise conditions. The operation of the pro-

cesseur 160 est également bien connu et est destiné, pour l'essen- stopper 160 is also well known and is intended for the essen-

tiel, à réaliser une adaptation en fonction de différentes mesures de tiel, to make an adaptation according to different measures of

distance ou d'autres algorithmes. Lorsque cette adaptation est réali- distance or other algorithms. When this adaptation is made

sée, une indication apparaît pour signaler qu'il y a un mot correct an indication appears to indicate that there is a correct word

et que le mot ou le son constitue donc la sortie du système. and that the word or sound therefore constitutes the output of the system.

Comme on peut le constater, le commutateur 13, lorsqu'il est en mode Reconnaitre, permet de connecter la sortiede l'analyseur de spectre 12 à un module de dérivation de paramètres 161 qui, pour As can be seen, the switch 13, when in Recognize mode, makes it possible to connect the output of the spectrum analyzer 12 to a parameter derivation module 161 which, for

l'essentiel, dérive des paramètres de l'analyseur de spectre, ces pa- essentially, derives from the parameters of the spectrum analyzer, these pa-

ramètres étant comparés aux modèles mémorisés, tels que décrits par exemple ci-dessus et stockés dans le module 16. Comme le montre la figure 1A, le commutateur 13 peut également être placé en position rameters being compared to the stored models, as described for example above and stored in the module 16. As shown in FIG. 1A, the switch 13 can also be placed in position

centrale. Dans cette position, également appelée mode Modifier un Mo- central. In this position, also called Modify Mo-

dèle, la sortie de l'analyseur de spectre est transmise à un module d'estimation de statistique de bruit 162. Comme on peut le voir, la fonction du module 162 est essentiellement de fournir une analyse de the output of the spectrum analyzer is passed to a noise statistics estimation module 162. As can be seen, the function of the module 162 is essentially to provide an analysis of

bruit ou de traiter le bruit pour fournir une estimation des statis- noise or process the noise to provide an estimate of the statistics

tiques de bruit. Il s'agit d'un aspect essentiel de la présente in- noise ticks. This is an essential aspect of this in-

vention qui ajoute sélectivement du bruit pour former des modèles vention that selectively adds noise to form patterns

afin de réaliser la reconnaissance de parole et d'améliorer cette re- in order to achieve speech recognition and improve this

connaissance en présence.de bruit additionnel. knowledge in the presence of additional noise.

Par conséquent, la fonction du module d'estimation de sta- Therefore, the function of the statistic estimation module

tistique de bruit 162, qui sera décrit ultérieurement, a pour but de 10o- 2627887 noise level 162, which will be described later, aims to 10o-2627887

modifier les modèles spectraux formés dans le module 164 qui est con- modify the spectral models formed in module 164 which is

necté au module 14 et qui en reçoit les informations. La sortie du module 164 dérive des paramètres de reconnaissance dans le module 165 nected to module 14 and which receives the information. The output of module 164 derives from recognition parameters in module 165

et ces paramètres sont utilisés pour former des modèles, comme indi- and these parameters are used to form models, as indi-

qué par le module 166, pouvant être utilisés avec du bruit ou à de faibles niveaux de bruit. Comme on peut le voir, le système illustré à la figure 1A permet donc d'effectuer des reconnaissances avec des the module 166, which can be used with noise or at low noise levels. As can be seen, the system illustrated in FIG. 1A therefore makes it possible to carry out reconnaissance with

modèles pouvant être utilisés avec du bruit ou avec des modèles pou- models that can be used with noise or with models for

vant être utilisés avec un bruit très faible ou nul par l'intermé- before being used with very little or no noise through

diaire du commutateur 100.diary of switch 100.

Comme indiqué brièvement ci-dessus, en mode Reconnattre, la As briefly mentioned above, in Recognize mode, the

sortie de paramètres spectraux de l'analyseur de spectre 12 est envo- spectrum parameter output from spectrum analyzer 12 is approx

yée à l'entrée du processeur 160 par l'intermédiaire du module de dé- yée at the input of processor 160 via the module de-

rivation de paramètres 161; Le processeur effectue typiquement un al- parameter rivation 161; The processor typically performs an

gorithme qui n'est pas non plus essentiel pour l'invention. Le processeur 160 détermine la séquence des modèles mémorisés et réalise les meilleures adaptation avec la parole entrante à reconnaître. Par conséquent, la sortie du processeur est, pour l'essentiel, une chaîne de labels de modèles dans laquelle chaque label représente un seul gorithm which is also not essential for the invention. The processor 160 determines the sequence of the stored models and makes the best adaptation to the incoming speech to be recognized. Therefore, the processor output is essentially a chain of model labels in which each label represents a single

modèle dans la séquence de modèles la mieux adaptée. model in the most suitable model sequence.

Par exemple, chaque modèle peut recevoir un numéro et un la- For example, each model can receive a number and a la-

bel. Il peut s'agir d'une représentation à plusieurs bits de ce numé- beautiful. It can be a multi-bit representation of this number.

ro. Cette sortie est envoyée à un système de recherche de modèles in- ro. This output is sent to a model search system.

clus dans le processeur 160, qui, en présence d'une représentation à included in processor 160, which, in the presence of a representation at

plusieurs bits, peut être par exemple un comparateur avec un disposi- several bits, can be for example a comparator with a device

tif de mémorisation des labels de modèles. Par conséquent, le proces- tif memorization of model labels. Therefore, the process

seur 160 intervient pour comparer chaque label de modèle entrant aux modèles mémorisés. Le sous-système 160 peut alors signaler qu'un mot seur 160 intervenes to compare each incoming model label with the stored models. The subsystem 160 can then signal that a word

ou une expression particuliers ont été prononcés et dire de quel mot. or a particular phrase was spoken and say which word.

ou de-quelle expression il s'agit.or what expression it is.

Que ce soit en mode Former un Modèle ou Modifier un Modèle, Whether in Train Model or Modify Model mode,

l'utilisateur prononce divers mots et des paramètres de reconnaissan- the user pronounces various words and recognition parameters

ce sont dérivés de la sortie de spectre de l'analyseur de spectre 12. these are derived from the spectrum output of the spectrum analyzer 12.

En mode Modifier un Modèle, le système intervient pour produire dif- In Modify Model mode, the system intervenes to produce different

férents modèles utilisables en relation avec le système en mode Re- various models usable in relation to the system in Re-

- 11 - 2627887- 11 - 2627887

* connaître, ces modèles étant, comme indiqué ci-dessus, modifiés par l'addition sélective de bruit par l'intermédiaire du générateur d'estimation de statistique de bruit 162. L'addition sélective de bruit aumoyen du générateur 162 assure un fonctionnement plus fiable du système, comme on le verra ultérieurement.* know, these models being, as indicated above, modified by the selective addition of noise via the noise statistics estimation generator 162. The selective addition of noise by means of the generator 162 ensures more efficient operation reliable system, as will be seen later.

La figure lB représente un système de reconnaissance utili- FIG. 1B represents a recognition system used

sant des paramètres de reconnaissance de caractère spectral. Dans tous les cas, les mêmes éléments fonctionnels ont été désignés par les mêmes chiffres de référence à la figure lB. Comme on peut le s spectral character recognition parameters. In all cases, the same functional elements have been designated by the same reference numerals in Figure lB. As we can

constater, un microphone 10 est connecté à l'entrée d'un amplifica- note, a microphone 10 is connected to the input of an amplifier

teur 11 dont la sortie est connectée à l'entrée de l'analyseur de 11 whose output is connected to the input of the

spectre 12. La sortie de l'analyseur de spectre 12 est à nouveau con- spectrum 12. The output of spectrum analyzer 12 is again

nectée à un commutateur 13 qui peut être placé en mode Former un Mo- connected to a switch 13 which can be placed in train mode

dèle, Modifier un Modèle ou Reconnattre. dele, Modify a Model or Recognize.

Comme on peut le constater à la figure lB, en mode Former un Modèle sont formés des modèles pour des conditions de bruit faible ou As can be seen in FIG. 1B, in the Form a Model mode, models are formed for low noise conditions or

nul par l'intermédiaire du module 170. Le module 170 forme des modè- null through the module 170. The module 170 forms models

les fournissant directement des paramètres de reconnaissance de ca- directly providing them with recognition parameters

ractère spectral. Les modèles de forme sont ensuite mémorisés et éga- spectral reaction. The shape models are then memorized and also

lement reliés au module 171 qui modifie les modèles spectraux, comme linked to module 171 which modifies the spectral models, such as

par exemple ceux dérivés du module 170 sous l'influence d'un généra- for example those derived from module 170 under the influence of a general-

teur d'estimation de statistique de bruit 172 qui, pour l'essentiel, fonctionne comme le générateur de bruit 162. La sortie du module de noise statistics estimator 172 which essentially functions as the noise generator 162.

modèles spectraux modifiés 171 est connectée au module 173 qui mémo- modified spectral models 171 is connected to module 173 which memorizes

rise les modèles utilisables en ambiance bruyante. Un processeur 177 est également représenté et peut fonctionner soit avec les modèles mémorisés dans le module 170, soit avec les modèles mémorisés dans le make the models usable in noisy surroundings. A processor 177 is also shown and can operate either with the models stored in the module 170, or with the models stored in the

module 173.module 173.

Dans tous les cas, avant d'aller plus loin, il est connu d'en- In any case, before going any further, it is known to

gVdrer des modèles conformément à des techniques connues. Il existe différentes manières d'ar-=z des modèles. Les procédés permettant d'accomplir la tâche de génération de modèles sont automatiques et Manage models according to known techniques. There are different ways of ar- = z models. The processes for accomplishing the task of generating models are automatic and

font normalement appel à une procédure en deux ou plusieurs étapes. normally use a two or more step procedure.

Selon l'une de ces possibilités, des données de parole provenant de In one of these possibilities, speech data from

l'énoncé d'essai (mode Modèle) sont divisées en segments. Ces seg- the test statement (Model mode) are divided into segments. These seg-

-12--12-

- Â2 - 2627887- Â2 - 2627887

ments sont ensuite entrés en vue d'une analyse de groupage statisti- then entered for statistical grouping analysis

que permettant de sélectionner un sous-ensemble de segments qui maxi- allowing to select a subset of segments which

mise une fonction mathématique basée sur une mesure de distance entre segments. Les segments appartenant au sous-ensemble sélectionné sont utilisés comme modèles. put a mathematical function based on a distance measurement between segments. The segments belonging to the selected subset are used as models.

Ces techniques sont décrites dans la demande de brevet ci- These techniques are described in the patent application below.

dessus no 655.958. Dans tous les cas, les différentes techniques de mesure des distances sont bien connues, comme indiqué par certaines above no 655.958. In all cases, the different techniques for measuring distances are well known, as indicated by certain

des références figurant dans le préambule de la présente description. references appearing in the preamble of this description.

L'une des techniques les plus répandues pour mesurer les distances One of the most popular techniques for measuring distances

est connue sous le nom de calcul des distances de Mahalanobis. is known as Mahalanobis distance calculation.

Pour connaître des exemples de cette technique particulière, on se reportera à une demande de brevet intitulédIMULTIPLE PARAMETER SPEAKER RECOGNITION SYSTEM AND METHODS, déposée le 16 Janvier 1987, n 003.971 de E. Wrench et al. Cette demande donne de nombreux autres exemples de techniques employées dans des systèmes de reconnaissance de locuteurs et décrit en détail certains des algorithmes employés en liaison avec cessystèmes. En tout cas, et toujours en référence à la For examples of this particular technique, see a patent application entitled IMULTIPLE PARAMETER SPEAKER RECOGNITION SYSTEM AND METHODS, filed January 16, 1987, No. 003.971 by E. Wrench et al. This application gives many other examples of techniques used in speaker recognition systems and describes in detail some of the algorithms used in connection with these systems. In any case, and always with reference to the

figure 1, on constate que le principal aspect de la présente inven- Figure 1, we see that the main aspect of the present invention

tion concerne des systèmes de reconnaissance de parole, tels qu'il- tion relates to speech recognition systems, such as-

lustrés à la figure 1, qui utilisent des modèles pour effectuer une comparaison avec les paroles entrantes afin de prendre une décision glossy in Figure 1, which use models to compare with incoming lyrics to make a decision

sur le mot prononcé. Cette technique peut être employée dans des sys- on the word spoken. This technique can be used in systems

tèmes de reconnaissance de mots clés, des systèmes de reconnaissance de parole, des systèmes de reconnaissance de locuteurs, des systèmes keyword recognition systems, speech recognition systems, speaker recognition systems, systems

de vérification de locuteurs, des systèmes de reconnaissance de lan- speaker verification, language recognition systems

gage, ou dans tout système utilisant des modèles ou une combinaison de différents modèles pour prendre une décision au sujet d'un son émis. Avant d'entreprendre une explication de la structure et des techniques employées dans la présente invention, certains aspects et pledge, or in any system using models or a combination of different models to make a decision about an emitted sound. Before undertaking an explanation of the structure and techniques employed in the present invention, certain aspects and

considérations de la présente invention seront abordés. considerations of the present invention will be addressed.

L'inventeur a constaté que, lorsque des modèles ont le même The inventor has found that when models have the same

rapport signal/bruit que la parole inconnue ou prononcée, le rende- signal-to-noise ratio that unknown or spoken speech makes it

ment de reconnaissance est meilleur qu'avec des modèles présentant recognition is better than with models presenting

-._3- 2'627887-._ 3- 2'627887

moins ou plus de bruit. Par conséquent, si l'on suppose que le rap- less or more noise. Therefore, if we assume that the report

port signal/bruit du signal audio peut être prédit, le rendement de reconnaissance peut alors être optimisé en modifiant les modèles avant de les utiliser, de manière qu'ils soient "comme si" ils étaient engendrés à partir de la parole avec le même rapport si- signal / noise port of the audio signal can be predicted, the recognition performance can then be optimized by modifying the models before using them, so that they are "as if" they were generated from speech with the same ratio if-

gnal/bruit que la parole inconnue attendue. general / noise as expected unknown speech.

Par conséquent, pour réaliser la présente invention, les Therefore, to achieve the present invention, the

considérations ci-après sont applicables. La première consiste à pré- The following considerations apply. The first is to pre-

dire le rapport signal/bruit de la parole attendue et la seconde à say the signal-to-noise ratio of the expected speech and the second to

modifier les modèles pour satisfaire à l'exigence "comme si". La pré- modify the models to meet the "as if" requirement. The pre-

diction est basée sur des considérations à la fois théoriques et em- diction is based on both theoretical and em-

piriques. Dans la plupart des applications, on peut raisonnablement piric. In most applications, one can reasonably

escompter que l'utilisateur parlera à un niveau relativement cons- expect the user to speak at a relatively high level

tant, soit en données absolues dans le cas d'un faible niveau ou d'un bruit constant, soit à un niveau relativement constant supérieur à ce bruit. On peut ensuite utiliser la parole et le niveau de bruit pour prédire le rapport signal/bruit de la parole inconnue. Comme expliqué ciaprès, ceci s'accompagne de l'utilisation d'un module de détection de niveau de bruit et de parole. Dans certains cas, on admet que le niveau de parole et le niveau de bruit-dans chaque canal de filtre se modifient suffisamment lentement pour que les valeurs de courant either in absolute data in the case of a low level or constant noise, or at a relatively constant level greater than this noise. Speech and noise level can then be used to predict the signal-to-noise ratio of the unknown speech. As explained below, this is accompanied by the use of a noise and speech level detection module. In some cases it is assumed that the speech level and the noise level in each filter channel change slowly enough for the current values

constituent des estimations utiles des valeurs imminentes. are useful estimates of impending values.

En modifiant les modèles exenmpts de bruit ou à peu près de sor- By modifying the models that are free of noise or more or less

te qu'ils soient "comne si" ils avaient été obtenus à partir d'un géné- te that they are "as if" they had been obtained from a gen-

rateur de bruit la parole est basée sur des considérations empiriques noise generator speech is based on empirical considerations

et théoriques.and theoretical.

Des recherches ont montré qu'on obtenait une excellente ap- Research has shown that excellent app

proximation en admettant que les puissances de bruit et de parole s'ajoutent dans chaque canal de banque de filtres. Une approximation plus précise révèle que la combinaison de la parole et du bruit a une distribution de khi au carré non centrale, lerltedeésdeliberté Proximity by admitting that the noise and speech powers are added in each filter bank channel. A closer look reveals that the combination of speech and noise has a non-central chi-squared distribution, lerltedeésdeliberté

étant fonction de la largeur de bande des canaux de banque de fil- being a function of the bandwidth of the wire bank channels-

tres. A partir de cette considération et d'autres, il est possible de réaliser des estimations plus précisea de la valeur escomptée de la combinaison de la puissance de parole connue avec un bruit possédant very. From this and other considerations it is possible to make more precise estimates of the expected value of combining known speech power with noise having

des propriétés statistiques connues. La meilleure précision de "l'ad- known statistical properties. The better accuracy of "ad-

dition de bruit" ainsi obtenue augmente effectivement la précision des modèles produits, mais ne se traduit pas par une amélioration de noise edition "thus obtained effectively increases the accuracy of the models produced, but does not translate into an improvement in

la précision de reconnaissance supérieure à celle obtenue avec la rè- recognition accuracy higher than that obtained with the

4- 26278874- 2627887

gle des "puissances ajoutées". On continuera donc de se référer ci- gle of "added powers". We will therefore continue to refer below

après à la règle des puissances ajoutées, même s'il est possible d'en augmenter la précision théorique en adoptant un autre procédé pour estimer la valeur escomptée de la combinaison entre les puissances de parole et de bruit. Ce remplacement ne modifie en rien les buts ni la following the rule of added powers, even if it is possible to increase the theoretical precision by adopting another method to estimate the expected value of the combination between the powers of speech and noise. This replacement does not change the purposes or the

réalisation pratique de la présente invention. practical realization of the present invention.

On a également constaté que le bruit électronique interne et le bruit de quantification se combinent avec le bruit et le signal acoustiques conformément à la règle des "puissances ajoutées". Ils It has also been found that the internal electronic noise and the quantization noise combine with the acoustic noise and signal in accordance with the "added powers" rule. They

peuvent être inférieurs au bruit acoustique observé, mais cette re- may be less than the observed acoustic noise, but this re-

marque est valable. On peut donc utiliser le résultat des "puissances mark is valid. We can therefore use the result of "powers

aJoutées" pour concevoir différents modèles, de façon que l'applica- aJoutées "to design different models, so that the applica-

tion des travaux de recherche se traduise par un effort continu pour utiliser les nombres dérivés de modèles valables. Ceci fera l'objet tion of research results in a continuous effort to use numbers derived from valid models. This will be the subject

d'explications ultérieures.further explanations.

On a montré que des modèles résultant d'une puissance de We have shown that models resulting from a power of

bruit égale à sa valeur moyenne donnent toute satisfaction pour pro- noise equal to its average value give full satisfaction for pro-

duire des sorties de reconnaissance fiables. Il n'est donc pas néces- duire reliable recognition outputs. It is therefore not necessary

saire de prédire la variabilité entre trames de la puissance de bruit et il suffit d'utiliser la valeur moyenne. Les paramètres de modèles be able to predict the variability between frames of the noise power and just use the mean value. Template settings

que l'on recherche sont ceux qui seraient produits à partir de la mê- that we are looking for are those that would be produced from the same

me puissance de parole que celle effectivement présente dans le modè- speech power than that actually present in the model

le Forme de Base, combinés avec la puissance de bruit moyenne du mo- the Basic Shape, combined with the average noise power of the mo-

ment. Les valeurs de puissance de bruit des canaux provenant du système sont des estimations de la puissance de bruit et peuvent être is lying. The noise power values of the channels from the system are estimates of the noise power and can be

utilisées pour être mises en rapport avec la puissance de bruit mo- used to relate to the noise power

yenne qui peut être déterminée mathématiquement. Pour comprendre par- which can be determined mathematically. To understand by-

faitement la présente procédure et les Justifications qui s'y rappor- this procedure and the Justifications relating thereto

tent, les considérations ci-après sont applicables. tent, the following considerations apply.

Il est d'abord indiqué que la loi de probabilité de la sor- It is first indicated that the probability law of the output

tie d'une seule transformation de Fourier discrète -(TFD) d'un signal de parole entaché d'un bruit Gaussien additionnel moyen zéro peut être facilement calculée. Le facteur suivant à considérer, qui est important pour étendre le modèle de combinaison de la parole et du bruit afin de le rendre applicable à chaque canal d'une banque de filtres passe-bande, indique que les canaux ont ou peuvent avoir une tie of a single discrete Fourier transformation - (TFD) of a speech signal tainted by an additional zero mean Gaussian noise can be easily calculated. The next factor to consider, which is important in expanding the speech and noise combination model to make it applicable to each channel in a bandpass filter bank, indicates that the channels have or may have a

largeur de bande beaucoup plus grande- qu'un seul canal TFD. Le para- much greater bandwidth than a single TFD channel. The para-

mètre de puissance de bruit et le nombre de canaux contributifs peu- noise power meter and the number of contributing channels can

vent done être estimés en observant la sortie du filtre passe-bande therefore be estimated by observing the output of the bandpass filter

en l'absence de parole et en présence de bruit. in the absence of speech and in the presence of noise.

La prochaine étape consistait à faire en sorte que les modè- The next step was to make sure that the mod-

les de reconnaissance de parole créés en l'absence de bruit puissent speech recognition created in the absence of noise can

être améliorés pour être-utilisés en présence de bruit, en les modi- be improved to be used in the presence of noise, by modifying them

riant pour qu'ils soient égaux à leur valeur escomptée en présence de bruit. Le procédé à employer est donc celui correspondant à chaque laughing so that they are equal to their expected value in the presence of noise. The process to be used is therefore that corresponding to each

échantillon de parole et à chaque canal de filtre passe-bande repré- speech sample and each bandpass filter channel shown

sentés dans chaque modèle exempt de bruit, en substituant ensuite la valeur escomptée du modèle exempt de bruit modifié par la présence du felt in each noise-free model, then substituting the expected value of the noise-free model modified by the presence of the

bruit du moment.noise of the moment.

Par conséquent, en mesurant la moyenne et la variance à la sortie du canal de filtre passe-bande, on peut estimer les propriétés Therefore, by measuring the mean and variance at the output of the bandpass filter channel, we can estimate the properties

du canal à la manière dont il transmet le bruit Gaussien. Pour l'es- from the channel to the way it transmits Gaussian noise. For the-

sentiel, comme on peut le voir ci-dessus (de nombreuses considéra- sentiel, as can be seen above (many considera-

tions ci-dessus ont été prouvées mathématiquement), il existe une ba- above have been proven mathematically), there is a ba-

se à la fois théorique et empirique pour la mise en oeuvre de la is both theoretical and empirical for the implementation of the

présente invention. Comme indiqué, le principe de la présente inven- present invention. As noted, the principle of this invention

tion réside dans l'addition analytique de bruit pour créer des modè- tion lies in the analytical addition of noise to create models

les qui, une fois formés, interviennent pour accroître la fiabilité those who, once trained, intervene to increase reliability

de systèmes de reconnaissance de parole. speech recognition systems.

En tout cas, il existe deux manières d'ajouter du bruit à des données de modèle recueillies dans une ambiance exempte de bruit In any case, there are two ways to add noise to model data collected in a noise-free environment

et donc de former de nouveaux modèles utilisables en ambiance bruyan- and therefore to form new models that can be used in noisy environments

te. Une manière rigoureuse consiste à ajouter du bruit à chaque élé- you. One rigorous way is to add noise to each element.

ment de modèle, puis à faire la moyenne des résultats. Une manière approximative consiste à faire la moyenne des éléments exempts de then model the results. An approximate way is to average the elements free of

bruit pour former des données de Forme de Base et à modifier ces don- noise to form Basic Shape data and to modify these data

nées en aJoutant du bruit en fonction des conditions du moment, en born by adding noise according to current conditions,

utilisant la règle des "puissances aJoutées" ou toute autre règle ap- using the "added powers" rule or any other rule

propriée ou plus précise. La manière rigoureuse exige de conserver propriée or more precise. The rigorous way requires to keep

tous les modèles et les éléments et nécessite un stockage excessif. all models and items and requires excessive storage.

La manière approximative fournit pour l'essentiel les mêmes modèles The approximate way provides essentially the same models

et les mêmes résultats de reconnaissance. Il existe une condition es- and the same recognition results. There is a condition es-

sentielle qui est implicite à la mise en oeuvre. Les données de modè- which is implicit in the implementation. The model data

le doivent être exemptes de bruit par rapport à l'environnement'dans must be free from noise in relation to the environment in

lequel elles sont utilisées.which they are used.

La figure 2 représente un bloc-diagramme détaillé de forma- Figure 2 shows a detailed block diagram of training

tion de modèles employé en ajoutant du bruit à un modèle de Forme de Base. Le modèle de Forme de Base est lui-même une moyenne obtenue à partir d'un groupe "d'éléments" de mots. Chaque élément est constitué tion of models used by adding noise to a Basic Shape model. The Basic Shape model is itself an average obtained from a group of "elements" of words. Each element is made up

de paramètres provenant d'un seul 6noncé du mot donné. Un ou plu- parameters from a single word of the given word. One or more

sieurs éléments peuvent être arrangés pour former un modèle de Forme de Base. Les modèles de Forme de Base sont formés dans des conditions silencieuses et stockés dans un module 16 de la figure 1A ou dans un several elements can be arranged to form a Basic Shape model. The Basic Shape models are formed under silent conditions and stored in a module 16 of FIG. 1A or in a

module 170 de la figure lB. Il est à noter que la figure 3 est un ta- module 170 of Figure lB. Note that Figure 3 is a ta-

bleau définissant chaque valeur figurant à la figure 2. Comme on peut beau defining each value appearing in figure 2. As one can

le constater, le microphone 10 dans lequel un locuteur parle est éga- see, the microphone 10 in which a speaker speaks is also

lement représenté à la figure 2. La sortie du microphone est connec- shown in Figure 2. The microphone output is connected

tée à l'entrée de l'amplificateur 11 dont la sortie est connectée à tee at the input of amplifier 11 whose output is connected to

l'analyseur de spectre désigné par BPF ou banque de filtres passe- the spectrum analyzer designated by BPF or bank of pass filters

bande 12. Le commutateur 13 se trouve dans la position Modifier un band 12. Switch 13 is in the Modify position.

Modèle. La sortie de la banque de filtres passe-bande 12.est le vec- Model. The output of the bandpass filter bank 12 is the vector

teur des valeurs d'intensité spectrale des filtre passe-bande et est appliquée à un module 20 qui sert à faire la moyenne des paires de of the spectral intensity values of the bandpass filters and is applied to a module 20 which is used to average the pairs of

trames.frames.

Le calcul de la moyenne des paires de trames est une techni- The averaging of the pairs of frames is a technique

que bien connue et est réalisé pour l'essentiel par de nombreux cir- well-known and is mainly carried out by numerous

cuits connus. La sortie du module 20 est le résultat du calcul de la moyenne de paires successives de l'entrée provenant de l'analyseur de spectre 12 et un module 20 sert à diviser par deux la fréquence de trame effective. La sortie du module 20 est appliquée à un module de bit d'échelle 21- et à un module de composants au carré 22. Le module de composants au carré 22 fournit une sortie de vecteur qui est égale well known. The output of the module 20 is the result of calculating the average of successive pairs of the input from the spectrum analyzer 12 and a module 20 is used to halve the effective frame frequency. The output of module 20 is applied to a scale bit module 21- and to a squared component module 22. The squared component module 22 provides a vector output which is equal

à l'intensité au carré qui est, pour l'essentiel, la valeur de puis- to the squared intensity which is essentially the value of

sance de la sortie du module de moyenne de paires.de trames 20. of the output of the frame pair average module 20.

-17- - 17 - 262t887 La sortie du module de bit d'échelle 21 sert essentiellement à fournir deux fois la moyenne des paires successives mises en oeuvre par une série de décalages pour permettre à l'une d'entre elles de s'adapter aux composantes maximalesdevecteur dans une échelle de 7 bits. Par conséquent, le module 21 est un registre à décalage qui fournit essentiellement un certain nombre de décalages à droite pour réaliser l'opération décrite. La sortie du module de bit d'échelle 21 est transmise à un convertisseur logarithmique 23-qui produit, à sa -17- - 17 - 262t887 The output of the scale bit module 21 is essentially used to provide twice the average of the successive pairs implemented by a series of offsets to allow one of them to adapt to the maximum vector components in a 7-bit scale. Consequently, the module 21 is a shift register which essentially provides a certain number of right offsets to carry out the operation described. The output of the scale bit module 21 is transmitted to a logarithmic converter 23-which produces, at its

sortie, un vecteur de paramètres spectraux logarithmiques à l'échel- output, a vector of logarithmic spectral parameters at scale-

le. La moyenne de ce vecteur de paramètres est ensuite calculée sur un groupe donné d'éléments de modèles par le module 24 pour fournir à the. The average of this vector of parameters is then calculated on a given group of model elements by the module 24 to provide

la sortie le paramètre spectral logarithmique à l'échelle, qui four- the output the logarithmic spectral parameter at scale, which provides

nit essentiellement un paramètre du modèle de Forme de Base. La sor- essentially denies a parameter of the Basic Shape model. The exit

tie du module de composants au carré 22 est envoyée à une entrée de tie of the components module squared 22 is sent to an input of

module 25 appelé module d'énergie relativisée et à une entrée de mo- module 25 called relativized energy module and with a mo-

dule 26 appelé détecteur de niveau de bruit et de parole. dule 26 called noise and speech level detector.

La sortie du module d'énergie relativisée 25 est un paramè- The output of the relativized energy module 25 is a parameter

tre indicatif de l'énergie relative, par exemple déterminée en fai- be indicative of the relative energy, for example determined in low-

sant la moyenne de l'énergie à partir de la sortie du module de com- the average energy from the output of the control module

posants au carré 22. Cette moyenne est calculée sur des éléments de posing squared 22. This average is calculated on elements of

modèle par le module 36 pour fournir une moyenne indicative du vec- model by module 36 to provide an indicative average of the vector

teur de sortie qui est le paramètre d'énergie relative nécessaire output tor which is the required relative energy parameter

pour fournir une autre valeur de données de Forme de Base. Comme ex- to provide another Base Shape data value. As ex-

pliqué ci-après, la sortie du détecteur de niveau de bruit et de pa- folded below, the output of the noise level and pa-

role 26 est indicative du niveau d'énergie dont la moyenne est à nou- role 26 is indicative of the energy level, the average of which is again

veau calculée par le module 27 pour fournir à sa sortie le niveau d'énergie d'un autre type de Forme de Base. Le détecteur de niveau de calf calculated by module 27 to provide at its output the energy level of another type of Basic Shape. The level detector

bruit et de parole qui sera décrit ultérieurement, fournit deux sor- noise and speech which will be described later, provides two outputs

ties supplémentaires, dont l'une est un indicateur logarithmique du niveau de parole dont la moyenne est calculée sur un temps de mot et sur un canal qui est un dispositif de mise à l'échelle relié aux mots, et dont 'l'autre est le vecteur du niveau de bruit dans chaque canal, dont la moyenne est calculée par rapport au temps, mais pas par rapport au canal. Il s'agit également d'unvecteur connecté à des additional parts, one of which is a logarithmic indicator of the speech level, the average of which is calculated over a word time and on a channel which is a scaling device linked to the words, and the other of which is the vector of the noise level in each channel, the average of which is calculated with respect to time, but not with respect to the channel. It is also a vector connected to

unités de reconnaissance de mots. On voit donc que la sortie du modu- word recognition units. We therefore see that the output of the modu-

le 27 est appliquée à un premier module additionneur 30 qui.reçoit the 27 is applied to a first adder module 30 which receives

une sortie supplémentaire du détecteur de niveau de bruit et de paro- an additional output from the noise and level detector

le. La sortie de l'additionneur 30 est appliquée à l'une des entrées the. The output of adder 30 is applied to one of the inputs

d'un additionneur 31 qui reçdit,- à son autre entrée, une sortie déri- an adder 31 which receives, - at its other input, a derivative output

vée du module de bit d'échelle 21. La sortie du module de bit d'échelle 21 est multipliée, par l'intermédiaire du module 32, par un of the scale bit module 21. The output of the scale bit module 21 is multiplied, via the module 32, by a

facteur K qui est égal à 18,172 et qui est défini en détail au ta- factor K which is equal to 18.172 and which is defined in detail in ta-

bleau 3. La moyenne de cette valeur est ensuite calculée par le modu- bleau 3. The average of this value is then calculated by the modu-

le 33 pour produire, à sa sortie, la valeur de Forme de Base de la the 33 to produce, at its exit, the value of Basic Form of the

valeur logarithmique qui est appliquée à l'autre entrée de l'addi- logarithmic value which is applied to the other input of the addi-

tionneur 31. La sortie de l'additionneur 31 est appliquée à l'addi- actuator 31. The output of the adder 31 is applied to the addi-

tionneur 32. L'additionneur 32 reçoit, comme autre entrée, la sortie du détecteur de niveau de bruit et de parole 26 qui est à nouveau le actuator 32. The adder 32 receives, as another input, the output of the noise and speech level detector 26 which is again the

vecteur des niveaux de bruit de chaque canal. Cette sortie est appli- vector of the noise levels of each channel. This output is applied

quée à l'une des entrées d'un module de fonction 40 qui reçoit, à son autre entrée, la sortie du module 23. La sortie du module de fonction est le vecteur de paramètres spectraux logarithmiques à l'échelle pour un modèle avec addition de bruit. Elle est appliquée à un module de fonction 41 pour fournir, à sa sortie, le vecteur de paramètre de reconnaissance qui est la matrice de transformation mel-cosinus pour l'énoncé particulier. Par conséquent, la sortie du module 41 et la quée at one of the inputs of a function module 40 which receives, at its other input, the output of the module 23. The output of the function module is the vector of spectral logarithmic parameters at scale for a model with addition noise. It is applied to a function module 41 to provide, at its output, the recognition parameter vector which is the mel-cosine transformation matrix for the particular statement. Consequently, the output of module 41 and the

sortie du module 26 sont utilisées pour fournir les données de modè- output from module 26 are used to provide model data

les opérationnels.operational.

Comme indiqué, toutes les sorties figurant sur le bloc-dia- As indicated, all of the outputs listed on the block

gramme de la figure 2 sont décrites à la figure 3. Comme on peut le voir à la lumière de ce qui précède, la valeur effective d'intensité gram of Figure 2 are described in Figure 3. As can be seen from the above, the actual value of intensity

spectrale du modèle de Forme de Base dérivé de la figure 2 est essen- of the Base Shape model derived from Figure 2 is essential

tiellement données par l'équation suivante: MB X 2SB expb (UB) et la puissance effective est donnée par l'équation suivante B m2B 22SB expb (21B) tially given by the following equation: MB X 2SB expb (UB) and the effective power is given by the following equation B m2B 22SB expb (21B)

-19 - 2627887-19 - 2627887

Voir définitions à la figure 3.See definitions in Figure 3.

En tout cas, comme on peut le constater, avant d'ajouter du In any case, as we can see, before adding

bruit, la puissance de chaque trame est modifiée de façon que le ni- noise, the power of each frame is changed so that the ni-

veau de parole moyen du modèle indiqué à la sortie du module 27 de la figure 2 soit le même que le niveau de parole du moment indiqué par mean speech calf of the model indicated at the output of module 27 of FIG. 2 is the same as the speech level of the moment indicated by

la sortie du détecteur de niveau de bruit et de parole 6 qui est ap- the output of the noise and speech level detector 6 which is ap-

pliquée à l'entrée de l'additionneur 30. Etant donné que les valeurs plicated at the input of the adder 30. Since the values

sont dans des unités de reconnaissance (0,331 dB), la puissance ef- are in recognition units (0.331 dB), the power e-

fective dans la Forme de Base est modifiée, ce qui est indiqué à la sortie du module 26. A cette valeur est ajouté le niveau de puissance fective in the Basic Form is modified, which is indicated at the output of module 26. To this value is added the power level

de bruit du moment et l'on obtient donc le niveau de puissance effec- noise of the moment and we thus obtain the power level effected

tif du modèle avec addition de bruit,. de sorte que l'intensité effec- tif of the model with addition of noise ,. so that the intensity effected

tive du modèle avec addition de bruit est représentée comme la sortie tive of the model with noise addition is represented as the output

du module 41.of module 41.

Par conséquent, tous les paramètres de reconnaissance opéra- Therefore, all recognition parameters operate

tionnels sont dans la transformation mel-cosinus des paramètres spec- are in the mel-cosine transformation of the spec-

traux logarithmiques et sont des mesures d'énergie relative. Comme indiqué, tout ce qui précède doit être évident pour l'homme de l'art après examen de la figure 2 et des définitions de la figure 3 et les logarithmic paths and are measures of relative energy. As noted, all of the above should be apparent to those skilled in the art after examining Figure 2 and the definitions in Figure 3 and the

formules mathématiques correspondantes doivent elles aussi être évi- Corresponding mathematical formulas should also be avoided.

dentes. En utilisant exactement les mêmes techniques, on peut donc former des modèles en aJoutant du bruit à des éléments de modèle puis teeth. Using exactly the same techniques, we can therefore form models by adding noise to model elements and then

en calculant la moyenne. Pour l'essentiel, le processus de réalisa- by calculating the average. For the most part, the realization process

tion est similaire à celui représenté à la figure 2, et l'on peut donc fournir exactement les mêmes sorties que celles indiquées à la figure 2, sauf que le calcul de la moyenne peut être effectué après tion is similar to that shown in Figure 2, so you can provide the exact same outputs as shown in Figure 2, except that averaging can be done after

l'unité de fonctions 40.the function unit 40.

La figure 4 représente un bloc-diagramme plus détaillé d'un Figure 4 shows a more detailed block diagram of a

système typique utilisant une méthode de formation de modèles analo- typical system using a method of forming analog models

gue à celle indiquée ci-dessus. A la figure 4, les mêmes chiffres de référence ont été utilisés pour désigner -des composants opérationnels similaires. Comme on peut le voir à la figure 4, il est prévu un AGC ou module de contr8le automatique de gain 45 qui est connecté à l'une des entrées d'un additionneur 46 dont la sortie est connectée à un -20 - gue to that indicated above. In FIG. 4, the same reference numbers have been used to designate similar operational components. As can be seen in Figure 4, there is an AGC or automatic gain control module 45 which is connected to one of the inputs of an adder 46 whose output is connected to a -20 -

- 20 - 2627887- 20 - 2627887

module codeur/décodeur (CODEC) et à un circuit de linéarisation 47. coder / decoder module (CODEC) and a linearization circuit 47.

Pour l'essentiel, le module codeur/décodeur peut être un convertis- For the most part, the encoder / decoder module can be a convert-

seur analogique-numérique suivi d'un convertisseur numérique-analogi- analog-digital generator followed by a digital-analog converter

que. La sortie du codec est appliquée au synthétiseur ou banque de filtres passe-bande 12. La sortie du filtre passe-bande 12 est envoyée à un module than. The output of the codec is applied to the synthesizer or bank of bandpass filters 12. The output of the bandpass filter 12 is sent to a module

de moyenne de paires de trames 20 qui est également associé à un mo- of frame pair average 20 which is also associated with a mo-

dule d'échelle 21 et au module de détection de parole et de bruit 26 qui sera expliqué. Les lignes de sortie représentées-sur le côté droit de la figure 4 fournissent les différentes valeurs de données scale module 21 and the speech and noise detection module 26 which will be explained. The output lines shown on the right side of Figure 4 provide the different data values

de modèles opérationnels qui sont utilisées pour former ainsi des mo- operational models that are used to form mo-

dèles en présence de bruit.noise in the presence of noise.

Comme on peut le constater, le détecteur de parole et de As can be seen, the speech and

bruit 26 qui sera décrit ci-après constitue un module de fonctionne- noise 26 which will be described below constitutes a functional module

ment essentiel. La figure 4 montre également que les entrées du mi- essential. Figure 4 also shows that the inputs of the mid-

crophone 10 sont désignées Nc et Sc qui sont les sources de signaux et de bruit significatives. L'indice "c" indique qu'il s'agit de crophone 10 are designated Nc and Sc which are the sources of significant signals and noise. The index "c" indicates that it is

l'intensité spectrale moyenne sur la bande passante de chacun des ca- the average spectral intensity over the bandwidth of each of the

naux de banque de filtres formant l'analyseur de spectre 12. En'tout cas, chaque indice "c" a 14 vareurs, une pour chaque filtre de la banque filtres. Par conséquent, Sc est l'intensité spectrale du canal filter bank standards forming the spectrum analyzer 12. In any case, each index "c" has 14 varers, one for each filter in the filter bank. Therefore, Sc is the spectral intensity of the channel

C du signal de parole acoustique, tandis que Nc est l'intensité spec- C of the acoustic speech signal, while Nc is the spec-

trale en moyenne quadratique du bruit acoustique de ce canal. Les sorties des additionneurs 50 et 46 sont les intensités spectrales du quadratic average of the acoustic noise of this channel. The outputs of the adders 50 and 46 are the spectral intensities of the

bruit électronique qui est injecté avant et après le module de con- electronic noise which is injected before and after the con-

trôle automatique de gain AGC 45. La sortie du codec 47 contient automatic gain control AGC 45. The output of codec 47 contains

l'intensité spectrale du bruit de quantification introduit par le co- the spectral intensity of the quantization noise introduced by the co-

dec. En tout cas, la sortie de la banque de filtres passe-bande 12 In any case, the output of the bandpass filter bank 12

est le vecteur des valeurs d'intensité spectrale de filtres passe- is the vector of spectral intensity values of pass-through filters

bande, tandis que la sortie du module de moyenne 'de paires de trames est le résultat du calcul de la moyenne de paires successives des band, while the output of the average module of weft pairs is the result of the average of successive pairs of

valeurs d'intensité spectrale.spectral intensity values.

Le signal de sortie effectif de la banque de filtres 12 est une estimation de l'intensité spectrale du signal à l'entrée de la banque de filtres sur la bande passante de la banque de filtres et The effective output signal from the filter bank 12 is an estimate of the spectral intensity of the signal at the input of the filter bank on the passband of the filter bank and

-21- 2627887-21- 2627887

ceci est indiqué pour chaque canal de la banque de filtres. La moyen- this is indicated for each channel of the filter bank. The way

ne de paires successives de ces valeurs est calculée pour produire la no of successive pairs of these values is calculated to produce the

sortie du module 20 à un rythme de 50 par seconde. output from module 20 at a rate of 50 per second.

Pour l'essentiel, le groupe de toutes les valeurs des 14 ca- Essentially, the group of all values of the 14 ca-

naux est totalement décalé à droite du même nombre S dans le module 21, de sorte que la valeur la plus importante occupe 7 bits ou moins et les valeurs résultantes sont converties par une consultation de table en un nombre proportionnel au logarithme. Le tableau indique naux is fully shifted to the right of the same number S in module 21, so that the largest value occupies 7 bits or less and the resulting values are converted by a table lookup to a number proportional to the logarithm. The table indicates

127 pour une entrée de 127, de sorte que le résultat peut être consi- 127 for an entry of 127, so the result can be viewed

déré comme 26,2 fois le logarithme naturel de l'entrée ou, de manière équivalente, le logarithme de base b, o b est. égal à 1,03888. Les valeurs de trame de 20 millisecondes sont également utilisées par le derived as 26.2 times the natural logarithm of the input or, equivalently, the base logarithm b, where b is. equal to 1.03888. Frame values of 20 milliseconds are also used by the

détecteur 26 pour produire une mesure de l'énergie de parole de poin- detector 26 for producing a measurement of the pointer speech energy

te et une estimation de l'énergie de bruit moyenne de chaque canal. te and an estimate of the average noise energy of each channel.

Le niveau de parole est une estimation du logarithme de base b de l'énergie de parole totale au niveau du microphone 10, à laquelle on The speech level is an estimate of the base logarithm b of the total speech energy at the microphone 10, at which

*ajoute une constante arbitraire.* adds an arbitrary constant.

Pour l'essentiel, l'effet du contrôle automatique de gain est supprimé et n'est donc pas une valeur spectrale. Par exemple, il est fonction de l'énergie totale de la bande passante de l'ensemble Essentially, the effect of automatic gain control is suppressed and is therefore not a spectral value. For example, it is a function of the total energy of the bandwidth of the whole

de la banque de filtres. L'estimation du niveau de parole est égale- from the filter bank. The speech level estimate is also

ment fonction des mots ou des expressions. Ses constantes de temps function of words or expressions. Its time constants

sont telles qu'elles sont une mesure du niveau auquel de brefs énon- are such that they are a measure of the level at which brief statements

cés sont prononcés. Il n'existe donc qu'une seule valeur de niveau qui peut être associée à chaque modèle ou segment inconnu de durée de these are pronounced. There is therefore only one level value which can be associated with each unknown model or segment of duration of

modèle. Les contraintes de temps des estimations de bruit du détec- model. The time constraints of noise detection estimates

teur 26 sont également telles que seule une estimation de niveau de bruit doit être affectée à chaque canal sur les périodes de temps de 26 are also such that only one noise level estimate should be assigned to each channel over the time periods of

la longueur des énoncés. Par conséquent, les valeurs de sortie du dé- the length of the statements. Therefore, the output values of the de-

tecteur de parole et de bruit 26 connecté au circuit logarithmique 54 de la figure 4 sont des estimations d'énergie moyenne de la sortie de speech and noise detector 26 connected to the logarithmic circuit 54 of FIG. 4 are estimates of average energy of the output of

la banque de filtres. Elles sont donc affectées par le contrôle auto- the filter bank. They are therefore affected by self-monitoring

matique de gain et sont directement proportionnelles à l'énergie gain and are directly proportional to the energy

spectrale moyenne sans transformation logarithmique. mean spectral without logarithmic transformation.

On suppose que le signal et les différentes sources de bruit We assume that the signal and the different noise sources

- 22 - 2627887- 22 - 2627887

sont statistiquement indépendants et que leurs énergies s'ajoutent en moyenne. Ce moyen n'est pas seulement commode pour déterminer les sources de bruit internes, mais il s'est avéré être une excellente are statistically independent and their energies are added on average. This method is not only convenient for determining internal noise sources, but it has proven to be an excellent

approximation du bruit acoustique et des sources de signaux. En ou- approximation of acoustic noise and signal sources. In or-

tre, on suppose qu'il existe des valeurs de bruit qui peuvent être tre, we assume that there are noise values that can be

considérées comme une puissance de bruit équivalente au niveau du mi- considered as equivalent noise power at mid-level

crophone. Ces valeurs sont la puissance de bruit acoustique et d'au- crophone. These values are the acoustic noise power and

tres puissances de bruit du système, dont certaines sont réduites par very high noise levels of the system, some of which are reduced by

le module de contrôle automatique de gain 45. the automatic gain control module 45.

Par conséquent, les facteurs d'échelle dérivés de la figure Therefore, the scale factors derived from the figure

4 et indiqués aux figures 2 et 3 sont fournis pour produire des modè- 4 and shown in Figures 2 and 3 are provided to produce models

les en fonction du bruit. En employant le procédé de calcul de la mo- them depending on the noise. Using the method of calculating the mo-

yenne des modèles, on peut donc produire un modèle moyen qui est yenne models, so we can produce an average model which is

identique ou équivalent à celui qui serait obtenu en faisant la mo- identical or equivalent to that which would be obtained by making the

yenne des paramètres spectraux logarithmiques de tous les éléments au yenne logarithmic spectral parameters of all elements at

même niveau de parole et au même rapport signal/bruit. Par consé- same speech level and at the same signal / noise ratio. Therefore

quent, pour simplifier l'ensemble du problème, on suppose qu'il exis- quent, to simplify the whole problem, it is assumed that there

te des rapports signal/bruit dans tous les modèles ainsi que dans tous les éléments de modèles. Ceci peut être réalisé en ajustant les niveaux de parole dans tous les éléments pour qu'ils soient égaux, et des rapports signal/bruit égaux se traduisent donc par une valeur de bruit égale dans tous les éléments. Selon cette supposition, on peut réaliser toutes les formes de calcul de moyenne de l'équivalent de bruit. Comme indiqué ci-dessus, des recherches ont montré que, lorsque des modèles ont le même rapport signal/bruit que l'inconnue, signal-to-noise ratios in all models as well as in all model elements. This can be achieved by adjusting the speech levels in all elements to be equal, and equal signal-to-noise ratios therefore result in an equal noise value in all elements. Under this assumption, all forms of averaging the noise equivalent can be performed. As noted above, research has shown that when models have the same signal-to-noise ratio as the unknown,

le rendement de reconnaissance de parole est meilleur qu'avec des mo- speech recognition performance is better than with mo-

dèles comportant moins ou plus de bruit. Il est donc indiqué que, sur LEDs with less or more noise. It is therefore indicated that, on

la base des techniques ci-dessus, le rapport signal/bruit du signal. the basis of the above techniques, the signal / noise ratio of the signal.

audio peut être prédit et le rendement de reconnaissance peut donc audio can be predicted so recognition performance can

être optimisé en modifiant les modèles avant qu'ils ne soient utili- be optimized by modifying models before they are used

sés, de façon qu'ils soient "comme si" ils étaient e à partir so that they are "as if" they were e from

d'une parole possédant le même rapport signal/bruit que la parole in- speech having the same signal-to-noise ratio as speech

connue imminente.known imminent.

Comme indiqué, on procède donc en deux étapes. L'une consis- As indicated, we therefore proceed in two stages. One is

- 23 -2627887- 23 -2627887

te à prédire le rapport signal/bruit de la- parole imminente, puis à modifier les modèles pour répondre à cette exigence. Comme on le te predict the signal-to-noise ratio of impending speech, and then modify the models to meet this requirement. As we

verra, le détecteur de parole et de bruit 26 ne réalise pas une es- will see, the speech and noise detector 26 does not perform an

timation de la puissance de parole dans chaque canal, car elle varie- timation of the speech power in each channel, because it varies

rait d'un mot à l'autre en fonction du contenu phonétique de chacun from one word to another depending on the phonetic content of each

d'entre eux. Comme on ne peut pas prédire les mots qui seront pronon- of them. As we cannot predict the words that will be pronounced-

cés, les données n'auraient pas de capacité prédictive. L'important est que, pour les procédures normales, on n'aurait pas d'estimation However, the data would have no predictive power. The important thing is that for normal procedures there would be no estimate

du rapport signal/bruit pour chaque canal. Par conséquent, la procé- signal-to-noise ratio for each channel. Therefore, the process

dure de modification des modèles indiquée ci-dessus évite d'utiliser des valeurs signal/bruit pour chacun des canaux. Il est donc indiqué que les modèles résultant d'une puissance de bruit égale à sa valeur The modification time of the models indicated above avoids using signal / noise values for each of the channels. It is therefore indicated that the models resulting from a noise power equal to its value

moyenne donnent de très bons résultats dans un système de reconnais- average give very good results in a recognition system

sance.sance.

En d'autres termes, il est inutile de se soucier de la va- In other words, there is no point in worrying about the

riation de la puissance de bruit d'une trame à l'autre,- car elle noise power from one frame to another, - because it

est suffisante pour utiliser la valeur moyenne. Les paramètres de mo- is sufficient to use the average value. The mo-

dèles sont donc ceux qui seraient produits à partir de la même puis- so they are those that would be produced from the same

sance de parole que celle qui existe effectivement dans les modèles de "forme de base", combinée avec la puissance de bruit moyenne du speech capacity than that which actually exists in "basic shape" models, combined with the average noise power of the

moment. Pour l'essentiel, comme indiqué ci-dessus, le module de dé- moment. For the most part, as indicated above, the module for

tection de parole et de bruit 26 est un circuit de traitement numéri- speech and noise detection 26 is a digital processing circuit

que de signal (DSP) qui intervient pour exécuter un algorithme four- that of signal (DSP) which intervenes to execute an algorithm four-

nissant une mesure du niveau de puissance d'un signal de parole en présence de bruit acoustique supplémentaire et également une mesure de la puissance de bruit moyenne dans les canaux de banque de filtres passebande sous une forme arbitraire quelconque. La mesure du niveau de bruit obtenu est indicative du niveau de conversation du locuteur permettant d'ajuster le rapport signal/bruit pour la reconnaissance de parole. D'autres mesures du niveau de parole varient rapidement et/ou avec la fréquence relative d'occurrence de sons vocaux et non providing a measurement of the power level of a speech signal in the presence of additional acoustic noise and also a measurement of the average noise power in the bandwidth filter bank channels in any arbitrary form. The measurement of the noise level obtained is indicative of the level of conversation of the speaker making it possible to adjust the signal / noise ratio for speech recognition. Other measures of speech level vary rapidly and / or with the relative frequency of occurrence of vocal sounds and not

vocaux se trouvant à l'intérieur de la parole parlée. La-mesure obte- nue par le détecteur de parole et de bruit remédie à ce problème en inside the spoken word. The measurement obtained by the speech and noise detector remedies this problem by

détectant la puissance de crête légèrement lissée des noyaux vocali- detecting the slightly smoothed peak power of the vocal nuclei

ques.ques.

-24- 2627887-24- 2627887

Plus spécifiquement, il détecte la puissance de crête légè- More specifically, it detects the light peak power

rement lissée du noyau vocalique renfermant le plus d'énergie. En né- the smoothed vocal nucleus containing the most energy. In ne-

gligeant les crêtes de puissance pendant les noyaux syllabiques non accentués et pendant les intervalles du discours qui ne sont pas des noyaux vocaliques, la mesure constitue une indication continue du ni- veau général de parole. Le détecteur est destiné à être utilisé en gliding power peaks during unstressed syllable nuclei and during speech intervals which are not vocal nuclei, the measurement constitutes a continuous indication of the general level of speech. The detector is intended for use in

présence de bruit additionnel sans corrélation avec la parole présen- presence of additional noise without correlation with speech present

te lorsque la puissance de bruit totale varie habituellement lente- te when total noise power usually varies slowly-

ment par rapport à la fréquence de production de noyaux vocaliques dans la parole (typiquement de 5 à 15 par seconde). Le détecteur a également pour fonction de rattraper des modifications plus rapides du niveau de bruit. Le détecteur de parole et de bruit 26 utilise une technique logarithmique ou de compression et effectue une mesure de ment with respect to the frequency of production of vocal nuclei in speech (typically from 5 to 15 per second). The detector also has the function of catching up with faster changes in the noise level. The speech and noise detector 26 uses a logarithmic or compression technique and performs a measurement of

la puissance de parole totale sur la gamme de fréquences concernée. the total speech power over the frequency range concerned.

Cette mesure est d'abord soumise à un processus de filtrage à montée lente et à descente rapide, les contraintes de temps de montée et de This measurement is first subjected to a filtering process with slow rise and rapid descent, the constraints of rise time and

descente étant choisies pour qu'il existe une grande différence posi- descent being chosen so that there is a great difference

tive entre la puissance de signal instantanée et la valeur filtrée pendant les premières quelques millisecondes du noyau vocalique, tive between the instantaneous signal power and the filtered value during the first few milliseconds of the vocal nucleus,

alors que cette différence n'adopte pas de valeurs négatives élevées. whereas this difference does not adopt high negative values.

Une fonction non linéaire de la différence entre la puissan- A non-linear function of the difference between the power-

ce de signal instantanée et la valeur filtrée à temps de descente ra- this instantaneous signal and the filtered value with lowering time

pide et à temps de montée lent est alors dirigée vers un processus d'intégration à impulsions longues d'une durée appropriée, de manière que la valeur résultante n'excède un seuil approprié que pendant des noyaux vocaliques normaux ou accentués des intervalles de parole, en pide and with slow rise time is then directed towards a process of integration with long pulses of an appropriate duration, so that the resulting value exceeds an appropriate threshold only during normal vocal nuclei or accentuated speech intervals, in

omettant habituellement les noyaux de voyelles non accentués. Le pas- usually omitting unstressed vowel nuclei. Not-

sage de ce seuil est alors utilisé pour identifier un intervalle de wise this threshold is then used to identify an interval of

puissance de signal élevée correspondant à des noyaux de parole. high signal strength corresponding to speech cores.

Seuls des intervalles ainsi identifiés sont utilisés pour la détec- Only intervals thus identified are used for the detection

tion des niveaux de parole. Les valeurs qui proviennent du processus speech levels. The values that come from the process

d'intégration à impulsions longues et qui sont supérieures à un se- integration with long pulses and which are greater than one

cond seuil inférieur au seuil des noyaux de parole sont ensuite uti- cond threshold below the threshold of the speech nuclei are then used

lisées pour identifier des intervalles qui contiennent une puissance read to identify intervals that contain a power

de parole et une puissance de bruit. Seuls les intervalles, pour les- speech and noise power. Only the intervals, for the-

À-.25 - 2627887'AT-.25 - 2627887 '

quels la valeur d'intégration à impulsions longues est inférieure au second seuil (inférieur) et pour lesquels la -puissance instantanée which the long pulse integration value is less than the second (lower) threshold and for which the instantaneous power

n'est pas supérieure à un troisième seuil supérieur à sa valeur fil- is not greater than a third threshold greater than its fil-

trée à descente rapide et à montée lente, sont utilisés comme entrée de la fonction de détection de puissance de bruit. Comme indiqué, le module de détection de puissance de bruit peut comprendre, pour l'essentiel, un module de traitement de signal fast down and slow up are used as input to the noise power detection function. As indicated, the noise power detection module can essentially comprise a signal processing module

numérique réalisé par une puce à circuit intégré. Il existe de nom- digital realized by an integrated circuit chip. There are many

breuses puces de ce type qui, pour l'essentiel, sont programmables et conçues pour exécuter divers types d'algorithmes. L'algorithme qui est associé à la fonction de détection de bruit et de signal a pour but de déterminer à la fois le contenu énergétique du signal et le such large chips which, for the most part, are programmable and designed to execute various types of algorithms. The aim of the algorithm which is associated with the noise and signal detection function is to determine both the energy content of the signal and the

contenu énergétique du bruit et procède de la manière suivante. energy content of the noise and proceeds as follows.

On obtient d'abord une valeur mathématique indicative de We first obtain a mathematical value indicative of

l'énergie des canaux. Ceci est réalisé dans chacune des trames. the energy of the channels. This is done in each of the frames.

L'énergie totale est ensuite calculée. Le système peut alors poursui-. The total energy is then calculated. The system can then continue.

vre pour tenir compte des modifications de contrôle automatique de gain. Dès que l'énergie est calculée, les résultats sont lissés sur des intervalles de temps donnés. Lorsque la valeur d'énergie lissée vre to account for changes in automatic gain control. As soon as the energy is calculated, the results are smoothed over given time intervals. When the energy value smoothed

est obtenue, on calcule la valeur logarithmique de l'énergie totale. is obtained, the logarithmic value of the total energy is calculated.

Après avoir calculé la valeur logarithmique de l'énergie totale, on effectue une intégration à impulsions longues ou une moyenne pour chaque estimation de niveau de parole à l'entrée de l'agencement de After calculating the logarithmic value of the total energy, a long pulse integration or an average is carried out for each estimate of speech level at the input of the arrangement of

filtre passe-bande. L'étape suivante prévoit l'utilisation d'un fil- bandpass filter. The next step involves using a wire-

tre asymétrique permettant de filtrer l'énergie logarithmique pour be asymmetric allowing to filter the logarithmic energy for

détecter la parole en surveillant le temps de montée du signal de pa- detect speech by monitoring the rise time of the speech signal

role. On notera immédiatement que le signal de parole est désigné à role. It will immediately be noted that the speech signal is designated at

titre générique et que le signal entrant peut être du bruit, un arte- generic title and that the incoming signal may be noise, an arte-

fact qui n'est pas un bruit ni un signal de parole et qui peut être dû à une forte respiration ou à d'autres caractéristiques de la voix fact which is not a noise or speech signal and which may be due to heavy breathing or other characteristics of the voice

du locuteur qui, pour l'essentiel,. ne constituent pas des informa- the speaker who, for the most part,. do not constitute information

tions ni du bruit. En tout cas, il-peut également s'agir d'un vrai neither noise. In any case, it can also be a real

signal de parole.speech signal.

Pour le déterminer, on surveille donc les valeurs instanta- To determine this, we therefore monitor the instantaneous values

nées de l'énergie logarithmique sur l'énergie lissée. L'algorithme a born of logarithmic energy over smoothed energy. The algorithm has

- 26 - 2627887- 26 - 2627887

pour fonction de diviser en périodes données l'intervalle de temps function of dividing the time interval into given periods

associé aux temps de montée et de descente du signal. Lorsque la mon- associated with signal rise and fall times. When the world

tée est positive plutôt que négative, certaines décisions sont prises concernant -la nature du signal entrant à reconnaître. Ces décisions, indiquées ci-dessus, déterminent s'il s'agit de parole, d'un artefact ted is positive rather than negative, some decisions are made regarding the nature of the incoming signal to be recognized. These decisions, indicated above, determine whether it is speech, an artefact

ou de bruit pur. Par exemple, pour un intervalle pour lequel la mon- or pure noise. For example, for an interval for which the

tée est négative, il est absolument admis que si la montée reste né- Tee is negative, it is absolutely accepted that if the climb remains ne-

gative, il s'agit d'un signal de bruit. Le signal de bruit est accep- negative, this is a noise signal. The noise signal is accepted

té et le système continue de détecter le signal en lissant les and the system continues to detect the signal by smoothing the

valeurs de bruit, en utilisant ces valeurs pour contribuer à l'éner- noise values, using these values to help fuel it

gie de bruit moyenne et en utilisant les valeurs calculées pour les appliquer à l'estimation de bruit. Cette valeur est ensuite utilisée average noise and using the calculated values to apply them to the noise estimate. This value is then used

pour former le modèle. L'opération est plus difficile pour une tran- to form the model. The operation is more difficult for a tran-

sition positive.positive position.

Une transition positive peut traduire un bruit, un artefact A positive transition can translate a noise, an artifact

ou une parole. Pour faire cette détermination, on effectue et on tra- or a word. To make this determination, we carry out and

vaille sur une intégrale d'une fonction non linéaire. Sur la base de la comparaison entre la valeur de l'intégrale et de certains seuils, works on an integral of a nonlinear function. Based on the comparison between the value of the integral and certain thresholds,

on peut donc déterminer si une montée positive est, ou non, indicati- we can therefore determine whether or not a positive rise is indicative of

ve d'une parole, d'un bruit ou d'un artefact. De cette manière, les valeurs qui proviennent du module de détection de parole et de bruit ve of a word, a noise or an artifact. In this way, the values that come from the speech and noise detection module

sont indicatives de la vraie valeur de parole. Les programmes desti- are indicative of the true speech value. The programs intended

nés au détecteur de parole et de bruit sont représentés aux figures A à 5C o le programme complet est indiqué. La figure 6 donne la définition des paramètres techniques nécessaires pour comprendre les formats de programmation illustrés aux figures 5A à 5C. Pour de plus amples explications, la procédure est accomplie une fois pour chaque trame et se déroule comme suit. La born at the speech and noise detector are shown in Figures A to 5C o the complete program is indicated. FIG. 6 gives the definition of the technical parameters necessary to understand the programming formats illustrated in FIGS. 5A to 5C. For further explanation, the procedure is performed once for each frame and proceeds as follows. The

première étape de la procédure indiquée à la figure 5A consiste à ob- first step in the procedure shown in Figure 5A is to ob-

tenir l'énergie de chaque canal ainsi que l'énergie totale. Ceci est représenté aux étapes 1 et 2. Ensuite, l'énergie est filtrée dans hold the energy of each channel as well as the total energy. This is shown in steps 1 and 2. Then the energy is filtered in

chaque canal, en tenant compte des modifications d'échelle du contrô- each channel, taking into account changes in the scale of the control

le automatique de gain, comme indiqué aux étapes 3 et 4. L'étape sui- the automatic gain, as indicated in steps 3 and 4. The next step

vante consiste à lisser les valeurs d'énergie pour obtenir des va- Vante consists in smoothing the energy values to obtain values

leurs logarithmiques lisses de l'énergie, qui sont corrigées en fonc- their smooth energy logarithmics, which are corrected for

- 27 - 2627887- 27 - 2627887

tion du contr8le automatique de gain. Ceci est représenté aux étapes , 6 et 7. L'étape suivante a pour but d'obtenir une moyenne à impul- tion of the automatic gain control. This is shown in steps, 6 and 7. The next step is to get an impulse average

sions longues pour l'estimation de niveau de parole à l'étape 8. En- long terms for the speech level estimate in step 8.

suite, on obtient la valeur-de filtre asymétrique de l'énergie et la montée de l'énergie du moment sur la valeur filtrée qui est représen- tée aux étapes 9 et 10. On sort ensuite de cet aspect particulier du programme pour passer à la figure 5B. La variable r représentée à Next, we obtain the asymmetric filter value of the energy and the rise of the momentary energy over the filtered value which is represented in steps 9 and 10. We then leave this particular aspect of the program to go to Figure 5B. The variable r represented at

l'étape 10 de la figure 5A correspond à la valeur dont l'énergie lo- step 10 of FIG. 5A corresponds to the value whose energy lo-

garithmique du moment ex-cède sa valeur asymétrique lisse. Pendant les garithmic of the moment ex-cedes its smooth asymmetric value. During the

noyaux vocaliques, r devient positif et le reste pendant un interval- vowel nuclei, r becomes positive and the rest for an interval

le considérable.the considerable.

Cette valeur a une importance particulière pour ses inter- This value is of particular importance for its inter-

valles positifs et négatifs et un traitement spécial est donc néces- positive and negative values and special treatment is therefore necessary

saire lorsqu'elle devient d'abord positive ou d'abord négative. Ceci est représenté en détail à la figure 5B. En tout cas, si r- devient d'abord positif, on enregistre le numéro de trame comme marquant le début possible d'un noyau de parole défini. Ensuite, on remet à zéro saire when it first becomes positive or first negative. This is shown in detail in Figure 5B. In any case, if r- first becomes positive, the frame number is recorded as marking the possible start of a defined speech kernel. Then we reset

la valeur de P qui est utilisée pour décider s'il s'agit de parole. the value of P which is used to decide whether it is speech.

On poursuit en suspendant la détection de bruit. En tout cas, pendant We continue by suspending the noise detection. In any case, during

que r reste positif, on accumule les valeurs de p et on place les in- that r remains positive, we accumulate the values of p and we place the in-

dicateurs d'artefact et de parole si P excède des seuils spécifiés. artifact and speech indicators if P exceeds specified thresholds.

Ces derniers sont indiqués dans la partie gauche de la figure 5B. Si These are shown on the left side of Figure 5B. Yes

r devient d'abord positif, on ramène le détecteur de bruit aux der- r first becomes positive, we return the noise detector to the last

nières valeurs de bruit connues et on reprend donc la détection de last known noise values and we therefore resume detection of

bruit après un retard donné si la parole ou l'artefact ont été détec- noise after a given delay if speech or artifact has been detected

tés, tout en s'assurant que le niveau de bruit supposé est suffisam- while ensuring that the assumed noise level is sufficient

ment élevé par rapport au niveau de bruit. Si la parole a été détec- high in relation to the noise level. If speech has been detected

tée dans cette montée, le numéro de trame est enregistré comme in this climb, the frame number is saved as

marquant la fin d'un intervalle de parole connu. marking the end of a known speaking interval.

En tout cas, pendant que r reste négatif, on continue à dé- In any case, while r remains negative, we continue to

tecter du bruit après un retard donné. Ceci est représenté en totali- detect noise after a given delay. This is represented in totali-

té dans les diagrammes annexés qui décrivent clairement les différen- tee in the attached diagrams which clearly describe the differences

tes opérations prévues.your planned operations.

La figure 5C représente, pour l'essentiel, la génération de variables de sortie qui, comme indiqué, sont utilisées pour fournir - 28- Figure 5C essentially shows the generation of output variables which, as shown, are used to provide - 28-

262788 7262 788 7

les données de modèles opérationnels telles qu'elles sont représen- operational model data as shown

tées, par exemple, aux figures 2 et 4. Comme on peut le constater d'après ce qui précède, le principal aspect du présent système est donc de fournir des modèles, en ajoutant du bruit de manière correcte et anticipée pour réaliser un modèle auquel est associé, pour l'es- tees, for example, in Figures 2 and 4. As can be seen from the above, the main aspect of this system is therefore to provide models, adding noise correctly and in advance to achieve a model to which is associated, for the es

sentiel, un niveau de rapport signal/bruit. Le niveau de bruit asso- sentiel, a level of signal / noise ratio. The associated noise level

cié au modèle est indicatif d'une estimation du bruit qui sera pré- linked to the model is indicative of an estimate of the noise which will be pre-

sent dans le signal imminent. De cette manière, on augmente feels in the impending signal. In this way, we increase

sensiblement la probabilité de reconnaissance d'un système de recon- significantly the probability of recognition of a recognition system

naissance de parole.birth of speech.

Il est à noter que la génération de modèles de ce type uti- It should be noted that the generation of models of this type uses

lisant l'addition de bruit, comme indiqué ci-dessus, peut être emplo- reading the noise addition, as shown above, can be used

yées dans n'importe quel système de reconnaissance de parole utili- yeas in any speech recognition system used

sant des modèles pour fournir une comparaison de ces modèles avec un signal entrant, afin de déterminer si ce signal correspond à de la models to provide a comparison of these models with an incoming signal, to determine if that signal corresponds to the

parole, à un artefact ou à du bruit. Par conséquent, le système in- speech, artefact or noise. Therefore, the system in-

tervient pour fournir des modèles de reconnaissance de parole qui sont d'abord formés en l'absence de bruit et qui sont améliorés pour 8tre utilisés en présence de bruit, en les modifiant pour qu'ils tervient to provide speech recognition models which are first trained in the absence of noise and which are improved to be used in the presence of noise, by modifying them so that they

soient égaux à leur valeur attendue en présence de bruit. are equal to their expected value in the presence of noise.

-29--29-

*- 29 - 2627887* - 29 - 2627887

Claims

1. Speech recognition system of the type comprising an ectre analyzer (12) by supplying spectral intensity values of utterances at an output and for comparing stored models with

spectral values processed to provide output in case of

favorable parison indicative of the presence of speech in said

statement, including the corresponding development of the apparatus for

said stored models includes first means connected to said eutr analyzer (12) for providing a signal representative of the

noise signal expected from an incoming signal, and a means connected to it

said first means and responding to said predicted noise signal to ert cker models which are modified according to said predicted noise signal.

2. Speech recognition system according to -the-

dication 1, characterized in that said first means comprises a mo-

noise and speech level detection yen, the function of which is to provide, at an output, a first signal indicative of the power level of a speech signal in the presence of noise, and a second

signal indicative of average noise power.

3. Speech recognition system according to the res-

dication 1, characterized in that said spectrum analyzer (12) comprises

takes several. bandpass filters disposed in a filter bank arrangement, each filter being adapted to pass a given spectral component in accordance with the bandwidth of said filter.

4. Speech recognition system according to the res-

dieation 1, characterized in that said second means comprises a mo-

yen to generate models under low noise conditions and

to modify said models in accordance with said pre-noise signal

said.

5. Speech recognition system according to the res-

dication 1, characterized in that said first means comprises a mo-

yen to predict the signal-to-noise ratio of an immediate speech signal

- 30 -2627887

nent.

6. Speech recognition system according to the res-

dication 3, characterized in that said first means comprises a mo-

yen to measure the mean and the variance of the so-called bandpass filters

of to provide an estimate of the noise passage properties of

each filter.

7. Speech recognition system according to the res-

dication 6, characterized in that said noise estimate is made

read on the basis of said filter response to Gaussian noise.

8. Speech recognition system according to the res-

dication 4, characterized in that said models oe _en absen-

this decit stsssu 'deelmpts iphdeuit in that it caigtun men

responding to said models to provide an average value for four-

supplying basic shape data to outputs and means for modifying said basic shape data in accordance with a signal

of noise predicted of the moment.

9. Speech recognition system of the type comprising a

spectrum analyzer to provide intensity values to an output

spectral utterance of statements and to compare memorized models given

born at spectral values processed to provide an output in case

favorable comparison indicative of the presence of speech in the-

said statement, the corresponding improvement of the apparatus for tajk = said memorized models comprises a processing means connected to said analyzer for ensra models for memorization by modification of said given models in accordance with a calculated calculated value indicative of the presence of noise, and means for comparing said ergdr models to incoming signals for

provide said output.

10. Speech recognition system according to the res-

dication 9, characterized in that said means for processing said expected calculated value is indicative of the presence of

Gaussian noise.

11. Speech recognition system according to the res-

dication 9, characterized in that said processing means comprises means for averaging the noise-free models for -31-

- 3 '- 2627887

provide Basic Form data outputs and to modify

said Basic Shape data outputs by adding, to said data

born, calculated noise data.

12; Speech recognition system according to the res-

dication 9, characterized in that said processing means comprises an averaging means for supplying, at the output, the average value of successive pairs of said spectral intensity values

provided by said analyzer, and a connected scaling means

tee at the output of said averaging means to provide a si-

gnal of field of given length and a means for converting said si-

gnal of -field of length given in a logarithmic signal for

providing one of said Basic Shape data outputs.

13. Speech recognition system according to the res-

dication 12, further comprising a square elevation means

connected to said averaging means to provide, at an output, a

vector signal indicative of the squared intensity of said moderate value

yenne of successive pairs, and a means connected to said output of the

said means of squaring to provide other data outputs

born from Basic Form.

14. Speech recognition system according to the res-

dication 13, characterized in that said means connected to the outlet of said squaring means comprises a means of production

of relative energy responding to said vector signal to provide a pa-

Energy meter of Basic Shape, and a means of detecting ni-

noise and speech calf to provide, at an output, a Basic Shape parameter indicative of the speech and noise power level.

15. A method of forming models which can be used in a speech recognition system, comprising the following steps: providing a signal indicative of an expected noise level

for an imminent signal, and modify a given model in accordance with-

said signal supplied to provide a model showing said level of

expected noise.

16. Method according to claim 15, characterized in that said supplying step consists in measuring the response of a

- 32 - 2627887

speech processing channel given in relation to noise and to be estimated

said signal to be provided on the basis of said measurement.

17. Method according to claim 15, characterized in

what said modification step first consists in forming a mo-

relatively noiseless base shape model and to modify said base shape model in accordance with said indicative signal of said

expected noise level.

18. The method of claim 15, characterized in that the modifying step consists in forming relatively noise-free Basic Shape models, adding noise to each model, and averaging said noise model data.

to form new models according to said analyzed data

sées.

19. Method according to claim 15, characterized in

what the step of providing a signal is to provide the report

signal / noise port of an imminent signal to be recognized by modifying the strength of a signal present by averaging the logarithmic spectral parameters of all models at the same speech level

and at the same signal / noise ratio, and to use said modulated parameters

yen to form modified patterns.

20. A method of forming models which can be used in a speech recognition system, comprising the steps

following: modify the trained models before they are used

entered for comparison by adding to said models a noise signal indicative of a predicted value, so that said models

modified behave as if they were enrpjrlfrom a si-

general speech with the same signal-to-noise ratio as a signal

imminent to recognize.

21. Method according to claim 20, characterized in

what the modification steps are to predict the ratio if-

general / noise of an imminent speech signal using such a ratio

general / noise of the moment as said predicted value on the basis of a ni-

speech calf of the moment, and to average the power of

noise and speech power of the moment to define said if-

general noise added.