FR2738382A1

FR2738382A1 - VOICE DIALOGUE SYSTEM FOR AUTOMATED INFORMATION PROVIDING

Info

Publication number: FR2738382A1
Application number: FR9610517A
Authority: FR
Inventors: Antje Wirth; Bernhard Kaspar; Georg Fries; Karlheinz Schuhmacher
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 1995-08-31
Filing date: 1996-08-28
Publication date: 1997-03-07
Anticipated expiration: 2016-08-28
Also published as: GB9618308D0; DE19532114A1; GB2304957A; GB2304957B; FR2738382B1; DE19532114C2

Abstract

L'invention concerne un système de dialogue vocal pour la fourniture automatisée d'informations, notamment d'un numéro d'appel pour une personne appelant. L'invention prévoit un dispositif (30) de reconnaissance de l'alphabet, qui peut reconnaître une expression épelée par l'utilisateur et qui peut sélectionner, parmi une multiplicité d'expressions prédéterminées, des expressions s'épelant de manière similaire, un dispositif (50) de reconnaissance d'expressions, qui compare l'expression entrée par l'utilisateur aux expressions sélectionnées par le dispositif (30) de reconnaissance de l'alphabet et qui fournit au moins une expression sur la base d'une détermination de similitude pour la fourniture à l'utilisateur.The invention relates to a voice dialogue system for the automated provision of information, in particular a telephone number for a caller. The invention provides an alphabet recognition device (30) which can recognize a phrase spelled out by the user and which can select from among a plurality of predetermined phrases similarly spelled phrases. Expression recognition (50), which compares the expression entered by the user with the expressions selected by the alphabet recognition device (30) and which provides at least one expression based on a determination of similarity for supply to the user.

Description

Système de dialogue vocal destiné à la fourniture automatiséeVoice dialogue system for automated delivery

d'informations L'invention concerne un procédé de dialogue vocal destiné à la fourniture automatisée d'informations, notamment d'un numéro d'appel pour un utilisateur, une installation de dialogue vocal destinée à la mise en oeuvre du procédé de dialogue vocal ainsi qu'un dispositif pour la reconnaissance, indépendante du locuteur, de la parole, à utiliser notamment dans une installation de The invention relates to a voice dialogue method intended for the automated supply of information, in particular a call number for a user, a voice dialogue installation intended for the implementation of the voice dialogue method as well a device for recognition, independent of the speaker, of speech, to be used in particular in an installation of

dialogue vocal.voice dialogue.

On connaît des systèmes de dialogue vocal destinés à la fourniture vocale automatisée de numéros d'appel, dans lesquels le dialogue entre une personne appelant, qui souhaite obtenir un certain renseignement concernant un There are known voice dialogue systems intended for the automated voice supply of telephone numbers, in which the dialogue between a caller, who wishes to obtain certain information concerning a

numéro d'appel, et le système se déroule par le téléphone. phone number, and the system runs over the phone.

Les systèmes de dialogue vocal fonctionnant à ce jour ne peuvent toutefois reconnaître qu'un vocabulaire figé, restreint à moyen d'à peu près 1000 mots. Les textes quelconques et parmi eux des noms de lieux, des noms de Voice dialogue systems operating to date can, however, recognize only a fixed vocabulary, restricted by means of about 1000 words. Any texts and among them place names, names of

famille et des numéros d'appel sont fournis par l'intermé- family and phone numbers are provided through

diaire d'un synthétiseur de parole. Mais il s'est avéré que des erreurs apparaissent lors de la prononciation de noms, notamment lorsque les noms n'obéissent pas aux diary of a speech synthesizer. But it turned out that errors appear when pronouncing names, especially when the names do not obey the

règles allemandes usuelles de prononciation. usual German pronunciation rules.

L'invention vise donc à rendre disponible un procédé de dialogue vocal pour la fourniture automatisée d'informations et à créer une installation de dialogue vocal de forme appropriée à ce procédé, qui puisse traiter un vocabulaire à reconnaître très étendu, c'est-à-dire à peu près 10.000 à 100.000 mots, qui puisse atteindre malgré cela un taux de reconnaissance acceptable et réduise le nombre d'erreurs lors de la fourniture vocale de termes de langue étrangère ou même qui ne commette pas du tout ces erreurs. L'invention résout ce problème technique par les étapes opératoires suivantes: a) chargement par intervalles de temps d'informations orthographico- phonétiques pour une multiplicité d'expressions prédéterminées d'un dictionnaire pouvant fonctionner en ligne, les informations étant disponibles en temps réel, b) invitation vocale de l'utilisateur à entrer une expression, c) mémorisation temporaire de l'expression entrée, d) invitation vocale de l'utilisateur à épeler l'expression entrée, e) en réponse à l'expression épelée, reconnaissance et sélection de plusieurs des expressions de référence prédéterminées et épelées à l'aide des informations orthographiques mémorisées à l'étape a) sur la base d'une détermination de similitudes, f) envoi des expressions sélectionnées à l'étape e) et de l'expression mémorisée temporairement à un dispositif de reconnaissance d'expression, g) reconnaissance et sélection d'au moins une expression parmi les expressions sélectionnées sur la base d'une comparaison de similitudes et, h) fourniture séquentielle des expressions trouvées à l'étape g) ainsi que d'autres informations The invention therefore aims to make available a voice dialogue method for the automated supply of information and to create a voice dialogue installation of a form suitable for this method, which can process a vocabulary to be recognized which is very wide, that is to say -to say about 10,000 to 100,000 words, which can nevertheless reach an acceptable recognition rate and reduce the number of errors when vocalizing foreign language terms or even which does not commit these errors at all. The invention solves this technical problem by the following operating steps: a) loading of orthographic-phonetic information by time intervals for a multiplicity of predetermined expressions from a dictionary which can operate online, the information being available in real time, b) voice prompt of the user to enter an expression, c) temporary storage of the expression entered, d) voice invitation of the user to spell the expression entered, e) in response to the spelled expression, recognition and selecting several of the predetermined and spelled reference expressions using the orthographic information stored in step a) on the basis of a determination of similarities, f) sending the expressions selected in step e) and the expression temporarily stored in an expression recognition device, g) recognition and selection of at least one expression from the expressions ons selected on the basis of a comparison of similarities and, h) sequential supply of the expressions found in step g) as well as other information

associées sous forme de parole synthétisée. associated in the form of synthesized speech.

Dans une mise en oeuvre du procédé selon l'invention, on répète l'étape h) jusqu'à ce que l'utilisateur mette In an implementation of the method according to the invention, step h) is repeated until the user sets

fin à la fourniture sous forme de parole synthétisée des expressions. end of the supply in the form of synthesized speech of the expressions.

Dans une mise en oeuvre du procédé selon l'invention, on met fin aux étapes e) et g) après l'écoulement d'un laps de temps prédéterminé et l'on invite l'utilisateur à entrer de nouveau son expression, lorsque l'on n'a pas reconnu d'expression. Dans une mise en oeuvre du procédé selon l'invention, l'utilisateur identifie l'une des expressions prononcées par synthèse comme concordant avec son expression et, en réponse à cette expression, on déclenche une interrogation d'une banque de données d'un répertoire téléphonique électronique pouvant fonctionner en temps réel dans lequel on lit tous les blocs de données satisfaisant au critère de l'expression et on les donne à l'utilisateur pour sélection, et l'utilisateur peut identifier, sur la base du nom et de l'adresse, le bloc de données, dont le numéro In an implementation of the method according to the invention, steps e) and g) are ended after the expiration of a predetermined period of time and the user is invited to re-enter his expression, when the 'no expression was recognized. In an implementation of the method according to the invention, the user identifies one of the expressions pronounced by synthesis as being in agreement with his expression and, in response to this expression, a query of a database is triggered. electronic telephone directory capable of operating in real time in which all the data blocks satisfying the expression criterion are read and given to the user for selection, and the user can identify, on the basis of the name and address, data block, including number

d'appel doit être fourni par l'installation. call must be provided by the facility.

Dans une mise en oeuvre du procédé selon l'invention, on charge des informations orthographico-phonétiques pour les expressions prédéterminées à des instants prédéterminés à partir d'un dictionnaire pouvant In an implementation of the method according to the invention, orthographic-phonetic information is loaded for the predetermined expressions at predetermined times from a dictionary that can

fonctionner en ligne.operate online.

L'invention résout le problème technique par une installation de dialogue vocal pour la mise en oeuvre du procédé suivant l'invention, ayant les particularités suivantes: un dispositif destiné à l'entrée d'une expression par un utilisateur, au moins un synthétiseur destiné à la production de signaux vocaux pour l'utilisateur, un dispositif d'entrée de parole, un dispositif de reconnaissance de l'alphabet, qui reconnaît une expression épelée par l'utilisateur et qui peut sélectionner des expressions d'orthographe similaire parmi une multiplicité d'expressions de référence35 prédéterminées et épelées, un dispositif de reconnaissance d'expressions, qui compare l'expression entrée par l'utilisateur aux The invention solves the technical problem by installing a voice dialogue for implementing the method according to the invention, having the following particularities: a device intended for the input of an expression by a user, at least one synthesizer intended in producing voice signals for the user, a speech input device, an alphabet recognition device, which recognizes a phrase spelled by the user and which can select expressions of similar spelling from a multiplicity of predetermined and spelled reference expressions35, an expression recognition device, which compares the expression entered by the user with

expressions sélectionnées par le dispositif de recon- expressions selected by the recognition device

naissance de l'alphabet, et qui fournit au moins une expression sur la base d'une détermination de similitudes pour la fourniture à l'utilisateur, et au moins un dictionnaire pouvant fonctionner en birth of the alphabet, and which provides at least one expression based on a determination of similarities for the supply to the user, and at least one dictionary which can operate in

ligne, qui mémorise des informations orthographico- line, which stores orthographic and

phonétiques pour la multiplicité d'expressions prédéterminées, auquel le dispositif de reconnaissance de l'alphabet, le dispositif de reconnaissance d'expressions phonetics for the multiplicity of predetermined expressions, to which the alphabet recognition device, the expression recognition device

et le synthétiseur peuvent accéder en temps réel. and the synthesizer can access in real time.

Dans une mode de réalisation de l'installation suivant l'invention, celle-ci comporte une mémoire intermédiaire, qui mémorise provisoirement l'expression entrée par l'utilisateur et une mémoire qui reçoit les expressions présélectionnées par le dispositif de In one embodiment of the installation according to the invention, it comprises an intermediate memory, which temporarily stores the expression entered by the user and a memory which receives the expressions preselected by the device.

reconnaissance de l'alphabet.recognition of the alphabet.

Dans une mode de réalisation de l'installation suivant l'invention, le dispositif de reconnaissance In one embodiment of the installation according to the invention, the recognition device

d'expressions fonctionne en mode de reconnaissance par mot-clé. of expressions works in keyword recognition mode.

Dans une mode de réalisation de l'installation suivant l'invention, les données mémorisées dans le dictionnaire sont des informations se rapportant à In one embodiment of the installation according to the invention, the data stored in the dictionary is information relating to

l'orthographe, à la phonétique et à l'intonation des expressions prédéterminées. spelling, phonetics and intonation of predetermined expressions.

Dans une mode de réalisation de l'installation suivant l'invention, il est mémorisé dans le dictionnaire des informations supplémentaires concernant des homonymes.30 Dans une mode de réalisation de l'installation suivant l'invention, l'expression entrée par l'utilisateur peut être un nom de lieu, un nom de famille ou plusieurs mots s'y rapportant. Dans une mode de réalisation de l'installation suivant l'invention, il est prévu une rubrique du dictionnaire pouvant fonctionner en ligne pour la In an embodiment of the installation according to the invention, additional information concerning homonyms is stored in the dictionary. In an embodiment of the installation according to the invention, the expression entered by the user can be a place name, a family name or several related words. In one embodiment of the installation according to the invention, there is provided a section of the dictionary which can operate online for the

27383822738382

mémorisation d'un vocabulaire général, des noms de lieux memorization of a general vocabulary, place names

et des noms de famille.and family names.

Dans une mode de réalisation de l'installation suivant l'invention, un micro-ordinateur programmé prend en charge la commande de l'installation. Dans un mode de réalisation de l'installation suivant l'invention, le dispositif de reconnaissance d'expressions et le dispositif de reconnaissance de l'alphabet sont tels qu'ils peuvent rejeter une expression entrée par l'utilisateur et/ou inviter l'utilisateur à prononcer de nouveau son expression après l'écoulement d'un laps de In one embodiment of the installation according to the invention, a programmed microcomputer takes over the control of the installation. In one embodiment of the installation according to the invention, the expression recognition device and the alphabet recognition device are such that they can reject an expression entered by the user and / or invite the user to pronounce his expression again after a lapse of

temps prescrit.prescribed time.

L'invention résout le problème technique par un dispositif pour la reconnaissance de la parole, indépendamment du locuteur, destiné notamment à être utilisé dans une installation de dialogue vocal, comportant un dispositif de reconnaissance de l'alphabet, qui peut reconnaître une expression épelée par un utilisateur et qui peut sélectionner, sur la base d'une détermination de similitude, plusieurs expressions de référence épelées parmi une multiplicité d'expressions de référence épelées prédéterminées, et un dispositif de reconnaissance d'expressions, qui compare, sur la base d'une détermination de similitudes, une expression entrée par l'utilisateur et correspondant à l'expression épelée, aux expressions présélectionnées par le dispositif de reconnaissance de l'alphabet et qui fournit comme résultat au moins une expression.30 Dans un mode de réalisation du dispositif de reconnaissance de la parole suivant l'invention, le dispositif de reconnaissance d'expressions fonctionne en mode de reconnaissance par mot-clé. Dans un mode de réalisation du dispositif de reconnaissance de la parole suivant l'invention, celui-ci comporte un dictionnaire, qui mémorise des informations The invention solves the technical problem by a device for speech recognition, independently of the speaker, intended in particular for use in a voice dialogue installation, comprising a device for recognizing the alphabet, which can recognize an expression spelled by a user and who can select, based on a determination of similarity, several spelled reference expressions from a multiplicity of predetermined spelled reference expressions, and an expression recognition device, which compares, based on a determination of similarities, an expression entered by the user and corresponding to the spelled expression, to the expressions preselected by the device for recognizing the alphabet and which provides as result at least one expression.30 In one embodiment of the device of speech recognition according to the invention, the device for recognizing speech 'expressions works in keyword recognition mode. In one embodiment of the speech recognition device according to the invention, it comprises a dictionary, which stores information

6 27383826 2738382

orthographiques et phonétiques concernant la multiplicité d'expressions prédéterminées, auquel peuvent accéder en temps réel le dispositif de reconnaissance de l'alphabet et le dispositif de reconnaissance d'expressions, pour déterminer des expressions sonnant de manière similaire ou orthographic and phonetic relating to the multiplicity of predetermined expressions, which can be accessed in real time by the alphabet recognition device and the expression recognition device, to determine expressions sounding similarly or

ayant une orthographe similaire.having a similar spelling.

L'invention est en mesure de traiter un vocabulaire de très grande étendue avec un taux de reconnaissance acceptable, par le fait qu'une expression entrée par un utilisateur est soumise à une reconnaissance combinée de la parole. Cette expression peut être un nom de famille, un prénom, un nom de rue, un nom de lieu ou également des mots s'y rapportant. La reconnaissance combinée de la parole comprend un dispositif de reconnaissance de l'alphabet, qui peut reconnaître une expression épelée par l'utilisateur et qui peut sélectionner ensuite des expressions d'orthographe similaire parmi une multiplicité d'expressions de référence épelées et prédéterminées. Le terme "expression d'orthographe similaire" est toujours utilisé ci-après lorsque l'on cherche à exprimer que deux ou plusieurs suites de mots composés de lettres sonnent de manière similaire quand ils sont prononcés (par exemple "es e es es e el" et "ef e es es e el"). La reconnaissance combinée de la parole comprend, comme deuxième composante principale, un dispositif de reconnaissance d'expressions, qui compare l'expression entrée directement par l'utilisateur aux expressions de référence, qui correspondent aux expressions de référence épelées et sélectionnées par le dispositif de reconnaissance de30 l'alphabet. Le dispositif de reconnaissance d'expressions fournit, sur la base d'une détermination de similitude, comme résultat de la reconnaissance, au moins un mot destiné à être fourni à l'utilisateur, ce mot correspondant à une expression de référence similaire à35 l'expression de l'utilisateur. Un dictionnaire pouvant fonctionner en ligne sert à mémoriser des informations orthographico-phonétiques pour la multiplicité d'expressions prédéterminées, auxquelles le dispositif de reconnaissance de l'alphabet, le dispositif de reconnaissance d'expressions et un synthétiseur peuvent accéder en temps réel. Il est prévu de manière appropriée une mémoire intermédiaire, qui mémorise provisoirement l'expression entrée directement par l'utilisateur, avant qu'elle The invention is able to process a very large vocabulary with an acceptable recognition rate, by the fact that an expression entered by a user is subject to combined speech recognition. This expression can be a surname, a first name, a street name, a place name or also related words. The combined speech recognition includes an alphabet recognition device, which can recognize a user spelled expression and which can then select similar spelling expressions from a multiplicity of predetermined spelled reference expressions. The term "expression of similar spelling" is always used below when one seeks to express that two or more series of words composed of letters sound in a similar way when they are pronounced (for example "es e es es e el "and" ef e es es el "). The combined speech recognition includes, as a second main component, an expression recognition device, which compares the expression entered directly by the user with the reference expressions, which correspond to the reference expressions spelled and selected by the speech device. recognition of the alphabet. The expression recognition device provides, on the basis of a determination of similarity, as a result of the recognition, at least one word intended to be supplied to the user, this word corresponding to a reference expression similar to the user expression. An online dictionary is used to store orthographic-phonetic information for the multiplicity of predetermined expressions, to which the alphabet recognition device, the expression recognition device and a synthesizer can access in real time. An intermediate memory is suitably provided, which temporarily stores the expression entered directly by the user, before it

n'atteigne le dispositif de reconnaissance d'expressions. does not reach the expression recognition device.

En outre, l'installation comprend une autre mémoire, dans laquelle on charge les expressions de référence épelées présélectionnées par le dispositif de reconnaissance de l'alphabet sous forme d'une liste de candidats de noms In addition, the installation includes another memory, in which the spelled reference expressions preselected by the alphabet recognition device are loaded in the form of a list of candidates for names.

d'orthographe similaire.with similar spelling.

Le dispositif de reconnaissance d'expressions fonctionne en mode de reconnaissance par mot-clé, de sorte que l'utilisateur puisse prononcer dans certaines limites des expressions supplémentaires avant et après l'expression proprement dite et que le dispositif de reconnaissance d'expressions soit malgré cela en mesure The expression recognition device operates in keyword recognition mode, so that the user can pronounce within certain limits additional expressions before and after the expression itself and that the expression recognition device is despite that able

d'extraire l'expression proprement dite. extract the expression itself.

Les informations orthographico-phonétiques mémorisées dans le dictionnaire concernent la façon d'écrire les expressions prédéterminées que le dispositif de reconnaissance de l'alphabet utilise pour reconnaître une expression épelée et pour effectuer une présélection de noms d'orthographe similaire pour le dispositif de reconnaissance d'expressions. De plus, il est mémorisé dans le dictionnaire des transcriptions phonétiques, par exemple pour des noms de lieux et des noms de famille. L'orthographe et la transcription phonétique de noms propres sont transmises dans un processus en différé à partir d'un lexique électronique de prononciation au dictionnaire. En l'occurrence, on ne transmet que des noms35 propres qui apparaissent dans le répertoire téléphonique électronique. Le répertoire téléphonique électronique est une banque de données pouvant fonctionner en temps réel, qui comprend les adresses et numéros d'appel nécessaires pour fournir une information à l'utilisateur. Pour obtenir une bonne qualité, même pour la prononciation de noms qui n'obéissent pas aux règles usuelles de prononciation en allemand, il est mémorisé, outre les informations phonétiques, également des informations se rapportant à l'intonation des termes. Ces caractéristiques vocales reproduisent l'intonation de syllabes et de terminaisons The orthographic-phonetic information stored in the dictionary relates to the way of writing the predetermined expressions that the alphabet recognition device uses to recognize a spelled expression and to carry out a preselection of similar spelling names for the recognition device. 'expressions. In addition, it is stored in the dictionary of phonetic transcriptions, for example for place names and family names. Spelling and phonetic transcription of proper names are transmitted in an offline process from an electronic pronunciation lexicon to the dictionary. In this case, only proper names are transmitted which appear in the electronic telephone directory. The electronic telephone directory is a database which can operate in real time, which includes the addresses and telephone numbers necessary to provide information to the user. To obtain a good quality, even for the pronunciation of names which do not obey the usual rules of pronunciation in German, it is memorized, in addition to the phonetic information, also information relating to the intonation of the terms. These vocal characteristics reproduce the intonation of syllables and endings

également de mots de langues étrangères. also of foreign language words.

Pour empêcher que, du fait de similitudes acoustiques entre des mots et/ou de lettres prononcées, les résultats de la reconnaissance combinée de la parole soient influencés de manière aléatoire, il est mémorisé dans le dictionnaire des informations supplémentaires pour des homonymes. Ces informations supplémentaires permettent de compléter un candidat obtenu par la reconnaissance de la parole par des alternatives se prononçant de la même manière et d'augmenter ainsi le taux de reconnaissance de To prevent the results of combined speech recognition from being influenced randomly due to acoustic similarities between words and / or spoken letters, additional information for homonyms is stored in the dictionary. This additional information makes it possible to supplement a candidate obtained by speech recognition with alternatives pronounced in the same way and thus to increase the recognition rate of

l'installation.the installation.

Il est prévu de manière appropriée une rubrique du dictionnaire pour un vocabulaire général, pour des noms de villes et pour les noms de famille qui existent dans ces villes.25 La commande de l'installation de dialogue vocal s'effectue par un micro- ordinateur programmé. Le logiciel de commande qui est mis en oeuvre dans ce micro-ordinateur assure entre autres que les informations orthographiques et phonétiques nécessaires provenant du dictionnaire sont30 mises à temps à la disposition des dispositifs de reconnaissance et du synthétiseur et que l'installation A dictionary section is appropriately provided for general vocabulary, for city names and for surnames that exist in these cities.25 Control of the voice dialogue installation is carried out by a microcomputer program. The control software which is implemented in this microcomputer ensures inter alia that the necessary orthographic and phonetic information coming from the dictionary are made available to the recognition devices and the synthesizer in time and that the installation

invite un utilisateur à entrer les expressions en guidant par la parole. En outre, elle contrôle les temporisations s'écoulant dans les dispositifs de reconnaissance de la35 parole, traite des instructions de fin et d'aide et prend en charge la reconnaissance et le traitement d'erreurs. prompts a user to enter expressions by speaking. In addition, it monitors the timers running in the speech recognition devices, processes end and help instructions, and supports recognition and error handling.

Dans le dispositif de reconnaissance d'expressions et dans le dispositif de reconnaissance de l'alphabet se déroulent des boucles internes de programme, qui rejettent une expression entrée par l'utilisateur et qui peuvent inviter l'utilisateur, après qu'un laps de temps prescrit In the expression recognition device and in the alphabet recognition device, internal program loops take place which reject an expression entered by the user and which can invite the user after a period of time. prescribed

s'est écoulé, à entrer de nouveau son expression. has passed, to re-enter its expression.

L'invention est explicitée plus en détail ci-après sur la base d'un exemple de réalisation en liaison avec les dessins annexés, qui montrent: Figure 1 un schéma-bloc d'une installation de dialogue vocal comprenant la reconnaissance combinée suivant l'invention de la parole et ayant un dictionnaire en ligne, Figure 2 un organigramme pour le déroulement d'un dialogue vocal automatisé de reconnaissance de noms et de fourniture d'un numéro d'appel associé, qui est mis en oeuvre par l'installation de dialogue vocal suivant la The invention is explained in more detail below on the basis of an embodiment in conjunction with the accompanying drawings, which show: Figure 1 a block diagram of a voice dialogue installation comprising the combined recognition according to invention of speech and having an online dictionary, Figure 2 a flowchart for the progress of an automated voice dialogue of name recognition and provision of an associated call number, which is implemented by the installation of voice dialogue according to

figure 1.figure 1.

La figure 1 montre la structure de principe d'une installation de dialogue vocal, qui peut procéder à une reconnaissance, commandée par le dictionnaire, d'expressions quelconques, par exemple de noms de lieux ou de noms de famille, par une combinaison de dispositifs de reconnaissance de la parole et qui peut fournir, sur la base d'une expression déterminée (résultat de la reconnaissance), une information associée à l'expression (par exemple un numéro d'appel). La figure 1 représente en détail un appareil 10 téléphonique, dans lequel une personne appelant peut prononcer le nom du lieu ou le nom de famille d'un abonné, dont il cherche à obtenir le numéro d'appel, ou d'autres expressions déterminées. Du côté de l'exploitant de l'installation de dialogue vocal est prévu au moins un convertisseur 80 analogique-35 numérique, qui convertit les signaux vocaux analogiques de l'abonné en signaux numériques. La sortie du convertisseur FIG. 1 shows the basic structure of a voice dialogue installation, which can carry out dictionary-controlled recognition of any expressions, for example place names or family names, by a combination of devices of speech recognition and which can provide, on the basis of a determined expression (result of recognition), information associated with the expression (for example a call number). FIG. 1 shows in detail a telephone apparatus, in which a caller can pronounce the name of the place or the surname of a subscriber, from whom he seeks to obtain the telephone number, or other determined expressions. At the operator side of the voice dialogue installation, at least one analog-to-digital 35 converter 80 is provided, which converts the subscriber's analog voice signals into digital signals. The converter output

27383822738382

analogique-numérique peut être reliée à l'entrée d'une mémoire 20 de parole et à l'entrée d'un dispositif 30 de reconnaissance de l'alphabet ou de lettres. La mémoire 20 de parole sert à mémoriser temporairement l'expression entrée directement par la personne appelant dans l'appareil téléphonique 10, par exemple le nom "Meier", en vue d'une utilisation ultérieure. Le dispositif 30 de reconnaissance de l'alphabet reçoit, par l'intermédiaire du convertisseur 80 analogique- numérique, en fonction de l'état du déroulement du dialogue vocal, une version épelée de l'expression mémorisée auparavant dans la analog-digital can be connected to the input of a speech memory 20 and to the input of a device 30 for recognizing the alphabet or letters. The speech memory 20 is used to temporarily store the expression entered directly by the person calling into the telephone apparatus 10, for example the name "Meier", for later use. The device 30 for recognizing the alphabet receives, via the analog-to-digital converter 80, as a function of the state of the unfolding of the voice dialogue, a spelled version of the expression previously stored in the

mémoire 20 de parole et entrée directement. Un micro- speech memory 20 and input directly. A mic-

ordinateur 120 programmé assure que l'expression entrée directement est chargée dans la mémoire 20 de parole et que l'expression épelée est envoyée au dispositif 30 de reconnaissance de l'alphabet. La sortie du dispositif 30 de reconnaissance de l'alphabet est reliée à une mémoire dans laquelle est mémorisée une liste d'expressions candidates d'orthographe similaire, qui ont été déterminées par le dispositif 30 de reconnaissance de l'alphabet pendant une présélection. Un dispositif 50 de reconnaissance d'expressions dispose de trois entrées, qui sont reliées respectivement à la sortie de la mémoire 40 de candidats, à la mémoire 20 de parole et à un dictionnaire 70 en ligne. Le dispositif 50 de reconnaissance d'expressions fonctionne dans ce que l'on appelle le mode de reconnaissance par mot-clé, qui permet encore d'extraire la véritable expression, par exemple "Meier", même lorsque des expressions supplémentaires comme "euh", "s'il vous plaît" ou des expressions analogues précèdent ou suivent la véritable expression. La sortie du dispositif 50 de reconnaissance d'expressions est reliée à une mémoire 55 de résultats de reconnaissance, dans laquelle les expressions du résultat,35 qui sont des noms de consonance similaire, sont mémorisées par le dispositif 50 de reconnaissance d'expressions. Les l! expressions mémorisées dans la mémoire 55 des résultats de reconnaissance sont envoyées à un synthétiseur 60, qui transmet, sur la base des informations correspondantes provenant du dictionnaire, dans l'ordre, les noms en langue synthétisée par l'intermédiaire d'un convertisseur numérique-analogique 85 à l'appareil téléphonique 10 de l'abonné. Le synthétiseur 60 peut également produire les invitations vocales faites à la personne appelant en liaison avec une base de données non représentée, qui contient tous les textes devant être annoncés par computer 120 programmed ensures that the expression entered directly is loaded into the speech memory 20 and that the spelled expression is sent to the device 30 for recognizing the alphabet. The output of the alphabet recognition device 30 is connected to a memory in which is stored a list of candidate expressions of similar spelling, which were determined by the alphabet recognition device 30 during a preselection. An expression recognition device 50 has three inputs, which are respectively connected to the output of the candidate memory 40, to the speech memory 20 and to an online dictionary 70. The expression recognition device 50 operates in what is called the keyword recognition mode, which still makes it possible to extract the true expression, for example "Meier", even when additional expressions such as "uh" , "please" or similar expressions precede or follow the true expression. The output of the expression recognition device 50 is connected to a recognition result memory 55, in which the expressions of the result, which are names of similar consonance, are stored by the expression recognition device 50. The L! expressions stored in the memory 55 of the recognition results are sent to a synthesizer 60, which transmits, on the basis of the corresponding information from the dictionary, in order, the names in the synthesized language via a digital converter - analog 85 to the subscriber's telephone 10. The synthesizer 60 can also produce the voice invitations made to the caller in connection with a database, not shown, which contains all the texts to be announced by

l'installation sous forme orthographique ou phonétique. installation in orthographic or phonetic form.

Le dictionnaire 70 en ligne mentionné plus haut se caractérise avant tout par le fait qu'il peut être utilisé en même temps et en temps réel par le dispositif 30 de reconnaissance de l'alphabet pour la reconnaissance de lettres, par le dispositif 50 de reconnaissance d'expressions et par le synthétiseur 60. C'est pourquoi toutes les informations concernant les expressions à reconnaître ou à prononcer par l'installation sont mémorisées dans ce dictionnaire 70. Il s'agit dans ce cas d'informations se rapportant à l'orthographe, à la prononciation et à l'intonation, qui sont chargées dans un processus en différé à partir d'un lexique 100 de prononciation dans le dictionnaire 70 en ligne. En25 supplément, il est mémorisé dans le dictionnaire 70 des informations concernant des homonymes, pour compléter le résultat de la reconnaissance du dispositif de reconnaissance d'expressions par des noms sonnant de la même manière ou pour compléter les expressions de30 référence épelées du dispositif de reconnaissance de l'alphabet par des noms d'orthographe similaire et augmenter ainsi la probabilité de détecter la bonne expression. Cela assure également un taux de réussite accru lors de l'utilisation ou une amélioration du débit35 global de l'installation, puisque les expressions à reconnaître sont plus rarement rejetées par les The online dictionary 70 mentioned above is characterized above all by the fact that it can be used at the same time and in real time by the device 30 for recognizing the alphabet for the recognition of letters, by the device 50 for recognizing of expressions and by the synthesizer 60. This is why all the information concerning the expressions to be recognized or to be pronounced by the installation is stored in this dictionary 70. This is in this case information relating to the spelling, pronunciation and intonation, which are loaded in an offline process from a 100 pronunciation lexicon in the 70 dictionary online. In addition, information relating to homonyms is stored in the dictionary 70, to supplement the result of the recognition of the expression recognition device with names sounding in the same way or to supplement the reference expressions spelled out from the recognition device. of the alphabet by names with similar spelling and thus increase the probability of detecting the correct expression. This also ensures an increased success rate when using or improving the overall throughput of the installation, since the expressions to be recognized are more rarely rejected by

12 273838212 2738382

dispositifs 30, 50 de reconnaissance de parole. Les informations concernant les homonymes permettent au dispositif de reconnaissance d'expressions, par exemple speech recognition devices 30, 50. Information about homonyms allows the expression recognition device, for example

pour une expression "Meier", de trouver toutes les ortho- for an expression "Meier", to find all the ortho-

graphes présentes dans le répertoire téléphonique électronique, comme par exemple "Meier", "Mayer", "Maier" et "Meyer" et de les mettre dans la liste des résultats de la reconnaissance. D'autre part, cela permet au dispositif de reconnaissance de l'alphabet, de reproduire les variantes de lettres par exemple apparaissant souvent et pouvant être utilisées à tort, comme par exemple "MULLER" ou "MUELLER", par la bonne expression de référence épelée, même lorsque par exemple il n'apparaît dans le répertoire téléphonique électronique que l'orthographe ayant " ". Le dictionnaire en ligne 70 décrit aide par conséquent pour les premières fois à la fois à la reconnaissance de la graphs present in the electronic telephone directory, such as "Meier", "Mayer", "Maier" and "Meyer" and put them in the list of recognition results. On the other hand, this allows the device for recognizing the alphabet, to reproduce the variants of letters for example appearing often and which can be used wrongly, such as for example "MULLER" or "MUELLER", by the correct reference expression spelled, even when, for example, it appears in the electronic telephone directory only with the spelling having "". The online dictionary 70 described therefore helps for the first time both to recognize the

parole et à la synthèse de la parole. speech and speech synthesis.

Le mode de fonctionnement de l'installation de The operating mode of the installation of

dialogue vocal est expliqué de manière plus explicite ci- voice dialogue is explained more explicitly below

après sur la base de la reconnaissance d'un nom. On suppose que l'installation de dialogue vocal connaît déjà le nom du lieu o la personne habite et dont une personne appelant voudrait obtenir le numéro d'appel. A cet effet, after on the basis of the recognition of a name. It is assumed that the voice dialogue installation already knows the name of the place where the person lives and from whom a caller would like to obtain the telephone number. To this end,

l'installation a d'abord invité l'utilisateur de l'appa- the installation first invited the user of the device

reil téléphonique 10, à entrer directement, c'est-à-dire sous forme nonépelée, le nom du lieu (par exemple Darmstadt). De manière appropriée, le micro-ordinateur 120 commande l'installation de telle sorte que le nom du lieu n'est envoyé qu'au dispositif 50 de reconnaissance d'expressions pour reconnaître l'expression. Comme cela a déjà été mentionné, le dispositif de reconnaissance d'expressions est en mesure de tolérer les expressions supplémentaires comme "euh" ou "s'il vous plaît" et de n'en extraire comme information que le nom de la ville.35 L'installation de dialogue vocal peut aussi être formée de telle sorte qu'il s'effectue une présélection de noms de telephone number 10, to be entered directly, that is to say in non-spelled form, the name of the place (for example Darmstadt). Suitably, the microcomputer 120 controls the installation so that the place name is sent only to the expression recognition device 50 to recognize the expression. As already mentioned, the expression recognition system is able to tolerate additional expressions like "uh" or "please" and to extract as information only the name of the city.35 The voice dialogue system can also be formed so that a pre-selection of the names of

13 273838213 2738382

lieux d'orthographe similaire par le dispositif 30 de reconnaissance de l'alphabet pour le dispositif 50 de reconnaissance d'expressions, lorsqu'il a été fourni par le dispositif 50 de reconnaissance d'expressions un résultat de reconnaissance faux ou même pas de résultat de reconnaissance du tout. Après que le nom de la ville a été reconnu, l'installation de dialogue vocal fournit tous les noms de famille mémorisés dans un répertoire téléphonique électronique 90 pour ces noms de ville à partir du dictionnaire en ligne 70. On suppose de plus que le dictionnaire en ligne 70 contient l'orthographe de tous les noms propres, qui sont nécessaires à la reconnaissance des lettres dans le dispositif 30 de reconnaissance de l'alphabet, une suite de symboles sonores pour tous les noms propres, qui sont nécessaires à la reconnaissance de la parole dans le dispositif de reconnaissance d'expressions, ainsi qu'une suite de symboles sonores y compris des informations d'intonation nécessaires à la synthèse de la parole. En outre, le répertoire téléphonique électronique 90 qui contient les noms de famille des abonnés avec des numéros de téléphone et des adresses correspondants, comprend des renvois aux entrées places of similar spelling by the device 30 of recognition of the alphabet for the device 50 of recognition of expressions, when it was provided by the device 50 of recognition of expressions a result of false recognition or even no result of recognition at all. After the name of the city has been recognized, the voice dialogue installation supplies all the surnames stored in an electronic telephone directory 90 for these city names from the online dictionary 70. It is further assumed that the dictionary online 70 contains the spelling of all proper names, which are necessary for the recognition of letters in the alphabet recognition device 30, a series of sound symbols for all proper names, which are necessary for the recognition of speech in the expression recognition device, as well as a series of sound symbols including intonation information necessary for speech synthesis. In addition, the electronic telephone directory 90 which contains the surnames of the subscribers with telephone numbers and corresponding addresses, includes references to the entries.

correspondantes dans le dictionnaire en ligne. corresponding in the online dictionary.

La personne appelant est désormais guidée par un dialogue, au cours duquel elle apprend, sur la base de l'indication du nom de lieu et du nom de l'abonné, le The caller is now guided by a dialogue, during which he learns, on the basis of the indication of the place name and the name of the subscriber, the

numéro de téléphone souhaité.desired phone number.

Le dialogue vocal suivant entre la personne appelant de l'appareil téléphonique 10 et l'installation de The following voice dialogue between the caller of the telephone apparatus 10 and the installation of

dialogue vocal est explicité dans l'organigramme suivant la figure 2. voice dialogue is explained in the flowchart according to figure 2.

La personne appelant est d'abord invitée vocalement par l'installation, par l'intermédiaire du synthétiseur , à entrer directement le nom souhaité, par exemple "Meier". On mémorise ensuite temporairement ce qui a été entré dans la mémoire 20 de parole. On enregistre en The caller is first invited by voice by the installation, via the synthesizer, to directly enter the desired name, for example "Meier". Then, what has been entered in the speech memory 20 is temporarily stored. We record in

14 273838214 2738382

l'occurrence également des expressions supplémentaires comme "euh" et "s'il vous plaît" dans la mémoire 20 de parole. Puis on invite vocalement la personne appelant, par l'intermédiaire du synthétiseur 60, à épeler le nom entré directement auparavant. Ensuite, l'abonné entré la suite de lettres M, E, I, E, R. En liaison avec les informations orthographiques qui sont enregistrées dans le the occurrence also of additional expressions like "uh" and "please" in speech memory. Then the caller is invited by voice, through the synthesizer 60, to spell the name entered directly before. Then, the subscriber entered the series of letters M, E, I, E, R. In conjunction with the orthographic information which is recorded in the

dictionnaire 70 en ligne, le dispositif 30 de reconnais- dictionary 70 online, the recognition device 30

sance de l'alphabet effectue une détermination de similitudes et effectue une présélection dans la liste des noms de famille disponibles mémorisés dans le dictionnaire en ligne sous le nom du lieu. En raison d'incertitudes de reconnaissance, le dispositif 30 de reconnaissance de l'alphabet détermine plusieurs candidats, par exemple "Neier", "Meier", "Meter", "Mieter", "Neter", "Nieter", "Meiter", "Meider", etc. On enregistre cette liste de candidats trouvés dans la mémoire 40. Le micro-ordinateur programmé 120 amène le dispositif 50 de reconnaissance d'expressions à lire l'expression "Meier" de l'utilisateur mémorisée temporairement au préalable dans la mémoire 20 de parole et à charger les candidats présélectionnés se trouvant dans la mémoire 40. Sur la base d'une détermination de similitudes, le dispositif 50 de reconnaissance d'expressions compare l'expression du nom entré directement "Meier" à la liste de candidats, par le fait qu'il utilise les informations phonétiques mémorisées dans le dictionnaire en ligne 70. Le dispositif 50 de reconnaissance d'expressions fournit comme résultat de la reconnaissance par exemple les noms "Neier" et "Meier" et les mémorise dans la mémoire 55 de résultats. L'installation de dialogue vocal connait, grâce aux informations se rapportant à la phonétique et à l'intonation qui sont mémorisées dans le dictionnaire en ligne 70, la manière dont il faut prononcer les résultats35 de la reconnaissance trouvés et l'intonation à leur donner. On transmet ensuite successivement les noms sance of the alphabet makes a determination of similarities and makes a preselection in the list of available surnames stored in the online dictionary under the name of the place. Due to recognition uncertainties, the device 30 for recognizing the alphabet determines several candidates, for example "Neier", "Meier", "Meter", "Mieter", "Neter", "Nieter", "Meiter" , "Meider", etc. This list of candidates found in memory 40 is recorded. The programmed microcomputer 120 causes the expression recognition device 50 to read the expression "Meier" of the user temporarily stored beforehand in the speech memory 20 and to load the preselected candidates found in the memory 40. On the basis of a determination of similarities, the expression recognition device 50 compares the expression of the name entered directly "Meier" to the list of candidates, thereby that it uses the phonetic information stored in the online dictionary 70. The expression recognition device 50 supplies as a result of the recognition, for example, the names "Neier" and "Meier" and stores them in the memory 55 of results. The vocal dialogue installation knows, thanks to the information relating to phonetics and intonation which are stored in the online dictionary 70, how to pronounce the results35 of the recognition found and the intonation to be given to them. . Then we successively transmit the names

27383822738382

trouvés, dans le cas présent les noms "Neier" et "Meier", par l'intermédiaire du synthétiseur 60 à l'appareil téléphonique 10 de la personne appelant. La personne appelant peut ensuite sélectionner le bon nom. On déclenche ensuite par ce nom de famille et le nom de lieu reconnu une interrogation d'une banque de données du répertoire téléphonique électronique 90. Les noms et adresses trouvés sont lus à haute voix sous la commande de l'utilisateur, c'est-à-dire que l'utilisateur peut influer sur l'instant auquel il est mis fin à la fourniture des noms et adresses trouvés et sur le nombre de fois qu'une liste est lue à haute voix ou sur le nom pour lequel des informations supplémentaires doivent être fournies. Dans les cas posant problème, on peut prévoir la possibilité de connecter la personne appelant avec une opératrice. Dès que l'utilisateur de l'installation de dialogue vocal indique que les données fournies par l'intermédiaire du synthétiseur 60 de parole (prénom, nom de famille, rue, numéro de maison) correspondent aux données de la personne found, in this case the names "Neier" and "Meier", through the synthesizer 60 to the telephone apparatus 10 of the calling person. The caller can then select the correct name. This family name and the recognized place name then trigger an interrogation of a database of the electronic telephone directory 90. The names and addresses found are read aloud under the command of the user, ie that is, the user can influence the time when the supply of the names and addresses found is stopped and the number of times a list is read aloud or the name for which additional information must be provided. In the cases posing problem, one can envisage the possibility of connecting the person calling with an operator. As soon as the user of the voice dialogue installation indicates that the data supplied via the speech synthesizer 60 (first name, last name, street, house number) correspond to the data of the person

dont il cherche le numéro de téléphone, le micro- whose phone number, micro-

ordinateur 120 amène l'installation à lire le numéro de téléphone correspondant dans le répertoire téléphonique 90 et à le communiquer sous forme vocale à la personne appelant. Grâce à la reconnaissance commandée par dictionnaire d'expressions quelconques par la combinaison du dispositif de reconnaissance de l'alphabet et du dispositif 50 dereconnaissance d'expressions, on peut traiter, avec un taux de reconnaissance acceptable, un vocabulaire nettement plus étendu que des installations courantes qui n'utilisent qu'un dispositif de reconnaissance de la parole. La raison à cela réside dans le fait que le dispositif 30 de reconnaissance de l'alphabet effectue une présélection des mots à reconnaître et qu'il n'est envoyé35 au dispositif 50 de reconnaissance d'expressions pour la reconnaissance proprement dite que cette sélection computer 120 causes the installation to read the corresponding telephone number in the telephone directory 90 and to communicate it in voice form to the calling person. Thanks to the dictionary-controlled recognition of any expressions by the combination of the alphabet recognition device and the expression recognition device 50, it is possible to process, with an acceptable recognition rate, a vocabulary markedly more extensive than installations. common ones that only use a speech recognition device. The reason for this resides in the fact that the device 30 for recognizing the alphabet pre-selects the words to be recognized and that it is only sent to the device 50 for recognizing expressions for the actual recognition that this selection

relativement restreinte de mots pertinents. relatively small of relevant words.

16 273838216 2738382

Claims

1. Method of voice dialogue for the automated supply of information, in particular of a telephone number for a user, comprising the following steps: a) loading by time intervals of orthographic-phonetic information for a multiplicity of expressions predetermined from a dictionary (70) which can operate online, the information being available in real time, b) voice invitation of the user to enter an expression, c) temporary storage of the expression entered, d) voice invitation of the user user to spell the entered expression, e) in response to the spelled expression, recognizing and selecting more than one of the predetermined and spelled reference expressions using the orthographic information stored in step a) based on a determination of similarities, f) sending the expressions selected in step e) and the expression temporarily stored to a recognition device (50) of expression, g) recognition and selection of at least one expression from the expressions selected on the basis of a comparison of similarities and, h) sequential supply of the expressions found in step g) as well as other information

17 2738382

associated in the form of synthesized speech.

2. Voice dialogue method according to claim 1, characterized in that step h) is repeated until the user ends the supply of synthesized speech expressions.

3. Voice dialogue method according to claim 1 or 2, characterized in that steps e) and g) are terminated after the expiration of a predetermined period of time and that the user is invited to re-enter its expression, when no expression has been recognized.

4. Method of voice dialogue according to claim 2 or 3, characterized in that the user identifies one of the expressions pronounced by synthesis as being consistent with his expression and, that in response to this expression, a query is triggered. a database of an electronic telephone directory (90) capable of operating in real time in which all the data blocks satisfying the expression criterion are read and given to the user for selection, and the user can identify, on the basis of the name and address, the data block, including the number

call must be provided by the facility.

5. Method of voice dialogue according to one of the

claims 1 to 4, characterized in that one charges

orthophonic-phonetic information for predetermined expressions at predetermined times from a dictionary (70) operable online.

6. Installation of voice dialogue for the implementation of the method according to one of claims 1 to 5,

having the following features: a device intended for the input (10) of an expression by a user, at least one synthesizer (60) intended for the production of voice signals for the user,

18 2738382

a speech input device (110), characterized by an alphabet recognition device (30), which recognizes a phrase spelled by the user and which can select expressions of similar spelling from a multiplicity of expressions of predetermined and spelled references, an expression recognition device (50) which compares the expression entered by the user with

expressions selected by the recognition device (30)

birth of the alphabet, and which provides at least one expression based on a determination of similarities for the supply to the user, and at least one dictionary (70) which can operate online, which stores orthographic-phonetic information for the multiplicity of expressions

to which the alphabet recognition device (30), the expression recognition device (50) and the synthesizer (60) 20 can access in real time.

7. Installation of voice dialogue according to claim 6, characterized by a memory

intermediary (20), which temporarily stores the expression entered by the user and by a memory (40) which receives the expressions preselected by the device (30) for recognizing the alphabet.

8. Voice dialogue installation according to claim 6 or 7, characterized in that the expression recognition device (50) operates in the

keyword recognition.

9. Installation of voice dialogue according to one of claims 6 to 8, characterized in that the data

stored in the dictionary (70) is information relating to spelling, phonetics and intonation of predetermined expressions.

10. Installation of voice dialogue according to claim 9, characterized in that it is stored in the dictionary (70) of additional information

concerning homonyms.

11. Installation of voice dialogue according to one of the

claims 6 to 10, characterized in that the expression

user input can be a place name, a name

of family or several words relating to it.

12. Installation of voice dialogue according to one of the

claims 6 to 11, characterized in that it is provided

a section of the dictionary that can function online for memorizing a general vocabulary, names of

places and surnames.

13. Installation of voice dialogue according to one of the

claims 6 to 12, characterized in that a micro-

computer (120) programmed supports the control of the installation.

14. Installation of voice dialogue according to one of the

claims 6 to 13, characterized in that the

expression recognition device (50) and the alphabet recognition device (30) are such that they can reject an expression entered by the user and / or invite the user to pronounce his expression again after the flow of a lapse of

prescribed time.

15. Device for speech recognition, independently of the speaker, intended in particular to be used in a voice dialogue installation according to

one of claims 6 to 14, comprising

an alphabet recognition device (30), which can recognize an expression spelled by a user and which can select, based on a determination of similarity, several reference expressions spelled out of a multiplicity of reference expressions spelled and an expression recognition device (50) which compares, based on a determination of similarities, an expression entered by the user and

corresponding to the spelled expression, to the expressions preselected by the device (30) for recognizing the alphabet and which results in at least one expression.

16. Device for speech recognition according to claim 5, characterized in that the device (50) for expression recognition operates in keyword recognition mode.

17. Device for speech recognition according to claim 15 or 16, characterized by a dictionary (70), which stores orthographic and phonetic information relating to the multiplicity of predetermined expressions, to which the device (30) can access in real time. for recognizing the alphabet and the recognition device (50)

expressions, to determine expressions that sound similarly or have similar spelling.