FR2852438A1

FR2852438A1 - Voice messages translating system for use in multi-lingual audio-conference, has temporizing unit to temporize messages such that terminals except terminal which transmits current message, receive endings in speakers language

Info

Publication number: FR2852438A1
Application number: FR0303140A
Authority: FR
Inventors: Ghislain Moncomble
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-03-13
Filing date: 2003-03-13
Publication date: 2004-09-17
Anticipated expiration: 2023-03-13
Also published as: FR2852438B1

Abstract

The system has a translating unit to translate text messages into text messages translated in I-1 languages. A temporizing unit (4) temporizes synthesized I-1 messages and current voice message into temporized messages such that terminals other than a terminal which transmits the current message, receive simultaneously endings of the temporized messages in the languages of the speakers.

Description

1 28524381 2852438

Système de traduction pour audioconférence multilingue La présente invention concerne un système pour 5 traduire des messages vocaux au cours de conversations téléphoniques entre des locuteurs de langues différentes lors d'une audioconférence. Une conversation téléphonique est découpée en fonction de silence en messages vocaux respectivement attribués à 10 des locuteurs et identifiés par des langues. Un message vocal est converti en un message textuel, le message textuel est traduit en messages textuels traduits de langues différentes, puis chaque message textuel traduit est synthétisé. The present invention relates to a system for translating voice messages during telephone conversations between speakers of different languages during an audio conference. A telephone conversation is divided according to silence into voice messages respectively attributed to 10 of the speakers and identified by languages. A voice message is converted to a text message, the text message is translated into text messages translated from different languages, then each translated text message is synthesized.

Actuellement certains systèmes traduisent en temps réel des signaux audio. Selon la demande de brevet européen EP 1093059, un système de traduction est composé d'une unité de reconnaissance vocale, 20 d'un moteur de traduction, et d'une unité de synthèse vocale. L'unité de reconnaissance vocale analyse en continu un signal audio entrant dans une première langue, et soumet graduellement un résultat textuel au moteur de traduction. Le moteur de traduction 25 génère en continu une traduction textuelle dans une deuxième langue à partir du résultat de la reconnaissance vocale. La traduction est fournie à l'unité de synthèse vocale. En se basant sur une comparaison entre la traduction actuelle et les 30 traductions précédentes, l'unité de synthèse vocale synthétise le résultat de la traduction vocalement en la deuxième langue. Currently, some systems translate audio signals in real time. According to European patent application EP 1093059, a translation system is composed of a voice recognition unit, a translation engine, and a voice synthesis unit. The voice recognition unit continuously analyzes an incoming audio signal in a first language, and gradually submits a text result to the translation engine. The translation engine 25 continuously generates a text translation into a second language from the result of the voice recognition. The translation is provided to the text-to-speech unit. Based on a comparison between the current translation and the previous 30 translations, the text-to-speech unit synthesizes the result of the translation into the second language.

Cependant les systèmes actuels de traduction multilingue monolocuteur ne considèrent pas les 35 différences entre les langues de chaque locuteur, 2 2852438 autres que celles relatives aux vocabulaires de ces langues. However, the current multilingual single-speaker translation systems do not take into account the differences between the languages of each speaker, 2,285,438 other than those relating to the vocabularies of these languages.

L'objectif de la présente invention est de 5 traduire et synthétiser automatiquement en continu des messages vocaux de durée indéterminée au cours d'une audioconférence multilingue entre des locuteurs, en remédiant notamment aux différences temporelles entre un message vocal courant d'une 10 langue donnée et les messages synthétisés traduits dans d'autres langues, afin que les locuteurs puissent intervenir de façon instantanée dans l'audioconférence malgré ces différences temporelles. The objective of the present invention is to automatically translate and synthesize voice messages of indefinite duration continuously during a multilingual audio conference between speakers, by overcoming in particular the temporal differences between a current voice message of a given language. and synthesized messages translated into other languages, so that speakers can intervene instantly in the audio conference despite these temporal differences.

1 5 Pour atteindre cet objectif, le système traduit des messages vocaux transmis par K terminaux de locuteurs au cours d'une audioconférence multilingue, K étant un entier supérieur à 2, et comprend un moyen de reconnaissance vocale convertissant un message 20 vocal courant transmis d'un terminal de locuteur en un message textuel courant. Il est caractérisé en ce qu'il comprend: - un moyen pour traduire le message textuel courant en des messages textuels traduits courants en 25 I-1 langues autres que la langue du locuteur dont le terminal a transmis le message vocal courant, I étant un nombre de langues différentes pratiquées par les locuteurs, soit I < K, - un moyen pour synthétiser vocalement les 30 messages textuels traduits courants respectivement en des messages synthétisés courants, et - un moyen pour temporiser les I-1 messages synthétisés et le message vocal courant, pendant des durées prédéterminées respectivement en I messages 35 temporisés courants, afin que les terminaux autres que le terminal ayant transmis le message courant, reçoivent sensiblement simultanément les fins des messages temporisés courants respectivement dans leurs langues. 1 5 To achieve this objective, the system translates voice messages transmitted by K speaker terminals during a multilingual audio conference, K being an integer greater than 2, and includes a voice recognition means converting a current voice message transmitted from '' a speaker terminal in a common text message. It is characterized in that it comprises: a means for translating the current text message into current translated text messages in 25 I-1 languages other than the language of the speaker whose terminal has transmitted the current voice message, I being a number of different languages spoken by the speakers, ie I <K, - a means for synthesizing the 30 current text messages by voice, respectively into current synthesized messages, and - a means for timing the I-1 synthesized messages and the current voice message , for predetermined durations respectively in I current timed messages, so that the terminals other than the terminal having transmitted the current message, receive substantially simultaneously the ends of the current timed messages respectively in their languages.

De préférence, le moyen pour temporiser temporise les messages synthétisés suivants respectivement les messages synthétisés courants, afin que les messages synthétisés suivants et les messages temporisés courants ne se superposent pas. Preferably, the means for timing delays the following synthesized messages respectively the current synthesized messages, so that the following synthesized messages and the current timed messages do not overlap.

Dans le but d'améliorer la qualité de la reconnaissance vocale et de la traduction, le système peut comprendre un moyen pour segmenter le message textuel courant en des segments textuels temporels périodiques, un moyen pour déterminer un contexte 15 d'un segment textuel courant en fonction du contenu et de la langue du segment textuel courant et en fonction de moyennes de paramètres vocaux du message vocal sur le segment textuel courant afin de déterminer des contextes du message textuel courant 20 et des messages textuels traduits. In order to improve the quality of speech recognition and translation, the system may include means for segmenting the current text message into periodic time text segments, means for determining a context of a current text segment in according to the content and the language of the current text segment and according to averages of voice parameters of the voice message on the current text segment in order to determine contexts of the current text message and of the translated text messages.

D'autres caractéristiques et avantages de la présente invention apparaîtront plus clairement à la lecture de la description suivante de plusieurs 25 réalisations préférées de l'invention en référence aux dessins annexés correspondants dans lesquels: - la figure 1 est un bloc-diagramme schématique d'un système de traduction pour audioconférence multilingue selon une première réalisation préférée 30 de l'invention dans l'environnement de plusieurs terminaux de locuteur et de plusieurs serveurs d'audioconférence. Other characteristics and advantages of the present invention will appear more clearly on reading the following description of several preferred embodiments of the invention with reference to the corresponding appended drawings in which: - Figure 1 is a schematic block diagram of a translation system for multilingual audio conference according to a first preferred embodiment of the invention in the environment of several speaker terminals and several audio conference servers.

- la figure 2 est un bloc-diagramme schématique d'un serveur d'audioconférence pour traduction 4 2852438 multilingue selon une première réalisation préférée de l'invention; - la figure 3 est un bloc-diagramme schématique d'un serveur d'audioconférence pour traduction 5 multilingue selon une deuxième réalisation préférée de l'invention; et - la figure 4 est un bloc-diagramme schématique d'un serveur d'audioconférence pour traduction multilingue selon une troisième réalisation préférée 10 de l'invention. FIG. 2 is a schematic block diagram of a multilingual audioconference server for translation 4 2852438 according to a first preferred embodiment of the invention; FIG. 3 is a schematic block diagram of an audio conference server for multilingual translation according to a second preferred embodiment of the invention; and - Figure 4 is a schematic block diagram of an audio conference server for multilingual translation according to a third preferred embodiment of the invention.

La réalisation détaillée d'un système d'audioconférence décrite cidessous ainsi que ses variantes sont relatives à une audioconférence, dite 15 conférence ou réunion téléphonique organisée entre plusieurs terminaux téléphoniques T1 à TK, avec KÄ2. The detailed implementation of an audio conference system described below as well as its variants relate to an audio conference, known as a conference or telephone meeting organized between several telephone terminals T1 to TK, with KÄ2.

L'audioconférence est accessible par réservation ou par abonnement ou immédiatement via un serveur d'audioconférence téléphonique SE. The audio conference is accessible by reservation or by subscription or immediately via an SE telephone audio conference server.

Le système de traduction pour audioconférence multilingue comprend K terminaux de locuteur T1,...,Tk,...,TK reliés à des réseaux d'accès RA1 à RAK et au moins un serveur local d'audioconférence SE. Les réseaux d'acces RAK sont reliés au réseau 25 téléphonique commuté. Dans ce système pour audioconférence, un terminal TO, confondu par exemple avec le terminal T1, tel qu'un ordinateur personnel ou une console d'audioconférence spécifique, est dédié à un organisateur d'audioconférence pour gérer, 30 c'est-à-dire organiser, établir, surveiller et animer l'audioconférence afin notamment d'accueillir les participants pendant l'audioconférence, filtrer des voies et appeler des participants pendant l'audioconférence, organiser des votes, etc. Selon la 35 réalisation illustrée, le terminal TO est en relation avec le serveur local d'audioconférence SE. Dans le cas d'un service payant, l'organisateur d'audioconférence pourra prendre en charge la facturation de ce service. The translation system for multilingual audio conference comprises K speaker terminals T1, ..., Tk, ..., TK connected to access networks RA1 to RAK and at least one local audio conference server SE. The RAK access networks are linked to the switched telephone network. In this audio conference system, a TO terminal, confused for example with the T1 terminal, such as a personal computer or a specific audio conference console, is dedicated to an audio conference organizer for managing, that is to say, say organize, establish, monitor and animate the audio conference, in particular to welcome participants during the audio conference, filter channels and call participants during the audio conference, organize votes, etc. According to the illustrated embodiment, the terminal TO is in relation to the local audio conference server SE. In the case of a paid service, the audio conference organizer may take charge of the billing for this service.

A titre d'exemple, quatre terminaux de locuteur T1, T2, Tk et TK sont illustrés à la figure 1. Le terminal T1=T0 décrit ci-dessus échange des messages vocaux à travers un réseau d'accès RA1 incluant le réseau téléphonique commuté et le réseau Internet, et 10 donc de la voix sur "IP" (Internet Protocol). Le terminal T2 est un terminal téléphonique fixe classique desservi par le réseau téléphonique commuté (RTC) ou par un réseau numérique à intégration de services (RNIS), constituant un réseau d'accès RA2. 15 Le terminal Tk, avec 1 2 k 2 K, est un terminal radiotéléphonique mobile desservit par un réseau de radiotéléphonie cellulaire numérique RAk du type GSM ou UMTS. Le terminal TK est un terminal radiotéléphonique mobile relié à un autre réseau de 20 radiotéléphonie cellulaire numérique RAK du type GSM ou UMTS. By way of example, four speaker terminals T1, T2, Tk and TK are illustrated in FIG. 1. The terminal T1 = T0 described above exchanges voice messages through an access network RA1 including the switched telephone network and the Internet, and therefore 10 voice over "IP" (Internet Protocol). The terminal T2 is a conventional fixed telephone terminal served by the switched telephone network (PSTN) or by a digital integrated services network (ISDN), constituting an access network RA2. 15 The terminal Tk, with 1 2 k 2 K, is a mobile radiotelephone terminal served by a digital cellular radio network RAk of the GSM or UMTS type. The terminal TK is a mobile radiotelephone terminal linked to another RAK digital cellular radiotelephone network of the GSM or UMTS type.

Le serveur d'audioconférence local SE est relié au réseau téléphonique commuté par au moins K lignes téléphoniques analogiques à deux fils ou numériques à 25 deux paires de fils LT1 à LTK via des interfaces réseaux IR1 à IRK. The local audio conference server SE is connected to the switched telephone network by at least K two-wire analog or two-wire digital telephone lines LT1 to LTK via network interfaces IR1 to IRK.

L'interface de réseau IRk a pour rôle principal, indépendamment du type de la ligne LTk, d'extraire de la signalisation téléphonique classique et de la 30 signalisation pour l'audioconférence provenant du terminal Tk dans le signal reçu par la ligne LTk en les séparant d'un signal de voix de participant. The main role of the network interface IRk, independently of the type of the line LTk, is to extract conventional telephone signaling and audio conference signaling originating from the terminal Tk in the signal received by the line LTk by separating from a participant voice signal.

Inversement, l'interface de réseau IR insère de la signalisation téléphonique et de la signalisation 35 pour l'audioconférence destinée notamment au terminal Tk dans le signal émis dans la ligne LTk en la mélangeant à un signal de voix. Conversely, the IR network interface inserts telephone signaling and audio signaling for audio conferencing intended in particular for the terminal Tk into the signal transmitted in the line LTk by mixing it with a voice signal.

Comme montré à la figure 1, un bus de signalisation BS échange les signalisations extraites 5 et à insérer entre les interfaces IR1 à IRK et un module de traduction multilingue et de gestion d'audioconférence MTG. Une voie numérique de réception de parole REk relie l'interface de réseau IRk à une entrée du module de traduction et de 10 gestion, et respectivement quelque soit 1 < k < K. Une voix numérique d'émission de parole EMk relie une sortie du module de traduction et de gestion à l'interface de réseau IRk et respectivement quelque soit 1 < k < K. Selon une première réalisation montrée à la figure 2, le module de traduction multilingue et de gestion d'audioconférence MTG comporte un détecteur d'activité 11, au moins un module de reconnaissance 20 vocale 12, au moins un module de traduction 2, au moins un synthétiseur vocal 3 et une unité de temporisation 4. As shown in FIG. 1, a signaling bus BS exchanges the signals extracted 5 and to be inserted between the interfaces IR1 to IRK and a multilingual translation and audio conference management module MTG. A digital voice reception channel REk connects the network interface IRk to an input of the translation and management module, and respectively whatever is 1 <k <K. A digital voice emission voice EMk connects an output of the translation and management module at the network interface IRk and respectively whatever 1 <k <K. According to a first embodiment shown in FIG. 2, the multilingual translation and audio conference management module MTG comprises a detector activity 11, at least one voice recognition module 12, at least one translation module 2, at least one voice synthesizer 3 and a timer unit 4.

Le détecteur d'activité il détecte périodiquement parmi les voies de réception RE1 à REK 25 relatives à des participants d'une audioconférence dont le nombre est inférieur ou égal à K, celle qui est la plus active et qui constitue celle convoyant le message vocal courant MVk du locuteur courant au cours de l'audioconférence. Une adresse d'identification k est attribuée a chaque ensemble comportant un terminal Tk, une ligne LTk, et une interface de réseau IRk. Cette adresse identifie un locuteur par la ligne empruntée par son message vocal. Le détecteur 11 établit l'adresse de la ligne 35 LTk la plus active, c'est-à-dire du locuteur ou du terminal le plus actif. Cette adresse constitue une partie de l'identification du locuteur. Cette identification peut consister à rechercher la plus grande des puissances moyennes de segments vocaux 5 dans les voies de réception RE1 à REK à condition qu'elle soit supérieure à un seuil prédéterminé. Si la puissance maximale est inférieure à un seuil prédéterminé, le détecteur d'activité 11 confirme un "silence" au cours de la téléréunion au terminal TO 10 de l'organisateur de l'audioconférence. The activity detector it periodically detects among the reception channels RE1 to REK 25 relating to participants in an audio conference whose number is less than or equal to K, that which is most active and which constitutes that conveying the current voice message. MVk of the current speaker during the audio conference. An identification address k is assigned to each set comprising a terminal Tk, a line LTk, and a network interface IRk. This address identifies a speaker by the line taken by his voice message. The detector 11 establishes the address of the most active line 35 LTk, that is to say the most active speaker or terminal. This address forms part of the speaker's identification. This identification may consist in searching for the largest of the average powers of voice segments 5 in the reception channels RE1 to REK provided that it is greater than a predetermined threshold. If the maximum power is less than a predetermined threshold, the activity detector 11 confirms a "silence" during the teleconference at the terminal TO 10 of the organizer of the audio conference.

L'organisateur peut intervenir pour inviter des locuteurs à parler plus fort. Le signal entrant transporté dans la voie de réception la plus active pendant un temps prédéterminé est supposé ci-après le 15 signal vocal SVk dans la voix de réception REk, appelé ci-après message vocal courant MVk en sortie du détecteur d'activité 11. The organizer can intervene to invite speakers to speak louder. The incoming signal transported in the most active reception channel for a predetermined time is hereinafter assumed to be the voice signal SVk in the reception voice REk, hereinafter called current voice message MVk at the output of the activity detector 11.

Les messages vocaux MVk sont mémorisés en continu temporairement dans une mémoire tampon 20 contenue dans le détecteur d'activité 11. Comme pour un signal audio classique, les messages vocaux MVk incluent des repères temporels périodiques tels que des mots de verrouillage de trame, des mots de synchronisation de paquet, des signaux de 25 synchronisation de trame ou de ligne, etc. Ces repères temporels sont comptés modulo un nombre prédéterminé et mémorisés dans la mémoire tampon contenue dans le détecteur 11. Ces repères temporels sont rafraîchis périodiquement, afin de synchroniser 30 les traitements des messages vocaux dans les composants du serveur d'audioconférence MTG. The MVk voice messages are temporarily stored temporarily in a buffer memory 20 contained in the activity detector 11. As with a conventional audio signal, the MVk voice messages include periodic time marks such as frame alignment words, words packet synchronization, frame or line synchronization signals, etc. These time marks are counted modulo a predetermined number and stored in the buffer memory contained in the detector 11. These time marks are refreshed periodically, in order to synchronize the processing of the voice messages in the components of the audio conference server MTG.

Il est supposé que les signaux entrants reçus par le serveur SE sont numériques; sinon, les signaux entrants reçus sont analogiques et convertis 35 par des convertisseurs analogiques-numériques inclus dans les interfaces de réseau IR1 à IRk. Le détecteur d'activité 11 contient un filtre séparant un signal purement vocal d'un signal résiduel dans un signal entrant, afin d'améliorer les performances de la 5 reconnaissance vocale, de la traduction et de la synthèse vocale en leur appliquant un message vocal dépourvu de signal résiduel. Le signal résiduel est issu notamment de bruits dus à l'environnement sonore d'un locuteur autour de son terminal. It is assumed that the incoming signals received by the SE server are digital; otherwise, the incoming signals received are analog and converted by analog-to-digital converters included in the network interfaces IR1 to IRk. The activity detector 11 contains a filter separating a purely voice signal from a residual signal in an incoming signal, in order to improve the performance of voice recognition, translation and speech synthesis by applying a voice message to them. no residual signal. The residual signal comes in particular from noise due to the sound environment of a speaker around his terminal.

Dans les réalisations décrites ci-dessous, chaque locuteur sélectionne l'une Li des langues différentes Ll à LI dans lesquelles les locuteurs participant à l'audioconférence peuvent s'exprimer, avec 1 < i I et I < K. Dans la première réalisation, les I langues différentes des K locuteurs participants à l'audioconférence sont considérées comme connues par le serveur MTG ainsi que la langue Lk du message vocal courant MVk. Par exemple, préalablement à 20 l'audioconférence, chaque locuteur a déclaré un identificateur de langue Ll à LI au module MTG, directement ou par l'intermédiaire de l'organisateur. In the embodiments described below, each speaker selects one of the different languages L1 to L1 in which the speakers participating in the audio conference can express themselves, with 1 <i I and I <K. In the first embodiment, the I different languages of the K speakers participating in the audio conference are considered to be known by the server MTG as well as the language Lk of the current voice message MVk. For example, prior to the audio conference, each speaker declared a language identifier L1 to LI to the MTG module, directly or through the organizer.

Un message vocal courant MVk de langue Lk est traduit en I-1 langues. Par exemple dans une 25 audioconférence à 5 locuteurs parlant 3 langues différentes, le français, l'anglais et l'allemand, chaque message vocal en français est traduit en anglais et en allemand et réciproquement pour un message vocal en anglais ou en allemand. Le système 30 de traduction selon l'invention trouve tout son intérêt lorsque I est strictement supérieur à 2. A current voice message MVk of language Lk is translated into I-1 languages. For example in an audio conference with 5 speakers speaking 3 different languages, French, English and German, each voice message in French is translated into English and German and vice versa for a voice message in English or German. The translation system 30 according to the invention finds all its advantage when I is strictly greater than 2.

Le module de reconnaissance vocal 12 convertit le message vocal courant MVk appliqué par le détecteur d'activité 11 en un message textuel courant 35 MTk. Le module de traduction 2 traduit le message 9 2852438 textuel courant MTk de langue Lk en I-1 messages textuels MTTi traduits en les autres langues Li avec 1 < i < I-1 et iÉk. Chaque message vocal textuel MTk est traduit une seule fois dans chacune des langues 5 différentes Ll à LI quel que soit le nombre de locuteurs K. En variante, le module de traduction 2 s'appuie sur des lexiques d'exception. Un lexique d'exception contient des règles à appliquer pour la traduction de 10 mots prédéterminés d'une langue donnée. Par exemple un nom patronymique n'est pas traduit. The voice recognition module 12 converts the current voice message MVk applied by the activity detector 11 into a current text message 35 MTk. The translation module 2 translates the current text message 2852438 MTk of language Lk into I-1 textual messages MTTi translated into the other languages Li with 1 <i <I-1 and iÉk. Each textual voice message MTk is translated only once into each of the 5 different languages L1 to LI regardless of the number of speakers K. As a variant, the translation module 2 is based on exceptional lexicons. An exceptional lexicon contains rules to be applied for the translation of 10 predetermined words from a given language. For example a patronymic name is not translated.

Le synthétiseur vocal 3 synthétise vocalement les I-1 messages textuels traduits MTT1 à MTTI respectivement en I-1 messages synthétisés courants 15 MS1 à MSI, avec iÉk. Le synthétiseur vocal 3 comprend notamment une mémoire tampon pour mémoriser les messages textuels traduits MTTi à synthétiser. La synthèse vocale dans le synthétiseur 3 est basée sur la langue Lk du message vocal courant MVk, sur les 20 autres langues Ll à LI avec iÉk et sur des paramètres vocaux prédéterminés PVk du message vocal courant MVk considérés dans cette première réalisation comme connus. Les paramètres vocaux sont notamment des paramètres acoustiques et particulièrement prosodiques comme la fréquence de vibration, l'intensité, le débit, le timbre et également d'autres paramètres comme l'âge relatif ou le sexe du locuteur. En variante, le module de synthèse vocale 3 utilise des lexiques d'exception. The speech synthesizer 3 vocally synthesizes the I-1 text messages translated MTT1 to MTTI respectively into I-1 current synthesized messages 15 MS1 to MSI, with iÉk. The speech synthesizer 3 notably comprises a buffer memory for storing the translated text messages MTTi to be synthesized. The speech synthesis in the synthesizer 3 is based on the language Lk of the current voice message MVk, on the other 20 languages L1 to LI with iÉk and on predetermined voice parameters PVk of the current voice message MVk considered in this first embodiment as known. The vocal parameters are in particular acoustic and particularly prosodic parameters like the vibration frequency, the intensity, the flow, the timbre and also other parameters like the relative age or the sex of the speaker. As a variant, the speech synthesis module 3 uses exceptional lexicons.

L'unité de temporisation 4 comprend une mémoire tampon et une unité de traitement. D'une part, l'unité 4 temporise les I-1 messages synthétisés MS1 à MSI, avec iÉk, et le message vocal courant MVk, pendant des premières durées prédéterminées 35 respectivement en I messages temporisés Ml à MI, afin que les terminaux T1 à TK, autres que le terminal du locuteur du message courant MVk, reçoivent sensiblement simultanément les fins des messages temporisés courants Ml à MI respectivement leurs 5 langues. D'autre part, l'unité 4 temporise les messages synthétisés suivant respectivement les messages synthétisés courants, afin que les messages synthétisés suivants ne superposent pas au moins partiellement ceux-ci avec les messages temporisés 10 courants Ml précédents à MI respectivement. Les fins des messages synthétisés courants sont ainsi synchronisées. The timer unit 4 includes a buffer memory and a processing unit. On the one hand, the unit 4 delays the I-1 synthesized messages MS1 to MSI, with iÉk, and the current voice message MVk, for first predetermined durations 35 respectively in I timed messages Ml to MI, so that the terminals T1 to TK, other than the speaker terminal of the current message MVk, receive substantially simultaneously the ends of the current timed messages Ml to MI respectively their 5 languages. On the other hand, the unit 4 delays the synthesized messages respectively following the current synthesized messages, so that the following synthesized messages do not at least partially overlap these with the current timed messages M1 preceding to MI respectively. The ends of the current synthesized messages are thus synchronized.

L'unité de temporisation 4 reçoit directement le message vocal courant d'origine MVk en sortie du 15 détecteur d'activité 11 afin de ne pas traduire inutilement le message vocal courant MVk pour les locuteurs ayant la même langue Lk que le message courant MVk. The timer unit 4 directly receives the original current voice message MVk at the output of the activity detector 11 so as not to unnecessarily translate the current voice message MVk for speakers having the same language Lk as the current message MVk.

Par exemple l'unité de temporisation 4 détermine 20 les premières durées en comparant les durées des I-1 messages synthétisés courants et du message vocal courant MVk afin de déterminer le message synthétisé courant ayant la plus grande durée. Chacun des messages synthétisés MSi est temporisé pendant une 25 première durée égale à la différence entre la durée du message synthétisé ayant la plus grande durée et la durée du message synthétisé à temporiser. For example, the timer unit 4 determines the first durations by comparing the durations of the current I-1 synthesized messages and the current vocal message MVk in order to determine the current synthesized message having the longest duration. Each of the synthesized messages MSi is timed for a first duration equal to the difference between the duration of the synthesized message having the longest duration and the duration of the synthesized message to be timed.

Dans le cas o des message vocaux courants sont relativement longs, les premières durées peuvent être 30 extrêmement différentes, ce qui dégrade la qualité auditive de l'audioconférence. Pour remédier à cet inconvénient, le module de reconnaissance vocale 12 segmente progressivement le message vocal courant MVk en messages segmentés ayant une durée égale ou 35 inférieure à une durée prédéterminée, lorsque la durée du message vocal courant MVk est supérieure à ladite durée prédéterminée. Chacun des messages segmentés est traité successivement dans le module de reconnaissance vocale 1, le module de traduction 2, 5 au synthétiseur vocal 3 et l'unité de temporisation 4 comme précédemment pour le message vocal courant MVk. In the case where common voice messages are relatively long, the first durations can be extremely different, which degrades the hearing quality of the audio conference. To overcome this drawback, the voice recognition module 12 progressively segments the current voice message MVk into segmented messages having a duration equal to or less than a predetermined duration, when the duration of the current voice message MVk is greater than said predetermined duration. Each of the segmented messages is processed successively in the voice recognition module 1, the translation module 2, 5 at the voice synthesizer 3 and the timing unit 4 as previously for the current voice message MVk.

La durée prédéterminée est de l'ordre des quelques dizaines de secondes. The predetermined duration is of the order of a few tens of seconds.

La segmentation périodique améliore la 10 synchronisation des messages temporisés Ml à MI par l'unité de temporisation 4, afin que l'audioconférence continue d'offrir à tous les locuteurs les mêmes conditions d'écoute lors d'un long monologue de l'un d'eux. Sans cette segmentation 15 supplémentaire, chaque locuteur autre que celui intervenant, doit attendre la fin de la traduction du message vocal courant avant de commencer à recevoir le message traduit correspondant, ce qui engendrerait des retards très importants et un inconfort manifeste 20 au cours de l'audioconférence. The periodic segmentation improves the synchronization of the timed messages M1 to MI by the timing unit 4, so that the audio conference continues to offer all the speakers the same listening conditions during a long monologue by one of them. Without this additional segmentation, each speaker other than the intervening speaker must wait for the translation of the current voice message to finish before starting to receive the corresponding translated message, which would cause very long delays and manifest discomfort during the audio conferencing.

En variante l'unité de temporisation 4 ou le module de synthèse vocale 3 réduit ou augmente d'une durée variable la durée d'un message synthétisé MS1 afin d'égaliser les durées de tous les messages 25 synthétisés courants MS1 à MSI en agissant entre autre sur le débit et la fréquence de chaque message synthétisé MSi. Cette durée variable ne dépasse pas 10 % de la durée du message synthétisé afin de conserver le caractère "audible" du message vocal 30 synthétisé pour l'oreille humaine. As a variant, the timer unit 4 or the voice synthesis module 3 reduces or increases the duration of a synthesized message MS1 by a variable duration in order to equalize the durations of all the current synthesized messages MS1 to MSI by acting between another on the bit rate and frequency of each MSi synthesized message. This variable duration does not exceed 10% of the duration of the synthesized message in order to maintain the "audible" character of the synthesized voice message for the human ear.

K multiplexeurs DM1 à DMK ont chacun I entrées recevant les messages temporisés courants M1 à MI et ont des sorties constituant les voies d'émission EM1 à EMI reliées aux K interfaces de réseau. Les I 35 messages temporisés sont envoyés selon leur durée de 12 2852438 temporisation à des instants différents ou identiques aux K multiplexeurs. Une entrée de sélection de chaque démultiplexeur DMk reçoit l'identificateur de langue respectif Lk pour sélectionner le message 5 temporisé courant correspondant parmi les messages Ml à MI afin que l'interface de réseau IRk ne transmette au terminal Tk que le message temporisé dans la langue Lk. K multiplexers DM1 to DMK each have I inputs receiving the current timed messages M1 to MI and have outputs constituting the transmission channels EM1 to EMI connected to the K network interfaces. The I 35 timed messages are sent according to their duration of 12 2852438 timing at times different or identical to the K multiplexers. A selection input of each demultiplexer DMk receives the respective language identifier Lk to select the corresponding current timed message 5 from the messages M1 to MI so that the network interface IRk transmits to the terminal Tk only the timed message in the language Lk.

Dans une deuxième réalisation préférée selon l'invention montrée à la figure 3, le module de traduction multilingue et de gestion d'audioconférence MTG comprend également une unité de détermination de langue 5, un analyseur vocal 6 et 15 une base de données vocales 7. In a second preferred embodiment according to the invention shown in FIG. 3, the MTG multilingual translation and audio conference management module also includes a language determination unit 5, a voice analyzer 6 and a voice database 7.

La base de données 7 contient des données vocales caractérisant l'audioconférence. Les données vocales sont mémorisées pendant une phase d'initialisation de l'audioconférence contrôlée par 20 l'organisateur de l'audioconférence ou par les locuteurs susceptibles de participer à l'audioconférence, pendant une phase de détermination des langues commentée ci-dessous. Les caractéristiques d'une audioconférence comprennent 25 par exemple le nombre total de locuteurs participant à l'audioconférence, une heure de rendez-vous pour tous les locuteurs, etc. L'unité de détermination de langue 5 détermine les K langues L1,..., Lk,...,LK des signaux vocaux SV1 30 à SVK transmis respectivement par les interfaces de réseau IR1 à IRK associés aux terminaux T1 à TK, au début de l'audioconférence pendant une phase de détermination de langues. L'unité de détermination de langue 5 contient une messagerie vocale. La 35 messagerie vocale ou l'organisateur invite chaque 13 2852438 locuteur à prononcer une phrase libre du genre suivant, excédant une durée minimale prédéterminée, "Bonjour, je suis le locuteur XXX". Cette phrase est analysée par l'unité 5 afin de déterminer la langue 5 du locuteur respectif. Les identificateurs des langues ainsi déterminées sont mémorisés dans la base de données vocales 7 en correspondance avec le locuteur et le terminal respectif. The database 7 contains voice data characterizing the audio conference. The voice data are stored during a phase of initialization of the audio conference controlled by the organizer of the audio conference or by the speakers likely to participate in the audio conference, during a phase of determining the languages commented below. The characteristics of an audio conference include, for example, the total number of speakers participating in the audio conference, an appointment time for all the speakers, etc. The language determination unit 5 determines the K languages L1, ..., Lk, ..., LK of the voice signals SV1 30 to SVK transmitted respectively by the network interfaces IR1 to IRK associated with the terminals T1 to TK, at start of the audio conference during a language determination phase. The language determination unit 5 contains voice mail. The voicemail or the organizer invites each 13 2852438 speaker to pronounce a free sentence of the following genre, exceeding a predetermined minimum duration, "Hello, I am the speaker XXX". This sentence is analyzed by unit 5 in order to determine the language 5 of the respective speaker. The identifiers of the languages thus determined are stored in the voice database 7 in correspondence with the speaker and the respective terminal.

L'unité de détermination de langue 5 temporise 10 les signaux vocaux SV1 à SVK dans les voies de réception RE1 à REK pendant la phase de détermination de langues pour déterminer la langue de ceux-ci. La durée de cette phase dépend du nombre K de locuteurs participants à l'audioconférence. A la fin de cette 1 5 phase si le nombre de langues déterminées est inférieur au nombre de participants à l'audioconférence, une langue par défaut, par exemple l'anglais, est attribuée au terminal des locuteurs dont la langue reste inconnue. En variante, les 20 terminaux de locuteurs dont la langue reste inconnue sont évincés de l'audioconférence. Dans une autre variante, tant que l'unité de détermination 5 n'a pas déterminé les langues des K locuteurs, celle-ci temporise les signaux vocaux lui parvenant. The language determination unit 5 delays the voice signals SV1 to SVK in the reception channels RE1 to REK during the language determination phase to determine the language of these. The duration of this phase depends on the number K of speakers participating in the audio conference. At the end of this phase, if the number of languages determined is less than the number of participants in the audio conference, a default language, for example English, is assigned to the terminal of the speakers whose language remains unknown. Alternatively, the 20 speaker terminals whose language remains unknown are ousted from the audio conference. In another variant, as long as the determination unit 5 has not determined the languages of the K speakers, this delays the voice signals reaching it.

Le message vocal courant MVk, dont la langue Lk est identifiée parmi les langues déterminées précédemment en association avec l'interface de réseau IRk, est traité en parallèle par l'analyseur vocal 6 et le module de reconnaissance vocale 12. 30 L'analyseur vocal 6 analyse le message vocal courant MVk produit par le détecteur d'activité 11 afin de déterminer en continu les paramètres vocaux PVk caractérisant le message vocal courant MVk. Les paramètres vocaux tels que définis ci-dessus sont 35 utilisés dans la reproduction de la voix du locuteur ayant pris la parole lors de la synthèse vocale. Le nombre de paramètres vocaux n'est pas fixe. The current voice message MVk, the language Lk of which is identified among the languages determined previously in association with the network interface IRk, is processed in parallel by the voice analyzer 6 and the voice recognition module 12. The voice analyzer 6 analyzes the current voice message MVk produced by the activity detector 11 in order to continuously determine the voice parameters PVk characterizing the current voice message MVk. The voice parameters as defined above are used in the reproduction of the voice of the speaker who spoke during the speech synthesis. The number of voice parameters is not fixed.

En variante, un deuxième analyseur vocal (non montré) en relation avec la base de données vocales 7 5 est disposé en parallèle à l'unité de détermination de langue 5. Le deuxième analyseur vocal établit un modèle vocal ou une empreinte vocale du locuteur de chaque signal vocal SVk à partir de paramètres vocaux. Cette empreinte vocale est mémorisée dans la 10 base de données vocales 7 lorsque celle-ci n'est pas similaire à une empreinte vocale déjà contenue dans la base de données vocales. Un locuteur est ainsi identifié par son empreinte vocale et sa langue. En variante, l'empreinte vocale est utilisée pour 15 identifier chaque locuteur au cours de l'audioconférence et améliorer la qualité de sa voix synthétisée lors de la synthèse vocale dans le synthétiseur vocal 3. As a variant, a second voice analyzer (not shown) in relation to the voice database 7 5 is arranged in parallel with the language determination unit 5. The second voice analyzer establishes a voice model or a voice print of the speaker's voice. each SVk voice signal from voice parameters. This voice print is stored in the voice database 7 when this is not similar to a voice print already contained in the voice database. A speaker is thus identified by his voice print and his language. As a variant, the voice fingerprint is used to identify each speaker during the audio conference and to improve the quality of his synthesized voice during the speech synthesis in the speech synthesizer 3.

Le module de traduction 2 récupère dans la base 20 de données vocales 7 les langues LI à LI dans lesquelles il traduit le message textuel courant MTk, c'est-à-dire les I-1 langues différentes autres que la langue Lk du message vocal courant MVk. The translation module 2 retrieves from the voice database 20 the languages LI to LI into which it translates the current text message MTk, that is to say the I-1 different languages other than the language Lk of the voice message current MVk.

Ensuite les signaux textuels traduits MTT1 à 25 MTTI sont synthétisés respectivement en I-1 signaux synthétisés MS1 à MSI. La synthèse vocale dans le synthétiseur 3 s'appuie sur les paramètres vocaux PVk du message vocal courant MVk, comme la tonalité, déterminés dans l'analyseur vocal 6 et fournis en 30 continu afin entre autre de rompre la monotonie des messages synthétisés. La synthèse vocale considère également l'évolution de la voix d'un locuteur d'un message vocal de celui-ci au suivant. Dans le cas o une empreinte vocale pour chaque locuteur a été 35 établie, le module de synthèse vocale 3 met à jour 2852438 les empreintes vocales dans la base de données vocales 7 pour associer à chaque locuteur une voix bien distincte de celles des autres locuteurs, afin de rompre la monotonie des messages synthétisés. Le 5 traitement des messages synthétisés MS1 à MSI est ensuite identique à la première réalisation préférée dans l'unité de temporisation 4 et les multiplexeurs DM1 à DMK. Then the translated text signals MTT1 to 25 MTTI are synthesized respectively in I-1 synthesized signals MS1 to MSI. The speech synthesis in the synthesizer 3 is based on the speech parameters PVk of the current voice message MVk, such as the tone, determined in the speech analyzer 6 and supplied continuously so as, inter alia, to break the monotony of the synthesized messages. Speech synthesis also considers the evolution of a speaker's voice from one voice message to the next. In the case where a voiceprint for each speaker has been established, the voice synthesis module 3 updates 2852438 the voiceprints in the voice database 7 to associate with each speaker a voice very distinct from those of the other speakers, in order to break the monotony of the synthesized messages. The processing of the synthesized messages MS1 to MSI is then identical to the first preferred embodiment in the timing unit 4 and the multiplexers DM1 to DMK.

Dans une troisième réalisation préférée selon l'invention montrée à la figure 4, le module de traduction multilingue et de gestion d'audioconférence MTG comprend les mêmes éléments que la deuxième réalisation, ainsi qu'une unité de 15 détermination de contexte multilingue 8 et une base de données contextuelle 9. In a third preferred embodiment according to the invention shown in FIG. 4, the MTG multilingual translation and audio conference management module comprises the same elements as the second embodiment, as well as a multilingual context determination unit 8 and a contextual database 9.

L'unité de détermination de contexte multilingue 8 segmente le message textuel courant MTk produit par le module de reconnaissance vocale 12 en segments 20 textuels temporels périodiques Sn. L'unité 8 détermine un contexte CSn du segment textuel courant en fonction de moyennes des paramètres vocaux du message vocal courant, fournis en continu par l'analyseur vocal 6, sur le segment textuel courant 25 Sn, et en fonction du contenu du segment textuel courant Sn et de la langue Lk du segment textuel courant Sn. Les contextes ainsi déterminés sont mémorisés dans la base de données contextuelle 9. De même l'unité de détermination de contexte détermine 30 des contextes pour les messages traduits MTT1 à MTTI dans leurs langues respectives. La base de données contextuelle multilingue contient ainsi des contextes de l'audioconférence dans les I langues utilisées par les K locuteurs. Le module de reconnaissance vocale 35 12 et le module de traduction 2 ne pouvant exploiter que des contextes dans la langue du message qu'ils traitent et dans la langue dans laquelle ils convertissent le message, la base de données contextuelle multilingue 6 met directement à 5 disposition de ces deux modules des contextes dans ces dernières langues. The multilingual context determination unit 8 segments the current text message MTk produced by the voice recognition module 12 into periodic temporal textual segments Sn. The unit 8 determines a context CSn of the current text segment as a function of averages of the voice parameters of the current voice message, supplied continuously by the voice analyzer 6, on the current text segment 25 Sn, and as a function of the content of the text segment current Sn and the language Lk of the current text segment Sn. The contexts thus determined are stored in the contextual database 9. Likewise the context determination unit determines contexts for the messages translated MTT1 to MTTI in their respective languages. The multilingual contextual database thus contains contexts of the audio conference in the I languages used by the K speakers. The voice recognition module 35 12 and the translation module 2 being able to use only contexts in the language of the message they are processing and in the language in which they convert the message, the multilingual contextual database 6 directly sets 5 arrangement of these two modules for contexts in these latter languages.

Divers contextes sous la forme de mots et expressions clés, comme définis ci-dessus, déduits de segments précédant le segment courant Sn et/ou de 10 l'étude de contexte constituent des contextes CSn pré-mémorisés et gérés dans la base de données contextuelle 9 liée au module de reconnaissance vocale 12, au module de traduction 2 et à l'unité de détermination de contexte multilingue 8. Various contexts in the form of key words and expressions, as defined above, deduced from segments preceding the current segment Sn and / or from the context study constitute contexts CSn pre-stored and managed in the contextual database 9 linked to the voice recognition module 12, to the translation module 2 and to the multilingual context determination unit 8.

En variante, les contextes dans la base de données contextuelle 9 sont également complétés et affinés par consultation automatique de bases de données contextuelles externes au serveur d'audioconférence SE en fonction des contextes 20 récemment détectés. Les listes de contextes contenus dans les bases de données contextuelles externes sont mises à jour manuellement et/ou automatiquement. As a variant, the contexts in the contextual database 9 are also completed and refined by automatic consultation of contextual databases external to the audio conference server SE as a function of the contexts 20 recently detected. Context lists contained in external context databases are updated manually and / or automatically.

Chaque contexte est caractérisé par des informations complémentaires comme la tonalité du contexte, par 25 exemple grave ou joyeux, la catégorie de population concernée, par exemple enfants, cadres, ouvriers.. ., etc. Les contextes écrits dans la base 9 au fur et à mesure de leur détermination dans l'unité 8 ainsi que 30 les contextes contenus dans les bases de données contextuelles externes sont impliqués dans la conversion des messages vocaux successifs MVk en des messages vocaux textuels MTk dans le module de reconnaissance vocale 1 et également dans la 35 traduction de chaque message textuel MTk en des messages textuels traduits parallèles MTT1 à MTTI en I-1 langues dans le module de traduction 2. Les contextes écrits dans la base de données contextuelle 9 sont ainsi améliorés progressivement au cours du 5 traitement des messages textuels pour faciliter la reconnaissance vocale dans le module de reconnaissance vocale 12 et la traduction dans le module de traduction 2. Au début de l'audioconférence ou de la première intervention d'un locuteur, aucun o0 contexte n'a été déterminé. Le traitement du message vocal courant est donc retardé d'un temps nécessaire à la détermination de premiers contextes. Ce temps nécessaire est réduit lorsqu'au moins l'un des locuteurs renseigne le contexte de l'audioconférence 15 lors de la phase initiale de détermination des langues de la deuxième réalisation préférée. Each context is characterized by additional information such as the tone of the context, for example serious or happy, the category of population concerned, for example children, managers, workers, etc. The contexts written in the base 9 as they are determined in the unit 8 as well as the contexts contained in the external contextual databases are involved in the conversion of the successive voice messages MVk into textual voice messages MTk in the voice recognition module 1 and also in the translation of each text message MTk into parallel translated text messages MTT1 to MTTI in I-1 languages in the translation module 2. The contexts written in the contextual database 9 are thus gradually improved during the processing of text messages to facilitate voice recognition in the voice recognition module 12 and translation in the translation module 2. At the start of the audio conference or the first intervention of a speaker, no o0 context has not been determined. The processing of the current voice message is therefore delayed by a time necessary for determining the first contexts. This necessary time is reduced when at least one of the speakers informs the context of the audio conference 15 during the initial phase of determining the languages of the second preferred embodiment.

En variante, le détecteur d'activité 11 dans le module de traductionmultilingue et de gestion 20 d'audioconférence MTG détecte périodiquement les terminaux les plus actifs dont les signaux vocaux SV1 à SVK présentant une puissance supérieure audit seuil prédéterminé afin de traiter en parallèle des messages vocaux courants de plusieurs locuteurs 25 s'exprimant en même temps, contrairement aux trois réalisations cidessus, dans lesquelles le détecteur d'activité 11 sélectionne uniquement la ligne téléphonique LT1 à LTI la plus active. Dans cette variante, le module MTG est susceptible de traiter au 30 maximum K messages vocaux SV1 à SVK simultanément. As a variant, the activity detector 11 in the multilingual translation and audio conference management module 20 MTG periodically detects the most active terminals including the voice signals SV1 to SVK having a power greater than said predetermined threshold in order to process messages in parallel current voices of several speakers 25 speaking at the same time, unlike the three embodiments above, in which the activity detector 11 selects only the most active telephone line LT1 to LTI. In this variant, the MTG module is capable of processing a maximum of K voice messages SV1 to SVK simultaneously.

Chacun DMk des K multiplexeurs DM1 à DMK présente K ensembles de I entrées qui sont reliés respectivement à K unités de temporisation 4 afin de sélectionner et mélanger au plus K messages temporisés courants relatifs aux K locuteurs dans la voie d'émission respective EMkDans une autre variante, un groupe de plusieurs locuteurs sont réunis autour d'un même terminal. Dans 5 ce cas, un analyseur de voix de groupe succède au détecteur d'activité 11 ou précède le module de reconnaissance vocale 12, et distingue les différentes voix dans le groupe afin que celles-ci soient traitées séparément par le module de 10 traduction multilingue et de gestion d'audioconférence, avant d'être recombinées pour un message traduit vers les autres terminaux. Each DMk of the K multiplexers DM1 to DMK presents K sets of I inputs which are respectively connected to K timer units 4 in order to select and mix at most K current timed messages relating to the K speakers in the respective transmission channel EMk In another variant , a group of several speakers are gathered around the same terminal. In this case, a group voice analyzer succeeds the activity detector 11 or precedes the voice recognition module 12, and distinguishes the different voices in the group so that they are processed separately by the multilingual translation module 10 and audio conference management, before being recombined for a message translated to the other terminals.

En variante, un locuteur précise au début de 15 l'audioconférence ou lors de la phase de détermination des langues, les différentes langues qu'il maîtrise, afin d'envoyer au terminal associé à ce locuteur les messages vocaux des autres locuteurs non traduits lorsque ces messages vocaux sont dans 20 une langue qu'il maîtrise. As a variant, a speaker specifies at the start of the audio conference or during the phase of determining the languages, the different languages which he masters, in order to send to the terminal associated with this speaker the voice messages of the other untranslated speakers when these voicemails are in a language that he speaks.

Selon une variante d'architecture du système, des composants du module de traduction multilingue et de gestion d'audioconférence MTG ou une partie de 25 ceux-ci sont implantés dans les terminaux T1 à TK* Le système de traduction selon l'invention peut être intégré dans un système de visioconférence avec sous-titrage. La phase de synthèse vocale du système selon l'invention est alors supprimée et les messages 30 textuels traduits MTT1 à MTTI sont directement affichés respectivement sur des écrans des terminaux des locuteurs de la visioconférence dans les langues choisies par ceux-ci. According to a variant of the architecture of the system, components of the multilingual translation and audio conference management module MTG or a part thereof are installed in the terminals T1 to TK * The translation system according to the invention can be integrated into a videoconferencing system with closed captioning. The voice synthesis phase of the system according to the invention is then deleted and the text messages translated MTT1 to MTTI are directly displayed respectively on screens of the terminals of the videoconference speakers in the languages chosen by them.

Le système de traduction pour audioconférence multilingue selon l'invention est également utilisable pour l'apprentissage de langues étrangères. Tous les messages vocaux de l'audioconférence sont traduits systématiquement dans une même langue prédéterminée et les locuteurs s'expriment dans une langue de leur choix, celle d'apprentissage ou une autre. Ainsi tous les terminaux locuteurs reçoivent les messages vocaux 10 dans la même langue. Cette variante offre par exemple la possibilité à des élèves peu doués dans une certaine langue de s'exprimer dans leur langue maternelle tout en écoutant les messages vocaux dans la langue d'apprentissage. 1 5 The translation system for multilingual audioconferencing according to the invention is also usable for learning foreign languages. All the voice messages of the audio conference are systematically translated into the same predetermined language and the speakers speak in a language of their choice, that of learning or another. Thus all the speaker terminals receive the voice messages 10 in the same language. This variant offers, for example, the possibility for pupils with little talent in a certain language to express themselves in their mother tongue while listening to voice messages in the language of learning. 1 5

Claims

1 - System for translating voice messages transmitted by K terminals (Tk) of speakers during 5 a multilingual audio conference, comprising a voice recognition means (1) converting a current voice message (MVk) transmitted from a speaker terminal into a current text message (MTk), characterized in that it comprises - means (2) for translating the current text message (MTk) into current translated text messages (MTT1 - MTTI) in I-1 languages other than the language (Lk) of the speaker whose terminal has transmitted the current voice message, I being a number of 15 different languages spoken by the speakers, - a means (3) for synthesizing vocally the current translated text messages respectively into current synthesized messages ( MS1 - MSI), and - a means (4) for delaying the I-1 synthesized messages (MS1 MSI) and the current voice message (MVk), for predetermined durations respectively in I current timed messages (Ml - M I), so that the terminals (Tl - TK), other than the terminal having transmitted the current voice message 25 (MVk), receive substantially simultaneously the ends of the current timed messages (Ml - MI) respectively in their languages (Ll - LK 2) The system as claimed in claim 1, in which the means for delaying (4) delays the synthesized messages respectively according to the current synthesized messages, so that the following synthesized messages and the current timed messages do not overlap.

3 - System according to claim 1 or 2, comprising means (11) for periodically detecting the terminal which is the most active (Tk) among the terminals and which constitutes the speaker terminal having transmitted the current voice message (MVk).

4 - System according to any one of claims 1 to 3, comprising means (11) for periodically detecting the terminals which are the most active in order to process in parallel common voice messages from several speakers speaking at the same time .

- System according to any one of Claims 1 to 4, comprising means (11) for progressively segmenting the current voice message (MVk) into segmented messages having a duration equal to or less than a predetermined duration, when the duration of the voice message current (MVk) is greater than said predetermined duration, each of the segmented messages being processed successively in the voice recognition means (12), the means for translating (2), the means for synthesizing (3) and the means for delaying ( 4).

6 - System according to any one of claims 1 to 5, comprising means (6) for analyzing the current voice message (MVk) in order to continuously determine voice parameters (PVk) of the current voice message (MVk) to apply by means of synthesis (3).

7 - System in accordance with any of the

claims 1 to 6, comprising means (3; 4)

to equalize the durations of current synthesized messages (MS1 - MSI).

8 - System according to any one of claims 1 to 7, in which a speaker terminal having a language identical to that of the speaker of the current voice message (MVk) receives the current voice message (MVk) timed by the means for delay (4).

9 - System according to any one of claims 1 to 8 comprising means (5, 7) for determining the languages (L1 - LK) of voice signals (SV1 - SVK) transmitted respectively by the terminals 15 in order to identify the language (Lk) of the current voice message (MVk).

- System according to any one of claims 1 to 9, comprising means (8) for segmenting the current text message (MTk) into periodic time text segments, means (8) for determining a context (CSn) d a current text segment as a function of the content and the language (Lk) of the current text segment and as a function of averages of voice parameters (PVk) of the current voice message continuously supplied by the means for analyzing (6), on the current text segment (5n) in order to determine the contexts of the current text message (MTk) and of the translated text messages (MTT1 30 - MTTI).