FR2883095A1 - Systeme de traitement de langue reparti et procede d'emission de signal intermediaire de ce systeme - Google Patents

Systeme de traitement de langue reparti et procede d'emission de signal intermediaire de ce systeme Download PDF

Info

Publication number
FR2883095A1
FR2883095A1 FR0601429A FR0601429A FR2883095A1 FR 2883095 A1 FR2883095 A1 FR 2883095A1 FR 0601429 A FR0601429 A FR 0601429A FR 0601429 A FR0601429 A FR 0601429A FR 2883095 A1 FR2883095 A1 FR 2883095A1
Authority
FR
France
Prior art keywords
language processing
signal
speech
processing system
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0601429A
Other languages
English (en)
Inventor
Jui Chang Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Delta Electronics Inc
Original Assignee
Delta Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Delta Electronics Inc filed Critical Delta Electronics Inc
Publication of FR2883095A1 publication Critical patent/FR2883095A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

L'invention procure une interface d'entrée / dialogue vocal unifiée et un système d'unité de traitement de langue dépendant de l'application, de type multiple et réparti, avec la fonction de reconnaissance de parole unifiée et l'interface de dialogue unifiée. Le système comprend notamment une interface d'entrée de parole (312, 322); une interface de reconnaissance de parole (314, 324); une unité de traitement de langue (332, 334; 342, 344); et une unité de gestion de dialogue (318, 328). Le système utilise une interface d'entrée de parole unifiée pour différentes applications, et améliore également l'exactitude de reconnaissance de parole ainsi que la commodité d'utilisation grâce à un modèle de dialogue personnalisé.

Description

SYSTEME DE TRAITEMENT DE LANGUE REPARTI
ET PROCEDE D'EMISSION DE SIGNAL INTERMEDIAIRE
DE CE SYSTEME
La présente invention concerne un système de traitement de langue réparti et un procédé d'émission d'un signal intermédiaire de ce système, et elle concerne plus particulièrement un système de traitement de langue réparti et un procédé d'émission d'un signal intermédiaire de ce système dans lesquels le système utilise une interface d'entrée vocale unifiée, de façon qu'un utilisateur puisse être familier avec l'interface uni-fiée simple, améliore l'exactitude de la reconnaissance de la parole de l'utilisateur, et améliore le commodité du système par l'apprentissage de modèles de dialogue personnels.
La technologie d'interface homme - machine par l'utilisation d'une entrée vocale atteint une plus grande maturité. Il en résulte que de plus en plus d'interfaces vocales sont exigées. L'augmentation de la quantité d'interfaces déroute des utilisateurs. Une interface vocale unifiée qui établit des liens entre différents systèmes d'application est un concept très commode et nécessaire pour des utilisateurs.
En utilisant la maturité de la technologie de communication homme machine avec entrée vocale, cette technologie remplit la fonction de l'interface de commande d'un système d'application par des ordres vocaux. La technologie assure la reconnaissance de la parole au moyen du téléphone, la recherche automatique d'information par le dialogue avec une machine ou des réservations automatiques, etc. Une fonction de commande par des ordres vocaux est similaire à la fonction de télécommande. Du fait que le public s'est habitué à la communication par un dialogue, un système de dialogue vocal automatique apporte une assistance dans des services personnels 24 heures par jour, sept jours par semaine.
Le système ne sera pas arrêté pendant la nuit. Le système de dialogue vocal automatique remplit les tâches de routine et fournit d'excellents services qui peuvent être fournis par un être humain. De plus, du fait de la nature humaine dans la communication verbale, le système de dialogue vocal automatique est d'une grande assistance pour fournir des services personnels, comme le service vingt-quatre heures par jour, 7 jours par semaine, sans aucune interruption. Le système a progressivement rem-placé le travail de routine fastidieux. La qualité de service qu'un personnel peut offrir est donc améliorée.
A l'heure actuelle, la majeure partie de la technologie vocale développée ou en cours de développement n'est pas arrivée à maturité. Par conséquent, on n'a pas considéré la commodité de l'utilisation simultanée de multiples produits de technologie vocale. Par exemple, ces inter-faces ont différents fonctionnements, et consomment des ressources de calcul et de mémoire notables. Il en résulte que des utilisateurs doivent payer individuellement pour des services et des systèmes coûteux, et ont un comportement différent conformément à chaque conception d'interface homme - machine individuelle.
De façon générale, sur la base de la taille de vocabulaire du système d'entrée vocale, il y a des fonctions de commande par ordres vocaux avec un petit vocabulaire et des fonctions de dialogue vocal avec un vocabulaire moyen ou grand. Il y a un logiciel client local et les systèmes serveurs distants. Divers logiciels d'application ont différentes interfaces d'utilisateur de type vocal qui ne communiquent pas les unes avec les au- tres. Chaque système de dialogue vocal correspond à un seul dispositif d'application. Bien que de nombreux systèmes d'application soient utilisés, différentes interfaces d'utilisateur de type vocal doivent être traitées comme différents assistants en même temps. Une telle situation est mal-commode du fait qu'un utilisateur utilise simultanément plusieurs disposi- tifs de télécommande. La structure traditionnelle est représentée sur la figure 1.
En se référant à la figure 1, on note que la structure comprend un microphone / haut-parleur 110 pour recevoir le signal de parole d'entrée provenant de l'utilisateur. Le signal est ensuite transformé en un signal de parole numérique et émis vers les systèmes serveurs 112, 114 et 116 avec le programme d'application, comme représenté sur cette figure. Chaque système serveur comprend l'interface d'utilisateur de programme d'application, la fonction de reconnaissance de parole, la fonction de compréhension de langue et la fonction de gestion de dialogue. Si l'utilisateur introduit des ordres au moyen du téléphone, le signal de parole analogique est émis par le téléphone 120 à travers les cartes d'interface téléphonique 130, 140 et 150, et est dirigé vers le système serveur 132, 142 et 152, respectivement. Chaque système serveur comprend l'interface d'utilisateur de programme d'application, la fonction de reconnaissance de parole, la fonction de compréhension de langue, et la fonction de gestion de dialogue. Divers logiciels d'application ont différentes interfaces vocales d'utilisateur qui ne communiquent pas les unes avec les autres. Chaque système de dialogue vocal correspond à un seul dispositif d'application. Bien que de nombreux systèmes d'application soient utilisés, diffé- rentes interfaces vocales d'utilisateur doivent être mises en fonction et travaillent sans se connaître mutuellement. Un tel fonctionnement est très complexe et malcommode.
Par exemple, la plupart des systèmes de dialogue vocal par l'intermédiaire des lignes téléphoniques utilisent des systèmes serveurs dis- tants, comme pour des réservations de compagnies aériennes et des réservations d'hôpitaux en langage naturel. Les signaux de parole ou les paramètres de parole sont collectés au terminal local et sont émis vers le terminal distant à travers la ligne téléphonique. L'unité distante de reconnaissance de parole et de compréhension de langue traduit les signaux de parole en signaux sémantiques. La communication ou les ordres introduits par les utilisateurs sont exécutés au moyen de l'unité de commande de dialogue et de l'unité de traitement d'application du système d'application. De façon générale, l'unité de traitement de reconnaissance de parole et de compréhension de langue est disposée au système serveur distant, et le traitement emploie le modèle indépendant du locuteur, comme représenté sur la figure 2.
En se référant à la figure 2, on note que l'utilisateur utilise le téléphone en tant qu'interface d'entrée. Le téléphone 210 émet les signaux de parole analogiques à travers le réseau téléphonique et la carte d'interface téléphonique 220, vers le système serveur 230. Le système serveur 230 comprend l'unité de reconnaissance de parole 232, l'unité de compréhension de langue 234, l'unité de gestion de dialogue 236 et le serveur de base de données 240 connecté. Le système serveur 230 génère et émet une information de parole 238 vers l'utilisateur, à travers la carte d'interface téléphonique 220.
Il y a évidemment des inconvénients dans cette structure, et il est néanmoins difficile de résoudre le problème. Premièrement, l'utilisation simultanée de différentes interfaces vocales d'utilisateur est source de confusion. Deuxièmement, du fait de l'absence de combinaison d'une interface unifiée avec l'environnement d'application d'origine, l'installation d'un ou plusieurs logiciels d'application développés ou réduits sera mal-commode. En ce qui concerne les chemins de signal sonore et les calculs de comparaison de modèles, la manière d'éviter des conflits de ressources entre les interfaces est un autre problème pour le fonctionnement.
Troisièmement, des paramètres de modèle et de moteur de comparaison acoustique indépendants ne coopèrent pas et ne peuvent pas partager leurs ressources. Par exemple, dans la technologie de l'art antérieur, les signaux acoustiques et l'expérience accumulée de l'utilisateur ne peuvent pas être collectés; la technologie d'ajustement ne peut pas être utilisée pour améliorer les paramètres de modèle acoustique dépendant de l'utilisateur, les paramètres de modèle de langue et les paramètres favoris pour une application. De façon générale, l'exactitude de reconnaissance de parole après ajustement est bien meilleure que celle du système de base indépendant du locuteur.
Par conséquent, une interface vocale d'utilisateur unifiée non seulement procure un environnement plus commode pour l'utilisateur, mais améliore également les performances d'ensemble de la reconnaissance de parole.
La présente invention procure ainsi une interface de dialogue d'entrée vocale unifiée et un système d'unité de traitement de langue dé-pendant de l'application, de type multiple et réparti, avec une fonction de reconnaissance de parole unifiée et une interface de dialogue unifiée. Non seulement le système procure un environnement commode, mais en plus il améliore les performances de reconnaissance de parole d'ensem- ble.
La présente invention procure un système d'unité de traitement de langue dépendant de l'application, de type multiple et réparti. En utilisant l'interface d'entrée vocale unifiée, un utilisateur peut être plus familier avec l'interface unifiée simple, et l'exactitude de reconnaissance de parole de l'utilisateur peut également être améliorée. De plus, le système apprend également le modèle de dialogue personnel, et par conséquent la commodité d'utilisation du système est améliorée davantage.
Pour atteindre le but décrit ci-dessus, la présente invention pro-cure un système de traitement de langue réparti, qui comprend une inter-face d'entrée de parole, une interface de reconnaissance de parole, une unité de traitement de langue et une unité de gestion de dialogue. L'inter-face d'entrée de parole reçoit un signal de parole. Conformément au signal de parole reçu, l'interface de reconnaissance de parole reconnaît et génère ensuite un résultat de reconnaissance de parole. L'unité de frai- terrent de langue reçoit et analyse le résultat de reconnaissance de parole pour générer un signal sémantique. L'unité de gestion de dialogue reçoit et détermine le signal sémantique, et génère ensuite une information sémantique correspond au signal de parole.
Dans le système de traitement de langue réparti, l'interface de reconnaissance de parole comprend une fonction d'adaptation de modèle, de façon qu'un modèle de son reconnaisse le signal de parole au moyen de la fonction d'adaptation de modèle. Dans la fonction d'adaptation de modèle, le modèle de son, qui dépend du locuteur et dépend du dispositif, se réfère à un modèle commun, qui est indépendant du locuteur et indépendant du dispositif, en tant que paramètre de modèle initial, pour ajuster un paramètre du modèle de son, de façon à optimiser le résultat de reconnaissance.
Dans le système de traitement de langue réparti, dans un mode de réalisation, le système comprend en outre une unité de correspon- dance entre l'interface de reconnaissance de parole et l'unité de traite-ment de langue, pour recevoir le résultat de reconnaissance de parole et établir une correspondance de celui-ci conformément à un protocole de signal intermédiaire de sortie, afin de générer et d'émettre vers l'unité de traitement de langue un signal de correspondance qui constitue le résultat de reconnaissance de parole. Le procédé d'émission du signal de correspondance vers l'unité de traitement de langue comprend un procédé de diffusion, un procédé utilisant la transmission à travers un réseau de communication filaire, ou un procédé utilisant la transmission à travers un réseau de communication sans fil. Dans le protocole de signal intermédiaire de sortie décrit ci-dessus, le signal de correspondance est formé par une pluralité d'unités de mot et une pluralité d'unités de sous-mot. Le sous-mot comprend une syllabe chinoise, un phonème anglais, une pluralité de phonèmes anglais, ou une syllabe anglaise.
Conformément au protocole de signal intermédiaire de sortie décrit cidessus, le signal de correspondance est une séquence ou un treillis composé d'une pluralité d'unités de mot et d'une pluralité d'unités de sous-mot.
Dans le système de traitement de langue réparti, l'unité de gestion de dialogue génère une information sémantique correspondant au si-gnal de parole. Si l'information sémantique correspondant au signal de parole générée par l'unité de gestion de dialogue est un ordre vocal, une action correspondant à l'ordre vocal est effectuée. Dans un mode de réalisation, l'action correspondant à l'ordre vocal sera effectuée lorsque l'ordre vocal est supérieur à un index de confiance.
Dans le système de traitement de langue réparti, l'unité de traitement de langue comprend une unité de compréhension de langue et une base de données. L'unité de compréhension de langue reçoit et analyse ensuite le résultat de reconnaissance de parole, et se réfère à la base de données pour obtenir le signal sémantique correspondant au résultat de reconnaissance de parole.
Dans le système de traitement de langue réparti, dans un mode de réalisation, le système est structuré conformément à une architecture répartie. Dans l'architecture répartie, l'interface d'entrée de parole, l'inter-face de reconnaissance de parole et l'unité de gestion de dialogue sont à un terminal d'utilisateur; et l'unité de traitement de langue est à un terminal serveur d'application de système.
Chaque terminal serveur d'application de système comprend une unité de traitement de langue qui lui correspond. Ces unités de traitement de langue reçoivent et analysent les résultats de reconnaissance de pa- rote pour obtenir et émettre les signaux sémantiques vers l'unité de ges- tion de dialogue; une information sémantique correspondant aux signaux sémantiques est générée conformément à la détermination des signaux sémantiques. Conformément au système de traitement de langue réparti, dans un mode de réalisation, l'interface d'entrée de parole, l'interface de reconnaissance de parole, l'unité de traitement de langue et l'unité de gestion de dialogue pourraient être à un terminal d'utilisateur dans un système autonome.
Conformément au système de traitement de langue réparti, dans un mode de réalisation, l'interface de reconnaissance de parole améliore le rendement de reconnaissance en effectuant un apprentissage conformément aux habitudes de dialogue de l'utilisateur. En outre, l'interface d'entrée de parole comprend un mécanisme de commande de formule d'accueil, et des formules d'accueil de l'interface d'entrée de parole peu-vent être changées par un utilisateur.
La présente invention procure également un procédé d'émission d'un signal intermédiaire et un protocole utilisé dans le procédé. Le pro-cédé est adapté à un système de traitement de langue réparti. Le système de traitement de langue réparti est structuré avec une architecture répartie. L'architecture répartie comprend un terminal d'utilisateur et un terminal serveur d'application de système. Le terminal d'utilisateur comprend une interface de reconnaissance de parole et une unité de gestion de dialogue. Le terminal serveur d'application de système comprend une unité de traitement de langue. Dans ce procédé d'émission du signal intermédiaire, l'interface de reconnaissance de parole reçoit et analyse un signal de parole pour générer un résultat de reconnaissance de parole. Le résultat de reconnaissance de parole est transformé en un signal formé d'une pluralité d'unités de mot et d'une pluralité d'unités de sous-mot, conformément au protocole de signal intermédiaire de sortie. Le signal est en-suite émis vers l'unité de traitement de langue pour l'analyser afin d'obte- nir une information sémantique. L'information sémantique est émise vers l'unité de gestion de dialogue pour générer une réponse à l'utilisateur, par une interface graphique ou une interface vocale.
Dans le procédé d'émission du signal intermédiaire et dans un protocole utilisé dans le procédé, le sous-mot comprend une syllabe chi-noise, un phonème anglais, une pluralité de phonèmes anglais ou une syl-labe anglaise. Le signal composé des multiples mots et unités de sous-mot, transformé conformément au protocole de signal intermédiaire, est une séquence ou un treillis composé d'une pluralité d'unités de mots et d'une pluralité d'unités de sous-mot.
Les caractéristiques de la présente invention envisagées ci-dessus, ainsi que d'autres, seront mieux comprises à la lecture de la description détaillée suivante des modes de réalisation préférés de l'invention, qui est donnée en relation avec les dessins annexés, dans lesquels: - la figure 1 est un dessin montrant un système d'entrée vocale de l'art antérieur; - la figure 2 est un schéma synoptique montrant un circuit de traitement de reconnaissance de parole et d'analyse de langue d'un système d'entrée vocale traditionnel; et - la figure 3 est un dessin montrant une architecture de sys- tème d'unité de traitement de langue dépendant de l'application, de type multiple et réparti, avec une fonction de reconnaissance de parole unifiée et une interface de dialogue unifiée, en conformité avec un mode de réalisation de la présente invention.
La présente invention procure une interface de dialogue d'en- trée vocale unifiée et un système d'unité de traitement de langue dépendant de l'application, de type multiple et réparti, avec la fonction de reconnaissance de parole unifiée et l'interface de dialogue unifiée. Non seulement le système procure un environnement commode, mais en plus il améliore les performances d'ensemble de la reconnaissance de parole.
La technologie d'interface homme - machine utilisant l'entrée vocale arrive à maturité. Diverses interfaces d'entrée peuvent être exigées dans le but de commander différents appareils d'application, de rechercher différentes informations ou d'effectuer des réservations. Si ces interfaces ont des fonctionnements différents, et si chacune d'elles consomme des ressources de calcul et de mémoire importantes, ceci sera gênant pour un utilisateur. Par conséquent, une interface simple avec un fonctionnement simple et des connexions avec différents systèmes d'application pour procurer un environnement d'utilisateur unifié, devient très importante pour le développement et la commercialisation de la technolo- gie vocale avancée. Du fait que ces interfaces utilisent différents modes de fonctionnement et que chacune occupe des ressources de calcul et de mémoire notables, un utilisateur sera gêné par les applications complexes et malcommodes. Par conséquent, une interface simplifiée et d'utilisation aisée, établissant un lien avec différents systèmes d'application pour pro- curer un environnement d'utilisateur unifié, est essentielle, en particulier pour le développement et la diffusion de l'usage de la technologie vocale avancée.
Dans le but de résoudre le problème décrit ci-dessus, dans la présente invention, il est proposé une interface d'entrée vocale unifiée, de façon qu'un utilisateur puisse être familier avec l'interface unifiée; L'exactitude de reconnaissance de la parole dans l'utilisation est améliorée; le système apprend également le modèle de dialogue personnel, et par conséquent la commodité d'utilisation du système est également améliorée.
Premièrement, le modèle de son qui dépend du locuteur et dé-pend du dispositif est placé à un dispositif de terminal local. Cette structure procure à l'utilisateur une meilleure qualité de comparaison acoustique. Dans un mode de réalisation, le modèle de son peut utiliser un modèle commun qui est indépendant du locuteur et indépendant du disposi- tif, à titre de modèle initial pour améliorer progressivement les paramètres de modèle qui dépendent du locuteur et dépendent du dispositif, par la technologie d'adaptation de modèle. L'exactitude de reconnaissance est donc notablement améliorée. Dans un mode de réalisation, un lexique qui est étroitement lié à la reconnaissance de parole, et un modèle N-gramme qui dépend du langage, peuvent être utilisés dans la technologie d'adaptation de modèle pour améliorer la qualité de reconnaissance.
Le lexique mentionné fournit au moteur de reconnaissance de parole des caractères et de l'information d'unités de son qui leur correspondent. Par exemple, le mot "reconnaissance" en unités de syllabes chi- noises est /bian4//ren4/, ou en unités de phonèmes: /b/, /i4/, /e4/, /M/, /r/, /e4/ et /M/. Conformément à l'information, le moteur de reconnaissance de parole compose le modèle de comparaison de son, tel que le Modèle de Markov Caché (HMM pour "Hidden Markov Model").
Le modèle N-gramme décrit enregistre les probabilités de con-nexion de différents caractères, comme les probabilités de connexions entre "République de" et "Chine", entre "Population de la" et "République de", et entre "République de" et d'autres caractères. Il présente égale-ment la possibilité de connexion entre différents caractères. Du fait que la fonction est similaire à une fonction grammaticale, elle est nommée avec "-gramme". Selon une définition plus stricte: un modèle indique la fréquence avec laquelle N lettres / mots sont connectés. Par exemple, en plus de pratiquer la prononciation de caractères / mots chinois, un nonchinois doit lire davantage d'articles pour apprendre les connexions parmi ces caractères. Le modèle N-gramme estime également les probabilités de connexions des différents caractères / mots en échantillonnant une extrêmement grande quantité d'articles.
Avec le protocole de signal intermédiaire de sortie du dispositif de reconnaissance de parole, le résultat de reconnaissance de parole d'étage frontal peut être accepté par l'unité de traitement d'arrière-plan, de façon que la signification des mots puisse être maintenue avec exactitude. Différents groupes de mots sont utilisés dans différents dispositifs d'application. Si un groupe de mots est utilisé comme une unité, de nouveaux groupes de mots reconnaissables seront créés continuellement par l'augmentation des programmes d'application. Ceci ne sera pas trop gênant s'il y a seulement quelques systèmes d'application. Si de nombreux systèmes d'application sont utilisés, la grande quantité des groupes de mots retardera considérablement l'unité de reconnaissance de parole frontale. Par conséquent, les signaux intermédiaires partagés incluent les mots courants partagés et les sous-mots partagés. Les mots courants peuvent inclure des ordres vocaux fréquemment utilisés. L'ajout des mots courants améliore l'exactitude de reconnaissance, et réduit considérablement la confusion de reconnaissance. Les sous-mots mentionnés ci-dessus sont des fragments plus petits qu'une unité de mot, comme une syllabe chinoise, un phonème anglais, de multiples phonèmes anglais ou une syllabe anglaise.
La syllabe décrite ci-dessus est une unité phonétique chinoise. Il y a environ 1300 syllabes tonales, ou environ 408 syllabes atones. Chaque caractère chinois est une seule syllabe. En d'autres termes, chaque syllabe représente la prononciation d'un caractère. Dans un article, le nombre de syllabes représente le nombre de caractères. Par exemple, le caractère chinois "g" indiqué par la syllabe tonale du système Hanyu Pinyin est /guo2/, et le caractère chinois "c" est /jial/; ou /guo/ et lia/ sont la syllabe atone.
Concernant le phonème anglais mentionné ci-dessus, de multi- pies phonèmes anglais ou une syllabe anglaise sont utilisés en anglais, et les éléments phonétiques d'un mot anglais sont en majeure partie multisyllabiques. Lorsque l'appareil de reconnaissance automatique de parole est utilisé pour reconnaître l'anglais, une quantité appropriée d'unités de son courantes qui sont plus petites que les multisyllabes doit être fournie à l'avance pour utiliser ces unités comme les unités de comparaison de modèle. Elles doivent inclure des unités monosyllabiques ou des unités sous-syllabiques. Les unités de phonèmes les plus fréquemment utilisées dans l'enseignement phonologique de l'anglais comprennent par exemple: /a/, /i/, /u/, /e/ et loi, etc. L'information de sortie de la reconnaissance de parole d'étage frontal peut être une séquence composée des N Meilleurs mots et sous-mots courants. Dans un autre mot de réalisation, elle peut être un treillis d'une unité commune. Lorsqu'un utilisateur prononce une phrase (pro-nonce certains mots), l'appareil de reconnaissance de parole compare le son pour générer un résultat de reconnaissance avec le score de comparaison le plus élevé. Du fait que l'exactitude de reconnaissance n'est pas 100%, l'information de sortie du résultat de reconnaissance peut inclure différents résultats de reconnaissance possibles. La forme de sortie avec N chaînes de résultats sous forme de séquences de mots est appelée le résultat de reconnaissance des N Meilleurs. Chaque chaîne de résultats sous forme de séquences de mots est une chaîne de mots indépendante.
Une autre forme de sortie possible est le treillis, qui désigne la forme de treillis de mots dans laquelle les mots communs de différentes chaînes de mots forment un noeud. Différentes phrases sont couplées aux mots chinois courants, de façon que toutes les phrases possibles soient représentées en un treillis, de la façon suivante: -àM
U
Noeud 1 représente le Noeud de Début Noeud 5 représente le Noeud de Fin Noeud 1 2 "ffe" représente Score (1, 2 "ffe) Noeud 1 2 " ," représente Score (1, 2 "Se*" ) Noeud 2 3 "e" représente Score (2, 3 "'" ) Noeud 2 3 "MW' représente Score (2, 3 "MW' ) Noeud 3 5 "l" représente Score (3, 5 "M" ) Noeud 4 5 "r!'' représente Score (4, 5 "R) La séquence ou le treillis décrit ci-dessus est ensuite diffusé, ou envoyé à travers un réseau de communication filaire ou un réseau de communication sans fil. Il est reçu par différents dispositifs d'analyse d'application. Il peut également être émis vers le dispositif d'analyse de traitement de langue pour analyser le contenu sémantique de la phrase ou du treillis, sans passer par un réseau. Chaque dispositif d'analyse de traitement de langue analyse et traite individuellement la séquence ou le treillis pour obtenir le contenu sémantique correspondant. Ces unités de traitement de compréhension de langue correspondent individuellement à différents systèmes d'application. Par conséquent, elles incluent différents lexiques et différentes grammaires. Ces étapes de traitement de compréhension de langue effectuent un tri pour éliminer des signaux intermédiaires non reconnaissables (incluant certains mots et sous-mots courants) et conservent des signaux reconnaissables de façon à analyser davantage les structures de phrase et à effectuer la comparaison grammaticale. Ensuite, le signal sémantique qui est le meilleur et le plus fiable est fourni en sortie et émis vers l'appareil d'interface d'entrée vocale du terminal local de l'utilisateur.
L'unité de gestion de dialogue de l'appareil d'interface d'entrée vocale collecte tous les signaux sémantiques émis. En ajoutant le con-texte linguistique des signaux sémantiques, on peut obtenir le résultat optimisé. On utiliserait ensuite de multiples modalités pour répondre à l'utilisateur de façon à accomplir un dialogue pendant la conversation. S'il est déterminé qu'il s'agit d'un ordre vocal, et si l'index de confiance est suffisant, l'action suivante commandée par l'ordre sera exécutée; et le travail est terminé.
La figure 3 est un schéma montrant une architecture de système d'unité de traitement de langue dépendant de l'application, de type multiple et réparti, avec une fonction de reconnaissance de parole unifiée et uneinterface de dialogue unifiée, en conformité avec un mode de réalisa- tion de la présente invention. Dans ce mode de réalisation, il peut s'agir d'un appareil d'interface de traitement d'entrée / dialogue vocal. En se référant à la figure 3, on note que le système comprend deux interfaces de traitement de parole 310 et 320, et deux serveurs d'application 330 et 340. La présente invention n'est cependant pas limitée à ceci. Les nombres des interfaces de traitement de parole et des serveurs d'application sont variables.
L'interface de traitement de parole 310 comprend une unité de reconnaissance de parole 314, une unité de correspondance de mots de raccourcis 316 et une unité de gestion de dialogue 318. Dans l'interface de traitement de parole 310, le modèle de son qui dépend du locuteur et dépend du dispositif est implanté au dispositif local. La structure améliore la qualité de comparaison acoustique. L'interface de traitement de parole 310 reçoit un signal de parole provenant d'un utilisateur. Comme représenté sur la figure 3, l'interface de traitement de parole 310 peut en outre comprendre une unité de réception de parole 312, telle qu'un microphone, pour recevoir commodément le signal de parole de l'utilisateur.
Une autre interface de traitement de parole 320 comprend une unité de reconnaissance de parole 324, une unité de correspondance de mots de raccourcis 326 et une unité de gestion de dialogue 328. L'inter- face de traitement de parole 320 reçoit un signal de parole provenant d'un utilisateur. Comme représenté sur la figure 3, l'interface de traitement de parole 320 peut en outre comprendre une unité de réception de parole 322, telle qu'un microphone, pour recevoir commodément le signal de parole de l'utilisateur. Dans ce mode de réalisation, l'unité de réception de parole 322 reçoit le signal de parole provenant de l'utilisateur A. Dans l'interface de traitement de parole 310, le modèle de son qui dépend du locuteur et dépend du dispositif peut être implanté dans l'unité de reconnaissance de parole 314. La structure peut améliorer la qualité de comparaison acoustique. Dans un mode de réalisation pour l'établissement du modèle de son qui dépend du locuteur et dépend du dispositif, un modèle commun qui est indépendant du locuteur et indépendant du dispositif est utilisé comme un modèle initial. En utilisant la technologie d'adaptation de modèle, les paramètres de modèle qui dépendent du locuteur et dépendent du dispositif peuvent être améliorés et l'exacti- tude de reconnaissance est également notablement améliorée.
Dans un mode de réalisation, le lexique ou le modèle N-gramme qui est étroitement lié à la reconnaissance de parole est appliqué à la technologie d'adaptation de modèle pour améliorer l'exactitude de reconnaissance.
Dans l'interface de traitement de parole 310 conforme à un mode de réalisation préféré de la présente invention, conformément à un protocole de signal intermédiaire de sortie, l'unité de correspondance de mots de raccourcis 316 effectue une comparaison pour la détermination de correspondance entre l'information de sortie de l'interface de traitement de parole 310 et le résultat de reconnaissance de parole qui est émis par l'unité de reconnaissance de parole 314. Le résultat de sortie de l'interface de traitement de parole 310 est ensuite présenté en sortie. Du fait que l'unité de traitement d'arrière-plan reconnaît également le signal conformément au protocole de signal intermédiaire de sortie, le résultat de reconnaissance de parole est également acceptable, et l'exactitude de reconnaissance sémantique peut être maintenue. Dans le protocole de signal intermédiaire de sortie conforme à un mode de réalisation préféré de la présente invention, le signal émis par l'utilisateur est habituellement un signal composé de mots courants et de sous-mots.
Dans l'architecture traditionnelle, diverses combinaisons de groupes de mots sont utilisées dans différents dispositifs d'application. Si l'unité est un groupe de mots, il y aura une augmentation continuelle de nouveaux groupes de mots de reconnaissance, du fait de l'augmentation des programmes d'application. Ceci ne sera pas trop gênant s'il y a peu de systèmes d'application. Cependant, s'il y a de nombreux systèmes d'application, la quantité de groupes de mots retardera considérablement l'unité de reconnaissance de parole d'étage frontal. Par conséquent, dans le mode de réalisation de la présente invention, le résultat de reconnaissance de parole en conformité avec l'unité de reconnaissance de parole 314, après la comparaison de détermination de correspondance par l'unité de correspondance de mots de raccourcis 316, génère des signaux partagés de mots courants et de sous-mots. A la fois l'émetteur de signal et le récepteur de signal peuvent reconnaître et traiter les signaux définis par le protocole de signal intermédiaire de sortie.
Les sous-mots décrits ci-dessus sont des fragments plus petits que des mots, comme une syllabe chinoise, un phonème anglais, de multiples de phonèmes anglais ou une syllabe anglaise. Les mots courants comprennent des ordres vocaux fréquemment utilisés. L'ajout des mots courants améliore l'exactitude de reconnaissance, et réduit notablement la confusion de reconnaissance. L'information de sortie de la reconnaissance de parole d'étage frontal peut être par exemple une séquence de N Meilleurs constituée de mots courants et de sous-mots, ou un treillis d'une unité commune, comme décrit ci-dessus.
Dans l'interface de traitement de parole 310, en conformité avec le protocole de signal intermédiaire de sortie, le résultat de reconnaissance de parole de sortie, après la comparaison de détermination de correspondance par l'unité de correspondance de mots de raccourcis 316, est émis par l'intermédiaire du signal 311 vers l'unité de traitement de langue pour reconnaître la signification des mots. Par exemple, le signal 311 est émis vers les serveurs d'application (A) 330 et (B) 340. Le signal 311 est un signal de séquence ou un signal de treillis en conformité avec le protocole de signal intermédiaire de sortie. Le procédé d'émission du signal 311 vers les serveurs d'application (A) 330 et (B) 340 peut être par exemple un procédé de diffusion, un procédé de transmission par un réseau de communication filaire, ou un procédé de transmission par un réseau de communication sans fil. Le signal est reçu par différents dispositifs d'analyse d'application, ou même est émis vers des dispositifs d'ana-lyse du même appareil, sans passer par un réseau.
En se référant à la figure 3, on note que le serveur d'application (A) 330 comprend une base de données 332 et une unité de compréhension de langue 334. Le serveur d'application (B) 340 comprend une base de données 342 et une unité de compréhension de langue 344. Lorsque les serveurs d'application (A) 330 et (B) 340 reçoivent le signal 311, chacun d'eux effectue l'analyse et le traitement de langue au moyen de sa propre unité de compréhension de langue 334 ou 344. La signification des mots peut être obtenue en se référant à la base de données 332 ou 342.
En ce qui concerne une autre interface de traitement de parole 320, conformément au protocole de signal intermédiaire de sortie, le résultat de reconnaissance de parole de sortie, après comparaison de détermination de correspondance par l'unité de correspondance de mots de raccourcis 326, est transmis par l'intermédiaire du signal 321 aux serveurs d'application (A) 330 et (B) 340. Le signal 321 est un signal de séquence ou un signal de treillis en conformité avec le protocole de signal intermédiaire de sortie. Lorsque les serveurs d'application (A) 330 et (B) 340 reçoivent le signal 311, chacun d'eux effectue l'analyse et le traite-ment de langue au moyen de sa propre unité de compréhension de langue 334 ou 344. La signification des mots peut être obtenue en se référant à la base de données 332 ou 342.
Différentes unités de compréhension de langue correspondent à différents systèmes d'application. Il en résulte qu'elles comprennent différents lexiques et grammaires. Ces étapes de traitement de compréhension de langue effectue un tri pour éliminer des signaux intermédiaires non reconnaissables (incluant certains mots courants et sous-mots) et conservent des signaux reconnaissables de façon à analyser les structures de phrase et à effectuer la comparaison grammaticale. Ensuite, le signal sémantique qui est le meilleur et le plus fiable est fourni en sortie. Les signaux fournis en sortie de l'analyse et du traitement de langue par les unités de compréhension de langue 334 et 344 sont émis vers l'unité de traitement de parole 310 par l'intermédiaire des signaux sémantiques 331 et 341, ou vers l'unité de traitement de parole 320 par l'intermédiaire des signaux sémantiques 333 et 343, respectivement.
Ensuite, l'unité de gestion de dialogue de l'appareil d'interface de traitement d'entrée / dialogue par la parole, telle que l'unité de gestion dialogue 318 de l'interface de traitement de parole 310, ou l'unité de ges- tion de dialogue 328 de l'interface de traitement de parole 320, collecte tous les signaux sémantiques émis. Le résultat optimisé est déterminé en ajoutant le signal sémantique de contexte. De multiples modalités seraient alors utilisées pour répondre à l'utilisateur de façon à accomplir un dialogue pendant la conversation. S'il est déterminé qu'il s'agit d'un ordre vo- cal, et si l'index de confiance est suffisant, l'action suivante commandée par l'ordre est exécuté; et le travail est terminé.
Dans le système d'unité de traitement de langue dépendant de l'application, de type multiple et réparti, avec la fonction de reconnaissance de parole unifiée et l'interface de dialogue unifiée en conformité avec un mode de réalisation préféré de la présente invention, tous les dispositifs pour le dialogue sont disposés à différents emplacements et communiquent entre eux par l'intermédiaire de différentes interfaces de transmission, comme une station de diffusion, un réseau de communication filaire ou un réseau de communication sans fil. Le signal est reçu par différents dispositifs d'analyse d'application ou émis vers différents dispositifs d'analyse du même appareil, sans passer par un réseau.
En ce qui concerne une architecture de système d'un mode de réalisation, elle peut être une architecture répartie. Par exemple, le terminal d'utilisateur local, comme les interfaces de traitement de parole 310 et 320, comporte les fonctions de traitement pour la reconnaissance de parole et la gestion de dialogue. Les unités de compréhension de langue remplissant la fonction de compréhension et d'analyse de langue peuvent être disposées à l'arrière-plan du serveur d'application de système, comme par exemple l'unité de compréhension de langue 334 du serveur d'application (A) 330 ou l'unité de compréhension de langue 344 du serveur d'application (B) 340.
Dans un mode de réalisation de la présente invention, l'unité de compréhension de langue pour la fonction de compréhension et d'analyse de langue peut être disposée au terminal d'utilisateur local. Ceci dépend des exigences de conception et des capacités de traitement / calcul de l'appareil au terminal d'utilisateur local. Par exemple, dans un système de recherche d'information météorologique, le traitement de données exige un grand volume de calculs et de capacité de stockage. Par conséquent, de nombreux processeurs de calcul sont nécessaires pour calculer et trai-ter ces données. La grammaire des données qu'il est nécessaire de comparer est également plus complexe. Par conséquent, le système d'application analysant la signification des phrases doit être placé au terminal distant, c'est-à-dire le terminal serveur d'application. Si le système d'application comprend de nombreux mots ou groupes de mots particuliers qui sont différents de ceux qu'on trouve dans d'autres systèmes d'application, il est judicieux d'effectuer un tel processus au terminal serveur d'application. En outre, le terminal serveur d'application collecte également le lexique et les structures de phrases utilisés par différents utilisateurs, de façon à procurer un auto-apprentissage pour le système du terminal serveur d'application. De l'information, telle qu'un répertoire téléphonique personnel, qui est habituellement entretenue au terminal d'utilisateur local, doit être traitée par l'unité de compréhension de langue du terminal local.
On prend l'exemple d'une commande d'éclairage d'une salle de conférence. Habituellement, un processeur avec une fonction de calcul ne sera pas disposé à un appareil d'éclairage. Cependant, la commande d'éclairage peut être exécutée en émettant un ordre vers cet appareil, en mode sans fil, après qu'un traitement a été effectué par l'unité de compréhension de langue locale. Il est également possible qu'en utilisant une petite puce, un volume de lexique limité, tel que "éclairer", "éteindre", "éclairer la lumière", ou "éteindre la lumière", puisse être traité à l'intérieur. Chacun du terminal de système d'application et du terminal d'inter-face d'utilisateur comprend des canaux de type multiple à multiple. Différents utilisateurs peuvent utiliser la voix pour commander la lumière ou pour rechercher la prévision météorologique.
Dans un mode de réalisation, la présente invention procure le système d'unité de traitement de langue dépendant de l'application, de type multiple et réparti, avec la fonction de reconnaissance de parole unifiée et l'interface de dialogue unifiée. La connaissance des habitudes de l'utilisateur concernant des dialogues peut être améliorée par apprentissage. Par exemple, des mots d'accueil utilisés dans l'interface d'entrée vocale varient avec des utilisateurs, et ils peuvent néanmoins être reconnus de manière exacte. Les ordres de changement du système d'application, utilisés pour changer d'opération ou de dialogue, peuvent être ajustés personnellement de façon à changer d'application avec exactitude.
Dans un autre mode de réalisation, basé sur l'utilisation personnelle, des diminutifs pour des ordres sont également disponibles de façon à procurer plus d'agrément et de commodité pour des utilisateurs. Des noms personnalisés peuvent être donnés à certaines applications dont les noms s'oublient facilement. Toutes ces fonctions peuvent être réalisées par l'inter- face d'entrée vocale unifiée.
Le système d'application de message vocal traditionnel comprend habituellement un dispositif de reconnaissance de parole et un analyseur de langue qui sont indépendants du locuteur. Le dispositif de reconnaissance de parole couvre habituellement la plupart des calculs. Un système peut prendre en charge un nombre limité de canaux téléphoniques. Si davantage de canaux téléphoniques doivent être traités, le coût augmentera de façon extrêmement importante. Si les canaux transmettant de la voix occupent davantage de ressources de matériel, ceci conduira à un goulot d'étranglement dans le service à l'heure de pointe et une augmentation des frais de communication. Si la reconnaissance de parole peut être traitée à l'avance au terminal d'utilisateur local, on peut obtenir une économie sur le coût de communication en émettant seulement des signaux intermédiaires (incluant des mots courants et des sous-mots) avec n'importe quelles voies de transmission de données. Le retard de transmission de données est réduit, et les coûts de communication sont réduits. Lorsqu'on n'effectue pas de traitement de parole au terminal serveur, les coûts des ressources fonctionnelles du terminal serveur sont économisés.
En plus du fait qu'elle assure l'exactitude de reconnaissance de la parole, la structure élimine également de nombreux coûts. L'interface unifiée réduit également les inconvénients résultant de l'ajout ou de la suppression de dispositifs d'application. La présente invention procure donc un plus grand domaine potentiel pour le développement de la technologie vocale. Avec le progrès du développement d'unités centrales de traitement (UC), des unités centrales capables d'effectuer un grand volume de calculs, adaptées pour des appareils portables, sont également développées. Avec ces techniques, des interfaces homme - machine plus commodes et qu'on attend depuis longtemps seront bientôt disponibles.
Bien que la présente invention ait été décrite en termes d'exem-pies de modes de réalisation, elle n'est pas limitée à ceux-ci. A la place, les revendications annexées doivent être interprétées d'une manière large de façon à inclure d'autres variantes et modes de réalisation de l'invention que l'homme de l'art pourra mettre en oeuvre sans sortir du cadre et de la gamme d'équivalents de l'invention.

Claims (40)

REVENDICATIONS
1. Système de traitement de langue réparti, caractérisé en ce qu'il comprend: une interface d'entrée de parole (312, 322), recevant un signal de parole; une interface de reconnaissance de parole (314, 324) effectuant une reconnaissance et générant ensuite un résultat de reconnaissance de parole conformément au signal de parole reçu; une unité de traitement de langue (332,334; 342,344) recevant et analysant le résultat de reconnaissance de parole pour générer un signal sémantique; et une unité de gestion de dialogue (318, 328), recevant et déterminant le signal sémantique, et générant ensuite une information sémantique correspondant au signal de parole.
2. Système de traitement de langue réparti selon la revendication 1, caractérisé en ce que l'interface de reconnaissance de parole (314, 324) comprend une fonction d'adaptation de modèle, de façon qu'un modèle de son reconnaisse le signal de parole par l'intermédiaire de la fonction d'adaptation de modèle.
3. Système de traitement de langue réparti selon la revendication 1, caractérisé en ce qu'il comprend en outre une unité de correspondance (316, 326), entre l'interface de reconnaissance de parole (314, 324) et l'unité de traitement de langue (332,334; 342,344), pour recevoir le résultat de reconnaissance de parole et déterminer une correspondance pour ce dernier conformément à un protocole de signal intermédiaire de sortie, afin de générer et d'émettre vers l'unité de traitement de langue (332,334; 342,344) un signal de correspondance remplissant la fonction du résultat de reconnaissance de parole.
4. Système de traitement de langue réparti selon la revendication 3, caractérisé en ce qu'un procédé d'émission du signal de correspondance vers l'unité de traitement de langue (332,334; 342,344) comprend un procédé de diffusion.
5. Système de traitement de langue réparti selon la revendica-tion 3, caractérisé en ce qu'un procédé d'émission du signal de correspondance vers l'unité de traitement de langue (332,334; 342,344) comprend un procédé de transmission à travers un réseau de communication filaire.
6. Système de traitement de langue réparti selon la revendication 3, caractérisé en ce qu'un procédé d'émission du signal de correspondance vers l'unité de traitement de langue (332,334; 342,344) comprend un procédé de transmission à travers un réseau de communication sans fil.
7. Système de traitement de langue réparti selon la revendication 3, caractérisé en ce que dans le protocole de signal intermédiaire de sortie, le signal de correspondance est constitué d'une pluralité d'unités de mot et d'une pluralité d'unités de sous-mot.
8. Système de traitement de langue réparti selon la revendica-tion 7, caractérisé en ce que l'unité de sous-mot comprend une syllabe chinoise.
9. Système de traitement de langue réparti selon la revendication 8, caractérisé en ce que l'unité de sous-mot comprend un phonème anglais.
10. Système de traitement de langue réparti selon la revendication 8, caractérisé en ce que l'unité de sous-mot comprend une pluralité de phonèmes anglais.
11. Système de traitement de langue réparti selon la revendication 8, caractérisé en ce que l'unité de sous-mot comprend une syllabe anglaise.
12. Système de traitement de langue réparti selon la revendication 3, caractérisé en ce que le signal de correspondance est une séquence composée d'unités de mot et d'unités de sous-mot.
13. Système de traitement de langue réparti selon la revendica-tion 3, caractérisé en ce que le signal de correspondance est un treillis composé d'une pluralité d'unités de mot et d'une pluralité d'unités de sous-mot.
14. Système de traitement de langue réparti selon la revendication 1, caractérisé en ce que si l'information sémantique correspondant au signal de parole générée à partir de l'unité de gestion de dialogue (318, 328) est un ordre vocal, une action correspondant à l'ordre vocal est effectuée.
15. Système de traitement de langue réparti selon la revendication 14, caractérisé en ce que si l'information sémantique correspondant au signal de parole générée à partir de l'unité de gestion de dialogue (318, 328) est l'ordre vocal, il est déterminé si l'ordre vocal est supérieur à un ordre de confiance, et dans l'affirmative l'action correspondant à l'ordre vocal est effectuée.
16. Système de traitement de langue réparti selon la revendica-tion 1, caractérisé en ce que l'unité de traitement de langue comprend une unité de compréhension de langue (334, 344) et une base de données (332, 342), l'unité de compréhension de langue (334, 344) reçoit et en-suite analyse le résultat de reconnaissance de parole, et elle se réfère à la base de données (332, 342) pour obtenir le signal sémantique corres-pondant au résultat de reconnaissance de parole.
17. Système de traitement de langue réparti selon la revendication 1, caractérisé en ce que le système est structuré conformément à une architecture répartie; dans l'architecture répartie, l'interface d'entrée de parole (312, 322), l'interface de reconnaissance de parole (314, 324) et l'unité de gestion de dialogue (318, 328) sont à un terminal d'utilisateur (310, 320); et l'unité de traitement de langue est à un terminal serveur d'application de système (330, 340).
18. Système de traitement de langue réparti selon la revendication 17, caractérisé en ce que chaque terminal serveur d'application de système (330, 340) comprend une unité de traitement de langue (332, 334; 342, 344) qui lui correspond, l'unité de traitement de langue reçoit et analyse le résultat de reconnaissance de parole pour obtenir et émettre le signal sémantique vers l'unité de gestion de dialogue (318, 328) d'un appareil d'interface de traitement d'entrée / dialogue vocal; et une analyse multiple est effectuée conformément au signal sémantique provenant du terminal serveur d'application de système (330, 340).
19. Système de traitement de langue réparti selon la revendication 1, caractérisé en ce que, conformément à une architecture répartie, l'interface d'entrée de parole (312, 322), l'interface de reconnaissance de parole (314, 324) et l'unité de gestion de dialogue (318, 328) sont à un terminal d'utilisateur (310, 320), et l'unité de traitement de langue (332, 334; 342, 344) est à un terminal serveur d'application de système (330, 340).
20. Système de traitement de langue réparti selon la revendica-tion 1, caractérisé en ce que l'interface de reconnaissance de parole (314, 324) améliore l'efficacité de reconnaissance par un apprentissage conformément à des habitudes de dialogue d'un utilisateur.
21. Système de traitement de langue réparti selon la revendication 1, caractérisé en ce que l'interface d'entrée de parole (312, 322) comprend un mécanisme de commande de formule d'accueil, et une for-mule d'accueil de l'interface d'entrée de parole (312, 322) peut être changée par un utilisateur.
22. Système de traitement de langue réparti selon la revendication 2, caractérisé en ce que dans la fonction d'adaptation de modèle, le modèle de son, qui dépend du locuteur et dépend du dispositif, fait référence à un modèle commun, qui est indépendant du locuteur et indépendant du dispositif, en tant que paramètre de modèle initial pour ajuster un paramètre du modèle de son.
23. Système de traitement de langue réparti selon la revendica-tion 2, caractérisé en ce que la fonction d'adaptation de modèle comprend l'utilisation d'un lexique en tant que base pour l'adaptation.
24. Système de traitement de langue réparti selon la revendication 2, caractérisé en ce que la fonction d'adaptation de modèle comprend un Ngramme en tant que base pour l'adaptation.
25. Système de traitement de langue réparti, caractérisé en ce qu'il comprend: une interface d'entrée de parole (312, 322), recevant un signal de parole; une interface de reconnaissance de parole (314, 324) effectuant une reconnaissance et générant ensuite un résultat de reconnaissance de parole, conformément au signal de parole reçu; une pluralité d'unités de traitement de langue (332, 334; 342, 344), recevant et analysant le résultat de reconnaissance de parole pour générer une pluralité de signaux sémantiques; et une unité de gestion de dialogue (318, 328), recevant et déterminant les signaux sémantiques, et générant ensuite une information sémantique correspondant au signal de parole.
26. Système de traitement de langue réparti selon la revendica-tion 25, caractérisé en ce qu'il comprend en outre une unité de correspondance (316, 326), entre l'interface de reconnaissance de parole (314, 324) et l'unité de traitement de langue (332, 334; 342, 344), pour recevoir le signal de reconnaissance de parole et déterminer une correspondance pour celui-ci, conformément à un protocole de signal intermédiaire de sortie, afin de générer et d'émettre vers l'unité de traitement de langue (332, 334; 342, 344) un signal de correspondance remplissant la fonction du résultat de reconnaissance de parole.
27. Système de traitement de langue réparti selon la revendica-tion 25, caractérisé en ce que si l'information sémantique correspondant au signal de parole générée par l'unité de gestion de dialogue (318, 328) est un ordre vocal, une action correspondant à l'ordre vocal est effectuée.
28. Système de traitement de langue réparti selon la revendication 27, caractérisé en ce que si l'information sémantique correspondant au signal de parole générée par l'unité de gestion de dialogue (318, 328) est l'ordre vocal, il est déterminé si l'ordre vocal est supérieur à un ordre de confiance; et dans l'affirmative, l'action correspondant à l'ordre vocal est effectuée.
29. Système de traitement de langue réparti selon la revendica-tion 25, caractérisé en ce que l'unité de traitement de langue (332, 334, 342, 344) comprend une unité de compréhension de langue (334, 344) et une base de données (332, 342), l'unité de compréhension de langue reçoit et ensuite analyse le résultat de reconnaissance de parole, et elle se réfère à la base de données (332, 342) pour obtenir le signal sémantique correspondant au signal de reconnaissance de parole.
30. Système de traitement de langue réparti selon la revendication 25, caractérisé en ce que le système est structuré conformément à une architecture répartie; dans l'architecture répartie, l'interface d'entrée de parole (312, 322), l'interface de reconnaissance de parole (314, 324) et l'unité de gestion de dialogue (318, 328) sont à un terminal d'utilisateur (310); et l'unité de traitement de langue (332, 334, 342, 344) est à un terminal serveur d'application de système (330, 340).
31. Système de traitement de langue réparti selon la revendication 30, caractérisé en ce que chaque terminal serveur d'application de système (330, 340) comprend une unité de traitement de langue (334, 344) qui lui correspond; l'unité de traitement de langue (334, 344) reçoit et analyse le résultat de reconnaissance de parole pour obtenir et émettre le signal sémantique vers l'unité de gestion de dialogue (318, 328) d'un appareil d'interface de traitement d'entrée / dialogue vocal; et une ana- lyse multiple est effectuée conformément au signal sémantique provenant du terminal serveur d'application de système (330, 340).
32. Système de traitement de langue réparti selon la revendication 25, caractérisé en ce que l'interface de reconnaissance de parole (314, 324) améliore le rendement de reconnaissance en effectuant un ap- prentissage conformément à des habitudes de dialogue d'un utilisateur.
33. Système de traitement de langue réparti selon la revendication 25, caractérisé en ce que l'interface d'entrée de parole (312, 322) comprend un mécanisme de commande de formule d'accueil, et une for-mule d'accueil de l'interface d'entrée de parole (312, 322) peut être chan- gée par un utilisateur.
34. Procédé d'émission d'un signal intermédiaire, le procédé utilisant un protocole de signal intermédiaire de sortie et étant adapté à un système de traitement de langue réparti; caractérisé en ce que le système de traitement de langue réparti est structuré avec une architecture répartie; l'architecture répartie comprend un terminal d'utilisateur (310, 320) et un terminal serveur d'application de système (330, 340); le terminal d'utilisateur (310, 320) comprend une interface de reconnaissance de parole (314, 324) et une unité de gestion de dialogue (318, 328); le terminal serveur d'application de système (330, 340) comprend une unité de traitement de langue (334, 344); et le procédé d'émission du signal intermédiaire comprend les étapes consistant à : recevoir et analyser un signal de parole au moyen de l'interface de reconnaissance de parole (314, 324) pour générer un résultat de reconnaissance de parole; transformer le résultat de reconnaissance de parole en un signal formé d'une pluralité d'unités de mot et d'une pluralité d'unités de sous-mot, conformément au protocole de signal intermédiaire de sortie; et émettre le signal vers l'uni-té de traitement de langue (332, 334; 342, 344) pour l'analyse, pour obtenir un signal sémantique; et émettre le signal sémantique vers l'unité de gestion de dialogue (318, 328) pour générer une information sémantique correspondant au signal de parole.
35. Procédé d'émission d'un signal intermédiaire selon la revendication 34, caractérisé en ce que l'unité de sous-mot comprend une syllabe chinoise.
36. Procédé d'émission d'un signal intermédiaire selon la reven-dication 34, caractérisé en ce que l'unité de sous-mot comprend un phonème anglais.
37. Procédé d'émission d'un signal intermédiaire selon la revendication 34, caractérisé en ce que l'unité de sous-mot comprend une pluralité de phonèmes anglais.
38. Procédé d'émission d'un signal intermédiaire selon la revendication 34, caractérisé en ce que l'unité de sous-mot comprend une syllabe anglaise.
39. Procédé d'émission d'un signal intermédiaire selon la revendication 34, caractérisé en ce que le signal de correspondance est une séquence composée des unités de mot et des unités de sous-mot.
40. Procédé d'émission d'un signal intermédiaire selon la revendication 34, caractérisé en ce que le signal de correspondance est un treillis composé des unités de mot et des unités de sous-mot.
FR0601429A 2005-02-18 2006-02-17 Systeme de traitement de langue reparti et procede d'emission de signal intermediaire de ce systeme Withdrawn FR2883095A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW094104792A TWI276046B (en) 2005-02-18 2005-02-18 Distributed language processing system and method of transmitting medium information therefore

Publications (1)

Publication Number Publication Date
FR2883095A1 true FR2883095A1 (fr) 2006-09-15

Family

ID=36141954

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0601429A Withdrawn FR2883095A1 (fr) 2005-02-18 2006-02-17 Systeme de traitement de langue reparti et procede d'emission de signal intermediaire de ce systeme

Country Status (5)

Country Link
US (1) US20060190268A1 (fr)
DE (1) DE102006006069A1 (fr)
FR (1) FR2883095A1 (fr)
GB (1) GB2423403A (fr)
TW (1) TWI276046B (fr)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008067562A2 (fr) * 2006-11-30 2008-06-05 Rao Ashwin P Système de reconnaissance vocale multimode
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
KR20090013876A (ko) * 2007-08-03 2009-02-06 한국전자통신연구원 음소를 이용한 분산형 음성 인식 방법 및 장치
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US8892439B2 (en) * 2009-07-15 2014-11-18 Microsoft Corporation Combination and federation of local and remote speech recognition
US8972263B2 (en) 2011-11-18 2015-03-03 Soundhound, Inc. System and method for performing dual mode speech recognition
US20140039893A1 (en) * 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services
US9190057B2 (en) * 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) * 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US10410635B2 (en) 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
CN109166594A (zh) * 2018-07-24 2019-01-08 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110517674A (zh) * 2019-07-26 2019-11-29 视联动力信息技术股份有限公司 一种语音处理方法、装置及存储介质
US11900921B1 (en) 2020-10-26 2024-02-13 Amazon Technologies, Inc. Multi-device speech processing
CN113096668B (zh) * 2021-04-15 2023-10-27 国网福建省电力有限公司厦门供电公司 一种构建协作语音交互引擎簇的方法及装置
US11721347B1 (en) * 2021-06-29 2023-08-08 Amazon Technologies, Inc. Intermediate data for inter-device speech processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US7366766B2 (en) * 2000-03-24 2008-04-29 Eliza Corporation Web-based speech recognition with scripting and semantic objects
US7249018B2 (en) * 2001-01-12 2007-07-24 International Business Machines Corporation System and method for relating syntax and semantics for a conversational speech application
JP3423296B2 (ja) * 2001-06-18 2003-07-07 沖電気工業株式会社 音声対話インターフェース装置
US7376220B2 (en) * 2002-05-09 2008-05-20 International Business Machines Corporation Automatically updating a voice mail greeting
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags

Also Published As

Publication number Publication date
TWI276046B (en) 2007-03-11
GB0603131D0 (en) 2006-03-29
DE102006006069A1 (de) 2006-12-28
TW200630955A (en) 2006-09-01
GB2423403A (en) 2006-08-23
US20060190268A1 (en) 2006-08-24

Similar Documents

Publication Publication Date Title
FR2883095A1 (fr) Systeme de traitement de langue reparti et procede d'emission de signal intermediaire de ce systeme
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
US9251142B2 (en) Mobile speech-to-speech interpretation system
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
EP1362343B1 (fr) Procede, module, dispositif et serveur de reconnaissance vocale
US7689417B2 (en) Method, system and apparatus for improved voice recognition
US20080133241A1 (en) Phonetic decoding and concatentive speech synthesis
JP2017040919A (ja) 音声認識装置、音声認識方法及び音声認識システム
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
JP5062171B2 (ja) 音声認識システム、音声認識方法および音声認識用プログラム
WO2008084476A2 (fr) Système de reconnaissance de voyelles et procédé dans des applications de traduction de parole en texte
JP7485858B2 (ja) 実世界ノイズを使用した音声個性化および連合訓練
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
US20210034662A1 (en) Systems and methods for managing voice queries using pronunciation information
JP2023053331A (ja) 音声入力処理
JP2023073393A (ja) 音声認識
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质
US11410656B2 (en) Systems and methods for managing voice queries using pronunciation information
KR20220116660A (ko) 인공지능 스피커 기능을 탑재한 텀블러 장치
Munteanu et al. Speech-based interaction
WO2024151498A1 (fr) Sollicitation de la reconnaissance vocale
Delic et al. Speech-Enabled Computers as a Tool for Serbian-Speaking Blind Persons
CA3143967A1 (fr) Systemes et procedes permettant de gerer des requetes vocales a l'aide d'informations de prononciation
Pelemans et al. Dutch automatic speech recognition on the web: Towards a general purpose system

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20081031