FR2963841A1 - Systeme de traduction combinant des modeles hierarchiques et bases sur des phases - Google Patents

Systeme de traduction combinant des modeles hierarchiques et bases sur des phases Download PDF

Info

Publication number
FR2963841A1
FR2963841A1 FR1157314A FR1157314A FR2963841A1 FR 2963841 A1 FR2963841 A1 FR 2963841A1 FR 1157314 A FR1157314 A FR 1157314A FR 1157314 A FR1157314 A FR 1157314A FR 2963841 A1 FR2963841 A1 FR 2963841A1
Authority
FR
France
Prior art keywords
source
target
content
language
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
FR1157314A
Other languages
English (en)
Inventor
Marc Dymetman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of FR2963841A1 publication Critical patent/FR2963841A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

Procédé comprenant : la réception de la génération d'un contenu double incluant un contenu source dans une langue ou un format source et un contenu cible correspondant dans une langue ou un format cible, la langue ou le format cible étant différents de la langue ou du format source, la génération (10) d'un automate à états finis pondérés source représentant le contenu source du contenu double, la génération (12) d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, ainsi que le calcul (20) d'une intersection bilatérale entre (i) l'automate à états finis pondérés source, (ii) une grammaire sans contexte pondérée synchrone comprenant des grammaires synchronisées pour la langue ou le format source et la langue ou le format cible et, (iii) l'automate à états finis pondérés cible afin de générer une grammaire sans contexte pondérée synchrone enrichie.

Description

SYSTÈME DE TRADUCTION COMBINANT DES MODÈLES HIÉRARCHIQUES ET BASÉS SUR DES PHRASES Ce qui suit se rapporte aux techniques de traduction, aux techniques de traduction en langue naturelle, aux techniques de conversion de format et ainsi de suite.
10 Dans des applications de traduction ou de conversion, le contenu d'informations dans une langue source ou dans un format source est converti en langue cible ou en format cible. Par exemple, un contenu dans une langue naturelle source telle que le français peut être traduit en une langue naturelle cible telle que l'anglais Selon un autre exemple, un document dans un format 15 source tel que le langage XML utilisant une définition de type de document (DTD) peut être converti en un format cible tel que le langage XML en utilisant une autre définition DTD. Une approche générale pour la traduction en langue naturelle est l'approche fondée sur des phrases dans laquelle est référencée une base de 20 données de paires langue source - langue cible bilingue. Les approches de traduction fondées sur des phrases sont utiles dans la traduction en langue naturelle du fait que le contenu en langue naturelle tend à s'écarter assez fréquemment des règles standard (c'est-à-dire « la grammaire ») et que de tels écarts sont facilement pris en charge par une base de données de phrases 25 bilingues convenablement compréhensibles. Cependant, les performances d'une traduction fondée sur des phrases dépendent de la complétude de la base de données de paires bilingues, et elles peuvent également dépendre de la longueur du texte des paires bilingues dans la base de données. Faire correspondre des phrases courtes produit de nombreuses 30 correspondances, mais la longueur des textes courts des correspondances réduit généralement la fiabilité de la mise en correspondance. De même, des règles grammaticales peuvent être violées en combinant les phrases courtes pour construire la traduction. À l'extrême opposé, dans une approche par « mémoire de traduction », les paires bilingues présentent des longueurs de texte importantes 35 (s'étendant éventuellement sur de multiples phrases ou même de multiples paragraphes), et il est possible qu'une correspondance exacte (ou même proche) soit correcte. Cependant, le nombre de correspondances est fortement réduit par comparaison avec l'approche par phrases courtes. Une autre approche de traduction est l'approche hiérarchique fondée sur la grammaire, dans laquelle une grammaire comprenant des règles de réécriture est utilisée pour analyser le contenu en langue naturelle. Les structures grammaticales sont agencées hiérarchiquement - par exemple, un nom et un pronom (et peut-être un adjectif ou autre) - sont combinées pour former une locution de noms qui est combinée à son tour avec une locution de verbes (constituée de manière similaire à partir de fractions de paroles telles qu'un verbe et un adverbe) pour former une phrase. La grammaire utilisée pour des applications de traduction est une grammaire synchrone dans laquelle on fait correspondre ou on synchronise des structures grammaticales dans les langues source et cible. Le processus de traduction est alors constitué de l'analyse du contenu en langue source et de l'utilisation des structures grammaticales synchronisées de la langue cible avec un dictionnaire bilingue ou un lexique pour construire la traduction en langue cible. Des approches hiérarchiques fondées sur la grammaire peuvent échouer lorsque le contenu en langue source s'écarte de la grammaire standard, par exemple dans le cas de certaines collocations ou expressions terminologiques.
Ces approches peuvent également échouer à rendre des traductions en langue cible qui utilisent de tels écarts grammaticaux dans la langue cible. Bien qu'elles aient été décrites en termes de traduction en langue naturelle, ces considérations s'appliquent plus généralement à des tâches de traduction ou de conversion dans lesquelles le contenu source, structuré dans un format source, est converti en un format cible (différent) dans lequel le contenu peut s'écarter d'un ajustement précis aux formats. Par exemple, des documents électroniques structurés sont, de manière caractéristique, structurés, par exemple en langage XML conforme à une définition de type de document (DTD). Cependant, le document peut à l'occasion s'écarter de la définition DTD. De tels écarts peuvent être pris en charge de diverses manières, par exemple en appliquant un formatage par défaut pendant le rendu. Ce qui suit présente des procédés et des appareils améliorés.
Conformément à un premier aspect, un procédé comprend : La réception ou la génération d'un contenu double incluant un contenu source dans une langue ou un format source et un contenu 5 10 15 20 cible correspondant dans une langue ou un format cible, la langue ou le format cible étant différents de la langue ou du format source, la génération d'un automate à états finis pondérés source représentant le contenu source du contenu double, la génération d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, et le calcul d'une intersection bilatérale entre (i) l'automate à états finis pondérés source, (ii) une grammaire sans contexte pondérée synchrone comprenant des grammaires synchronisées pour la langue ou le format source et pour la langue ou le format cible, et (iii) l'automate à états finis pondérés cible afin de générer une grammaire sans contexte pondérée synchrone enrichie, dans lequel la génération des automates à états finis pondérés source et cible et le calcul de l'intersection bilatérale sont effectués par un processeur numérique.
Dans un autre mode de réalisation d'illustration : le contenu double inclut un contenu en langue naturelle source, dans une première langue naturelle, et un contenu correspondant en langue naturelle cible, dans une seconde langue naturelle différente de la première langue naturelle, et la grammaire sans contexte pondérée synchrone comprend des grammaires synchronisées pour la langue naturelle source et la langue naturelle cible. 25 30 Dans un autre mode de réalisation d'illustration : le contenu en langue naturelle cible comprend une pluralité de traductions candidates en langue naturelle cible du contenu en langue naturelle source, et l'automate à états finis pondérés cible représente une pluralité de traductions candidates en langue naturelle cible comme étant des voies de l'automate à états finis pondérés comportant des poids sur les voies qui indiquent la probabilité de traduction en langue naturelle cible. 35 Dans un autre mode de réalisation d'illustration, la réception ou la génération du contenu double comprend la génération du contenu en langue naturelle cible en appliquant un modèle de traduction fondé sur des phrases au contenu en langue naturelle source, le modèle de traduction fondé sur des phrases faisant référence à une base de données de phrases doubles comprenant chacune une phrase dans la langue naturelle source et sa traduction dans la langue naturelle cible.
Dans un autre mode de réalisation d'illustration, l'automate à états finis pondérés cible comprend un automate - a comportant des bords comprenant : des jetons du contenu en langue naturelle cible générés en appliquant le modèle de traduction fondé sur des phrases au contenu en langue naturelle source, et des jetons de l'ensemble des parties d'un ensemble de jetons du contenu en langue source.
Dans un autre mode de réalisation d'illustration, le calcul comprend le calcul de l'intersection bilatérale en utilisant un processus ascendant 20 comprenant l'initialisation de l'intersection bilatérale comme un ensemble vide de règles grammaticales, et l'ajout de règles grammaticales à l'intersection bilatérale, lesquelles satisfont à l'automate à états finis pondérés source, à la grammaire sans contexte pondérée synchrone et à l'automate à états finis pondérés cible, et qui de plus produisent des règles grammaticales pouvant produire un contenu double incluant des éléments terminaux à la fois en langue ou en format source et en langue ou en format cible.
Conformément à un autre aspect, un appareil comprend : un processeur numérique configuré pour exécuter un procédé fonctionnant sur un contenu double incluant un contenu source dans une langue ou un format source et un contenu cible correspondant dans une langue ou un format cible différents de la langue ou du format source, le procédé incluant : 25 30 35 la génération d'un automate à états finis pondérés source représentant le contenu source du contenu double, la génération d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, et la génération d'une grammaire sans contexte pondérée synchrone enrichie en calculant une intersection bilatérale entre (i) l'automate à états finis pondérés source, (ii) une grammaire sans contexte pondérée synchrone comprenant des grammaires synchronisées pour la langue ou le format source et pour la langue ou le format cible, et (iii) un automate à états finis pondérés cible. 15 Dans un autre mode de réalisation d'illustration, le contenu double inclut un contenu en langue naturelle source, dans une première langue naturelle, et un contenu correspondant en langue naturelle cible, dans une seconde langue naturelle différente de la première langue naturelle, la grammaire sans contexte 20 pondérée synchrone comprend des grammaires synchronisées pour la langue naturelle source et la langue naturelle cible, et le procédé exécuté par le processeur numérique comprend en outre : la génération du contenu en langue naturelle cible en appliquant un modèle de traduction fondé sur des phrases au contenu en langue naturelle source, le modèle de traduction fondé sur des phrases faisant référence à une base de données de phrases doubles comprenant chacune une phrase dans la langue naturelle source et sa traduction dans la langue naturelle cible, dans lequel la génération de l'automate à états finis pondérés cible inclut la représentation d'une pluralité de traductions candidates en langue naturelle cible comme étant des voies de l'automate à états finis pondérés comportant des poids sur les voies qui indiquent la probabilité de traduction en langue naturelle cible. 10 25 30 35 Dans un autre mode de réalisation d'illustration : le calcul de l'intersection bilatérale n'inclut pas le calcul d'une intersection unilatérale entre l'automate à états finis pondérés source et la grammaire sans contexte pondérée synchrone, et le calcul de l'intersection bilatérale n'inclut pas le calcul d'une intersection unilatérale entre la grammaire sans contexte pondérée synchrone et l'automate à états finis pondérés cible.
Conformément à encore un autre aspect, un support de stockage mémorise des instructions pouvant être exécutées par un processeur numérique afin d'exécuter un procédé fonctionnant sur un contenu double incluant un contenu source dans une langue ou un format source et un contenu cible correspondant dans une langue ou un format cible différents de la langue ou du format source. Le procédé inclut : la génération d'un automate à états finis pondérés source représentant le contenu source du contenu double, la génération d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, ainsi que l'enrichissement d'une grammaire sans contexte pondérée synchrone comprenant des grammaires synchronisées pour la langue ou le format source et pour la langue ou le format cible, en calculant une intersection bilatérale entre l'automate à états finis pondérés source, la grammaire sans contexte pondérée synchrone et l'automate à états finis pondérés cible.
D'autres modes de réalisation d'illustration se rapportent également aux procédés décrits ci-dessus. Dans un mode de réalisation d'illustration, le procédé comprend en outre : l'exécution d'une traduction hiérarchique du contenu en langue source en utilisant la grammaire sans contexte pondérée synchrone enrichie, l'exécution de la traduction hiérarchique étant également effectuée par le processeur numérique.
Dans un autre mode de réalisation d'illustration, l'automate à états finis pondérés cible comprend un automate - 6 comportant des bords contenant : des jetons du contenu en langue naturelle cible, et des jetons de l'ensemble des parties d'un ensemble de jetons du contenu en langue source.
Dans un autre mode de réalisation d'illustration, le calcul comprend : l'omission, depuis l'intersection bilatérale, de tout terme associant des premiers et seconds jetons du contenu en langue naturelle source à des premiers et seconds jetons dans l'automate à états finis pondérés cible pour lequel une différence symétrique entre l'automate à états finis pondérés cible et l'ensemble de jetons entre les premiers et seconds jetons dans le contenu en langue naturelle source présente une cardinalité supérieure à une valeur de seuil sélectionnée. 10 Dans un autre mode de réalisation d'illustration, le procédé comprend : l'exécution d'une traduction hiérarchique du contenu en langage source en utilisant la grammaire sans contexte pondérée synchrone enrichie afin de générer au moins une traduction qui est proposée pour le contenu en langue source, et 15 l'affichage de la ou des traductions pour le contenu en langage source.
Dans un autre mode de réalisation d'illustration : le calcul n'inclut pas le calcul d'une intersection unilatérale entre l'automate à états finis pondérés source et la grammaire sans contexte pondérée synchrone, 20 et le calcul n'inclut pas le calcul d'une intersection unilatérale entre la grammaire sans contexte pondérée synchrone et l'automate à états finis pondérés cible.
25 D'autres modes de réalisation d'illustration se rapportent également à l'appareil décrit ci-dessus.
Dans un mode de réalisation d'illustration de l'appareil la génération de l'automate à états finis pondérés cible comprend : 30 la génération de l'automate à états finis pondérés cible comme un automate - a comportant des bords contenant : des jetons du contenu en langue naturelle cible générés en appliquant le modèle de traduction fondé sur des phrases au contenu en langue naturelle source, et 35 des jetons de l'ensemble des parties d'un ensemble de jetons du contenu en langue source.
Dans un autre mode de réalisation d'illustration, l'appareil comprend un appareil de traduction en langue naturelle, et le procédé exécuté par le processeur numérique comprend l'exécution d'une traduction hiérarchique du contenu en langue source en utilisant la grammaire sans contexte pondérée synchrone enrichie.
Dans un autre mode de réalisation d'illustration de l'appareil, le calcul de l'intersection bilatérale comprend : 10 l'omission, depuis l'intersection bilatérale, de tout terme associant des premiers et seconds jetons du contenu en langue naturelle source à des premiers et seconds jetons dans l'automate à états finis pondérés cible pour lequel une différence symétrique entre l'automate à états finis pondérés cible et l'ensemble de jetons entre les premiers et seconds jetons dans le contenu en langue 15 naturelle source présente une cardinalité supérieure à une valeur de seuil sélectionnée.
D'autres modes de réalisation d'illustration font également référence au support de stockage décrit ci-dessus. 20 Dans un autre mode de réalisation du support de stockage, les instructions sont exécutables par un processeur numérique afin d'exécuter un procédé fonctionnant sur un contenu double incluant un contenu source dans une langue naturelle source et un contenu cible correspondant dans une langue naturelle 25 cible différente de la langue naturelle source, le procédé incluant la génération d'un automate à états finis pondérés source représentant le contenu source du contenu double, la génération d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, ainsi que l'enrichissement d'une grammaire sans contexte pondérée synchrone comprenant des grammaires 30 synchronisées pour la langue naturelle source et la langue naturelle cible en calculant une intersection bilatérale entre l'automate à états finis pondérés source, la grammaire sans contexte pondérée synchrone et l'automate à états finis pondérés cible.
35 Dans un autre mode de réalisation d'illustration du support de stockage, les instructions sont en outre exécutables par le processeur numérique afin de générer le contenu en langue naturelle cible en appliquant un modèle de traduction fondé sur des phrases au contenu en langue naturelle source, le modèle de traduction fondé sur des phrases faisant référence à une base de données de phrases doubles comprenant chacune une phrase dans la langue naturelle source et sa traduction dans la langue naturelle cible.
Dans un autre mode de réalisation d'illustration du support de stockage, les instructions sont exécutables par le processeur numérique afin de générer l'automate à états finis pondérés cible comprenant un automate - a comportant 10 des bords contenant à la fois des jetons du contenu en langue naturelle cible générés en appliquant le modèle de traduction fondé sur des phrases au contenu en langue naturelle source, et des jetons de l'ensemble des parties d'un ensemble de jetons du contenu en langue source.
15 La figure 1 représente schématiquement un système d'illustration permettant d'enrichir une grammaire fondée sur un contenu double possédant des contenus source et cible représentés comme des automates à états finis. La figure 2 représente schématiquement un système de traduction d'illustration utilisant le système d'enrichissement grammatical de la figure 1. 20 La figure 3 représente schématiquement une partie d'un automate - 6 SA représentant des informations de traduction fondées sur des phrases dans un exemple d'illustration La figure 4 représente schématiquement un automate à états finis pondérés Ar associé à l'automate - 6 SA de la figure 3, dans lequel les jetons 25 source sont ignorés mais où les mêmes poids sont conservés. La figure 5 représente schématiquement un automate « dégénéré » {x} représentant une phrase en langue française x examinée dans le texte, comportant des poids égaux à 1 sur toutes les transitions. La figure 6 représente schématiquement une approche « ascendante » 30 permettant d'activer les points non terminaux.
Des approches sont décrites ici dans le but de retenir les avantages substantiels d'une approche de traduction ou de conversion hiérarchiques fondées sur une grammaire tout en fournissant en plus les avantages substantiels 35 d'une approche de traduction ou de conversion fondée sur des phrases ou sur toute autre « contenu double ». Les approches décrites enrichissent la grammaire avec les informations fondées sur des phrases ou tout autre contenu double en constituant une grammaire synchrone enrichie comme étant une intersection bilatérale entre : (1) un automate à états finis pondérés représentant le côté source du contenu double (par exemple une ou des phrases en langue source d'un contenu de phrases bilingues), (2) la grammaire synchrone et, (3) un automate à états finis pondérés représentant le côté cible du contenu double (par exemple une ou des phrases en langue cible d'un contenu de phrases bilingues). Du fait que la grammaire synchrone enrichie est une intersection bilatérale de ces trois éléments constitutifs, il s'ensuit que l'exécution d'une traduction ou d'une conversion hiérarchiques fondées sur une grammaire, utilisant une grammaire synchrone enrichie, garantit automatiquement une conformité (au moins dans un sens probabiliste ou statistique tel qu'il est défini par les poids des éléments constitutifs) avec chacun des trois composants constitutifs de la grammaire enrichie. Des techniques sont également décrites ici grâces auxquelles l'intersection bilatérale est simultanément calculée. Ceci favorise l'efficacité de calcul du fait que l'intersection bilatérale simultanée entre les trois éléments constitutifs est de manière caractéristique plus petite que l'intersection unilatérale entre la grammaire, comportant l'automate source suivi par l'intersection de la grammaire synchrone résultante, et l'automate cible. En utilisant des techniques ascendantes pour le calcul d'une intersection bilatérale, tel qu'il est également décrit, qui débutent depuis les éléments terminaux et se poursuivent « vers le haut » dans la hiérarchie, le rendement est encore amélioré du fait que des points non terminaux qui ne sont pas productifs (c'est-à-dire qu'ils ne produisent aucune paire fiable source - cible) peuvent être identifiés et omis. Dans un exemple d'illustration d'une traduction en langue naturelle, il est décrit qu'un contenu double déduit en entrant un contenu en langue source dans un modèle de traduction fondé sur des phrases peut être représenté comme un automate à états finis pondérés d'un type spécial, appelé ici un automate sigma ou automate - G. Le contenu en langue source (représenté par un automate standard), la grammaire synchrone et l'automate - a peuvent être combinés en utilisant l'approche fondée sur l'intersection bilatérale telle quel est décrite ici afin de générer une grammaire synchrone enrichie qui est améliorée avec le contenu double généré par le modèle de traduction fondé sur des phrases. La grammaire synchrone enrichie peut alors être appliquée au contenu en langue source afin de générer une traduction dans la langue cible, laquelle est fondée sur la grammaire (originelle) enrichie par les informations du modèle fondé sur des phrases. De manière avantageuse, cette intégration d'une traduction fondée sur des phrases et hiérarchique est obtenue sans modifier le traitement complexe de traduction hiérarchique fondé sur une grammaire, à l'exception de ce que le traitement de traduction hiérarchique utilise la grammaire synchrone enrichie. En faisant référence à la figure 1, un système d'illustration est décrit, lequel permet d'enrichir une grammaire fondée sur un contenu double possédant des contenus source et cible représentés comme des automates à états finis. Les entrées vers le système incluent : un automate à états finis pondérés (WFSA) appelé AS 10 représentant le côté source du contenu double, par exemple une ou plusieurs phrases en langue source, ainsi qu'un automate à états finis pondérés (WFSA) appelé A, 12 représentant le côté cible du contenu double, par exemple une ou plusieurs phrases en langue cible qui peuvent être des traductions des phrases en langue source de l'automate WFSA 10. Les poids des deux automates AS ,A, 10, 12 définissent des possibilités ou des probabilités des traductions possibles. Une troisième entrée vers le système est une grammaire sans contexte pondérée synchrone (WSCFG) appelée G 14. Une grammaire sans contexte (CFG) est également connue comme étant une grammaire à structure de phrases, et elle comprend des règles de production ou de réécriture de la forme V -~ w où V est un élément ou un symbole non terminal, et où w est une série ou une séquence (éventuellement vide) d'éléments ou de symboles terminaux et/ou non terminaux. La grammaire CFG G 14 est une grammaire synchrone spécifiant une correspondance entre des éléments grammaticaux des langues source et cible (ou, plus généralement, entre des éléments grammaticaux de contenus source et cible). La grammaire CFG synchrone G 14 est une grammaire pondérée, ce qui signifie que chaque règle de production ou de réécriture possède un poids associé et qu'une analyse donnée présente une probabilité qui est calculée sur la base des poids des règles constitutives. Un module d'enrichissement grammatical synchrone 20 calcule l'intersection bilatérale entre les entrées 10, 14, 12 afin de générer une grammaire sans contexte pondérée synchrone enrichie (WSCFG) G' 22. Cette grammaire synchrone enrichie peut être utilisée chaque fois qu'une grammaire synchrone est utile. Sur la figure 1 d'illustration, un module de traduction ou de conversion hiérarchique 24 traduit ou convertit un contenu source 30 en utilisant un algorithme de traduction ou de conversion hiérarchiques fondé sur une grammaire en utilisant la grammaire WSCFG enrichie G' 22 afin de générer une traduction ou une conversion probabiliste 32 qui satisfait simultanément (dans un sens probabiliste ou statistique) : à l'automate WFSA 10 représentant le côté source du contenu double, l'automate WFSA 12 représentant le côté cible du contenu double et la grammaire WSCFG G. Les automates pondérés 10, 12 peuvent représenter une unité unique d'informations source (ou cible) telles qu'une phrase unique en langue source (ou cible). Dans ce cas, les poids des arcs de l'automate sont, de manière caractéristique, réglés sur l'unité. En variante, un seul ou les deux automates 10, 12 peuvent représenter un ensemble d'unités d'informations, tel qu'un ensemble de phrases source (ou cible) possibles. Dans ce cas, les poids des arcs de l'automate représentent des probabilités ou des possibilités (non nécessairement normalisées) des diverses traductions générées par les diverses voies au travers des automates. À titre d'autre exemple illustratif, l'automate WFSA source AS 10 représentant le côté source du contenu double peut représenter un document à sortie unique en format source qui doit être converti en format cible, alors que l'automate WFSA cible At 12, représentant le côté cible du contenu double, peut représenter une pluralité de documents de sortie possibles en format cible, chaque document de sortie possible étant généré par une voie au travers de l'automate WFSA cible A, 12 présentant une probabilité calculée à partir des poids des arcs traversés le long de la voie.
En faisant référence à la figure 2, est décrit un système d'illustration permettant d'enrichir une grammaire sur la base d'un contenu double. Le système de traduction reçoit le contenu en langue source 40 à traduire. Dans ce cas, l'automate WFSA AS 10 représentant le côté source du contenu double est une représentation par automate WFSA du contenu en langue source 40, générée convenablement par un module générateur d'automate à états finis pondérés 42. Pour l'application de traduction, l'automate WFSA source AS 10 représente convenablement une phrase unique en langue source à traduire. Du fait que cet automate 10 possède une sortie unique (le contenu 40), les poids ne sont pas significatifs et peuvent être convenablement sélectionnés pour être tous égaux à 1. L'automate WFSA cible 4 12 de la figure 1 est remplacé dans le mode de réalisation du système de traduction de la figure 2 par un automate à états finis pondérés sigma cible ( WFSA - a 4) 12s représentant le côté cible du contenu double généré par un module de modèle de traduction fondé sur des phrases 44 qui compare des parties du contenu en langue source 40 à des phrases en langue source mémorisées dans un tableau de phrases doubles 46. Lorsqu'une correspondance est trouvée, la phrase en langue cible correspondante est ajoutée au contenu en langue cible du contenu double. Un module automate WFSA sigma 50 génère l'automate sigma sur la base de la sortie du module de modèle de traduction fondé sur des phrases 44 et l'automate sigma sert d'automate WFSA - a 4 12s représentant le côté cible du contenu double. Le module d'enrichissement grammatical synchrone 20 calcule l'intersection bilatérale de : (i) l'automate WFSA source AS 10 généré à partir du contenu en langue source 40 par le module générateur d'automate WFSA 42, la grammaire WSCFG 14 et, (iii) l'automate WFSA - a 4 12s généré par le module générateur d'automate sigma 50 à partir de la sortie du module de traduction fondé sur des phrases 44.
La sortie du module d'enrichissement grammatical synchrone 20 représente la grammaire sans contexte pondérée synchrone enrichie (EWSCFG) 22. Dans le mode de réalisation du système de traduction de la figure 2, la grammaire E-WSCFG 22 est enrichie avec le contenu double de traduction fondé sur des phrases fourni par le module de traduction fondé sur des phrases 44 pour le contenu en langue source 40. En conséquence, lorsque le contenu en langue source 40 est appliqué en entrée à un moteur de traduction hiérarchique 54 utilisant la grammaire E-WSCFG 22, la sortie représente une traduction probabiliste 56 qui satisfait simultanément : (i) au contenu en langue source 40, (ii) à la grammaire WSCFG 14 et, (iii) au modèle de traduction fondé sur des phrases utilisé par le module 44. La satisfaction aux éléments (ii) et (iii) est, dans un sens probabiliste ou statistique, fondée sur les poids de la grammaire CFG synchrone pondérée 14 et des probabilités des traductions fondées sur des phrases indiquées par les poids de l'automate - a représentant la sortie du module du modèle de traduction fondé sur des phrases 44.
L'approche de traduction de la figure 2 combine avec avantage des approches de traduction hiérarchique et fondée sur des phrases. Alors que des systèmes fondés sur des phrases permettent une reproduction directe de correspondances entre des séquences lexicales de surface, mais au prix d'une prise en charge simpliste de ré-ordonnancement, des systèmes hiérarchiques peuvent mieux contraindre le ré-ordonnancement, en particulier pour des paires linguistiques distantes, mais ils tendent à produire des règles plus incomplètes et sont souvent en retard sur des systèmes fondés sur des phrases pour des paires linguistiques moins distantes. Le système de la figure 2 capitalise avec avantage sur les avantages complémentaires des deux approches. Pour le contenu en langue source 40 (par exemple une phrase source fixe x ), un automate est construit par le module générateur d'automate sigma 50 qui représente toutes les phrases cible (pondérées) qui peuvent être produites en appliquant le modèle fondé sur des phrases 44 sur x . L'automate sigma résultant (c'est-à-dire l'automate - a ou l'automate WFSA - a) 12s n'est pas standard dans le sens où chaque transition contient un ensemble de jetons de phrases source et en ce que les seules voies valides sont celles qui ne traversent pas deux ensembles contenant le même jeton (en d'autres termes, des voies valides ne peuvent pas « consommer » deux fois le même jeton source). De manière avantageuse, faire couper simultanément une grammaire synchrone avec la phrase source x et un automate cible (standard) a pour résultat une autre grammaire synchrone. Dans le mode de réalisation en variante de la figure 2, l'automate - a 12s généré par le module 50 est appliqué convenablement en entrée au module d'enrichissement grammatical 20 en même temps que la grammaire sans contexte pondérée synchrone (grammaire WSCFG) 14 afin de générer la grammaire sans contexte pondérée synchrone enrichie (grammaire E-WSCFG) 22 qui incorpore une combinaison des méthodologies de traduction fondées sur une grammaire et sur des phrases. Le module d'enrichissement 20 est modifié pour répondre aux besoins de l'automate - a 12s comme décrit ici.
La grammaire sans contexte pondérée synchrone 22 représente la « forêt d'analyse » (ou « l'hypergraphe ») de toutes les dérivations pondérées (c'est-à-dire de toutes les traductions) qui peuvent être construites sur la phrase source x mais où les poids incorporent la connaissance du composant fondé sur des phrases. La grammaire enrichie 22 peut de ce fait former la base de divers algorithmes de programmation ou d'échantillonnage dynamique. De plus, il est décrit ici que, alors que la grammaire ayant subi une intersection pourrait contenir en principe un nombre exponentiel de points non terminaux, résultant en une explosion de combinaisons, en pratique il n'est pas attendu qu'une telle explosion de combinaisons apparaisse. Des conditions formelles sont également décrites ici, sous lesquelles une telle explosion de combinaisons est rejetée. Le module d'enrichissement grammatical 20 d'illustration et le module d'application 24 (ou moteur de traduction 54) utilisant la grammaire synchrone enrichie, tout comme le module de modèle de traduction fondé sur des phrases 44 et les modules générateurs d'automates 42, 50, sont convenablement incorporés dans un processeur numérique ou dans un composant de traitement numérique tel qu'un ordinateur 60 illustratif ou dans tout autre processeur numérique ou dispositif de traitement numérique tel qu'un assistant numérique personnel (PDA) ou un téléphone intelligent (« Smartphone »), un serveur de réseau mettant en oeuvre un système d'archivage de documents, un dispositif portatif de traduction spécialisé, et ainsi de suite. Les entrées, par exemple le contenu en langue source 40 ou plus généralement les automates à états finis pondérés source et cible 10, 12 (ou 12s dans le cas du mode de réalisation de la figure 2) sont générés convenablement par un programme d'application telle qu'une application de traduction s'exécutant sur l'ordinateur 60. Dans certains modes de réalisation, un utilisateur humain sélectionne le contenu en langue source 40, ou une autre entrée 10, 12 à traiter, en utilisant un clavier 62, une souris (non représentée) ou tout autre dispositif d'entrée utilisateur. Dans d'autres modes de réalisation, l'entrée à traiter est générée automatiquement par un programme d'application. Dans certains modes de réalisation, un utilisateur humain visualise la traduction probabiliste 56 sur un dispositif d'affichage 64. Par exemple, la traduction présentant la probabilité la plus élevée peut être affichée ou encore les N traductions de probabilités les plus élevées peuvent être affichées pour une sélection utilisateur de la « meilleure » traduction par l'intermédiaire du dispositif d'entrée utilisateur 62, et ainsi de suite. Plus généralement, la sortie 32 peut être affichée ou les N sorties les plus probables peuvent être affichées pour être considérées ou sélectionnées par l'utilisateur. Dans d'autres modes de réalisation, la sortie 32, 56 sert d'entrée à un programme d'application qui utilise la sortie 32, 56 dans quelque autre traitement automatisé. De plus, on se rendra compte que le module d'enrichissement grammatical 20 d'illustration et le module d'application 24 (ou moteur de traduction 54) utilisant la grammaire synchrone enrichie, tout comme le module de modèle de traduction fondé sur des phrases 44 et les modules générateurs d'automates 42, 50, sont incorporés convenablement dans un support de stockage mémorisant des instructions pouvant être exécutées dans un processeur numérique ou dans un dispositif de traitement numérique afin d'exécuter la fonctionnalité des modules ou des moteurs 20, 24, 42, 44, 50, 54. Le support de stockage peut, par exemple, être une unité de disque dur ou tout autre support de stockage magnétique et/ou un disque optique ou tout autre support de stockage optique et/ou une mémoire à accès direct (RAM), une mémoire à lecture seule (ROM), une mémoire flash ou tout autre support de stockage électronique, des combinaisons diverses de ceux-ci, et ainsi de suite. En faisant référence à la figure 1, un système d'illustration a été décrit, lequel permet d'enrichir une grammaire synchrone fondée sur un contenu double possédant des contenus source et cible représentés comme des automates à états finis. En faisant référence à la figure 2, il est décrit un système de traduction d'illustration utilisant le système d'enrichissement grammatical de la figure 1. Dans ce qui suit, des aspects supplémentaires sont décrits, y compris l'adaptation du système d'enrichissement grammatical 20 pour incorporer une intersection bilatérale incluant l'automate sigma 12s cible. Dans ce qui suit, sont décrits certains exemples illustratifs du calcul de l'intersection bilatérale effectué par le module d'enrichissement grammatical synchrone 20, tout comme certains des exemples illustratifs de la génération d'automate - a exécutée par le module 50, ainsi que l'utilisation de l'automate dans des modes de réalisation du calcul de l'intersection bilatérale. Dans ces exemples d'illustration, les éléments et notations suivants sont utilisés. La grammaire sans contexte pondérée synchrone (WSCFG) 14 est appelée G, et elle comprend des grammaires synchronisées, Gs , Gr pour le langage ou le format source (grammaire G5) et pour le langage ou le format cible (grammaire Gr). La grammaire de langage source G, varie sur un vocabulaire source VS, alors que la grammaire de langage cible G, varie sur un vocabulaire cible V.
Dans les exemples d'illustration, les grammaires G5, Gt sont respectivement des grammaires pour des langues naturelles source et cible, et les éléments terminaux correspondent à des mots (ou, plus généralement, à des éléments). Des éléments non terminaux des grammaires G5, G, correspondent à des éléments grammaticaux tels que des locutions ou des phrases, et chaque grammaire comprend des règles grammaticales (quelquefois appelées des règles de réécriture) qui peuvent être utilisées pour analyser le contenu en langue naturelle. Bien que le traitement en langue naturelle soit le mode de réalisation d'illustration, plus généralement une grammaire comprenant des règles de réécriture peut être utilisée pour analyser divers autres types de structures. Par exemple, un document peut être structuré conformément à une grammaire comportant des éléments terminaux correspondant à des paragraphes ou à d'autres éléments du document, ainsi que des éléments non terminaux pouvant être combinés conformément aux règles grammaticales pour définir un document convenablement structuré conforme à la grammaire. Une grammaire synchrone comportant des grammaires source et cible synchronisées peut ainsi être utilisée pour convertir un document structuré dans le format source en un document correspondant dans le format cible.
Dans les exemples d'illustration, un contenu double inclut un contenu source en langue naturelle source et un contenu cible correspondant (la traduction) en langue naturelle cible. Voici des exemples d'illustration : plus généralement, le contenu double inclut un contenu source dans une langue ou un format source et un contenu cible correspondant dans une langue ou un format cible. Le contenu source est représenté par un automate à états finis pondérés source (W-FSA ou WFSA) 10 appelé AS, qui varie sur le vocabulaire source VS et possède un état initial s# et un état final ss . Le contenu cible est représenté par un automate WFSA 12 appelé A,, qui varie sur le vocabulaire source V, et possède un état initial t# et un état final t$ .
La grammaire G définit un langage synchrone pondéré LG sur les vocabulaires (VS, V,). L'automate AS définit un langage pondéré LS sur le vocabulaire VS, et l'automate A, définit un langage pondéré L, sur le vocabulaire V,. Le langage d'intersection L' entre ces trois langages LS, LG, L, est défini comme étant le langage synchrone appelé L'= LS n LG n L, sur les vocabulaires (VS, V,) de telle sorte que, pour toute paire (x, y) d'une phrase source et d'une phrase cible, le poids L' (x, y) est défini par L'(x, y) = LS (x) - LG (x, y) - L, (y) où Ls (x) , LG(x, y) et L,(y) sont les poids associés à chacune des langues constitutives. Il est décrit ici qu'il existe une grammaire synchrone G' générant la langue L'. Dans certains modes de réalisation, l'intersection G'=As rnl G [nl At est calculée simultanément plutôt que comme une séquence consistant à réaliser l'intersection de A, avec G, puis de la grammaire résultante avec A,. Dans ces modes de réalisation, le calcul de l'intersection bilatérale G'= AS n G n A, n'inclut pas le calcul d'une intersection unilatérale entre l'automate à états finis pondérés source AS et la grammaire sans contexte pondérée synchrone G, et il n'inclut pas le calcul d'une intersection unilatérale entre la grammaire sans contexte pondérée synchrone G et l'automate à états finis pondérés A,. L'intersection G'= AS rn1 G R A, traite des automates pondérés AS , At et la grammaire sans contexte pondérée G. La construction de G' est décrite ici en faisant référence à l'exemple illustratif qui suit. Considérons une grammaire W-SCFG G destinée à effectuer une traduction entre le français et l'anglais avec un point non terminal initial S , et contenant entre autres la règle suivante : N-Amanque àB/Bmisses A:9 (1) où les côtés droits sources et cibles sont séparés par un symbole barre oblique et où 0 est un poids réel non négatif (interprété de manière multiplicative) associé à la règle. Dans ce contexte considérons le « principe de règle » suivant : to Nt3 t2At3 S1 manque 2 2à~ t0 Bs1 / s° Bs1 t1 CT1iSSeSt2 So S4 so si `7 S S 3 S4 3 4 (2). Ce principe consiste en une version « indexée » de la règle originelle ou 25 les indices du bas si correspondent à des états de AS (« des états source ») et où les indices du haut ti correspondent à des états de At (« des états cible »). Les points non terminaux sont associés à deux indices source et deux indices cible et, pour le même point non terminal, ces quatre indices correspondent pour tous les côtés droits source et cible de la règle. Comme pour les points terminaux 30 originels, ils sont remplacés par des « points terminaux indexés » où les points terminaux source (respectivement cible) possèdent deux indices source t2 At3 So S1 (respectivement cible). Les indices source apparaissent séquentiellement sur le côté droit source de la règle, dans la séquence so , s1 , s1 , s2 , s2 , , sm , le point non terminal sur le côté gauche recevant les indices source so et sm et, de manière similaire, les indices cible apparaissent séquentiellement sur le côté droit cible de la règle dans la séquence to , t1 , t2 , t2 ,..., t,,_1 , t,,, le point non terminal sur le côté gauche recevant les indices cible to et t' . Dans un but de clarification, l'opération consistant à associer des indices à des points terminaux et non terminaux peut être décomposée en trois étapes : SO NS4 - S0 AS1 S1 manqueS2 S2 as3 S3 BS4 / B misses A t° Nt3 A manque à B / t0 Bt1 tlmissest2 t2At3 S0 NS4 t2 Al S1 manqueS2 S2 as3 s3 BS14 / sg BS1 t1 4 ÎnISSest2 (2a), où les deux premières étapes correspondent à la prise en charge séparée des indices source et cible et où la troisième étape assemble ensuite les indices afin d'obtenir les mêmes quatre indices sur les deux copies de chaque point non terminal du côté droit. Le principe de règle de l'équation (2) génère une famille de règles dont chacune correspond respectivement à une instanciation arbitraire des indices source et cible sur des états des automates source et cible. Grâce à une telle instanciation de règle, un poids 9 est associé, lequel est défini comme étant : 9'9- [J 9A (s;,s-term,s;+,)- H eA (t;,t-term,t1+,) ', s-terni,,;+t t-terni''"l où le premier produit s'intéresse aux points terminaux source indexés 9,s-terms,+,, le second produit s'intéresse aux points terminaux cible indexés r't-terra`'' ; où 9A (si, s-term, si+1) est le poids de la transition (s,,s-term,s;+l) en fonction de As, et de même pour 9, (tp t-term, ti+,). Dans ces produits, il peut se produire que 9A (si, s-term, s;+,) soit vide (de même pour Ar) et, dans un tel cas, l'instanciation de règle correspondante est considérée comme n'étant pas réalisée. À présent considérons l'ensemble multiple de toutes les instanciations de règles pondérées pour l'équation (1) calculé de cette manière et, pour chaque règle dans le recueil, « oublions » les indices associés aux points terminaux. De cette manière, on obtient un recueil de règles synchrones t2 A t3 so S1 pondérées sur les vocabulaires VS et V,, mais dans lequel chaque point non terminal est à présent indexé par quatre états. En appliquant cette procédure à la totalité des règles de la grammaire G, on obtient une nouvelle grammaire sans contexte pondérée synchrone G' avec un symbole de début s# S`$ pour lequel LG, 5 estégalà L'=LS fnlLGnLt. Ainsi la grammaire G' représente l'intersection bilatérale Cependant, la plupart des points non terminaux ne sont pas productifs c'est-à-dire qu'ils ne peuvent jamais produire une phrase double. Si une règle fait référence à un point non terminal improductif de ce type, elle peut être éliminée de la grammaire. Ceci 10 est analogue pour une grammaire sans contexte synchrone (SCFG) de l'opération de réduction pour des grammaires CFG. De manière conceptuelle, on pourrait débuter à partir de G' et effectuer la réduction en supprimant les nombreuses règles contenant des points non terminaux improductifs. Cependant, il est équivalent et plus efficace de réaliser l'inverse, à savoir ajouter de manière 15 incrémentale les points non terminaux et les règles productifs de G', en débutant à partir d'un ensemble initialement vide de règles et en effectuant un début ascendant à partir des points terminaux. Un tel traitement ascendant est analogue à une analyse de graphiques, mais ici la construction est décomposée, premièrement en construisant une grammaire de préservation de la sémantique 20 puis en la réduisant. Le mode de réalisation en variante de la figure 2 est ensuite abordé en incluant l'adaptation du module d'enrichissement 20 pour s'adapter à l'entrée d'un automate sigma. Dans certaines applications (par exemple certaines applications de traduction des illustrations qui sont décrites ici en faisant référence à la 25 figure 2), il est utile que l'un des automates de l'intersection soit un automate sigma (représenté également ici comme un automate - a ). Soit VS être un vocabulaire source, et soit V. être un vocabulaire cible. Soit x = x, ,..., xM être une séquence fixe de mots sur le vocabulaire source VS. En outre appelons z un jeton dans la séquence x et appelons Z l'ensemble des M jetons dans x . 30 En faisant référence à la figure 3, un automate - a sur la séquence x possède la forme générale d'un automate pondéré standard sur le vocabulaire cible mais ou les bords contiennent également des éléments de P(Z), l'ensemble des parties d'un ensemble Z . Un bord dans l'automate - a entre deux états q et q' transporte alors une étiquette de la forme (a, f) où a e P(Z) et où fi E VV. (Chaque bord transporte également un poids réel non négatif qui n'est pas représenté explicitement). On note qu'il n'est pas permis ici à ,6 d'être la suite vide e . Une voie, débutant de l'état initial de l'automate jusqu'à son état final, est définie être valide si et seulement si chaque jeton de la séquence x apparaît dans exactement une seule étiquette de la voie, mais pas nécessairement dans le même ordre que dans la séquence x . La sortie associée à la voie représente la séquence ordonnée d'étiquettes cible sur cette voie, et le poids de la voie et le produit des poids sur ses bords. La figure 3 montre une représentation d'un automate - a comportant, représentées, deux voies valides. Chaque case sur la figure 3 indique un état correspondant à une paire de phrases, alors que des états internes à une paire de phrases (comme tell et tcl2) ne sont pas mis dans les cases. Au-dessus de chaque transition est indiqué le mot cible correspondant, et en dessous de chaque transition est indiqué l'ensemble correspondant de jetons source. Un symbole terminal $ indique la fin de la phrase à la fois sur la source et sur la cible. La voie en trait plein correspond à la sortie « these totally corrupt lawyers are finished ». La voie en tirets correspond à la sortie « these brown avocadoes are cooked ». Notons que les jetons source ne sont pas nécessairement consommés dans l'ordre donné par la source et que, par exemple, il existe une voie valide générant « these are totally corrupt lawyers finished » et se déplaçant en fonction de h - r - tcll -> tcl2 -> tcl - f . Notons cependant que ceci ne signifie pas que si une phrase double telle que (marrons, avocat, avocado, chestnuts) a existé dans le tableau des phrases 46, elle pourrait s'appliquer ici à la phrase source. Au lieu de cela, du fait que les mots source de cette phrase double ne correspondent pas à l'ordre des jetons source dans la phrase, la phrase double ne devrait pas être incluse dans l'automate - a. Des exemples de l'utilisation d'automates - a dans une traduction, tels qu'ils sont par exemple représentés schématiquement sur la figure 2, sont ensuite décrits avec plus de détails. Sur la figure 2, le système de traduction fondé sur des phrases est représenté par le module de modèle de traduction fondé sur des phrases 44. Dans certaines approches illustratives, la sortie de ce système de traduction fondé sur des phrases est représentée en termes d'automates - a par le module générateur d'automate - a 50 comme suit. Afin de simplifier l'exposé, on suppose ici que le modèle de la langue utilisée est un modèle de bigramme, mais plus généralement tout modèle de type n-gramme peut être adapté. Ensuite, étant donné une phrase source x, le décodage fonctionne en tentant de construire une séquence de paires de phrases de la forme (x,, ÿk ), ..., (x,, ÿk) de telle sorte que chaque terme xi corresponde à une sous séquence contiguë de jetons de la séquence x , et que les termes xi ne se chevauchent pas et couvrent complètement la phrase source x (bien que les termes x, puissent apparaître dans un ordre différent que dans celui de la phrase source x ). La sortie associée à la séquence est la concaténation de tous les termes y; dans cette séquence. (On suppose ici que les paires de phrases doubles (x;,y;) sont telles que ÿ; n'est pas la suite vide, cette contrainte pourrait être éliminée par une adaptation de l'opération d'élimination de e ). Le poids associé à la séquence des paires de phrases est alors le produit (en supposant ici travailler avec des probabilités plutôt qu'avec des log-probabilités) du poids de chaque paire dans le contexte de la précédente (x;, ÿ;) qui inclut le produit de plusieurs éléments. (i) le 15 poids « hors contexte » de la paire de phrases (.xl+,,yi+,) tel qu'il est déterminé par ses fonctions dans le tableau de phrases 46, (ii) la probabilité de modèle de langue pour découvrir à la suite de ÿl et, (iii) le poids contextuel de la paire par rapport à (xi,yi) correspondant au coût de distorsion pour « sauter » de la séquence de jetons xl à la séquence de jetons z;+1 lorsque ces 20 deux séquences peuvent ne pas être consécutives dans la phrase x . Tout modèle de distorsion, et en particulier un modèle de distorsion par « ré-ordonnancement lexicalisé », qui ne dépend que de la comparaison de deux paires de phrases consécutives, peut être mis en oeuvre de cette manière. En se tournant vers l'élément (ii), la supposition d'un bigramme convient. Pour un 25 modèle de trigramme, il peut être approprié de coder dans l'automate non seulement la paire de phrases immédiatement précédente mais également la précédente et ainsi de suite pour des modèles d'ordre supérieur. Une variante consiste à conserver le modèle de langue de type n-gramme à l'extérieur de l'automate - a et de réaliser ultérieurement l'intersection avec la grammaire G', en 30 utilisant en option des techniques d'approximation telles que l'élagage par cube.
Un tel modèle peut être représenté par un automate - a où chaque paire de phrases - pour un terme x , une séquence de jetons dans la phrase x et pour la paire (z;, yi) , une entrée dans le tableau global des phrases - est identifiée avec un état de l'automate, et où le fait que la paire de phrases (z', ÿ')=((xl, ..., xk), (yl, , Yr)) suit (x, ÿ) dans la séquence de décodage, est modélisé en introduisant 1 transitions « internes » avec les étiquettes (a-, yl ), (Il y2 ), ..., (Cj y1) , où aT = {x, , ..., xk } et où la première transition relie l'état (z, y) à un certain « état interne » unique q, , la seconde transition relie l'état q1 à un certain état interne unique q2 et la dernière transition qk à l'état (z', y') . (Dans un souci de simplicité, on choisit ici de recueillir l'ensemble de tous les jetons source xk } sur la première transition, mais ces jetons source pourraient être en variante répartis sur les 1 transitions arbitrairement dans la plupart des cas mais en conservant les sous-ensembles disjoints). Ainsi, un état (:x', ÿ') code en effet la paire de phrases précédente utilisée pendant le décodage et l'on peut voir qu'il est possible de rendre compte des différents poids associés au modèle fondé sur des phrases par des poids associés aux transitions de l'automate - a. En créant des états tels que ((.x, ÿ) , (1-',y» ) qui codent les deux paires de phrases précédentes utilisées pendant le décodage, il est possible de rendre compte d'un modèle de langue trigramme, tout comme pour des modèles de langue LM d'ordre supérieur. Ceci est semblable à la mise en oeuvre de modèles de langages de type n-gramme par des automates dont les états codent les n-1 mots générés précédemment. Dans une autre illustration à titre d'exemple, considérons la phrase suivante en langue source française : x : ces avocats marrons sont cuits , qui est une expression idiomatique pour le langage anglais these totally corrupt lawyers are finished . Supposons pour cet exemple que le tableau de phrases 46 contienne les paires de phrases suivantes : h : (ces, these) a : (avocats, avocados) b : (marrons, brown) tcl : (avocats marrons, totally corrupt lawyers) r : (sont, are) k : (cuits, cooked ) f : (cuits, finished ) Une illustration de l'automate - a correspondant SA est représentée sur la figure 3, ne comportant que peu de transitions explicites et sans aucun poids représenté. Sur la figure 3, deux voies (valides) d'illustrations sont représentées. Si l'automate - a complet avait été représenté, alors le graphique aurait été « complet » dans le sens où, pour l'un quelconque des états des deux cases B , B' , une relation B - B1'-> aurait été représentée ou les états B.' sont des états internes et où k est la longueur du côté cible de la phrase double B'. Comme il est en outre représenté sur la figure 2, l'automate - a représentant les informations de traduction fondées sur des phrases est combiné à un modèle de traductions hiérarchiques fondées sur une grammaire en utilisant l'automate - a comme automate cible dans l'intersection bilatérale calculée par le module d'enrichissement grammatical synchrone 20. Certains exemples d'illustrations de ce traitement sont les suivants. Si SA est un automate - a sur l'entrée x , est associé un poids avec chaque voie valide dans l'automate SA de la même manière que dans un automate ordinaire pondéré. Pour toute séquence de mots cible dans V' , on peut associer alors la somme des poids de toutes les voies valides fournissant cette séquence en sortie. Le langage pondéré LSAX sur le vocabulaire Vo obtenu de cette manière, est appelé ici le langage associé à l'automate SA. Soit G être une grammaire sans contexte pondérée synchrone (grammaire W-SCFG) sur les vocabulaires Vs, V. On appelle LGX la langue pondéré sur les vocabulaires VS , V, correspondant à l'intersection {x} (nl G n' Vt* , où {x} indique la langue donnant un poids 1 à la phrase x et un poids 0 aux autres séquences dans V:, et où Vr" indique la langue donnant un poids 1 à toutes les séquences dans V" . On notera que des phrases doubles non vides dans LG X ont leur projection source égale à x , et par conséquent LG X peut être identifiée à une langue pondérée sur le vocabulaire V. L'intersection des langues LsA,x et LG,X est indiquée par LsA,X n Lc,x Ce qui précède est en outre décrit à titre d'exemple illustratif. Considérons la grammaire W-SCFG suivante (où de nouveau des poids ne sont pas représentés explicitement et où le symbole terminal $ est utilisé pour indiquer la fin d'une phrase, ce qui rend compatible la grammaire avec l'automate SA de la figure 3). S->NPVP$/NPVP$ NP -/cesNA/theseAN 1 0 VP -sontA/areA A -> marrons / brown A -4 marrons / totally corrupt A -3 cuits / cooked A -4 cuits / finished 15 N -4 avocats / avocadoes N -3 avocats / lawyers On peut voir, par exemple, que les phrases suivantes : these brown avacodoes are cooked $ these brown avacodoes are finished $ 20 these totally corrupt lawyers are finished $ appartiennent toutes à l'intersection LsA,X (1 L~ X alors que les phrases suivantes : these avacodoes brown are cooked $ totally corrupt lawyers are finished these $ n'appartiennent qu'à la langue LsA,x . 25 Par référence à la figure 4, en utilisant l'exemple qui précède, certaines approches adéquates sont décrites pour construire une grammaire W-SCFG qui représente l'intersection LsA,X LUX. La figure 4 (par comparaison avec l'automate - a de la figure 3) représente comment un automate Ar peut être associé à l'automate - a SA en « oubliant » les cotés source des étiquettes 30 transportées par les transitions mais en conservant la totalité des poids identiques. Comme mentionné ci-dessus par rapport à la figure 3, on note que la figure 4 ne représente également qu'un sous-ensemble des transitions. Toutes les voies valides pour l'automate - a SA établissent des mappes dans des voies valides pour l'automate à états finis pondérés (W-FSA) At (avec les mêmes poids), mais l'inverse n'est pas vrai du fait que certaines voies valides de l'automate W-FSA AI peuvent correspondre à des voies transverses de l'automate SA qui consomment soit le même jeton source plusieurs fois, soit ne consomment pas tous les jetons source. Par exemple, la phrase these brown avacodoes brown are $ appartient au langage de l'automate W-FSA At, mais ne peut pas être produite par l'automate - a SA. Cependant, considérons l'intersection {x} n' G ail At où, avec un léger abus de notation, nous avons appelé {x} l'automate « dégénéré » représentant la phrase x , à savoir l'automate représenté sur la figure 5 (comportant des poids égaux à 1 sur toutes les transitions). Ceci représente un assouplissement de la vraie intersection, mais qui peut être représenté par l'intermédiaire d'une grammaire W-SCFG telle qu'on le décrit ici. On note que dans le cas de cet exemple toute suite cible qui appartient à cette intersection assouplie et qui est constituée des huit phrases : these {brown 1 totally corrupt} {avacodoes I lawyers } are {cooked I finished } $ appartient réellement à la complète intersection du fait qu'aucune de ces phrases ne correspond à une voie dans l'automate - a SA qui viole la contrainte sur la consommation de jetons. Plus généralement, il peut en pratique être souvent le cas que la grammaire W-SCFG par elle-même fournisse suffisamment de « contrôle » des phrases cible possibles pour empêcher la génération de phrases qui violeraient les contraintes de consommation en jetons de sortie que sorte qu'il peut y avoir en pratique une légère différence entre l'exécution de l'intersection assouplie {x} n G (fil Ar et l'exécution de l'intersection complète {x} n G fnl LsAx. Ceci étant noté, certaines approches illustratives pour la construction de l'intersection complète sont décrites comme suit. La description qui précède consistant à modifier une règle grammaticale synchrone afin de fournir un principe de règles indexées afin de représenter l'intersection bilatérale de la grammaire avec deux automates est refaite ici, dans le cas de la grammaire W-SCFG d'illustration, de l'automate cible représenté sur la figure 4, et de l'automate source {x} de la figure 5. La construction est réalisée en trois étapes : se NP53 t0 Np t3 so NP t3 S0ces si S1 NS2 S2 A /these A N S3 -4 ces N A / t°thesetl t1At2 12Nt3 ces t2 Nt3 11Al2 / t0 theset' rl At2 t2 Nt3 S5 S1 Sl 52 S2 53 S2 S3 S1 S2 Afin d'adapter cette construction au cas où l'intersection doit être avec un automate - a, les points non terminaux sont en outre spécialisés. Plutôt que de spécialiser un point non terminal X sous la forme , il est à la place spécialisé sous la forme : Xsl,' où a représente un ensemble de jetons source qui correspondent au « recueil » des jetons source dans l'automate - a le long d'une voie reliant les états t et t'. (On note que a ne se rapporte pas nécessairement aux jetons apparaissant entre les positions s et s' dans la phrase source, c'est-à-dire entre ces états dans l'automate source associé, mais qu'il est défini entièrement en termes de jetons source le long de la voie t, t'). Un nouveau principe de règle associé à la règle est ensuite défini, lequel est obtenu comme auparavant en trois étapes, comme suit : SO ces si S1N52 52 A S3 / these A N -~ ces N A / t°thesetl'`r01 t1At2'tTl2 t2Nt3'Q23
ces t2 Nt3'623 tl At2'612 / t0 these tl'crin tl At2'°'2 12 Nt3'622 SO S1 S1 S2 S2 S3 S2 S3 S1 52 La différence avec la déduction précédente et l'ajout des termes a dans les indices supérieurs. Afin de fournir plus en détail une explication, considérons la seconde étape (c'est-à-dire celle du milieu) de l'équation (5). De manière conceptuelle, lors de l'instanciation de ce principe, les termes tt peuvent occuper 20 tous les états possibles de l'automate - a, ainsi que les termes 6y sur tous les sous-ensembles des jetons source, mais sous les contraintes qui suivent : les termes 6 du côté droit (ici 601, 612, 623) doivent être disjoints et leur union doit être égal aux termes a- sur le côté gauche (ici o-03). De plus, un terme 6 associé à un point terminal cible (comme dans le cas de 601 dans l'exemple de l'étape 25 médiane de l'équation (5)) doit être égal à l'ensemble de jetons associé à la transition que réalise ce terminal entre les états de l'automate - a (ceci signifie ici que 601 doit être égal à l'ensemble de jetons {ces} associé à la transition entre t0, t1 et dénommés « these »). Si ces instanciations sont effectuées et que leur so NP53 10 pt3'Q03 r0t3'603 S0 S3 poids sont calculés conformément à l'équation (3), et qu'enfin les indices associés aux points terminaux dans les règles sont éliminés (en ajoutant les poids des règles ne différant que par les indices des points terminaux), alors une grammaire « brute » est obtenue. Appelons cette grammaire brute G', son symbole de début étant s St$'°°" Gall étant l'ensemble de tous les jetons source dans la phrase x . Il s'ensuit alors que la langue synchrone LG, associée à la grammaire brute G' est égale à({x},LsA,X n LG,x) En faisant référence à la figure 6, la grammaire qui est obtenue de cette manière, malgré qu'elle représente correctement l'intersection, peut contenir un grand nombre de règles inutiles en raison du fait que de nombreux points non terminaux ne peuvent produire aucune sortie. La situation peut être atténuée en utilisant des techniques ascendantes pour activer des points non terminaux et des règles. La figure 6 représente schématiquement le processus ascendant d'activation à leur tour des points non terminaux qui sont dénommés N1, Al, A2, NP1, VP1, S1 sur la figure 6. Le bas de la figure 6 représente certains points non terminaux actifs associés à la séquence source, ces mêmes points non terminaux
en haut, associés à une séquence de transitions dans l'automate - , correspondent à la séquence cible :
these totally corrupt lawyers are finished $ Dans un but de clarification, on utilise les abréviations représentées sur la droite de la figure 6. On note qu'alors que Al n'enjambe que marrons dans le
graphique inférieur, il contient en fait l'ensemble de jetons source {avocats,marrons} . Une telle « déconnexion » ne montre pas d'exclusion entre les vues indicant que la grammaire W-SCFG et l'automate - a comportent des jetons source. En conséquence de ces activations ascendantes, la règle grammaticale originelle NP -f ces N A / these A N (par exemple) devient une instanciation comme règle. #ONP31,(ces,avocats,marrons} oCeS1 tcl1Nt2 l,)( hA312,(avocats,marrons} / #theseh,(ces} h A tc12,(avocats,marrons} tcl2Ntcl,if 2 3 11'2 c'est-à-dire, après l'élimination des indices sur les points terminaux : #NPtcl,tces,avocats,marrons} -> ces tcl2Ntc1,3f hA-tc12,{avocats,marrons} / 0 3 11'2 2 3
these hAtcl2,tavocats,matrons} tcl2Ntcl,X 2 3 1 2 On note qu'alors que le point non terminal tc12N21'E par lui-même ne consomme aucun jeton source (il est associé à l'ensemble de jetons vide), toute utilisation réelle de ce point non terminal (dans cette règle spécifique ou éventuellement dans quelque autre règle l'utilisant) implique de traverser le noeud interne tcl2 et donc tous les noeuds internes « appartenant » à la phrase double tcl (parce que sinon la voie depuis # jusqu'à $ serait déconnectée), en particulier ceci implique la consommation de tous les jetons sur le côté source de la phrase double tcl y compris « avocats ». En particulier il n'y a aucuns risque qu'une déduction se rapportant à la grammaire de l'intersection génère une cible contenant deux occurrences de « lawyers », l'une associée à l'extension de tc12N21'0 et neconsommant aucun jeton source, et l'autre associée à un point non terminal différent et consommant le jeton source « avocats ». Ceci est dû au fait que la seconde instance mettrait en jeu le fait de ne pas traverser tcll, ce qui est impossible tant que tcl2N2l,n est utilisé. Dans le cas dans lequel l'intersection bilatérale opère sur des automates standards (et non sur un automate sigma selon la variante de la figure 2 d'illustration), l'intersection bilatérale entre la grammaire sans contexte pondérée synchrone (grammaire W-SCFG) et les deux automates à états finis pondérés (W- FSA) peut être représentée pour être d'une complexité polynomiale dans le sens où il est pris un temps et un espace polynomiaux par rapport à la somme des tailles des deux automates et de la grammaire pour construire la grammaire de l'intersection (réduite) G', à la condition que les côtés droits de la grammaire présentent une longueur limitée par une constante. Si cette condition est éliminée, et pour le cas plus simple ou l'automate source (respectivement cible) code une phrase unique x (respectivement y), on peut montrer que le problème consistant à décider si (x, y) est reconnu par la grammaire G est d'une certaine complexité en temps polynomial non déterministe (« NP-hard ») par rapport à la somme des tailles. Une conséquence est alors que la grammaire G' ne peut pas être construite en temps polynomial jusqu'à ce que P = NP.
Dans des modes de réalisation dans lesquels l'un des automates est un automate sigma, comme dans l'application de traduction de la figure 2, la construction de l'intersection peut cependant introduire en principe des points non terminaux indexés non seulement par des états des automates mais également par des sous-ensembles arbitraires de jetons source, et ceci peut conduire dans des cas extrêmes à un nombre exponentiel de règles. Dans de tels cas, la complexité peut être sensiblement pire qu'une complexité polynomiale. De tels problèmes ne peuvent cependant se produire dans des situations où, dans un point non terminal `X:°°, il est permis à l'ensemble a- de contenir de jetons qui « ne sont pas apparentés » à l'ensemble de jetons apparaissant entre s et s' dans l'automate source.
Une illustration d'une telle situation est donnée par l'exemple suivant. Supposons que la phrase source contienne respectivement les deux jetons personnes et gens entre les positions i, i+1 et j, j+1, où i et j sont distants l'un de l'autre, supposons que le tableau de phrases contient les deux paires de phrases (personnes, persons) et (gens, people) , mais que la grammaire synchrone ne contient que les deux règles X - personnes / people et Y -3 gens / persons , ces phrases et règles épuisant les possibilités de traduction de gens et personnes . Alors la grammaire de l'intersection contiendra des points non terminaux tels que :Xt,{gens} et rqr',{personnes} où dans le premier cas l'ensemble de jetons {gens} dans le premier point non terminal ne se rapporte pas aux jetons apparaissant entre i, i+1, et de façon similaire dans le second cas. On s'attend à ce que dans certains cas, et peut-être dans la plupart ou la totalité des cas, il serait empêché un tel phénomène conduisant à une explosion combinatoire du fait que la grammaire synchrone contraindrait suffisamment le composant fondé sur des phrases (dont les possibilités de ré-ordonnancement sont responsables in fine de la complexité NP du processus de traduction) pour éviter l'explosion combinatoire. Cependant, si la possibilité d'une explosion combinatoire est un problème, une approche consiste à empêcher a priori une possible explosion combinatoire en ajoutant des contraintes formelles au mécanisme d'intersection. Une telle contrainte est la suivante : rejeter l'introduction de ; X~ lorsque la différence symétrique entre a- et l'ensemble de jetons entre les positions i et j dans la phrase source présente une cardinalité plus importante qu'une petite constante. Une telle contrainte peut être comprise comme étant la conservation de la grammaire sans contexte synchrone et de composants fondés sur des phrases « en synchronisme ». Les approches décrites des modèles d'intersection hiérarchiques et fondés sur des phrases pour une traduction tirent profit des complémentarités entre les deux approches. À titre d'exemple illustratifs, on peut éduquer le composant hiérarchique sur des corpus représentés au niveau partie de parole (ou à un niveau où on réalise l'abstraction d'unités lexicales en certains types de classes) alors que le composant fondé sur des phrases peut être concentré sur la traduction d'un matériau lexical.10

Claims (10)

  1. REVENDICATIONS1. Procédé comprenant : la réception ou la génération d'un contenu double incluant un contenu source dans une langue ou un format source et un contenu cible correspondant dans une langue ou un format cible, la langue ou le format cible étant différents de la langue ou du format source, la génération d'un automate à états finis pondérés source représentant le contenu source du contenu double, la génération d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, et le calcul d'une intersection bilatérale entre (i) l'automate à états finis pondérés source, (ii) une grammaire sans contexte pondérée synchrone comprenant des grammaires synchronisées pour la langue ou le format source et pour la langue ou le format cible, et (iii) l'automate à états finis pondérés cible afin de générer une grammaire sans contexte pondérée synchrone enrichie, dans lequel la génération des automates à états finis pondérés source et cible et le calcul de l'intersection bilatérale sont effectués par un processeur numérique.
  2. 2. Procédé selon la revendication 1, dans lequel : le contenu double inclut un contenu en langue naturelle source, dans une première langue naturelle, et un contenu correspondant en langue naturelle cible, dans une seconde langue naturelle différente de la première langue naturelle, et la grammaire sans contexte pondérée synchrone comprend des grammaires synchronisées pour la langue naturelle source et la langue naturelle cible.
  3. 3. Procédé selon la revendication 2, dans lequel : le contenu en langue naturelle cible comprend une pluralité de traductions candidates en langue naturelle cible du contenu en langue naturelle source, et l'automate à états finis pondérés cible représente une pluralité de traductions candidates en langue naturelle cible 10 15 20 25 30 35comme étant des voies de l'automate à états finis pondérés comportant des poids sur les voies qui indiquent la probabilité de traduction en langue naturelle cible.
  4. 4. Procédé selon la revendication 3, dans lequel la réception ou la génération du contenu double comprend : la génération du contenu en langue naturelle cible en appliquant un modèle de traduction fondé sur des phrases au contenu en langue naturelle source, le modèle de traduction fondé sur des phrases faisant référence à une base de données de phrases doubles comprenant chacune une phrase dans la langue naturelle source et sa traduction dans la langue naturelle cible.
  5. 5. Procédé selon la revendication 4, dans lequel l'automate à états finis pondérés cible comprend un automate - a comportant des bords contenant : des jetons du contenu en langue naturelle cible générés en appliquant le modèle de traduction fondé sur des phrases au contenu en langue naturelle source, et des jetons de l'ensemble des parties d'un ensemble de jetons du contenu en langue source.
  6. 6. Procédé selon la revendication 1, dans lequel le calcul comprend le calcul de l'intersection bilatérale en utilisant un processus ascendant comprenant : l'initialisation de l'intersection bilatérale comme un ensemble vide de règles grammaticales, et l'ajout de règles grammaticales à l'intersection bilatérale, lesquelles satisfont à l'automate à états finis pondérés source, à la grammaire sans contexte pondérée synchrone et à l'automate à états finis pondérés cible, et qui de plus produisent des règles grammaticales pouvant produire un contenu double incluant des éléments terminaux à la fois en langue ou en format source et en langue ou en format cible.
  7. 7. Appareil comprenant :un processeur numérique configuré pour exécuter un procédé fonctionnant sur un contenu double incluant un contenu source dans une langue ou un format source et un contenu cible correspondant dans une langue ou un format cible différents de la langue ou du format source, le procédé incluant : la génération d'un automate à états finis pondérés source représentant le contenu source du contenu double, la génération d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, et la génération d'une grammaire sans contexte pondérée synchrone enrichie en calculant une intersection bilatérale entre (i) l'automate à états finis pondérés source, (ii) une grammaire sans contexte pondérée synchrone comprenant des grammaires synchronisées pour la langue ou le format source et pour la langue ou le format cible, et (iii) un automate à états finis pondérés cible.
  8. 8. Appareil selon la revendication 7, dans lequel le contenu double inclut un contenu en langue naturelle source, dans une première langue naturelle, et un contenu correspondant en langue naturelle cible, dans une seconde langue naturelle différente de la première langue naturelle, la grammaire sans contexte pondérée synchrone comprend des grammaires synchronisées pour la langue naturelle source et la langue naturelle cible, et le procédé exécuté par le processeur numérique comprend en outre : la génération du contenu en langue naturelle cible en appliquant un modèle de traduction fondé sur des phrases au contenu en langue naturelle source, le modèle de traduction fondé sur des phrases faisant référence à une base de données de phrases doubles comprenant chacune une phrase dans la langue naturelle source et sa traduction dans la langue naturelle cible, dans lequel la génération de l'automate à états finis pondérés cible inclut la représentation d'une pluralité de traductions candidates en langue naturelle cible comme étant des voies de l'automate à étatsfinis pondérés comportant des poids sur les voies qui indiquent la probabilité de traduction en langue naturelle cible.
  9. 9. Appareil selon la revendication 7, dans lequel : le calcul de l'intersection bilatérale n'inclut pas le calcul d'une intersection unilatérale entre l'automate à états finis pondérés source et la grammaire sans contexte pondérée synchrone, et le calcul de l'intersection bilatérale n'inclut pas le calcul d'une intersection unilatérale entre la grammaire sans contexte pondérée synchrone et l'automate à états finis pondérés cible.
  10. 10. Support de stockage mémorisant des instructions exécutables par un 15 processeur numérique afin d'exécuter un procédé fonctionnant sur un contenu double incluant un contenu source dans une langue ou un format source et un contenu cible correspondant dans une langue ou un format cible différents de la langue ou du format source, le procédé incluant la génération d'un automate à états finis pondérés source représentant le 20 contenu source du contenu double, la génération d'un automate à états finis pondérés cible représentant le contenu cible du contenu double, ainsi que l'enrichissement d'une grammaire sans contexte pondérée synchrone comprenant des grammaires synchronisées pour la langue ou le format source et la langue ou le format cible en calculant une intersection 25 bilatérale entre l'automate à états finis pondérés source, la grammaire sans contexte pondérée synchrone et l'automate à états finis pondérés cible. 10
FR1157314A 2010-08-12 2011-08-11 Systeme de traduction combinant des modeles hierarchiques et bases sur des phases Pending FR2963841A1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US12/855,084 US8543374B2 (en) 2010-08-12 2010-08-12 Translation system combining hierarchical and phrase-based models

Publications (1)

Publication Number Publication Date
FR2963841A1 true FR2963841A1 (fr) 2012-02-17

Family

ID=45540537

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1157314A Pending FR2963841A1 (fr) 2010-08-12 2011-08-11 Systeme de traduction combinant des modeles hierarchiques et bases sur des phases

Country Status (2)

Country Link
US (1) US8543374B2 (fr)
FR (1) FR2963841A1 (fr)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
KR101745349B1 (ko) * 2010-09-02 2017-06-09 에스케이플래닛 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
US9323736B2 (en) 2012-10-05 2016-04-26 Successfactors, Inc. Natural language metric condition alerts generation
US20140100923A1 (en) * 2012-10-05 2014-04-10 Successfactors, Inc. Natural language metric condition alerts orchestration
US9195644B2 (en) 2012-12-18 2015-11-24 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Short phrase language identification
US9235567B2 (en) 2013-01-14 2016-01-12 Xerox Corporation Multi-domain machine translation model adaptation
US9047274B2 (en) 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
US8972244B2 (en) * 2013-01-25 2015-03-03 Xerox Corporation Sampling and optimization in phrase-based machine translation using an enriched language model representation
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US9600473B2 (en) * 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9436681B1 (en) * 2013-07-16 2016-09-06 Amazon Technologies, Inc. Natural language translation techniques
US9652453B2 (en) 2014-04-14 2017-05-16 Xerox Corporation Estimation of parameters for machine translation without in-domain parallel data
WO2016044321A1 (fr) 2014-09-16 2016-03-24 Min Tang Intégration d'informations de domaine dans des transitions d'état d'un transducteur à états finis conçu pour un traitement en langage naturel
EP3195145A4 (fr) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Commerce vocal
US9348806B2 (en) * 2014-09-30 2016-05-24 International Business Machines Corporation High speed dictionary expansion
WO2016061309A1 (fr) 2014-10-15 2016-04-21 Voicebox Technologies Corporation Système et procédé pour fournir des réponses de suivi à des entrées préalables en langage naturel d'un utilisateur
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
US9372848B2 (en) 2014-10-17 2016-06-21 Machine Zone, Inc. Systems and methods for language detection
US9606988B2 (en) 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9367541B1 (en) 2015-01-20 2016-06-14 Xerox Corporation Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US10025779B2 (en) 2015-08-13 2018-07-17 Xerox Corporation System and method for predicting an optimal machine translation system for a user based on an updated user profile
US10765956B2 (en) 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
CN107229616B (zh) 2016-03-25 2020-10-16 阿里巴巴集团控股有限公司 语言识别方法、装置及系统
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
CN106910501B (zh) * 2017-02-27 2019-03-01 腾讯科技(深圳)有限公司 文本实体提取方法及装置
WO2019060353A1 (fr) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc Système et procédé de traduction de messages de clavardage
US11145296B1 (en) * 2019-03-25 2021-10-12 Amazon Technologies, Inc. Language and grammar model adaptation
US11520982B2 (en) * 2019-09-27 2022-12-06 Sap Se Generating corpus for training and validating machine learning model for natural language processing
CN110457719B (zh) * 2019-10-08 2020-01-07 北京金山数字娱乐科技有限公司 一种翻译模型结果重排序的方法及装置
US11797781B2 (en) 2020-08-06 2023-10-24 International Business Machines Corporation Syntax-based multi-layer language translation

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625554A (en) * 1992-07-20 1997-04-29 Xerox Corporation Finite-state transduction of related word forms for text indexing and retrieval
US5806032A (en) * 1996-06-14 1998-09-08 Lucent Technologies Inc. Compilation of weighted finite-state transducers from decision trees
US7010476B2 (en) * 2000-12-18 2006-03-07 Xerox Corporation Method and apparatus for constructing finite-state networks modeling non-concatenative processes
US7240004B1 (en) * 2002-03-04 2007-07-03 At&T Corp. Systems and methods for determining the determinizability of finite-state automata and transducers
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
US7129932B1 (en) * 2003-03-26 2006-10-31 At&T Corp. Keyboard for interacting on small devices
US7974833B2 (en) * 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US8380483B2 (en) * 2006-10-05 2013-02-19 Nec Laboratories America, Inc. Inter-procedural dataflow analysis of parameterized concurrent software
US7983913B2 (en) * 2007-07-31 2011-07-19 Microsoft Corporation Understanding spoken location information based on intersections
US8065300B2 (en) * 2008-03-12 2011-11-22 At&T Intellectual Property Ii, L.P. Finding the website of a business using the business name

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANONYMOUS: "A Formal Model of Ambiguity and its Applications in Machine Translation - Linguistics at Maryland", 1 August 2010 (2010-08-01), XP055183055, Retrieved from the Internet <URL:http://ling.umd.edu/publications/76/> [retrieved on 20150415] *
CHRISTOPHER JAMES DYER: "A FORMAL MODEL OF AMBIGUITY AND ITS APPLICATIONS IN MACHINE TRANSLATION", PHD DISSERTATION, UNIVERSITY OF MARYLAND., 1 August 2010 (2010-08-01), The Department of Linguistics at the University of Maryland, XP055182124, Retrieved from the Internet <URL:http://ling.umd.edu/assets/publications/chris.dyer.diss.pdf> [retrieved on 20150410] *
DAVID CHIANG: "Hierarchical Phrase-Based Translation", COMPUTATIONAL LINGUISTICS, vol. 23, no. 2, 1 June 2007 (2007-06-01), pages 201 - 228, XP055181807, ISSN: 0891-2017, DOI: 10.1016/0743-1066(95)00035-I *
GIORGIO SATTA: "Translation Algorithms by Means of Language Intersection", 1 January 2010 (2010-01-01), XP055182203, Retrieved from the Internet <URL:http://www.dei.unipd.it/~satta/publ/paper/inters.pdf> [retrieved on 20150410] *
GONZALO IGLESIAS: "Hierarchical Phrase-based Translation with Weighted Finite-State Transducers", 1 January 2010 (2010-01-01), XP055182031, Retrieved from the Internet <URL:http://www3.eng.cam.ac.uk/~gi212/thesis.pdf> [retrieved on 20150409] *

Also Published As

Publication number Publication date
US8543374B2 (en) 2013-09-24
US20120041753A1 (en) 2012-02-16

Similar Documents

Publication Publication Date Title
FR2963841A1 (fr) Systeme de traduction combinant des modeles hierarchiques et bases sur des phases
Vasiliev Natural language processing with Python and spaCy: A practical introduction
Rayner The spoken language translator
CN109359304B (zh) 限定性神经网络机器翻译方法及存储介质
US20090192781A1 (en) System and method of providing machine translation from a source language to a target language
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
EP1364316A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
WO2020229889A1 (fr) Génération de texte en langage naturel à l&#39;aide d&#39;objets sémantiques
FR2764725A1 (fr) Procede, dispositif, et article de fabrication pour la generation basee sur un reseau neuronal de prononciations post-lexicales a partir de prononciations lexicales
KR20200063281A (ko) 신경망 자동 번역 장치 및 그 방법
Arun et al. Best practices for data-efficient modeling in NLG: how to train production-ready neural models with less data
Abadie et al. A Benchmark of Named Entity Recognition Approaches in Historical Documents Application to 19 th Century French Directories
Kumar et al. Deep learning driven natural languages text to SQL query conversion: a survey
Jin et al. WordTransABSA: enhancing Aspect-based Sentiment Analysis with masked language modeling for affective token prediction
Seifossadat et al. Stochastic Data-to-Text Generation Using Syntactic Dependency Information
Coler et al. Rule-based machine translation for Aymara
Sproat et al. Applications of lexicographic semirings to problems in speech and language processing
Pilar Knowledge-driven subword grammar modeling for automatic speech recognition in tamil and kannada
Raj et al. Natural Language Processing for Chatbots
WO2020026229A2 (fr) Identification de proposition en langage naturel et son utilisation
Bladier et al. From partial neural graph-based LTAG parsing towards full parsing
Hall Best-first Word-lattice Parsing: Techniques for integrated syntactic language modeling
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体
Strassel et al. Data acquisition and linguistic resources
Rongali Low Resource Language Understanding in Voice Assistants

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7