FR2982388A1 - Systeme et procede pour la generation productive de mots composes dans une traduction automatique statistique - Google Patents

Systeme et procede pour la generation productive de mots composes dans une traduction automatique statistique Download PDF

Info

Publication number
FR2982388A1
FR2982388A1 FR1256842A FR1256842A FR2982388A1 FR 2982388 A1 FR2982388 A1 FR 2982388A1 FR 1256842 A FR1256842 A FR 1256842A FR 1256842 A FR1256842 A FR 1256842A FR 2982388 A1 FR2982388 A1 FR 2982388A1
Authority
FR
France
Prior art keywords
word
merge
words
compound
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1256842A
Other languages
English (en)
Other versions
FR2982388B1 (fr
Inventor
Nicola Cancedda
Sara Stymne
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of FR2982388A1 publication Critical patent/FR2982388A1/fr
Application granted granted Critical
Publication of FR2982388B1 publication Critical patent/FR2982388B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

L'invention porte sur un procédé et un système pour prendre des décisions de fusion pour une traduction, qui sont appropriés lorsque la langue est une langue à composition. Le procédé comprend l'émission de décisions sur la fusion de paires de mots dans une chaîne de texte traduite avec un système de fusion. Le système de fusion peut comprendre un ensemble d'heuristiques stockées et/ou un modèle de fusion. Dans le cas d'heuristiques, celles-ci peuvent comprendre une heuristique selon laquelle deux mots consécutifs dans une chaîne sont pris en compte pour une fusion si le premier mot des deux mots consécutifs est reconnu comme un modificateur de composé et leur fréquence observée f des deux mots consécutifs en tant que mot composé fermé est supérieure à une fréquence observée f des deux mots consécutifs en tant que bigramme. Dans le cas d'un modèle de fusion, il peut être un modèle qui est entraîné sur des caractéristiques associées à des paires d'unités lexicales consécutives de chaînes de texte dans un ensemble d'apprentissage et à des décisions de fusion prédéterminées pour les paires. Une traduction en langue cible est produite, sur la base des décisions de fusion pour la chaîne de texte traduite.

Description

SYSTEME ET PROCEDE POUR LA GENERATION PRODUCTIVE DE MOTS COMPOSES DANS UNE TRADUCTION AUTOMATIQUE STATISTIQUE [0001] Le mode de réalisation à titre d'exemple de la présente invention se rapporte au domaine de la traduction automatique. Il trouve une application particulière dans la traduction de texte dans une langue qui produit des mots composés fermés. [0002] Dans plusieurs langues naturelles, comprenant la plupart des familles de langues germaniques (par exemple, l'allemand, le danois et le suédois), ouraliennes (par exemple, le finnois et le hongrois) et dravidiennes (par exemple, le tamoul et le téluga et d'autres langues), les dénommés mots composés fermés sont très productifs. Ceci signifie que les locuteurs inventent couramment des mots composés fermés lorsqu'ils utilisent la langue. Tandis que certains mots composés fermés communs trouvent leur place dans des dictionnaires, il n'en est pas de même pour la vaste majorité d'entre eux, et de tels mots composés sont simplement interprétés par le lecteur par décomposition et analyse de ceux-ci sur le moment. Ceci est un obstacle à de nombreux systèmes de traduction automatique statistique traduisant dans ces langues, puisqu'habituellement, ils peuvent seulement produire des mots qui ont été observés dans l'échantillon d'apprentissage. [0003] Les mots composés fermés sont écrits sous la forme de mots uniques sans espaces ni autres limites inter-mots. Ceci n'est généralement pas le cas en anglais, où des composés ouverts sont utilisés, c'est-à-dire, des parties composées sont normalement écrites sous la forme de mots séparés. Un mot composé dans une langue ne correspond pas nécessairement à un mot composé dans une autre langue. Des mots composés fermés en allemand, par exemple, peuvent avoir des traductions en anglais qui sont des mots composés ouverts (par exemple, Regierungskonferenz, intergovernmental conference), d'autres constructions, parfois avec des mots-outils insérés et un réordonnancement (par exemple, Fremdsprachenkenntnisse, knowledge of foreign languages), des mots à trait d'union (par exemple, Kosovo-Konflikt, Kosovo conflict) ou des mots uniques (par exemple, Veilkermord, genocide). Par exemple, 1 Fremdsprachenkenntnisse est un composé fermé formé par concaténation de trois parties : fremd, sprachen et kenntnisse, qui sont tous des mots existants dans la langue allemande (ou peuvent être de légères modifications de mots existants dans certains cas). La dernière partie du composé (kenntnisse dans cet exemple) est désignée ici comme la « tête » du mot composé, puisqu'elle est la partie qui donne au composé sa signification principale. Les autres parties du composé modifient la tête ou, lorsqu'il y a plus de deux parties, peuvent modifier l'une des autres parties. [0004] Les parties de mot composé ont parfois des formes de mot composé spéciales, formées par additions ou troncatures de lettres, par utilisation d'un symbole umlaut, ou par une combinaison de celles-ci, comme dans Regierungskonferenz, où la lettre -s est ajoutée à la première partie, Regierung. Ces formes coïncident parfois avec des formes paradigmatiques, comme dans Veilker qui est la forme plurielle de Volk, mais elles sont parfois des formes uniques, comme dans Regierungs, qui sont seulement utilisées dans des mots composés. [0005] L'utilisation étendue des mots composés les rend problématiques pour de nombreuses applications comprenant la traduction automatique. Les techniques de traduction automatique statistique (SMT) basées sur des fragments, par exemple, reposent sur des bi-fragments qui sont souvent recueillis automatiquement à partir de grandes collections de textes traduits auparavant (« corpus parallèles bilingues »), et stockés dans une base de données. Une partie de chaque bi-fragment est prise à partir du texte source et l'autre à partir du texte cible. Ces bi-fragments emploient des expressions multimots ainsi que des mots uniques. Lorsqu'un nouveau segment de texte est donné à traduire, le système de traduction recherche dans la base de données pour extraire tous les bi-fragments pertinents, c'est-à-dire, des éléments dans la base de données dont un fragment en langue source correspond à une certaine partie de la nouvelle entrée. Un sous-ensemble de ces bi-fragments correspondants est ensuite recherché, de telle sorte que chaque mot du texte d'entrée est couvert par exactement un bi-fragment dans le sous-ensemble, et de telle sorte que la 2 combinaison des fragments en langue cible produit une traduction cohérente. Un modèle probabiliste est souvent utilisé pour trouver un alignement optimal entre la phrase source et sa traduction. [0006] La plupart des recherches sur la traduction de mots composés dans le domaine de la SMT se sont concentrées sur la traduction d'une langue de mots composés dans une langue non de mots composés, typiquement en anglais. Là, les mots composés sur le côté source d'un corpus d'apprentissage sont divisés en leurs composants et un modèle de traduction est appris sur le corpus d'apprentissage divisé. Au moment de la traduction, les mots composés dans le segment source à traduire sont divisés à l'aide du même procédé adopté pour diviser les mots composés dans le corpus d'apprentissage, puis traduits à l'aide du modèle appris de la source décomposée dans la cible. [0007] La traduction dans une langue à composition est plus problématique. Pour la traduction dans une langue à composition, le processus consiste généralement à diviser des mots composés sur le côté cible (langue à composition) du corpus d'apprentissage et à apprendre un modèle de traduction issu de ce corpus d'apprentissage divisé d'une source (par exemple, l'anglais) à une cible décomposée (par exemple, l'allemand décomposé). Au moment de la traduction, le texte source est traduit à l'aide du modèle appris du texte source en un texte cible décomposé. Une étape de fusion post-traitement est ensuite utilisée pour reconstruire les mots composés. [0008] L'étape de fusion pose différents problèmes. Ceux-ci comprennent l'identification des mots qui devraient être fusionnés en mots composés et le choix de la forme correcte des parties composées. Les systèmes existants utilisés pour la traduction dans une langue à composition produisent généralement moins de mots composés que ceux qui apparaissent dans les textes normaux. Alors que ceci peut être dû en partie à l'absence des mots composés désirés issus des données d'apprentissage, il existe d'autres raisons pour expliquer la disparité. En particulier, les parties composées d'un mot composé peuvent ne pas être alignées correctement (les systèmes de fusion fonctionnent sur des mots qui sont agencés consécutivement). En 3 conséquence, même lorsqu'un mot composé est le choix de mot idiomatique dans la traduction, un système de traduction automatique peut, à la place, produire des mots séparés, un génitif ou d'autres constructions alternatives, ou seulement traduire une partie du mot composé. La demande de brevet américain numéro de série 12/690,504, déposée le 20 janvier 2011, intitulée SYSTEME DE TRADUCTION AUTOMATIQUE STATISTIQUE ET PROCEDE DE TRADUCTION DE TEXTE DANS DES LANGUES QUI PRODUISENT DES MOTS COMPOSES FERMES, par Sara Stymne, (Stymne 2011) traite le problème consistant à favoriser les mots composés dans les traductions en supposant que les composants qui doivent être fusionnés en un mot composé sont susceptibles d'apparaître consécutivement dans la phrase et dans le bon ordre. De tels agencements sont favorisés par utilisation d'étiquettes de nature grammaticale (POS) spécifiques pour des mots qui sont candidats pour la formation de mots composés. [0009] Un problème restant est de décider du moment auquel réaliser l'étape de fusion, étant donné la rareté des données d'apprentissage. De faux mots composés, c'est-à-dire, des mots composés qu'un lecteur n'a jamais vus ni s'attendrait à voir former, peuvent être gênants pour le lecteur. De la même manière, des mots composés qui sont divisés de manière erronée, c'est-à-dire, que le lecteur s'attendrait à voir fusionner, sont également indésirables. [0010] Dans Stymne 2011, des modificateurs de composé sont marqués avec des étiquettes POS spéciales basées sur la POS de la tête. Si un mot ayant une étiquette POS de modificateur est suivi par l'étiquette POS de tête correspondante, alors les deux unités lexicales sont fusionnées. Dans un autre procédé, des listes de mots composés connus et de modificateurs de composé sont conservées. Pour n'importe quelle paire d'unités lexicales consécutives, si la première est dans la liste de modificateurs connus et que la combinaison des deux est dans la liste de composés fermés, alors les deux unités lexicales sont fusionnées (voir, Maja Popovie, Daniel Stein et Hermann Ney, « Statistical machine translation of German compound words (Traduction automatique statistique de mots composés en allemand) », dans Proc. de FinTAL - 5ème Conférence 4 internationale sur le traitement de la langue naturelle, pp. 616-624, Turku, Finlande, Springer Verlag, LNCS (2006), ci-après « Popovie »). Le procédé de Popovie, cependant, tend à surproduire des mots composés. [0011] Le mode de réalisation à titre d'exemple porte sur un système et un procédé améliorés pour prendre des décisions sur la fusion d'unités lexicales consécutives en un mot composé. [0012] Conformément à un aspect, le mode de réalisation à titre d'exemple porte sur un procédé de prise de décisions de fusion pour une traduction. Le procédé consiste à fournir une chaîne de texte traduite dans une langue cible d'une chaîne de texte source dans une langue source. Le procédé consiste en outre à émettre des décisions sur la fusion de paires de mots dans la chaîne de texte traduite à l'aide d'un système de fusion qui comprend au moins l'un parmi un ensemble d'heuristiques stockées et un modèle de fusion. Dans le cas d'heuristiques, celles-ci peuvent comprendre au moins une première heuristique au moyen de laquelle deux mots consécutifs dans la chaîne sont pris en compte pour une fusion si leur fréquence observée f1 en tant que mot composé fermé (par exemple, dans un corpus d'apprentissage) est supérieure à une fréquence observée f2 des deux mots consécutifs en tant que bigramme (dans le corpus d'apprentissage). Il peut également être exigé que le premier mot des deux mots consécutifs soit reconnu en tant que modificateur de composé. Dans le cas d'un modèle de fusion, celui-ci peut être un modèle de fusion qui est appris sur des caractéristiques associées à des paires d'unités lexicales consécutives de chaînes de textes dans un corpus d'apprentissage et des décisions de fusion prédéterminées pour les paires afin de prédire des décisions de fusion pour une nouvelle chaîne de texte traduite. Une traduction dans la langue cible est produite sur la base des décisions de fusion pour la chaîne de texte traduite. [0013] Le système de fusion peut être mis en oeuvre à l'aide d'un processeur d'ordinateur. [0014] Le système de fusion peut comprendre l'ensemble d'heuristiques.5 [0015] Dans la première heuristique, deux mots consécutifs dans la chaîne sont pris en compte pour une fusion si le premier mot des deux mots consécutifs est reconnu en tant que modificateur de composé et si la fréquence observée f1 des deux mots consécutifs en tant que mot composé fermé est supérieure à la fréquence observée f2 des deux mots consécutifs en tant que bigramme. [0016] Lors de l'application de la première heuristique, une liste de modificateurs de composé reconnus peut être accédée, la liste comprenant des modificateurs de composé observés lorsque des mots composés dans un corpus d'apprentissage dans la langue cible ont été divisés à l'aide de règles de division prédéterminées. [0017] L'ensemble d'heuristiques peut comprendre en outre une deuxième heuristique au moyen de laquelle deux mots consécutifs dans la chaîne sont pris en compte pour une fusion sur la base d'étiquettes de nature grammaticale affectées aux deux mots, les étiquettes de nature grammaticale étant sélectionnées à partir d'un ensemble d'étiquettes de nature grammaticale limité, au moins l'une des étiquettes de nature grammaticale limitées étant configurée pour identifier un mot issu de la langue cible comme étant un mot qui fait également partie d'un mot composé fermé connu dans la langue cible. [0018] Les deux mots consécutifs dans la chaîne de texte cible peuvent être fusionnés si au moins l'une des première et deuxième heuristiques prend en compte les deux mots consécutifs pour une fusion. [0019] Le système de fusion peut comprendre le modèle de fusion et le procédé peut consister en outre à extraire des caractéristiques pour des paires de mots consécutifs dans la chaîne cible traduite. [0020] Les caractéristiques peuvent être sélectionnées parmi le groupe constitué de caractéristiques basées sur : a. une forme de mot de surface : mot-1, mot+1, où mot-1 représente un premier mot d'une paire de mots consécutifs dans la chaîne de texte traduite et mot+1 représente un second mot de la paire, positionné après le premier mot ; 6 b. des natures grammaticales : POS-1, POS+1, où POS-1 est une nature grammaticale affectée au mot-1 et POS+1 est une nature grammaticale affectée au mot+1 ; c. un n-gramme de caractères comprenant n caractères à partir de la fin du mot-1 et m caractères à partir du début du mot+1, m + n étant au moins égal à 2 ; d. un n-gramme de caractères comprenant n caractères à partir de la fin du mot-1 et m caractères à partir du début du mot+1, les n grammes de caractères étant normalisés par remplacement des caractères qui comportent des approximations phonétiques, et groupés en groupes ayant une distribution phonétique similaire ; et e. une fréquence, dans un corpus d'apprentissage, d'au moins l'un parmi : un bigramme représenté par mot-1 mot+1, un mot composé fermé issu de mot-1 et mot+1, un mot composé fermé issu de mot-1 et d'un autre mot, et un mot composé fermé issu de mot+1 et d'un autre mot. [0021] Le modèle de fusion peut avoir été appris automatiquement sur un ensemble de paires de chaînes de textes cibles, chaque paire comprenant une première chaîne de texte cible et une seconde chaîne de texte cible, au moins une paire consécutive des mots dans la première chaîne étant identifiés pour être fusionnés afin de former un mot composé fermé. [0022] Au moins certaines des paires de chaînes de textes cibles peuvent avoir été générées artificiellement à l'aide d'une heuristique pour former des mots composés fermés. [0023] Le modèle de fusion peut être un modèle de fusion qui a été appris avec un algorithme d'apprentissage machine d'étiquetage de séquence. [0024] Le procédé peut consister en outre à générer automatiquement des données d'apprentissage pour l'apprentissage du modèle de fusion. [0025] La génération automatique de données d'apprentissage pour l'apprentissage du modèle de fusion peut consister à appliquer un ensemble stocké d'heuristiques de fusion à un texte décomposé dans la langue cible et à extraire des décisions de fusion de celui-ci. 7 [0026] Le modèle de fusion peut calculer un ensemble optimal de décisions de fusion sur toutes les paires de mots dans la chaîne de texte cible. [0027] Chacune des décisions sur une fusion peut comprendre une décision sur le point de savoir si des premier et second mots doivent être ou non fusionnés et, de manière facultative, pour des mots qui doivent être fusionnés, une règle de fusion qui spécifie une modification locale d'au moins l'un des mots à leur limite, la règle de fusion étant sélectionnée parmi un ensemble prédéterminé de règles de fusion. [0028] La fourniture de la chaîne de texte traduite dans la langue cible de la chaîne de texte source dans la langue source peut comprendre la traduction de la chaîne de texte source à l'aide d'un décodeur qui a été entraîné sur un corpus d'apprentissage parallèle comprenant des chaînes de textes en langue source et des chaînes de textes en langue cible décomposées formées par décomposition de mots composés fermés de chaînes de textes en langue cible correspondant aux chaînes de textes en langue source. [0029] Un produit programme d'ordinateur peut comprendre un support d'enregistrement lisible par ordinateur non transitoire qui stocke des instructions pour réaliser le procédé tel que décrit ci-dessus. [0030] Un système de prise de décisions de fusion comprend une mémoire qui stocke des instructions pour réaliser le procédé et un processeur en communication avec la mémoire pour exécuter les instructions. [0031] Selon un autre aspect, un système de traduction comprend un décodeur qui reçoit en tant qu'entrée une chaîne de texte source dans une langue source et produit une chaîne de texte traduite dans une langue cible, sur la base de la chaîne de texte source. Un système de fusion reçoit la chaîne de texte traduite et produit une traduction dans la langue cible sur la base de la chaîne de texte traduite. Le système de fusion est configuré pour émettre des décisions sur la fusion de paires de mots dans la chaîne de texte traduite. Le système de fusion comprend au moins l'une d'un ensemble stocké d'heuristiques comprenant au moins une première heuristique au moyen de laquelle deux mots consécutifs dans la chaîne sont pris en compte 8 pour une fusion si, par exemple, le premier mot des deux mots consécutifs est reconnu en tant que modificateur de composé et si leur fréquence observée fi en tant que mot composé fermé est supérieure à une fréquence observée f2 des deux mots consécutifs en tant que bigramme et un modèle de fusion entraîné sur des caractéristiques associées à des paires d'unités lexicales consécutives de chaînes de textes dans un corpus d'apprentissage et des décisions de fusion prédéterminées pour les paires. [0032] Dans le système, le système de fusion peut comprendre des instructions logicielles stockées en mémoire et un processeur pour exécuter les instructions. [0033] Le système peut comprendre une mémoire qui stocke une liste de composés fermés dans le corpus d'apprentissage et leurs fréquences associées fi et f2 [0034] Dans le système, les chaînes de textes traduites produites par le décodeur peuvent avoir moins de mots composés fermés, en moyenne, que les traductions correspondantes produites par le système de fusion. [0035] Selon un autre aspect, un procédé de traduction consiste à recevoir une chaîne de texte source dans une langue source et, à l'aide d'un décodeur qui a été entraîné avec des chaînes de textes décomposées dans une langue cible, à traduire la chaîne de texte source en une chaîne de texte traduite dans la langue cible. Le procédé consiste en outre à extraire des caractéristiques pour des paires de mots dans la chaîne de texte traduite et à produire une traduction sur la base de la chaîne de texte traduite dans laquelle des décisions de fusion pour les paires de mots dans la chaîne de texte traduite sont basées sur les caractéristiques extraites, à l'aide d'un modèle de fusion entraîné avec un algorithme d'apprentissage de séquence pour prédire des décisions de fusion, sur la base de caractéristiques extraites, pour des paires de mots dans la chaîne de texte traduite. [0036] La FIGURE 1 est un schéma fonctionnel d'un système de traduction automatique dans son environnement d'exploitation, conformément à un aspect du mode de réalisation à titre d'exemple ; 9 [0037] La FIGURE 2 est un organigramme qui illustre un procédé à titre d'exemple de traduction automatique, conformément à un autre aspect du mode de réalisation à titre d'exemple ; [0038] La FIGURE 3 illustre un procédé de génération de données d'apprentissage et d'apprentissage du système de la FIGURE 1 ; [0039] La FIGURE 4 illustre graphiquement la génération de données d'apprentissage pour le modèle de fusion de la FIGURE 1 ; [0040] La FIGURE 5 illustre des groupes de caractéristiques à titre d'exemple qui peuvent être utilisés pour une langue à composition fermée, telle que le suédois pour normaliser des consonnes en suédois (notation Perl) ; [0041] Les FIGURES 6-10 illustrent des procédés à titre d'exemple pour combiner les sorties de deux procédés de fusion ou plus afin de générer une décision sur le point de savoir s'il faut ou non fusionner des paires de mots cibles lors de la formation d'une traduction qui peut être utilisée dans le procédé de la FIGURE 2 ; [0042] La FIGURE 11 illustre des résultats, sous la forme d'un diagramme de Venn, d'une évaluation de différentes heuristiques sur des fichiers de validation provenant de trois corpus. [0043] Des aspects du mode de réalisation à titre d'exemple portent sur un système et un procédé de traduction automatique d'une langue source dans une langue cible qui utilisent des mots composés fermés. Etant donné une nouvelle phrase source à traduire, le système de traduction produit une traduction dans laquelle il peut y avoir des composants de mots composés divisés (qu'un lecteur s'attendrait à voir fusionnés). Une étape de fusion de composés permet au système de traduction automatique de générer des mots composés dans la sortie. Deux procédés de fusion, qui peuvent être utilisés séparément ou en combinaison, sont décrits dans la présente demande. Dans le premier, un procédé à base d'heuristiques est utilisé pour fusionner des composants. Dans le second, un procédé basé sur l'apprentissage machine est utilisé. Les données d'apprentissage pour le procédé d'apprentissage machine comprennent des décisions concernant le point de savoir si des paires de mots 10 d'une phrase cible devraient être ou non fusionnées pour former des mots composés fermés et le système de traduction est entraîné sur ces données d'apprentissage. Ce procédé a une précision similaire au procédé à base d'heuristiques, peut générer moins de faux composés plus gênants pour le lecteur que des composés divisés de manière erronée, et peut fonctionner sans ressources linguistiques de base. [0044] Le procédé à titre d'exemple peut être particulièrement utile dans des langues produisant des mots composés fermés puisqu'il permet à des composés fermés qui n'ont jamais été vus dans les données d'apprentissage d'être traités correctement, une ou plusieurs de leurs parties constituantes ayant été observées, mais dans un composé fermé différent. [0045] Le terme « bi-fragment », tel qu'utilisé présentement, se rapporte à une paire langue source-langue cible de « fragments » ou de « fragments de texte » qui sont des traductions mutuelles l'une de l'autre au moins dans la direction source-cible. Chaque fragment dans un bi-fragment peut être un mot unique ou plusieurs mots. Les bi-fragments peuvent également contenir des espaces, chaque espace correspondant à un ou plusieurs mots non spécifiés (voir, par exemple, la demande publiée mentionnée ci-dessus n°s 2007/0265825 et 2005/0137854, incorporée par référence). Dans la demande à titre d'exemple, au moins certains des bi-fragments contiennent des parties composées sur le côté cible. Une « partie composée », tel qu'utilisé présentement, est un mot qui, lorsqu'il est combiné avec au moins une autre partie composée et une application de n'importe quelle règle de composition spécifiée, forme un mot composé fermé. [0046] Un « mot composé fermé » (ou simplement, un « composé fermé ») se rapporte à un mot formé à partir de deux parties composées ou plus qui sont assemblées sans espace blanc entre les parties composées (de manière facultative avec un trait d'union « - »), c'est-à-dire, excluant les mots composés ouverts. Des exemples de mots composés fermés comprennent une concaténation de deux mots mati et mot2 sous la forme motl mot2, une coupure de mot : motl-mot2 et des formes plus complexes où une ou plusieurs 11 lettres sont ajoutées ou enlevées à la fin du mot/, et/ou au début du mot2 avant concaténation, tel que motl±xmot2, où ±x représente une ou plusieurs lettres qui est/sont ajoutées ou enlevées. [0047] Un « n gramme » est une séquence consécutive de n mots (ou, plus généralement, d'unités lexicales), ainsi, par exemple, le terme « bigramme » se rapporte à une séquence d'exactement deux mots ou autres unités lexicales. [0048] Dans le procédé à titre d'exemple, dans une traduction, seules les unités lexicales positionnées de manière consécutive (par exemple, des mots) d'une chaîne de texte en langue cible, telle qu'une phrase, sont considérées comme candidates pour une fusion. On entend par « consécutive » le fait qu'il n'existe pas de mots ou d'autres unités lexicales entre les deux mots en question. Différents procédés peuvent être utilisés pour favoriser un bon positionnement relatif des composants de traductions, tels que le procédé de Stymne 2011. Pour toutes les paires d'unités lexicales consécutives dans une telle traduction, le procédé à titre d'exemple décide de les combiner ou non. Selon un aspect du mode de réalisation à titre d'exemple, la décision de fusion est basée sur une heuristique. Selon un autre aspect du mode de réalisation à titre d'exemple, la décision de fusion est formulée en tant que problème d'étiquetage de séquence approprié pour une approche d'apprentissage machine. Des combinaisons des deux approches sont également envisagées. En fonction de la langue et des choix de prétraitement, le procédé peut également décider d'appliquer ou non des transformations de limite, telles que l'introduction d'un « s » entre des composants qui sont combinés. [0049] La FIGURE 1 est un schéma fonctionnel illustrant un appareil informatique 1 à titre d'exemple qui héberge un système automatisé de traduction en langue naturelle 10 pour réaliser une traduction automatique statistique (SMT). En particulier, le système 10 peut être utilisé pour réaliser un procédé tel que représenté dans les FIGURES 2 et 3. Le système de traduction automatique 10 à titre d'exemple est un système SMT basé sur des fragments, bien qu'il soit également envisagé que d'autres procédés de traduction automatique puissent être employés. 12 [0050] Un texte 12 dans une langue naturelle source, telle que l'anglais, qui doit être traduit dans une langue cible, différente de la langue source, est entré dans l'appareil 1 par l'intermédiaire d'un dispositif d'entrée 14. Le texte 12 peut comprendre une ou plusieurs phrases, comme un paragraphe ou un document entier comprenant de multiples paragraphes, chaque phrase étant constituée d'une séquence d'unités lexicales, telles que des mots, les phrases se terminant généralement chacune par une forte coupure, telle qu'un point, un point d'exclamation, un point d'interrogation, ou analogues. [0051] Le système de traduction 10 peut être sous la forme de matériel ou d'une combinaison de matériel et de logiciel. Dans le procédé à titre d'exemple, le système de traduction 10 comprend des instructions logicielles 16 stockées dans la mémoire principale 18 de l'appareil 1, lesquelles sont exécutées par un processeur 20 associé. Les instructions 16 génèrent une traduction 22 du texte d'entrée 12 dans la langue naturelle cible (une langue à composition), telle que l'allemand ou le suédois. Le texte traduit 22 est émis par le système 10 par l'intermédiaire d'un dispositif de sortie 24, qui peut être le même que le dispositif d'entrée 14 ou être séparé de celui-ci. [0052] Un texte en langue source d'entrée 12 peut être directement entré dans le système de traduction en langue naturelle 10 (par exemple, tel qu'avec une personne tapant des phrases dans un ordinateur à l'aide d'un clavier). En variante, un texte d'entrée 12 peut être la sortie d'un autre système, tel que, par exemple, une sortie issue d'un système de reconnaissance de paroles (par exemple, un dispositif d'entrée de paroles couplé à un convertisseur paroles-texte) ou issue d'un système de reconnaissance de caractères optique (OCR) (non représenté). Ou le texte peut être entré à partir d'une base de données ou d'un document word. Dans un mode de réalisation, le texte 12 est entré à partir d'un dispositif client 26, tel qu'un ordinateur portable, un ordinateur de bureau, ou analogue et est communiqué au dispositif d'entrée 14 par l'intermédiaire d'une liaison filaire ou sans fil 28, telle qu'un réseau local ou un réseau étendu, tel qu'Internet. Le texte traduit 22 peut être renvoyé au dispositif client 26 ou à un dispositif externe séparé 29. 13 [0053] Une mémoire de données 30 du système 10 stocke le texte d'entrée 12 durant un traitement. Les éléments suivants peuvent également être stockés dans une mémoire, telle que la mémoire 30, ou dans une mémoire externe accessible au processeur 20 : une bibliothèque bilingue 32 de bi-fragments ; une liste 34 de bigrammes en langue cible et leurs fréquences respectives d'occurrence dans un corpus en langue cible 36 de documents dans la langue cible ; une liste 38 de mots composés fermés en langue cible et leurs fréquences respectives d'occurrence dans le corpus en langue cible 36 de documents, ainsi que d'autres composants du système 10 décrits ci-dessous. [0054] Le corpus en langue cible 36 utilisé pour générer les listes 34, 38, et pour l'apprentissage du système 10, peut être un corpus en langue cible monolingue et/ou une partie d'un corpus parallèle 40, qui contient également un corpus en langue source 42 contenant des documents en langue source. Dans le corpus parallèle 40, des paires de phrases, c'est-à-dire, une phrase respective issue de chacun des deux corpus 42, 36, ont été identifiées comme traductions mutuelles l'une de l'autre (ou au moins une traduction dans la direction source-cible). Un corpus cible décomposé 44, qui peut être utilisé pour l'apprentissage du système 10, peut être stocké dans une mémoire accessible au processeur 20. Le corpus cible décomposé 44 peut être obtenu à partir du corpus cible 36 par division artificielle de mots composés dans les phrases en leurs parties constitutives. Le corpus parallèle 40, la bibliothèque bilingue 32, la liste de bigrammes 34, la liste de composés fermés 38 et le corpus cible décomposé 44 peuvent être stockés chacun dans une mémoire locale, telle qu'une mémoire de données 30 et/ou dans un dispositif de stockage de mémoire à distance 46 qui est relié en communication au système 10 par l'intermédiaire d'une liaison filaire ou sans fil. [0055] Les composants 14, 18, 20, 24, 30 de l'appareil 1 sont reliés en communication par des liaisons filaires ou sans fil, telles qu'un bus de commande de données 48. [0056] Le processeur numérique 20 peut être mis en oeuvre de diverses manières, comme par un processeur à un seul coeur, un processeur à deux 14 coeurs (ou plus généralement par un processeur multicoeur), un processeur numérique et un coprocesseur mathématique coopérant, un contrôleur numérique, ou analogues. Le processeur numérique 20, en plus de commander le fonctionnement de l'ordinateur, exécute les instructions 16 stockées dans la mémoire 18 pour réaliser le procédé exposé sur les FIGURES 2 et 3. La mémoire 18, 30 peut comprendre, par exemple, une mémoire morte (ROM), une mémoire vive (RAM), une mémoire flash ou une combinaison quelconque des mémoires ci-dessus en tant que composant unique ou composants distribués. [0057] Dans le mode de réalisation illustré, le système de traduction automatique 10 comprend différents composants logiciels 18 pour une traduction du texte d'entrée 12. Comme on peut le remarquer, les composants peuvent être séparés ou combinés, et/ou des composants supplémentaires peuvent être fournis. De manière spécifique, durant un apprentissage du système, un composant de décomposition 50 décompose des composés fermés dans le corpus en langue cible 36 et étiquette leurs parties constitutives lors de la formation du corpus cible décomposé 42. Ces mots étiquetés pouvant être composés sont également stockés dans la bibliothèque bilingue 32. Dans le mode de réalisation à titre d'exemple, cette décomposition et cet étiquetage sont réalisés avant la réalisation de traductions et ainsi, le composant 50 n'a pas besoin d'être présent au stade de réalisation de la traduction. Le même composant de décomposition spécifique à une langue source ou un composant de décomposition spécifique à une langue source séparé peut, cependant, être utilisé durant une traduction pour décomposer tout composé fermé dans le texte d'entrée 12 en ses parties constitutives. [0058] Un composant de traduction ou un décodeur 52 extrait des bi- fragments de la bibliothèque 32 pour couvrir des mots/fragments dans le texte source 12. En particulier, en travaillant sur une chaîne de mots contigus dans la langue source, telle qu'une phrase du texte d'entrée 12, le décodeur 52 accède à la bibliothèque 32 pour extraire un ensemble de bi-fragments qui comprennent chacun un fragment d'un ou plusieurs mots dans la langue cible correspondant à un fragment d'un ou plusieurs mots dans la langue source. Le décodeur 52 15 comprend un composant d'établissement de score qui évalue des hypothèses de traduction partielle et/ou complète pour identifier des traductions possibles de la chaîne de textes d'entrée à l'aide d'un sous-ensemble des bi-fragments extraits dans lequel chaque mot de la chaîne source est couvert par un bifragment au plus. Le décodeur 52 à titre d'exemple utilise un modèle probabiliste 54, tel qu'un modèle de traduction statistique log-linéaire utilisant un ensemble de fonctions caractéristiques. Le modèle 54 est utilisé pour identifier des traductions statistiquement possibles et identifier ainsi une sélection et un classement optimaux de fragments cibles, sur la base des bifragments identifiés et des fonctions caractéristiques calculées. Le modèle 54 identifie généralement une chaîne en langue cible 56 ayant une probabilité maximale, c'est-à-dire, une chaîne qui optimise globalement l'ensemble de fonctions caractéristiques. [0059] Le terme « optimisation », et la phraséologie similaire, doit être globalement interprété selon ce que l'homme du métier comprendrait de ces termes. Par exemple, l'optimisation ne doit pas être interprétée comme étant limitée à la valeur optimum globale absolue. Par exemple, l'optimisation d'une fonction peut employer un algorithme itératif qui se termine à un critère d'arrêt avant qu'un maximum ou un minimum absolu ne soit atteint. Il est également envisagé que la valeur maximale ou minimale optimale soit une valeur maximale locale ou une valeur minimale locale. [0060] Dans un mode de réalisation à titre d'exemple, au moins l'une des fonctions caractéristiques utilisées par le modèle 54 est basée sur un ensemble limité d'étiquettes de nature grammaticale (RPOS) de mots pouvant être composés. Par exemple, tel que décrit dans Stymne 2011, un modèle log-linéaire peut être utilisé, dans lequel au moins l'une des fonctions dépend de la présence d'étiquettes RPOS de mots pouvant être composés et, de manière facultative, d'un ensemble de règles de classement, favorisant les classements dans lesquels un ou plusieurs mots pouvant être composés (généralement des noms) sont directement adjacents les uns aux autres dans l'hypothèse cible 16 avec un autre mot pouvant être composé (par exemple, un nom) dans une position de tête. [0061] Un décodeur 52 à titre d'exemple qui peut être utilisé présentement est le décodeur MatraxTM décrit dans Simard, et al., « Translating with noncontiguous phrases (Traduire avec des fragments non contigus) » dans Proc. Conférence sur la technologie et les procédés empiriques sur la langue humaine dans le traitement de la langue naturelle, pp. 755-762, Vancouver, Colombie britannique, Canada (2005)). Une version du décodeur MatraxTM qui est modifiée pour traiter des facteurs sur le côté de sortie permet à un ensemble RPOS d'être utilisé en tant que facteur de sortie, tel que décrit dans Stymne 2011. D'autres décodeurs qui peuvent utiliser des facteurs peuvent être utilisés, tels que ceux décrits dans Koehn, et al., « Moses : open source toolkit for statistical machine translation (Moses : boîte à outils open source pour une traduction machine automatique)», dans Proc. 45ème Assemblée générale annuelle de l'ACL, session de démonstration, pp. 177-180, Prague, République Tchèque (2007). [0062] Dans la bibliothèque bilingue 32, des mots composés fermés peuvent être stockés sous leur forme composée, ainsi que décomposés en leurs parties composées correspondantes. Ainsi, un bi-fragment dans la bibliothèque 32 peut comprendre un fragment en langue cible qui comprend des premier et second mots cibles (ou plus) et une liaison à un mot composé fermé cible correspondant dans la bibliothèque, ainsi que toute règle spécifique pour former le mot composé fermé. Les parties composées peuvent être étiquetées chacune avec une étiquette de nature grammaticale limitée (RPOS) pour indiquer que ce sont des mots pouvant être composés qui sont présents dans au moins un mot composé fermé dans la bibliothèque, tel que décrit, par exemple, dans Stymne 2011 [0063] Ainsi, par exemple, la bibliothèque de bi-fragments 32 pourrait contenir les entrées : <foreign,(fremd,NP)>, <languages, (sprachen, N P)>, 17 <knowledge,(kenntnisse,N)>, et <knowledge of foreign languages,(Fremdsprachenkenntnisse,N)>. [0064] Le mot fremdsprachenkenntnisse peut également être étiqueté pour indiquer qu'il s'agit d'un mot composé formé de (et peut donc être décomposé en) trois parties composées : fremd, sprachen et kenntnisse. Chacune de ces parties a une entrée séparée dans la bibliothèque de bi-fragments et peut être étiquetée avec une étiquette POS limitée (RPOS) qui identifie au moins les deux premières de celles-ci comme mots pouvant être composés. Ces étiquettes RPOS spécifiques peuvent être d'un type parmi deux types, NP (parties composées, autres que des têtes) et N (têtes et tous les autres noms), bien qu'il faille prendre en considération que les étiquettes puissent être de nature probabiliste, par exemple lorsqu'un mot pouvant être composé est trouvé exister sous la forme de plus d'un type. Dans cet exemple, d'autres mots sont étiquetés avec une étiquette X RPOS pour indiquer autre chose que les étiquettes relatives à un composé (par exemple, X représente tout sauf N et NP). Lors de la génération d'un alignement, les étiquettes RPOS sont extraites par le décodeur 50. Par exemple, lorsque le bi-fragment <languages, (sprachen,NP)> est extrait en tant que traduction possible pour une partie d'un texte source en anglais 12 qui comprend le mot « languages », telle que « knowledge of the Gaelic languages », l'étiquette POS limitée « NP » permet au système 10 de considérer sprachen en tant que partie potentielle d'un mot composé fermé et le composant de traduction 52 favorise son positionnement adjacent à (devant) une tête appropriée (étiquetée avec un N). [0065] Pour fournir une telle bibliothèque 32, selon le procédé décrit dans Stymne 2011, un dispositif d'étiquetage de nature grammaticale (POS) peut être exécuté sur le côté cible 36 du corpus 40 pour décomposer seulement les unités lexicales ayant une certaine POS prédéfinie (par exemple, des noms), puis marquer, avec les étiquettes RPOS spéciales, si un composant est une tête ou une autre partie d'un composé. Par exemple, le composé allemand « Fremdsprachenkenntnisse », étiqueté à l'origine en tant que nom (N), pourrait être décomposé et réétiqueté avant un apprentissage comme : fremd (NP), 18 sprachen (NP), kenntnisse (N). Comme cela sera entendu, lorsque les parties composées ne sont pas identiques à leur partie correspondante du composé fermé, elles peuvent être normalisées de manière appropriée. [0066] Dans le modèle de traduction 54, un modèle de langue de n gramme POS utilisant l'ensemble d'étiquettes réduit oriente ensuite naturellement le décodeur 52 vers des traductions avec un bon positionnement relatif de ces composants. La technique ci-dessus suppose que seuls des composés fermés noms sont traités, mais elle pourrait être facilement étendue à d'autres types de composés fermés. En variante, une division peut être tentée indépendamment des POS sur toutes les unités lexicales plus longues qu'un seuil fixe, éliminant le besoin d'un dispositif d'étiquetage POS. [0067] La sortie du décodeur 52 est une chaîne cible « décomposée » 56, qui est l'entrée pour un composant de fusion 58. [0068] Le composant de fusion 58 détermine s'il faut ou non fusionner des mots dans le texte cible traduit 56 pour former des mots composés, à l'aide d'un modèle de fusion 60 entraîné, qui a été entraîné pour prédire des décisions de fusion pour une nouvelle chaîne de texte traduite 56, et/ou d'un ensemble d'heuristiques 62 pour fournir les décisions de fusion, qui peuvent être stockées dans la mémoire 18 et/ou 30. Des données d'apprentissage 68 pour l'apprentissage du modèle de fusion 60 peuvent également être stockées dans la mémoire 30. Les composants 58, 38, 60 et/ou 62, qui forment ensemble un système de fusion 64, sont décrits plus complètement ci-dessous. En bref, le composant de fusion 58 détermine, pour des paires de mots séquentielles dans la traduction, si la paire devrait être ou non fusionnée pour former un mot composé fermé et, dans certains cas, quelles transformations devraient être appliquées dans la fusion, sur la base d'un ensemble de règles de transformation. Le résultat du composant de fusion est la chaîne de texte traduite 22. La chaîne 22 peut être identique à la chaîne de texte 56, si le composant de fusion 58 n'a pas trouvé de mots qui devraient être fusionnés, ou peut comprendre un ou plusieurs mots composés fermés générés par fusion d'unités lexicales séquentielles dans la chaîne 56. 19 [0069] Tel qu'illustré dans la FIGURE 4, une chaîne cible décomposée 56, telle qu'une chaîne T', peut être considérée comme ayant un ensemble de points de séparation SP, chaque SP correspondant à un espace blanc respectif parmi les espaces blancs entre une paire d'unités lexicales séquentielles. Pour une phrase ayant p unités lexicales, il existe ainsi p-1 points de séparation. Pour chacun de ces points de séparation, une décision doit être prise sur la composition. Dans un mode de réalisation (PROCEDE 1), le modèle de fusion 60 est entraîné (par exemple, à l'aide d'un algorithme d'étiquetage de séquence) sur des caractéristiques de point de séparation Fsp qui sont associées à des points de séparation SP dans des séquences de texte cible décomposées T' (telles que des phrases) d'un ensemble d'apprentissage, tel que le corpus cible décomposé 42. Ces phrases d'apprentissage peuvent avoir été produites par décomposition de mots composés dans un texte cible T ou par utilisation d'un modèle de traduction 54 qui génère des traductions d'un texte source S et qui comprend automatiquement de telles décompositions. Les points de séparation SP des phrases d'apprentissage T' ont chacun une étiquette L correspondant à une décision de composition, qui peut être obtenue en regardant le mot composé dans la phrase cible T correspondante à partir du côté cible 36 du corpus parallèle. [0070] Le modèle de fusion 60 est entraîné sur ces caractéristiques Fsp pour émettre une décision de composition (par exemple, s'il faut ou non fusionner deux mots ou plus dans une phrase cible et/ou quel type de règles de fusion à appliquer) pour une séquence de mots formant une nouvelle traduction cible pour laquelle il n'y a pas de données de décision L. Des caractéristiques Fsp à titre d'exemple sont décrites ci-dessous. Un avantage du modèle de fusion 60 est qu'il est apte à fournir des décisions de fusion même lorsque le mot composé fermé résultant n'a pas été observé dans les données d'apprentissage. [0071] Dans un autre mode de réalisation (PROCEDE 2), le composant de fusion 58 applique une ou plusieurs heuristiques (règles) 62 pour déterminer si une paire de mots séquentiels devraient être ou non fusionnés pour former un 20 mot composé fermé. L'ensemble d'une ou plusieurs heuristiques 62 peut être stocké dans la mémoire 30. La décision sur le point de savoir si deux mots sont ou non candidats pour une fusion peut être basée sur des fréquences observées du composé fermé (par exemple, mot1mot2) et du bigramme correspondant (par exemple, mati mot2) dans des données d'apprentissage de langue cible. Ces heuristiques basées sur une fréquence peuvent également être utilisées pour calculer une ou plusieurs des caractéristiques F3 utilisées par le modèle de fusion 60. D'autres procédés de combinaison des deux procédés sont également envisagés. [0072] Le dispositif de sortie 24 peut être en communication avec un ou plusieurs dispositifs externes 26, 29, tels qu'un dispositif de rendu, tel qu'un ou plusieurs parmi un dispositif d'affichage visuel (tel qu'un moniteur doté d'un écran), un dispositif d'impression (tel qu'une imprimante) et un dispositif d'émission audible (tel que, par exemple, un haut-parleur audio). Des chaînes traduites de texte et le texte entier, une fois traduit, peuvent être stockés dans une mémoire volatile ou non volatile 30. [0073] Le système 10 peut être instancié dans un ou plusieurs ordinateurs à usage spécifique ou à usages multiples, tels qu'un ordinateur personnel, un ordinateur de serveur, un assistant numérique personnel (PDA) ou un dispositif informatique dédié. [0074] La FIGURE 2 illustre un procédé de traduction à titre d'exemple (Inférence), qui peut être précédé par une phase d'apprentissage, tel qu'illustré dans la FIGURE 3, décrite ci-dessous, qui peut être mise en oeuvre par le système de la FIGURE 1. Le procédé de la FIGURE 2 suppose la création et le stockage d'une bibliothèque 32 de bi-fragments accessible. Dans un mode de réalisation à titre d'exemple, des étiquettes RPOS sont déjà associées à des mots sur le côté cible de tous les bi-fragments /des bi-fragments pertinents dans la bibliothèque 32. [0075] En S102, un système de fusion 64 entraîné est prévu pour fusionner des mots afin de former des mots composés. 21 [0076] En S104, un texte source 12 à traduire est entré et stocké en mémoire. Le texte source 12 comprend une ou plusieurs séquences S (par exemple, des phrases) d'unités lexicales (par exemple, des mots). [0077] En S106, le texte d'entrée 12 peut être prétraité. Cette étape peut comprendre la segmentation en unités lexicales de la séquence S d'entrée pour générer une séquence d'unités lexicales. Dans certains modes de réalisation, des étiquettes sont associées aux unités lexicales, telles que des étiquettes POS. [0078] En S108, un ensemble de bi-fragments est extrait de la bibliothèque 32 de bi-fragments, chaque bi-fragment couvrant au moins l'une des unités lexicales dans la séquence S du texte source. Des unités lexicales qui sont inconnues dans la bibliothèque de bi-fragments, telles que des mots, des chiffres et des unités inconnus, peuvent être remplacées par des signets, qui sont remplacés après traduction par les mots, les chiffres et les unités correspondants issus du texte source. [0079] En S112, un sous-ensemble des bi-fragments extraits est sélectionné pour former une chaîne de texte traduite 56. Cette étape peut comprendre les sous-étapes consistant à construire une hypothèse à l'aide d'un sous-ensemble des bi-fragments extraits (S112), à établir le score de l'hypothèse avec une fonction d'établissement de score (modèle 54), qui favorise un positionnement consécutif de mots pouvant être composés (S114), et à émettre l'hypothèse optimale (S116). Il s'agit de la séquence 56, qui fournit le score ayant la plus haute probabilité parmi celles testées avec le modèle 54. Un alignement qui représente quels mots de la traduction sont alignés avec quels mots dans la source, sur la base du sous-ensemble de bi-fragments utilisé dans l'hypothèse optimale, peut également être prévu. [0080] En S118, une fusion est appliquée pour construire la traduction finale avec des composés fermés. En particulier, le système de fusion 64 est appliqué à la séquence 56 pour fusionner des mots applicables pouvant être composés, comme déterminé sur la base d'une procédure de fusion. Comme on peut le 22 remarquer, si aucun mot pouvant être composé et pouvant être fusionné n'est trouvé, aucun composé fermé ne sera créé dans cette étape. [0081] En S120, la traduction 22, comprenant des mots composés, si approprié, est émise, par exemple, à la mémoire 30 ou à un dispositif externe 26, 29, tel qu'un dispositif d'affichage, une imprimante, un dispositif de stockage de type mémoire externe, un ordinateur spécifique ou à usages multiples, ou analogues. [0082] Le procédé se termine en S122. [0083] Un procédé d'apprentissage du système 10 sera maintenant décrit en référence à la FIGURE 3. Le procédé d'apprentissage peut comprendre certaines ou l'ensemble des étapes illustrées, en fonction du point de savoir lequel du PROCEDE 1 ou du PROCEDE 2 est adopté en tant que procédé de fusion de traduction. [0084] Le procédé d'apprentissage commence en S200. [0085] En S202, le modèle de traduction 54 peut être entraîné, si ceci n'a pas déjà été réalisé. Ceci peut comprendre les sous-étapes consistant à fournir un corpus parallèle 40 comprenant des phrases sources S et des phrases cibles T correspondantes (S204), à générer un corpus 44 de phrases cibles décomposées To à partir de phrases T (S206), et à entraîner le modèle de traduction sur S et To (S208). [0086] En S210, une liste de bigrammes cibles 34 pour la langue cible sélectionnée est fournie. Ceci peut consister à générer la liste à partir du corpus cible 36 de documents et à stocker la liste dans la mémoire 30. Chaque bigramme (ou des bigrammes au-dessus d'une fréquence donnée) et sa fréquence dans le corpus sont stockés. Ou si une liste 34 a déjà été générée, un accès est fourni à la liste. [0087] En S212, le système de fusion 64 est entraîné. Ceci peut consister à générer une liste de mots composés cibles 38 pour la langue cible sélectionnée si celle-ci n'a pas déjà été fournie (S214). Par exemple, la liste 38 est générée à partir du corpus cible 36 de documents et du corpus décomposé 44 et stockée dans la mémoire 30. Ou si une liste 38 a déjà été générée, un accès est fourni à 23 la liste. Par exemple, selon le procédé de Stymne et Holmqvist 2008, le système 64 (ou un composant d'un dispositif informatique séparé) recherche des mots au-dessus d'un nombre de caractères prédéterminé, pour ne pas prendre les mots courts en considération (le minimum peut être, par exemple, six). Pour chaque mot identifié, le système coupe le mot de manière arbitraire (de multiples coupures de la sorte peuvent être testées) pour former deux éléments (ou plus). Il peut exister une ou plusieurs contraintes fixées sur les éléments générés. Par exemple, il peut exister une contrainte sur la taille des éléments, par exemple, selon laquelle chaque élément a une longueur d'au moins trois caractères. Il peut également exister une contrainte selon laquelle l'étiquette de nature grammaticale du mot composé doit correspondre à l'étiquette du dernier mot dans la division (lorsque la phrase décomposée est analysée par un dispositif d'étiquetage de nature grammaticale). Le système vérifie pour voir si les deux éléments (ou plus) sont ou non observés individuellement dans le corpus 36 au-dessus d'une fréquence seuil. Si tel est le cas, la coupure qui fournit la moyenne maximale (par exemple, moyenne arithmétique) des fréquences des deux éléments dans le corpus est sélectionnée. Ensuite, la fréquence du mot en tant que composé dans le corpus est stockée dans la liste 38 et sa fréquence de bigramme peut être extraite de la liste 34, ou autrement calculée. Par exemple, si le mot composé fremdsprachen apparaît (avec au moins une fréquence seuil) dans le corpus 36, et que les mots fremd et sprachen (ou leurs mots correspondants normalisés) apparaissent également dans le corpus 36, Fremdsprachen et ses deux parties pouvant être composées fremd et sprachen sont inclus dans la liste de mots composés 38, conjointement avec la fréquence fi de fremdsprachen dans le corpus 36 et la fréquence f2 du bigramme « fremd sprachen » dans le corpus 36. Dans un autre procédé, la moyenne géométrique est utilisée plutôt que la moyenne arithmétique. [0088] Les parties pouvant être composées générées dans la décomposition peuvent être stockées séparément dans la liste 38 conjointement avec une étiquette en ce qui concerne le point de savoir si elles sont observées en tant 24 que tête (par exemple, étiquette N) ou en tant que modificateur de composé (par exemple, étiquette NP). Dans certains cas, cette liste 38 de modificateurs de composé reconnus et de têtes reconnues peut être complétée, par exemple, manuellement. [0089] En S216, des règles de fusion (heuristiques) 62 pour la langue cible sélectionnée peuvent être fournies dans la mémoire 30. Une fourniture peut être réalisée pour la sélection d'une ou plusieurs heuristiques parmi un ensemble d'heuristiques disponibles. En variante, ou en outre, en S218, des données d'apprentissage 68 sont fournies ou automatiquement générées pour entraîner le modèle de fusion 60. Les données d'apprentissage 68 comprennent des paires de phrases cibles dans lesquelles des paires de mots dans une phrase T' sont fusionnées dans la phrase T correspondante (FIG. 4). En S220, pour chaque paire T',T, des caractéristiques sont extraites pour les espaces blancs SP dans la phrase T' non fusionnée et des décisions sont extraites à partir de l'observation de quelles paires de mots dans T' sont fusionnées dans T. Le modèle de fusion 60 est entraîné en S222 sur l'ensemble de vecteurs caractéristiques et l'ensemble correspondant de décisions pour un ensemble des phrases d'apprentissage. [0090] Le procédé continue ensuite en S104, FIG. 2. [0091] Dans les cas où des composés fermés sont trouvés en commun à la fois dans la langue source et dans la langue cible, le procédé d'apprentissage peut comprendre en outre des étapes pour traiter des composés fermés dans la langue source (ainsi que ceux sur le côté cible), lesquelles étapes peuvent consister à diviser des composés fermés sur le côté source du corpus d'apprentissage, et à former un modèle de traduction à partir de ce corpus d'apprentissage divisé de la source décomposée dans la langue cible. Au moment de la traduction, des composés fermés dans le segment source à traduire sont divisés à l'aide du même procédé adopté pour diviser des composés fermés dans l'ensemble d'apprentissage et le texte source traduit à l'aide du modèle appris de la source décomposée dans la langue cible qui utilise les étiquettes POS limitées pour fournir un classement qui favorise la 25 génération de composés fermés, comme décrit ci-dessus. Une étape de fusion post-traitement peut être utilisée pour construire les composés fermés par fusion des mots pouvant être composés. [0092] Davantage de détails du système et du procédé seront maintenant décrits. Fusion (S118) [0093] L'étape de fusion S118 (FIG. 2) est conçue pour identifier quels mots devraient être fusionnés en composés fermés, et choisir la forme correcte des parties composées. Avoir un alignement dans lequel les mots pouvant être composés sont placés côte à côte et dans l'ordre correct, comme dans le présent procédé (S116), facilite l'étape de fusion. Deux procédés de fusion sont décrits, l'un est un procédé à base d'heuristiques (PROCEDE 1) et l'autre est un procédé basé sur un apprentissage machine (PROCEDE 2). Comme on peut le remarquer, les séquences 56 ne nécessitent pas toutes que les mots soient fusionnés. En général, cependant, les chaînes de textes traduites 56 produites par le décodeur 52 ont moins de mots composés fermés (c'est-à-dire, plus de bigrammes), en moyenne, que les traductions 22 correspondantes produites par le système de fusion. PROCEDE 1 : fusion à base d'heuristiques [0094] Différentes heuristiques peuvent être utilisées pour décider du moment auquel fusionner deux mots de la phrase cible 56. Par exemple, l'une ou les deux des deux heuristiques (règles) suivantes qui sont désignées comme LIST et POS, peuvent être utilisées pour prendre des décisions sur une fusion : 1. LIST [0095] Sous cette heuristique, deux unités lexicales consécutives dans la chaîne 56 sont fusionnées si la première unité lexicale est reconnue en tant que modificateur de composé, mais seulement si la fréquence observée f1 dans un corpus de documents dans la langue cible des deux unités lexicales en tant que mot composé est supérieure à leur fréquence f2 dans un corpus de documents dans la langue cible en tant que bigramme. Les fréquences f1, f2 peuvent être 26 calculées sur n'importe quel corpus monolingue disponible dans le domaine d'intérêt, tel que le corpus 36, tel que décrit ci-dessus. La première exigence (selon laquelle la première unité lexicale est reconnue en tant que modificateur de composé) peut être omise de cette heuristique dans certains modes de réalisation. [0096] Un modificateur de composé est une partie d'un mot composé autre que la tête. Ainsi, par exemple, fremd est un modificateur de composé dans fremdsprachen. Les modificateurs de composé reconnus utilisés dans l'heuristique LIST peuvent être stockés dans la liste 38. Tel qu'indiqué ci-dessus, la liste 38 peut être créée durant la formation du corpus cible décomposé 44. Ainsi, si un mot composé dans le corpus cible 36 a été divisé durant la décomposition, chacun des mots créés par la division (autre que le dernier mot, la tête) est considéré comme étant un modificateur de composé reconnu dans le corpus 36 et peut être étiqueté en tant que tel (par exemple, avec une étiquette NP dans le cas d'un modificateur de composé qui est généré par division d'un mot composé qui est un nom), et ajouté à la liste 38 de modificateurs de composé reconnus. [0097] Comme exemple de l'application de l'hypothèse LIST, dans le cas de deux mots consécutifs fremd et sprachen dans la chaîne de texte traduite 56, la première étape consiste à déterminer si fremd est ou non un modificateur de composé reconnu d'un mot composé dans le corpus 36, par exemple, en se rapportant à la liste 38. Le mot composé dans lequel il a été observé n'a pas besoin, bien entendu, d'être le même qu'un mot composé créé à partir des deux unités lexicales. Par exemple, fremd peut avoir été observé lors de la division d'un mot composé fremdWl en fremd W1 ou de W2fremdWl en W2 fremd W1, où W1 est une tête du mot composé et W2 est un autre modificateur de composé. Si cette première vérification est satisfaite, alors le procédé continue à la deuxième étape (si, cependant, fremd n'est pas sur la liste 38, les mots fremd et sprachen ne sont plus candidats pour une fusion). Dans la deuxième étape, le système extrait la fréquence f1 du mot composé fremdsprachen créé à partir des deux unités lexicales (et, de manière facultative, tout mot plus long 27 créé à partir de trois ou plus des unités lexicales consécutives). La fréquence de fi peut être exprimée, par exemple, en tant que pourcentage ou rapport de tous les mots (unigrammes) dans le corpus 36. Le système extrait également la fréquence f2 pour les mots fremd et sprachen (ou leurs mots correspondants normalisés). Il s'agit de la fréquence avec laquelle les deux mots apparaissent dans le corpus 36, en tant que bigramme (fremd sprachen) exprimé, par exemple, en tant que pourcentage ou rapport de tous les bigrammes dans le corpus 36. Dans certains cas, f2 peut être égale à 0. Ensuite, si f1 est supérieure à f2, fremd et sprachen sont fusionnés ensemble pour former fremdsprachen. 2. POS [0098] Selon cette heuristique, deux unités lexicales consécutives dans la chaîne 56 sont fusionnées si un modificateur de composé précède séquentiellement une tête de composé. Cette heuristique peut être selon le procédé décrit dans Stymne 2008 et Stymne 2011. [0099] Par exemple, un ou plusieurs mots pouvant être composés consécutifs qui sont des modificateurs de composé (par exemple, du type NP) sont fusionnés avec une tête consécutive (par exemple, du type N) qui satisfait toute règle de fusion spécifique. Tel que dans Stymne, des étiquettes RPOS sont affectées aux mots dans la traduction 56 à partir d'un ensemble d'étiquettes RPOS prédéfini, lesquelles peuvent être basées uniquement sur des noms (par exemple, trois étiquettes RPOS : N, NP et X pour toutes les autres natures grammaticales) ou peuvent également comprendre des étiquettes RPOS spécifiques pour d'autres natures grammaticales qui peuvent être composées dans la langue d'intérêt, telles que des adjectifs et des verbes. Dans ce cas, l'ensemble d'étiquettes RPOS pourrait être (N, NP, V, VP, A, AP, X) où A, AP, V et VP sont les étiquettes pour des adjectifs et des verbes, définies de la même façon que les étiquettes N et NP, c'est-à-dire, deux unités lexicales consécutives avec des étiquettes V et VP respectives sont fusionnées. Par exemple, par application de l'heuristique POS, la chaîne de texte : Europa sollte fremd sprachen ken ntnisse fôrdern pourrait être étiquetée Europa(N) sollte(X) fremd(NP) sprachen(NP) kenntnisse(N) fôrdern(X) à l'aide de 28 2 9823 88 l'ensemble d'étiquettes RPOS (N, NP et X). Puisque kenntnisse (N) est étiqueté (sur la base d'occurrences dans des mots composés dans le corpus d'apprentissage) en tant que tête candidate et est précédé par un ou plusieurs modificateurs de composé candidats sprachen(NP) et fremd(NP), l'heuristique POS pourrait les fusionner pour former fremdsprachenkenntnisse. [00100] Dans certains modes de réalisation, seule l'heuristique LIST est utilisée, tel qu'illustré, par exemple, dans la FIGURE 6. De manière spécifique, en S302, l'heuristique LIST est appliquée à chaque paire de mots dans la chaîne 56, tel que décrit ci-dessus, et en S304, la décision LIST est émise en tant que décision de fusion. Dans un autre mode de réalisation, les heuristiques POS et LIST sont toutes les deux utilisées, puisque ces deux procédés peuvent conduire à des ensembles complémentaires de faux négatifs. Dans le mode de réalisation à titre d'exemple, les deux heuristiques peuvent être combinées comme suit : deux unités lexicales consécutives sont fusionnées si elles seraient combinées par l'une ou l'autre de l'heuristique LIST basée sur une liste et de l'heuristique POS basée sur une POS. Par exemple, tel que représenté sur la FIGURE 7, l'heuristique LIST, telle que décrite ci-dessus, est appliquée (S302). Si ceci indique une fusion (S306), la décision FUSION est émise (S308), sinon, alors l'heuristique POS, telle que décrite ci-dessus, est appliquée (S310). Toute fusion supplémentaire trouvée par le procédé POS est émise (S312) et les résultats combinés conduisent à une liste de fusions (S314). [00101] Dans d'autres modes de réalisation, une heuristique plus simple (REF) peut être utilisée, seule ou en combinaison avec d'autres heuristiques. Par exemple, il peut s'agir d'une heuristique qui réalise une fusion si le composé est trouvé dans la traduction de référence. Celle-ci est similaire à LIST, mais dans cette heuristique, deux unités lexicales consécutives sont fusionnées si leur composé apparaît dans le corpus cible 36, c'est-à-dire, il n'est pas nécessaire que f1 soit supérieure à f2. Cependant, cette heuristique tend elle-même à réaliser également une fusion trop fréquemment. [00102] Dans d'autres modes de réalisation (décrits ci-dessous), le procédé à base d'heuristiques (une ou plusieurs heuristiques) est combiné au procédé 29 d'étiquetage de séquence (PROCEDE 2) pour déterminer des décisions de fusion. PROCEDE 2 : Fusion de composés sur la base de caractéristiques et d'étiquetage de séquence [00103] Dans ce procédé, en S118, une fusion de composés peut être considérée comme étant un problème d'étiquetage de séquence. Le modèle de fusion 60 calcule ainsi un ensemble optimal de décisions de fusion sur toutes les paires de mots (unités lexicales) dans la chaîne de texte cible 56. [00104] Sont inclus dans la phrase 56 des points de séparation SP entre des unités lexicales consécutives. Dans une formulation simple, où des composants ne sont pas normalisés lors d'une division dans la phase de prétraitement (S206), chaque point de séparation reçoit une étiquette binaire codant si les deux unités lexicales devraient être ou non fusionnées. Ainsi, par exemple, dans une séquence contenant n unités lexicales de mot consécutives, n-1 points de séparation peuvent être des étiquettes L données (FIG. 4). [00105] Envisageons, par exemple, de traduire en allemand la phrase en anglais : « Europe should promote the knowledge of foreign languages ». En supposant que le corpus d'apprentissage 42, 36 ne contenait pas d'occurrences de la paire (« knowledge of foreign languages », « fremdsprachenkenntnisse ») mais contenait des occurrences de (« knowledge », « kenntnisse »), (« foreign », « fremd ») et (« languages », « sprachen »), alors le modèle de traduction 54 de l'anglais à l'allemand décomposé devrait être apte à produire : « Europa sollte fremd sprachen kenntnisse fôrdern ». Des points de séparation SP1 , SP2, SP3, SP4 et SP5 peuvent être affectés aux espaces entre les paires de mots séquentielles (FIG. 4). [00106] La fusion de mots pour former des mots composés peut alors être considérée comme une fusion consistant à prendre une série de décisions binaires interdépendantes, une pour chaque paire de mots consécutifs, chacune décidant si l'espace blanc SP1, SP2, SP3, SP4 et SP5 entre les deux mots devrait être supprimé (étiquette « 1 »), par exemple, par élimination de l'espace 30 blanc ou autrement par formation d'un mot composé fermé, ou non (étiquette « 0 »). Dans le cas ci-dessus, les étiquettes correctes L1, L2, L3, L4, L5 pour la phrase devraient être {0,0,1,1,0}, reconstruisant l'allemand correct : Europa soulte fremdsprachenkenntnisse fôrdern. Il peut être noté que les noms en allemand sont écrits en majuscules. Ceci peut être traité comme une autre étape post-traitement de « casse véritable ». [00107] Dans le cas où des composants sont normalisés lors d'une division (par exemple, par ajout ou enlèvement d'une lettre), alors les étiquettes peuvent être autres que binaires, chaque étiquette provenant d'un ensemble décrivant toutes les transformations orthographiques locales possibles pour la langue en question. [00108] Par exemple, en suédois, les transformations qui peuvent se produire à des limites de mot lorsqu'une décision de fusion est prise peuvent être associées à des étiquettes respectives, comme illustré dans le Tableau 1. Tableau 1 : Etiquettes correspondant à des modifications locales des mots composés à la limite de composant ETIQUETTE OPERATEUR 0 aucune fusion 1 concaténation simple (en ce qui concerne le cas binaire ci-dessus) 2 +- 3 + s 4 -a -e 6 a/e 7 a/u 8 a/o 9 e/s 31 où +x signifie ajout de x à la fin du premier mot dans la paire et élimination de l'espace blanc, -x signifie retrait de x de la fin du premier mot dans la paire et élimination de l'espace blanc, et x/y signifie remplacement de x par y à la fin du premier mot dans la paire et élimination de l'espace blanc. [00109] Une concaténation simple indique que l'espace blanc est éliminé dans la fusion. « + - » signifie que l'espace blanc est remplacé par un tiret. Chaque transformation peut ainsi être associée à une éventuelle étiquette dans l'ensemble d'étiquettes. [00110] En variante, un procédé de décision en deux étapes est envisagé, au moyen duquel tout d'abord un étiquetage binaire (1,0) est réalisé pour décider de l'endroit où réaliser une fusion et de l'endroit où ne pas réaliser une fusion, et dans une seconde étape, une décision est prise en ce qui concerne la transformation à appliquer, s'il y en a une, dans les cas où le premier passage a décidé de réaliser une fusion. Ainsi, par exemple, dans le cas suédois ci-dessus, après qu'une décision est prise pour effectuer une fusion, l'une des étiquettes 1-9 est appliquée. Dans ce mode de réalisation, l'algorithme d'étiquetage de séquence peut simplement identifier la décision binaire et un composant entraîné séparément peut ensuite déterminer la règle applicable (par exemple, de 1 à 9) pour former le mot composé fermé. [00111] L'étiquetage L de la traduction 56 est basé sur des caractéristiques associées aux points de séparation SP. Chaque point de séparation entre une paire de mots est représenté par un ensemble de caractéristiques. Les caractéristiques affectées peuvent être sélectionnées parmi un ensemble prédéterminé de caractéristiques, ou représentées, par exemple, en tant que vecteur dans lequel chaque caractéristique se voit affecter une valeur correspondant à une valeur parmi un ensemble fini de valeurs possibles. Le choix optimal de caractéristiques dans l'ensemble de caractéristiques peut être développé par test empirique. Certaines de ces caractéristiques peuvent être basées sur des natures grammaticales, celles-ci peuvent comprendre des 32 étiquettes de nature grammaticale POS classiques prises à partir d'un ensemble fini, tel que (nom, pronom, verbe, adjectif, adverbe, préposition, conjonctions, déterminant...), ou de l'ensemble RPOS limité décrit ci-dessus (par exemple, N, NP, X). [00112] Un ensemble à titre d'exemple de caractéristiques à partir duquel des caractéristiques F3 sont affectées à chaque espace blanc pourrait comprendre une ou plusieurs (ou l'ensemble) des caractéristiques suivantes, ci-dessous. Ici, -1 se rapporte au mot avant le point de fusion, et +1 au mot après. Des exemples des valeurs caractéristiques (Fsp1 ) sont donnés en gras pour un espace blanc SP1 d'exemple : 1. mots de surface : mot-1, mot+1 (Europa, sollte) 2. nature grammaticale : POS-1, POS+1 (Proper, Verb ou X,X) 3. des n-grammes de caractères autour du point de fusion, chaque n- gramme de caractères comprenant n caractères à partir de la fin du mot-1 et m caractères à partir du début du mot+1, au moins l'un parmi m et n étant au moins égal à 1 ou au moins égal à 2, par exemple, n+m étant au moins égal à 2 ou au moins égal à 3, par exemple : a. suffixe de 3 caractères de mot-1 (opa) b. préfixe de 3 caractères de mot+1 (sol) c. combinaisons croisant les points de fusion : 1+3 (a+sol), 3+1(opa+s), 3+3 caractères (opa+sol) 4. en ce qui concerne les n-grammes de caractères ordinaires dans 3., mais utilisant des n-grammes de caractères normalisés autour du point de fusion, où des caractères sont remplacés par des approximations phonétiques, et groupés en groupes ayant une distribution phonétique similaire. Des transformations à titre d'exemple de ce type sont représentées dans la FIGURE 5 où un crochet implique n'importe lequel des caractères dans celui-ci. Ceci peut être appliqué seulement pour le suédois, bien que l'utilisation de ces caractéristiques avec d'autres langues n'invaliderait pas le procédé, puisque durant l'apprentissage, le système apprend automatiquement les meilleures caractéristiques pour prendre les décisions) (par exemple, si Europa était 33 Europâ, ceci serait normalisé en Europa dans sa forme normalisée dans le Tableau 5, avant de calculer les valeurs caractéristiques pour 3.) 5. des fréquences issues du corpus d'apprentissage, comprenant mot-1 et/ou mot+1 par exemple, compartimentées (quantifiées) par le procédé suivant : plancher (1 0( /oglo (freq)) si freq > 1 sinon freq ( le « plancher » est le nombre entier suivant le plus petit, c'est-à-dire, 14,3 est arrondi à 14. L'utilisation d'un logarithme multiplié par 10 fournit une plage appropriée, bien que d'autres façons pour compartimenter les fréquences puissent être utilisées), par exemple : a. 2-gramme, mot-1,mot+1 (fréquence du bigramme Europa sollte dans le corpus 36) b composé résultant de la fusion mot-1,mot+1 (fréquence de Europasollte dans le corpus 36) c. mot-1 en tant que préfixe véritable de mots dans le corpus, par exemple, ayant une présence seuil dans le corpus d'apprentissage en combinaison avec un ou plusieurs autres mots connus dans le corpus d'apprentissage (fréquence de EuropaW dans le corpus 36, où W représente n'importe quel mot) d. mot+1 en tant que suffixe véritable de mots dans le corpus (fréquence de Wsollte dans le corpus 36, où W représente n'importe quel mot) 6. des comparaisons de fréquences de deux fréquences différentes freq1 et freq2 dans le corpus d'apprentissage. Ceci peut être réalisé à l'aide des catégories suivantes : freq1 < freq2, freq1=freq2, freq1 > freq2, les deux fréquences 0 où chaque comparaison de fréquences peut être codée à l'aide de quatre bits distincts dans le vecteur caractéristique binaire freq1 et freq2 peuvent être sélectionnées parmi les éléments suivants : 34 a. mot-1,mot+1 en tant que 2 gramme par rapport à un composé (dans l'hypothèse où Europa sollte est plus fréquent dans le corpus 36 que Europasollte, alors freq1> freq2, c'est-à-dire, sa valeur caractéristique est (0,0,1,0) b. mot-1 en tant que préfixe véritable par rapport à un mot unique (dans l'hypothèse où Europa est plus fréquent dans le corpus 36 que EuropaW, alors freq1> freq2, c'est-à-dire, sa valeur caractéristique est 1) c. mot+1 en tant que suffixe véritable par rapport à un mot unique (dans l'hypothèse où sollte est aussi fréquent (dans une variation prédéterminée) dans le corpus 36 que Wsollte, alors freq1=freq2, c'est-à-dire, sa valeur caractéristique est (0,0,1,0). [0113] Au moins l'une et généralement une pluralité de ces caractéristiques (ou des caractéristiques sélectionnées parmi celles-ci) et des étiquettes de décision L connues (par exemple, sélectionnées à partir de 0,1 ou des étiquettes 0-9) sont utilisées dans l'apprentissage (S218, FIG. 3) pour l'apprentissage du modèle de fusion 60. Chaque caractéristique peut être exprimée sous forme binaire et l'ensemble de caractéristiques peut être exprimé en tant que vecteur binaire (chaque caractéristique peut ainsi occuper de multiples éléments du vecteur, en particulier dans le cas de fréquences compartimentées). Une forme compressée du vecteur peut être utilisée, où seulement les valeurs « 1 » dans le vecteur sont stockées. Le modèle entraîné sur ces vecteurs et ces décisions L est ensuite apte à produire une étiquette L (décision sur une fusion), par exemple, à l'aide d'étiquettes provenant du même ensemble utilisé dans l'apprentissage, pour chaque espace blanc SP (c'est-à-dire, une paire de mots consécutifs) d'une nouvelle traduction 56 (où au moins l'une ou l'ensemble des étiquettes de décision L sont inconnues), sur la base des caractéristiques Fsp pertinentes. [0114] Tandis qu'en principe chaque décision de fusion L pourrait être traitée indépendamment, dans le mode de réalisation à titre d'exemple, une décision prise à un point influence des décisions de fusion dans des points de séparation 35 voisins. Pour cette raison, au lieu d'un simple problème de classification (binaire ou n-aire), une formulation d'étiquetage de séquence est employée. Un algorithme d'étiquetage de séquence approprié pour réaliser le procédé à titre d'exemple peut être sélectionné parmi une diversité d'algorithmes, comprenant : les modèles de Markov cachés (HMM) (voir, par exemple, Lawrence R. Rabiner, « A tutorial on hidden Markov models and selected applications in speech recognition (Tutoriel sur les modèles de Markov cachés et les applications sélectionnées dans la reconnaissance de parole) », Proc. IEEE, 77(2):257-286, 1989) ; les champs aléatoires conditionnels (CRF) (voir, par exemple, John Lafferty, et al., « Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data (Champs aléatoires conditionnels : modèles probabilistes pour segmenter et étiqueter des données de séquence) », dans Proc. 18ème Conférence internationale sur l'apprentissage machine (ICML2001), Williamstown, MA, 2001) ; les perceptrons structurés (voir, par exemple, Michael Collins, « Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms (Procédés d'apprentissage discriminatoires pour les modèles de Markov cachés : théorie et expériences avec des algorithmes de perceptron) », dans Proc.
2002 Conférence sur les procédés empiriques dans le traitement de la langue naturelle (EMNLP02), Philadelphie, PA, 2002) ; les machines de vecteur de support structurées (SVM) (voir, par exemple, Loannis Tsochantaridis, et al., « Large margin Methods for Structured and Interdependent Output Variables (Procédés à marge importante pour variables de sortie structurées et interdépendantes) », J. Machine Learning Research, 6, 2005) ; et les réseaux de Markov à maximum de marge (voir, par exemple, Ben Taskar, et al., « MaxMargin Markov Networks (Réseaux de Markov à maximum de marge) », dans Proc. 17ème Conférence sur les systèmes de traitement d'informations neuronales (NIPS2003), Vancouver, Canada, 2003), et autres. [0115] Tous les procédés ci-dessus adoptent une phase initiale d'estimation de paramètres, à la fin de laquelle tous les paramètres de modèle sont gelés, et 36 le modèle appris 60 peut être utilisé dans des opérations pour réaliser une inférence. [0116] Par exemple, l'utilisation de champs aléatoires conditionnels (CRF) est décrite ci-dessous. Ce procédé largement accepté a de bonnes capacités d'adaptabilité et est approprié pour être utilisé en présence de caractéristiques fortement redondantes et se chevauchant. [0117] La décision de fusion utilisant le PROCEDE 2 peut ainsi se poursuivre, tel que représenté dans la FIGURE 8. En S400, pour la séquence 56, le vecteur caractéristique pour chaque paire de mots séquentiels est calculé par le composant de fusion 58. En S402, l'ensemble de ces vecteurs, sous la forme d'une séquence, sont entrés dans le modèle de fusion 60 entraîné. Le modèle de fusion entraîné est ainsi appliqué à la phrase 56 en entier. Le modèle 60 calcule un ensemble de décisions de fusion, une décision pour chaque paire de mots séquentielle, pour la phrase 56. En S404, le résultat du modèle de fusion fournit toutes les étiquettes de fusion L (décisions MODEL). [0118] Un avantage du PROCEDE 2 est qu'il peut être utilisé lorsqu'aucune nature grammaticale n'est disponible pour la traduction cible 56. Dans ce cas, d'autres caractéristiques autres que des natures grammaticales sont utilisées en tant que caractéristiques. Combinaison de procédés à base d'heuristiques et de procédé à base de séquences [0119] Comme on peut le remarquer, les procédés à base d'heuristiques et à base de séquences peuvent être combinés lors de la prise de décisions de fusion, par exemple, par fusion lorsque l'un quelconque des procédés décide de réaliser une fusion, ou seulement sous certaines conditions. Par exemple, une décision de fusion pourrait être prise si LIST OU (à la fois POS et MODEL) réaliseraient une fusion. [0120] Par exemple, la FIGURE 10 représente un procédé de combinaison à titre d'exemple. Ici, chacune des heuristiques LIST et POS est appliquée, tel que discuté ci-dessus (S502, S506) ainsi que dans le modèle de fusion (S510).
37 Leurs sorties S504, S508, S512 sont combinées pour produire les décisions de fusion finales S514. [0121] La FIGURE 11 représente un autre procédé de combinaison à titre d'exemple. Dans ce procédé, le procédé à base d'heuristiques (PROCEDE 1) est appliqué en premier et n'importe quels mots que le PROCEDE 1 décide de fusionner sont préfusionnés dans l'entrée dans le modèle de fusion 60. Par exemple, l'une ou les deux des heuristiques POS et LIST sont appliquées (S602, S604), tel que décrit ci-dessus, et leurs sorties de décision LIST et/ou POS (S606, S608) sont entrées dans le modèle de fusion à S610 en tant que décisions de fusion préprises. Le modèle de fusion 60 prend ensuite des décisions pour les paires de mots restantes, à l'aide de l'approche à base de séquences. Ainsi, par exemple, si POS ou LIST décidait de fusionner fremd et sprachen, dans la traduction 56 d'exemple, alors le modèle de fusion 60 recevrait, en tant qu'entrée, la décision L3 dans la FIG. 4 de fusion. Données d'apprentissage [0122] Les données d'apprentissage 68 utilisées pour une estimation de paramètres (S222) pourraient être générées en S218 par demande à un expert humain d'annoter manuellement un ensemble de phrases cibles où des composés ont été divisés, sélectionnant une étiquette L pour chaque point de fusion possible. Si des caractéristiques sont fortement lexicalisées, cependant, comme dans le cas ci-dessus, un ensemble de données d'apprentissage 68 suffisamment importante est souhaitable pour éviter un surajustement, rendant l'étiquetage manuel irréalisable pour de nombreuses applications. Dans un mode de réalisation, des données d'apprentissage T' sont créées automatiquement à partir du corpus décomposé 42, à l'aide d'un ensemble d'heuristiques de fusion, par exemple, les heuristiques LIST et POS décrites ci-dessus pour le procédé à base d'heuristiques, plus une troisième rendue possible au moment de l'estimation de paramètres par la disponibilité d'une traduction de référence T, à partir du corpus 36 : 38 . deux unités lexicales consécutives sont fusionnées si elles apparaissent combinées l'une avec l'autre dans la liste de mots composés 38, mais seulement si leur fréquence observée f1 (dans le corpus 36) en tant que mot composé est supérieure à leur fréquence f2 en tant que bigramme ; 2. deux unités lexicales consécutives sont fusionnées si leurs étiquettes RPOS indiquent une fusion ; 3. deux unités lexicales consécutives sont fusionnées si les deux unités lexicales sont observées combinées dans la traduction de référence T dans le corpus 36 (éventuellement sous la forme d'une sous-séquence d'un mot plus long). [0123] Un procédé pour générer un ensemble de données d'apprentissage peut consister à appliquer un procédé de prétraitement de division de composé sélectionné sur le côté cible 36 du corpus d'apprentissage parallèle pour le système SMT, afin de générer un corpus décomposé 44. Des points de séparation où une fusion devrait se produire sont ainsi automatiquement identifiés comme étant les emplacements de division. En pratique, cependant, des décisions de fusion sont prises sur la sortie bruyante 56 du système SMT, et non sur les données d'apprentissage pures. Un autre procédé peut ainsi consister à retenir, à partir d'un apprentissage SMT (S202), une grande fraction des données d'apprentissage 42, 44, à l'aide du modèle SMT 54 entraîné pour traduire le côté source des données d'apprentissage 42, puis à étiqueter des points de décision dans les traductions cibles résultantes selon les heuristiques ci-dessus. Ceci peut consister à rendre une grande fraction des données non disponible à l'apprentissage du modèle SMT 54. Une troisième alternative (utilisée dans les exemples ci-dessous) est un mélange de ces procédés. Dans ce procédé, le système SMT est entraîné en S202 sur l'ensemble des données d'apprentissage 42, 44. A l'aide du modèle SMT 54 entraîné, tout le côté source des données d'apprentissage 42 est traduit, puis des points de décision dans les phrases traduites sont étiquetés selon les heuristiques ci-dessus. Les traductions sont ainsi biaisées, puisqu'elles sont généralement d'une qualité supérieure à celle que l'on peut s'attendre à obtenir sur des données non vues.
39 Néanmoins, elles sont davantage similaires à ce qui peut être observé dans des opérations que le côté cible 44 des données d'apprentissage elles-mêmes. [0124] L'ensemble d'heuristiques de fusion utilisées pour générer les données d'apprentissage peuvent être sélectionnées de manière empirique, sur la base du travail qui est le meilleur avec l'ensemble d'apprentissage, ou les mêmes heuristiques peuvent être utilisées, indépendamment de l'ensemble d'apprentissage. [0125] Comme cela sera entendu, différentes combinaisons de procédés peuvent être utilisées pour générer des données d'apprentissage 68. [0126] Le ou les procédés illustrés sur les FIGURES 2, 3 et/ou 6-10 peuvent être mis en oeuvre dans un produit programme d'ordinateur qui peut être exécuté sur un ordinateur. Le produit programme d'ordinateur peut comprendre un support d'enregistrement lisible par ordinateur non transitoire sur lequel un programme de commande est enregistré, tel qu'un disque, un lecteur de disque dur ou analogues. [0127] Le ou les procédés à titre d'exemple peuvent être mis en oeuvre sur un ou plusieurs ordinateurs. [0128] Sans avoir l'intention de limiter la portée du mode de réalisation à titre d'exemple, les exemples suivants illustrent des applications du procédé à titre d'exemple pour différents ensembles de données. Exemples Ensembles de données [0129] Trois ensembles de données ont été utilisés pour tester le procédé. Ces ensembles de données comprennent chacun un corpus parallèle de documents : 1. des documents Europarl anglais-suédois (produits par le Parlement européen) (Europarl suédois), avec le suédois comme langue cible 2. des documents Automobile suédois-anglais (Automobile suédois) avec le suédois comme langue cible 3. des documents Automobile danois-anglais (A/EN-DK) avec le danois comme langue cible 40 [0130] Les statistiques des ensembles de données sont résumées dans le Tableau 2. Pour chaque ensemble de données, un ensemble de 1 000 phrases ont été retenues pour « validation », et 1 000 phrases en tant qu'ensemble « test ». Les données de validation ont été utilisées à la fois pour comparer les heuristiques les unes aux autres et sélectionner des hyper-paramètres pour l'approche à champs aléatoires conditionnels (CRF) basée sur l'apprentissage machine (PROCEDE 2). Tableau 2 : Vue d'ensemble des paramètres expérimentaux Europarl suédois Automobile suédois Automobile danois Division de composés N, V, Adj N, V, Adj N Ensembles d'étiquettes POS POS POS,RPOS RPOS Décodeur Moses Matrax Matrax Phrases d'apprentissage 1 520 549 329 090 168 047 pour SMT Mots d'apprentissage SMT 34 282 247 3 061 282 1 553 382 (cibles) Phrases d'apprentissage 248 808 317 398 164 702 pour CRF Mots d'apprentissage pour 4 908 351 2 973 638 1 438 818 CRF Phrases (mots) 3 000 3 000 163 201 (1 757 238) d'apprentissage supplémentaires pour CRF Heuristiques pour fusion de composé [0131] Des combinaisons alternatives des heuristiques POS, LIST et un procédé à base de référence REF (une heuristique qui réalise une fusion si le composé est trouvé dans la traduction de référence, tel que décrit ci-dessus) ont été évalués sur les trois ensembles de données de validation : Automobile suédois, Europarl suédois et Automobile danois. Deux des heuristiques, POS et LIST, peuvent être appliquées à la sortie au moment de la traduction, soit seules soit combinées. Leurs performances sont représentées dans le Tableau 41 . tp=vrais positifs, c'est-à-dire des paires de mots fusionnés qui sont correctement fusionnés, tn=vrais négatifs, c'est-à-dire des paires de mots qui sont correctement non fusionnés, fp=faux positifs, c'est-à-dire des paires de mots qui sont incorrectement fusionnés, et fn=faux négatifs, c'est-à-dire des paires de mots qui ne sont pas fusionnés, mais qui devraient l'avoir été. Les valeurs correctes sont celles qui auraient dû être observées. Tableau 3 : Vrais et faux positifs et négatifs des données de validation d'heuristiques tp tn fp fn Suédois Automobile Corrects 625 7477 LIST 621 7470 7 4 POS 602 7462 15 23 LIST + POS 625 7459 18 0 Suédois Europarl Corrects 1439 2325 6 LIST 1413 2324 5 11 26 POS 602 2322 19 31 LIST + POS 1433 2322 30 6 6 Danois Automobile Corrects 432 7321 LIST 327 7309 12 10 5 POS 46 7313 8 16 LIST + POS 426 7301 20 6 [0132] Une évaluation des différentes heuristiques sur les fichiers de validation provenant des trois corpus est représentée dans les FIGURES 11-13. Le nombre dans chaque région des diagrammes de Venn indique le nombre de 42 fois où une certaine combinaison d'heuristiques a été mise en oeuvre (c'est-à-dire le nombre de positifs pour cette combinaison). Les deux nombres plus petits dessous indiquent le nombre de vrais et de faux positifs, respectivement. Des régions de diagramme de Venn correspondant à ce qui peut être considéré comme des combinaisons non fiables d'heuristiques ont des chiffres correspondants sur un fond gris. [0133] Ainsi, par exemple, sur le corpus Automobile anglais-suédois représenté sur la FIGURE 11, l'heuristique REF a été mise en oeuvre (a décidé de réaliser une fusion) à 460 occasions ; sur 448 d'entre elles, POS et LIST ont également été mises en oeuvre, et sur 12, LIST a également été mise en oeuvre, mais pas POS. Lorsque les trois ont été mises en oeuvre, les résultats étaient OK (aucun positif incorrect trouvé dans au moins les 100 premiers vérifiés). POS est mise en oeuvre 15 fois sans la mise en oeuvre de LIST et de REF, et sur celles-ci, seulement 4 sont des vrais positifs. Ainsi, il peut être conclu que, pour cet ensemble de données, les cas où POS est mise en oeuvre elle-même, c'est-à-dire sans REF et LIST, ne sont pas utiles pour prendre la décision de fusion. Il peut également être observé que les heuristiques LIST et POS ont des ensembles complémentaires de faux négatifs : lors de la fusion sur le OR des deux heuristiques, le nombre de faux négatifs diminue drastiquement, plus que compensant l'inévitable augmentation de faux positifs. REF n'ajoute pas de bénéfice à la combinaison de LIST et POS dans cet ensemble de données. [0134] Les 100 premières phrases de chaque ensemble de validation ont été revues, recherchant des mots qui devraient être fusionnés, mais n'ont pas été marqués par l'une quelconque des heuristiques (faux négatifs pour les trois heuristiques). En aucun cas de tels mots n'ont été trouvés, par conséquent, cela peut laisser supposer qu'entre elles, les heuristiques peuvent trouver la majorité écrasante de tous les composés à fusionner. Fusion de composé sous la forme d'étiquetage de séquence [0135] Une évaluation a également été réalisée pour identifier la meilleure combinaison des heuristiques disponibles au moment de l'apprentissage (LIST, 43 POS et REF) à utiliser pour créer automatiquement les données d'apprentissage pour le modèle à base de CRF (S218). Les meilleurs résultats sur les données de validation sont obtenus par une combinaison différente d'heuristiques pour les trois ensembles de données, comme on pourrait s'y attendre par la distribution différente d'erreurs sur les FIGURES 11-13. Dans les expériences conduites, le CRF a été entraîné à l'aide, pour chaque ensemble de données, de la combinaison d'heuristiques correspondant à l'omission des parties grises des diagrammes de Venn sur les FIGURES 11-13 qui étaient généralement utilisés. Cette sorte d'optimisation préliminaire consiste à étiqueter à la main une certaine quantité de données. Sur la base de ces expériences, sauter cette optimisation et utiliser simplement REF V (LIST A POS) (la configuration optimale pour le corpus Europarl suédois-anglais) semblent être une alternative raisonnable. [0136] Les données de validation ont également été utilisées pour régler une coupure de fréquence pour des occurrences de caractéristiques (réglées à 3 dans les expériences suivantes) et le paramètre de régularisation dans la fonction objective CRF. Les résultats sont en grande partie insensibles à des variations de ces hyper-paramètres, en particulier au niveau du paramètre de régularisation CRF. [0137] Les résultats de fusion globaux des heuristiques, le meilleur dispositif d'étiquetage de séquence et le dispositif d'étiquetage de séquence sans POS sont représentés dans le Tableau 4.
44 Tableau 4 : Faux positifs et faux négatifs pour différents procédés de fusion de composé sur un devtest et sur des données de test soumises Devtest Test IÊ fn ff fn Auto, Suédois LIST 7 4 11 14 POS 15 23 6 16 LIST V POS 18 0 11 1 CRF (REF V LIST) 8 1 8 8 CRF (sans POS) 8 2 10 9 Europarl, Suédois LIST 11 26 18 23 POS 19 31 16 38 LISTVPOS 30 6 34 1 CRF 9 17 7 32 (REFV(LISTAPOS)) CRF (sans POS) 32 17 30 18 Auto, Danois LIST 12 105 3 97 POS 8 16 8 29 LISTVPOS 20 6 10 5 CRF (REFVLISTVPOS) 10 3 9 14 CRF (sans POS) 3 45 7 15 [0138] Parmi les heuristiques, la combinaison de l'heuristique LIST et de l'heuristique POS fonctionne le mieux dans tous les cas, sauf sur le devtest pour Suédois Auto, où la stratégie LIST seule est la meilleure. Sur les données devtest, le dispositif d'étiquetage de séquence CRF le meilleur est toujours légèrement meilleur que la meilleure heuristique. Sur les données de test cependant, l'heuristique la meilleure est légèrement meilleure que le dispositif d'étiquetage de séquence. Néanmoins, la tendance globale est que le dispositif d'étiquetage de séquence a moins de faux positifs que la meilleure heuristique, 45 ce qui est avantageux puisque des composés fusionnés de manière erronée sont plus gênants pour un lecteur ou un post-éditeur que des composés non fusionnés. [0139] L'approche d'étiquetage de séquence peut également être utilisée en l'absence d'un dispositif d'étiquetage POS, ce qui peut être avantageux si aucun outil de la sorte de qualité appropriée n'est disponible pour la langue cible et le domaine d'intérêt. Pour démontrer la faisabilité d'un tel procédé, un dispositif de fusion de composé à base de CRF a été entraîné sans utiliser de caractéristiques POS, et sans utiliser l'heuristique à base de POS lors de la construction des données d'apprentissage. Par rapport au CRF ayant un accès à des étiquettes POS, sur des données de devtest, la précision se perd sur les données Europarl Suédois et les données Automobile Danois, et est inchangée sur Automobile Suédois. Sur les données de test, les performances se détériorent sur l'ensemble de données Suédois Europarl, mais restent essentiellement inchangées sur les deux corpus Automobile. Par rapport à l'heuristique LIST (la seule alternative raisonnable disponible en l'absence d'un dispositif d'étiquetage POS), les résultats apparaissent quelque peu pires sur Suédois Europarl, essentiellement les mêmes sur Suédois Automobile, et nettement meilleurs sur Danois Automobile. [0140] Les procédés à titre d'exemple pour décider s'il faut ou non fusionner des composés de mot et décider de la façon dont fusionner des composés de mot sont donc soit compétitifs avec les procédés existants, soit supérieurs à ceux-ci. L'heuristique LIST, qui consiste à vérifier si le premier de deux mots consécutifs a été ou non observé dans un corpus en tant que modificateur de composé, et si leur combinaison a été ou non observée en tant que composé, et à fusionner seulement des mots si leur fréquence de corpus en tant que composé est supérieure à leur fréquence en tant que bigramme, s'avère efficace. Les faux négatifs de l'heuristique LIST et de l'heuristique POS basés sur des étiquettes de nature grammaticale s'avèrent complémentaires, et ainsi, une logique OR de ceux-ci s'améliore généralement sur les deux heuristiques réalisées individuellement. Le procédé d'étiquetage de séquence, testé avec un 46 modèle, des champs aléatoires conditionnels, à l'aide d'un ensemble de caractéristiques similaires à ce qui est accessible aux heuristiques, a montré qu'il donne des résultats très compétitifs. [0141] En fonction du choix des caractéristiques, l'approche d'étiquetage de séquence a le potentiel d'être vraiment productive, c'est-à-dire, de former de nouveaux composés d'une manière non limitée. Ceci est le cas avec l'ensemble de caractéristiques expérimenté. L'heuristique LIST n'est pas productive : elle peut seulement former un composé si celui-ci a déjà été observé tel quel dans le corpus 36. L'heuristique à base de POS présente une certaine productivité limitée. Etant donné qu'elle utilise des étiquettes POS spéciales pour des modificateurs de composé, elle peut former un composé à condition que sa tête ait été vue seule ou en tant que tête, et que son ou ses modificateurs aient été vus ailleurs, éventuellement séparément, en tant que modificateur(s) de composés. L'approche d'étiquetage de séquence peut, en principe, décider de fusionner deux mots consécutifs même si aucun n'a déjà été vu avant dans un composé. Une enquête sur les données montre qu'il existe certains nouveaux composés fusionnés par le dispositif d'étiquetage de séquence qui n'ont pas été identifiés avec l'une ou l'autre des heuristiques LIST et POS. Dans les données de test, par exemple, knap+start (button start) et vand+nedsoe nkning (water submersion) ont été trouvés dans Danois Auto, et kvarts sekel (quarter century) bostad(s)+ersâttning (housing grant) dans Suédois Europarl. Ceci confirme que le dispositif d'étiquetage de séquence, à partir de données étiquetées automatiquement sur la base d'heuristiques, peut apprendre à fusionner de nouveaux composés que les heuristiques elles-mêmes ne peuvent pas traiter. [0142] Si les ressources linguistiques pour extraire certaines des caractéristiques, par exemple, un dispositif d'étiquetage POS, ne sont pas disponibles (ou sont disponibles seulement au moment de l'apprentissage mais non dans des opérations), le procédé d'étiquetage de séquence peut toujours être appliqué, bien qu'avec une efficacité légèrement réduite. [0143] Des expériences sur les trois ensembles de données montrent que les heuristiques améliorées et combinées s'effectuent généralement mieux que tout 47 procédé déjà connu, et qu'en plus d'être totalement productive, la version d'étiquetage de séquence est hautement compétitive, tend à générer moins de faux positifs, et peut être utilisée de manière flexible avec des ressources limitées ou non linguistiques. [0144] Enfin, il faut remarquer que le modèle CRF pourrait utiliser un ensemble de caractéristiques différentes de celles expérimentées et qu'un réglage fin de ces caractéristiques pourrait conduire à davantage d'améliorations en termes de performance. 48

Claims (2)

  1. REVENDICATIONS1. Procédé de prise de décisions de fusion pour une traduction consistant à : fournir une chaîne de texte traduite dans une langue cible d'une chaîne de texte source dans une langue source ; à l'aide d'un système de fusion, émettre des décisions sur la fusion de paires de mots dans la chaîne de texte traduite, le système de fusion comprenant au moins l'un parmi : un ensemble d'heuristiques stockées comprenant au moins une première heuristique au moyen de laquelle deux mots consécutifs dans la chaîne sont pris en compte pour une fusion si une fréquence observée fi des deux mots consécutifs en tant que mot composé fermé est supérieure à une fréquence observée f2 des deux mots consécutifs en tant que bigramme, et un modèle de fusion entraîné sur des caractéristiques associées à des paires d'unités lexicales consécutives de chaînes de textes dans un ensemble d'apprentissage et des décisions de fusion prédéterminées pour les paires, afin de prédire des décisions de fusion pour une nouvelle chaîne de texte traduite ; et produire une traduction dans la langue cible sur la base des décisions de fusion pour la chaîne de texte traduite.
  2. 2. Procédé selon la revendication 1, dans lequel, dans la première heuristique, deux mots consécutifs dans la chaîne sont pris en compte pour une fusion si le premier mot des deux mots consécutifs est reconnu en tant que modificateur de composé et si la fréquence observée fi des deux mots consécutifs en tant que mot composé fermé est supérieure à la fréquence observée f2 des deux mots consécutifs en tant que bigramme. 49. Procédé selon la revendication 2, dans lequel, lors de l'application de la première heuristique, une liste de modificateurs de composé reconnus est accédée, la liste comprenant des modificateurs de composé observés lorsque des mots composés dans un corpus d'apprentissage dans la langue cible ont été divisés à l'aide de règles de division prédéterminées. 4. Procédé selon la revendication 1, dans lequel l'ensemble d'heuristiques comprend en outre une seconde heuristique au moyen de laquelle deux mots consécutifs dans la chaîne sont pris en compte pour une fusionnés sur la base d'étiquettes de nature grammaticale affectées aux deux mots, les étiquettes de nature grammaticale étant sélectionnées parmi un ensemble d'étiquettes de nature grammaticale limité, au moins l'une des étiquettes de nature grammaticale limitées étant configurée pour identifier un mot provenant de la langue cible comme étant un mot qui fait également partie d'un mot composé fermé connu dans la langue cible. 5. Procédé selon la revendication 4, dans lequel deux mots consécutifs dans la chaîne de textes cibles sont fusionnés si au moins l'une des première et seconde heuristiques prend en compte la fusion les deux mots consécutifs. 6. Procédé selon la revendication 1, dans lequel le système de fusion comprend le modèle de fusion, le procédé consistant en outre à extraire des caractéristiques pour des paires de mots consécutifs dans la chaîne cible traduite. 7. Procédé selon la revendication 6, dans lequel les caractéristiques sont sélectionnées parmi le groupe constitué de caractéristiques basées sur : a. une forme de mot de surface : mot-1, mot+1, où mot-1 représente un premier mot d'une paire de mots consécutifs dans la chaîne de texte traduite et mot+1 représente un second mot de la paire, positionné après le premier mot ; 50b. des natures grammaticales : POS-1, POS+1, où POS-1 est une nature grammaticale affectée à mot-1 et POS+1 est une nature grammaticale affectée à mot+1 ; c. un n-gramme de caractères comprenant n caractères à partir de la fin du mot-1 et m caractères à partir du début du mot+1, où m + n est au moins égal à 2 ; d. un n-gramme de caractères comprenant n caractères à partir de la fin du mot-1 et m caractères à partir du début du mot+1, où les n-grammes de caractères sont normalisés par remplacement des caractères ayant des approximations phonétiques, et groupés en groupes ayant une distribution phonétique similaire ; et e. une fréquence, dans un corpus d'apprentissage, d'au moins l'un parmi : un bigramme représenté par mot-1 mot+1, un mot composé fermé issu de mot-1 et mot+1, un mot composé fermé issu de mot -1 et d'un autre mot, et un mot composé fermé issu de mot +1 et d'un autre mot. 8. Procédé selon la revendication 7, dans lequel le modèle de fusion a été entraîné automatiquement sur un ensemble de paires de chaînes de textes cibles, chaque paire comprenant une première chaîne de texte cible et une seconde chaîne de texte cible, au moins une paire consécutive des mots dans la première chaîne étant identifiés comme étant à fusionner pour former un mot composé fermé. 9. Système de prise de décisions de fusion comprenant une mémoire qui stocke des instructions pour réaliser le procédé selon l'une quelconque des revendications 1-8 et un processeur en communication avec la mémoire pour exécuter les instructions. 51. Système de traduction comprenant : un décodeur qui reçoit en tant qu'entrée une chaîne de texte source dans une langue source et produit une chaîne de texte traduite dans une langue cible dans une langue cible, sur la base de la chaîne de texte source ; un système de fusion, qui reçoit la chaîne de texte traduite et produit une traduction dans la langue cible sur la base de la chaîne de texte traduite, le système de fusion étant configuré pour émettre des décisions sur la fusion de paires de mots dans la chaîne de texte traduite, le système de fusion comprenant au moins l'un parmi : un ensemble d'heuristiques stockées comprenant au moins une première heuristique au moyen de laquelle deux mots consécutifs dans la chaîne sont pris en compte pour une fusion si la fréquence observée f1 des deux mots consécutifs en tant que mot composé fermé est supérieure à une fréquence observée f2 des deux mots consécutifs en tant que bigramme, et, de manière facultative, si le premier mot des deux mots consécutifs est également reconnu en tant que modificateur de composé, et un modèle de fusion entraîné sur des caractéristiques associées à des paires d'unités lexicales consécutives de chaînes de textes dans un corpus d'apprentissage et des décisions de fusion prédéterminées pour les paires, afin de prédire des décisions de fusion pour une nouvelle chaîne de texte traduite. 52
FR1256842A 2011-07-25 2012-07-16 Systeme et procede pour la generation productive de mots composes dans une traduction automatique statistique Active FR2982388B1 (fr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/189,738 US8781810B2 (en) 2011-07-25 2011-07-25 System and method for productive generation of compound words in statistical machine translation

Publications (2)

Publication Number Publication Date
FR2982388A1 true FR2982388A1 (fr) 2013-05-10
FR2982388B1 FR2982388B1 (fr) 2015-06-05

Family

ID=47597953

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1256842A Active FR2982388B1 (fr) 2011-07-25 2012-07-16 Systeme et procede pour la generation productive de mots composes dans une traduction automatique statistique

Country Status (2)

Country Link
US (1) US8781810B2 (fr)
FR (1) FR2982388B1 (fr)

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9798720B2 (en) 2008-10-24 2017-10-24 Ebay Inc. Hybrid machine translation
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9244902B2 (en) * 2011-10-20 2016-01-26 Zynga, Inc. Localization framework for dynamic text
KR101475284B1 (ko) * 2011-11-29 2014-12-23 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9043198B1 (en) 2012-04-13 2015-05-26 Google Inc. Text suggestion
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US20140025368A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation Fixing Broken Tagged Words
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9460088B1 (en) * 2013-05-31 2016-10-04 Google Inc. Written-domain language modeling with decomposition
WO2014197335A1 (fr) 2013-06-08 2014-12-11 Apple Inc. Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants
EP3937002A1 (fr) 2013-06-09 2022-01-12 Apple Inc. Dispositif, procédé et interface utilisateur graphique permettant la persistance d'une conversation dans un minimum de deux instances d'un assistant numérique
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
KR101482430B1 (ko) * 2013-08-13 2015-01-15 포항공과대학교 산학협력단 전치사 교정 방법 및 이를 수행하는 장치
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
KR20150074345A (ko) * 2013-12-24 2015-07-02 현대자동차주식회사 로컬 기기에서의 리모트 앱 실행 방법
US9881006B2 (en) * 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9569526B2 (en) 2014-02-28 2017-02-14 Ebay Inc. Automatic machine translation using user feedback
US9940658B2 (en) 2014-02-28 2018-04-10 Paypal, Inc. Cross border transaction machine translation
US9530161B2 (en) 2014-02-28 2016-12-27 Ebay Inc. Automatic extraction of multilingual dictionary items from non-parallel, multilingual, semi-structured data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN111291553B (zh) 2014-10-24 2023-11-21 谷歌有限责任公司 具有罕见词处理的神经机器翻译系统
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) * 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9710450B2 (en) 2015-04-10 2017-07-18 International Business Machines Corporation Recombining incorrectly separated tokens in natural language processing
US11010768B2 (en) * 2015-04-30 2021-05-18 Oracle International Corporation Character-based attribute value extraction system
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10678827B2 (en) * 2016-02-26 2020-06-09 Workday, Inc. Systematic mass normalization of international titles
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
JP6709963B2 (ja) * 2016-09-09 2020-06-17 パナソニックIpマネジメント株式会社 翻訳装置及び翻訳方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102501426B1 (ko) 2017-02-28 2023-02-20 다우 글로벌 테크놀로지스 엘엘씨 다층 필름에 사용하기 위한 가공성이 우수한 에틸렌계 중합체
CN108572953B (zh) * 2017-03-07 2023-06-20 上海颐为网络科技有限公司 一种词条结构的合并方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN109960812B (zh) * 2017-12-23 2021-05-04 华为技术有限公司 语言处理方法及设备
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10599767B1 (en) * 2018-05-31 2020-03-24 The Ultimate Software Group, Inc. System for providing intelligent part of speech processing of complex natural language
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10636484B2 (en) * 2018-09-12 2020-04-28 Winbond Electronics Corporation Circuit and method for memory operation
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP2020077054A (ja) * 2018-11-05 2020-05-21 日本電信電話株式会社 選定装置および選定方法
CN110569498B (zh) * 2018-12-26 2022-12-09 东软集团股份有限公司 一种复合词识别方法及相关装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111626064B (zh) * 2019-02-26 2024-04-30 株式会社理光 神经机器翻译模型的训练方法、装置及存储介质
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN113807098B (zh) * 2021-08-26 2023-01-10 北京百度网讯科技有限公司 模型训练方法和装置、电子设备以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110178791A1 (en) * 2010-01-20 2011-07-21 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999000789A1 (fr) 1997-06-26 1999-01-07 Koninklijke Philips Electronics N.V. Procede gere par la machine et dispositif de traduction d'un texte source organise par mots en un texte cible organise par mots
ATE374421T1 (de) * 1998-08-28 2007-10-15 Ibm Segmentierungsverfahren zur erweiterung des aktiven vokabulars von spracherkennern
US7454326B2 (en) 2002-03-27 2008-11-18 University Of Southern California Phrase to phrase joint probability model for statistical machine translation
JP2005527894A (ja) 2002-03-28 2005-09-15 ユニバーシティ・オブ・サザン・カリフォルニア 統計的機械翻訳
US6917936B2 (en) 2002-12-18 2005-07-12 Xerox Corporation Method and apparatus for measuring similarity between documents
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7587307B2 (en) 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7672830B2 (en) 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US7536295B2 (en) * 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7542893B2 (en) 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US7949514B2 (en) 2007-04-20 2011-05-24 Xerox Corporation Method for building parallel corpora
US9020804B2 (en) 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7917355B2 (en) * 2007-08-23 2011-03-29 Google Inc. Word detection
US7983902B2 (en) * 2007-08-23 2011-07-19 Google Inc. Domain dictionary creation by detection of new topic words using divergence value comparison
US8352265B1 (en) * 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
US8077984B2 (en) 2008-01-04 2011-12-13 Xerox Corporation Method for computing similarity between text spans using factored word sequence kernels
US8442813B1 (en) * 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US8798984B2 (en) * 2011-04-27 2014-08-05 Xerox Corporation Method and system for confidence-weighted learning of factored discriminative language models

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110178791A1 (en) * 2010-01-20 2011-07-21 Xerox Corporation Statistical machine translation system and method for translation of text into languages which produce closed compound words

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MAJA POPOVIC ET AL: "Statistical Machine Translation of German Compound Words", 1 January 2006, ADVANCES IN NATURAL LANGUAGE PROCESSING LECTURE NOTES IN COMPUTER SCIENCE;LECTURE NOTES IN ARTIFICIAL INTELLIG ENCE;LNCS, SPRINGER, BERLIN, DE, PAGE(S) 616 - 624, ISBN: 978-3-540-37334-6, XP019038823 *
MAJA POPOVIC ET AL: "Statistical Machine Translation of Serbian-English", IN PROCEEDINGS OF THE SPECOM-2004, 20 September 2004 (2004-09-20), St. Petersburg, Russia, XP055078985 *
MARCO BARONI1 ET AL: "Predicting the Components of German Nominal Compounds", ECAI 2002, 1 January 2002 (2002-01-01), XP055078990, Retrieved from the Internet <URL:http://sslmit.unibo.it/~baroni/publications/E0411.pdf> [retrieved on 20130912] *
PHILIPP KOEHN ET AL: "Empirical methods for compound splitting", PROCEEDING EACL '03 PROCEEDINGS OF THE TENTH CONFERENCE ON EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, vol. 1, 12 April 2003 (2003-04-12), Budapest, HUngary, pages 187 - 193, XP055078997 *
SARA STYMNE ET AL: "Productive Generation of Compound Words in Statistical Machine Translation", PROCEEDING WMT '11 PROCEEDINGS OF THE SIXTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION, 30 July 2011 (2011-07-30), Stroudsburg, PA, USA, pages 250 - 260, XP055079001, ISBN: 978-1-93-728412-1 *
SARA STYMNE: "A Comparison of Merging Strategies for Translation of German Compounds", PROCEEDING EACL '09 PROCEEDINGS OF THE 12TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS: STUDENT RESEARCH WORKSHOP . ATHENS, GREECE. ACM HTTP://DL.ACM.ORG/CITATION.CFM?ID=1609187, 2 April 2009 (2009-04-02), Stroudsburg, PA, USA, pages 61 - 69, XP055078569 *

Also Published As

Publication number Publication date
US8781810B2 (en) 2014-07-15
US20130030787A1 (en) 2013-01-31
FR2982388B1 (fr) 2015-06-05

Similar Documents

Publication Publication Date Title
FR2982388A1 (fr) Systeme et procede pour la generation productive de mots composes dans une traduction automatique statistique
US10191892B2 (en) Method and apparatus for establishing sentence editing model, sentence editing method and apparatus
EP1836651B1 (fr) Procédé de recherche, reconnaissance et localisation d&#39;un terme dans l&#39;encre, dispositif, programme d&#39;ordinateur correspondants
US10073834B2 (en) Systems and methods for language feature generation over multi-layered word representation
WO2019100350A1 (fr) Fourniture d&#39;un résumé d&#39;un document multimédia dans une session
BE1024194A9 (fr) Procédé d&#39;indentification d&#39;un caractère dans une image numérique
WO2002067142A2 (fr) Dispositif d&#39;extraction d&#39;informations d&#39;un texte a base de connaissances
US20100088085A1 (en) Statistical machine translation apparatus and method
FR2911201A1 (fr) Procede d&#39;edition d&#39;un texte exprime dans une langue
CN111858894B (zh) 语义缺失的识别方法及装置、电子设备、存储介质
US20190362713A1 (en) Dynamic extraction of contextually-coherent text blocks
KR20230061001A (ko) 문서 교정 장치 및 방법
FR2876815A1 (fr) Analyse critique de l&#39;ordre des pronoms clitiques en francais
CN118069845A (zh) 基于多类型知识融合的方面级情感分析系统
Defersha et al. Tuning hyperparameters of machine learning methods for afan oromo hate speech text detection for social media
JP2018181259A (ja) 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム
CN115577712B (zh) 一种文本纠错方法及装置
Souibgui et al. A user perspective on htr methods for the automatic transcription of rare scripts: The case of codex runicus
CN116304046A (zh) 对话数据的处理方法、装置、存储介质及电子设备
EP1981020A1 (fr) Procédé et système de reconnaissance automatique de la parole adaptés à la détection d&#39;énoncés hors-domaine
CN113468856A (zh) 变异文本的生成、翻译模型的训练、文本分类方法和装置
US11995414B1 (en) Automatic post-editing systems and methods
FR2880708A1 (fr) Procede de recherche dans l&#39;encre par conversion dynamique de requete.
US11876633B2 (en) Dynamically generated topic segments for a communication session
Nguyen Facilitating access to historical documents by improving digitisation results

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6