FR2977343A1

FR2977343A1 - Syteme de traduction adapte a la traduction de requetes via un cadre de reclassement

Info

Publication number: FR2977343A1
Application number: FR1256240A
Authority: FR
Inventors: Vassilina Nikoulina; Nikolaos Lagos
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2011-06-30
Filing date: 2012-06-29
Publication date: 2013-01-04
Also published as: US8713037B2; US20130006954A1

Abstract

Un système et un procédé adaptés pour la traduction de requêtes sont décrits. Le procédé comprend la réception d'une requête d'entrée (12) dans une langue source et la sortie d'une requête cible (14), sur base d'une traduction de la requête d'entrée (12) dans une langue cible différente de la langue source. La traduction est effectuée avec un système de traduction automatique qui a été entraîné avec des représentations de caractéristiques de requêtes traduites générées par traduction d'une requête originale depuis la langue source vers la langue cible, et une mesure de performance de l'extraction d'information pour chacune des requêtes traduites, pour chaque requête d'un ensemble de requêtes originales.

Description

SYSTÈME DE TRADUCTION ADAPTÉ À LA TRADUCTION DE REQUÊTES VIA UN CADRE DE RECLASSEMENT Des aspects de l'exemple de mode de réalisation décrit ici ont trait à un système et à un procédé de traduction d'une requête ayant une application particulière dans l'extraction d'information. Les systèmes d'extraction d'information translinguistiques (soit « Cross-Lingual Information Retrieval », ou CLIR) pour l'extraction de documents dans une langue sur base d'une entrée de requête dans une autre langue pourraient procurer des outils utiles, en particulier lorsque le domaine d'intérêt est principalement dans une langue différente de celle d'un chercheur d'information. La requête d'entrée est d'abord traduite, à l'aide d'un système de traduction automatique, dans la langue utilisée dans les documents, puis entrée dans un moteur de recherche pour requérir une collection de documents.

Un problème qui survient alors est que les performances des systèmes de traduction automatique statistique (soit « Statistical Machine Translation », ou SMT), conçus pour la traduction de textes courants, tendent à être médiocres lorsque ces systèmes sont utilisés pour traduire une requête. L'entraînement des systèmes SMT comprend souvent un recueil de phrases parallèles qui ont été extraites automatiquement parmi un recueil parallèle de documents. Il est assumé que les documents du recueil constituent des traductions les uns des autres, au moins dans la direction source-cible. Les systèmes SMT entraînés prennent donc implicitement en compte la structure syntaxique. La structure des requêtes peut toutefois être très différente de la structure syntaxique standard utilisée dans des textes courants : les requêtes sont souvent très courtes et l'ordre des mots peut être différent de celui d'une phrase complète typique telle qu'utilisée dans un texte courant. Il serait possible d'effectuer l'entraînement d'un système SMT adapté pour la traduction de requêtes en disposant d'un grand nombre de requêtes parallèles. Cependant, de tels recueils ne sont pas disponibles.

Même si de telles données d'entraînement devaient être mises à disposition, l'entraînement des systèmes SMT actuels optimise généralement la qualité de traduction (par ex. en utilisant le score BLEU pour évaluer la qualité des traductions sorties par le système SMT basé sur des phrases MOSES). L'ordre des mots, qui est crucial pour une bonne qualité de traduction (et est pris en compte par la plupart des calculs d'évaluation en traduction automatique, soit « Machine Translation », ou MT), est par exemple souvent ignoré par les modèles d'extraction d'information (soit « Information Retrieval », ou IR). L'exemple de mode de réalisation répond à ces problèmes, ainsi qu'à d'autres encore, en intégrant les calculs d'évaluation de l'extraction d'information IR dans un 5 système de traduction automatique en utilisant une structure de reclassement.

Un procédé de traduction est fournit selon un aspect de la présente invention, qui comprend : la réception d'une requête d'entrée dans une langue source ; et la sortie d'une requête cible, la requête cible étant basée sur une traduction de la requête d'entrée dans une langue cible différente de la langue source, avec un système de traduction automatique qui a été entraîné avec des représentations de caractéristiques de requêtes traduites, les requêtes traduites ayant été générées par traduction d'une requête originale depuis la langue source vers la langue cible, et une mesure de performance de l'extraction d'information pour chacune des requêtes traduites, pour chaque requête d'un ensemble de requêtes originales.

Dans un autre mode de réalisation, la sortie comprend l'envoi de la requête cible vers un moteur de recherche et l'extraction d'information sur base de la requête 20 cible.

Dans un autre mode de réalisation, la sortie comprend : la traduction de la requête d'entrée à l'aide d'un décodeur du système de traduction automatique pour générer un ensemble de requêtes candidates dans la langue cible ; l'extraction de caractéristiques pour chacune des requêtes candidates dans l'ensemble ; et le classement des requêtes candidates sur base d'une représentation des caractéristiques extraites pour chaque requête candidate et de poids de caractéristique pour les caractéristiques apprises lors de l'entraînement du système de traduction automatique. 10 15 25 30 2977343 r' 3 Dans un autre mode de réalisation, le reclassement comprend le calcul d'une fonction pour les caractéristiques extraites et les poids de caractéristique appris pour les caractéristiques.

Dans un autre mode de réalisation, le calcul de la fonction comprend le calcul 5 d'un score de traduction pour chacune des requêtes candidates sous forme d'une combinaison linéaire pondérée de ses caractéristiques extraites.

Dans un autre mode de réalisation, le procédé comprend la sortie, comme requête cible, d'une requête candidate qui répond à la condition : = arymaxtiEGEN(q)A' F(ti) 10 où i (GEN(q» représente une requête candidate générée à partir d'une requête source q, A représente un ensemble de poids de caractéristique acquis lors de l'entraînement, avec un poids pour chacune des caractéristiques dans Fei), et - représente un produit scalaire.

Dans un autre mode de réalisation, au moins une des caractéristiques 15 extraites est basée sur des parties de discours pour les requêtes candidates.

Dans un autre mode de réalisation, la sortie de la requête cible comprend la sortie d'une requête candidate à plus haut rang comme requête cible, ou la sortie d'une combinaison de requêtes candidates à rang plus élevé comme requête cible.

Dans un autre mode de réalisation, la performance de l'extraction 20 d'information de chaque requête traduite est basée sur un score de pertinence pour des documents dans un ensemble de documents extraits en réponse aux requêtes traduites.

Selon un autre aspect de la présente invention, un système de traduction de requêtes est fournit, qui comprend : 25 un décodeur qui reçoit une requête source dans une langue source et sort un ensemble de requêtes candidates dans une langue cible, chacune des requêtes candidates étant une traduction de la même requête source ; et un module de reclassement qui sort une requête cible sur base d'au moins une des requêtes candidates, le module de reclassement extrayant des caractéristiques de chacune des requêtes candidates et calculant une fonction dans laquelle les caractéristiques extraites sont pondérées par des poids de caractéristique, les poids ayant été appris pour des caractéristiques de chaque requête d'un ensemble de requêtes traduites générées par la traduction d'une requête originale dans la langue cible et une mesure de performance de l'extraction d'information pour chacune des requêtes traduites, pour chaque requête originale dans un ensemble de requêtes originales.

D'autres variantes illustratives sont également décrites ici. Un exemple de variante d'un procédé de traduction comprend par exemple la réception d'une requête d'entrée dans une langue source et la sortie d'une requête cible. La requête 15 cible est basée sur une traduction de la requête d'entrée dans une langue cible différente de la langue source, à l'aide d'un système de traduction automatique. Le système de traduction automatique a été entraîné, pour chaque requête originale d'un ensemble, sur des représentations de caractéristiques de requêtes traduites et une mesure respective des performances d'extraction d'information. Les requêtes 20 traduites ont chacune été générées par traduction d'une des requêtes originales depuis la langue source vers la langue cible. Le système de traduction automatique peut être mis en oeuvre avec un processeur d'ordinateur. Dans une autre variante relative aux modes de réalisation décrits ci-dessus, 25 au moins une des caractéristiques de partie de discours peut être basée sur une partie de discours pour un élément de la requête candidate et une partie de discours correspondante d'un élément de la requête d'entrée avec lequel l'élément de la requête candidate est aligné dans la traduction, dans lequel chacun des éléments comprend au moins un mot. 30 Dans une autre variante, la ou les caractéristiques de partie de discours peuvent aussi être basées sur une fréquence de l'élément dans la requête candidate comme traduction d'élément de la requête d'entrée dans un recueil d'entraînement de paires de phrases, chaque paire de phrases comprenant une phrase dans la langue source et une phrase dans la langue cible. 35 Dans une autre variante, la sortie de la requête cible peut comprendre, pour chaque requête candidate d'un ensemble de requêtes candidates générées par le 10 système de traduction automatique comme traduction de la requête d'entrée dans la langue cible, la génération d'un vecteur de caractéristiques sur base de caractéristiques extraites dans la requête candidate. Dans une autre variante, la traduction de la requête d'entrée avec le système de traduction automatique peut comprendre l'extraction d'un ensemble de biphrases, chaque biphrases comprenant au moins un mot de la requête d'entrée dans la langue source et au moins un mot correspondant dans la langue cible, et à l'aide d'une fonction de calcul de score, le calcul d'un ensemble de biphrases extraites pour couvrir la requête d'entrée, pour chacune des requêtes candidates de l'ensemble, chaque requête candidate comprenant les mots correspondants dans la langue cible formant l'ensemble de biphrases extraites.

Dans une autre variante, la performance d'extraction d'information de chacune des requêtes traduites peut être déterminée par rapport à au moins l'une des requêtes originales et à une traduction de référence de celles-ci dans la langue cible. Dans une autre variante, le procédé peut inclure l'entraînement du système de traduction automatique, l'entraînement comprenant l'apprentissage de poids de caractéristique pour les caractéristiques dans l'ensemble.

Dans une autre variante, l'apprentissage des poids de caractéristique peut être effectué avec l'algorithme relaxé à infusion de marge. Dans une autre variante, au moins l'une des caractéristiques peut être une caractéristique qui n'est pas utilisée pour la génération de la traduction de la requête d'entrée.

Selon d'autres variantes illustratives, un produit logiciel peut comprendre un support d'enregistrement non volatile lisible par un ordinateur, qui stocke des instructions pour mettre en oeuvre un procédé tel que spécifié ci-dessus. Selon encore une autre variante illustrative, un système de traduction peut comprendre une mémoire non volatile qui stocke des instructions pour mettre en ceuvre le procédé, et un processeur en communication avec la mémoire pour exécuter les instructions. Dans une autre variante illustrative qui est reliée au mode de réalisation d'un système ci-dessus, un système de traduction de requêtes comprend un décodeur qui reçoit une requête source dans une langue source et sort un ensemble de requêtes candidates dans une langue cible, chacune des requêtes candidates étant une traduction de la même requête source. Un module de reclassement qui sort une requête cible sur base d'au moins une des requêtes candidates. Le module de reclassement extrait des caractéristiques de chacune des requêtes candidates et calcule une fonction dans laquelle les caractéristiques extraites sont pondérées par des poids de caractéristique. Les poids de caractéristique ont été appris pour des caractéristiques de chaque requête d'un ensemble de requêtes traduites générées par la traduction d'une requête originale dans la langue cible et une mesure de la performance d'extraction d'information, pour chaque requête originale dans un ensemble de requêtes originales de chacune des requêtes traduites par rapport à la requête originale, soit directement, soit en référence à une traduction séparée de celle-ci. Dans une autre variante, le décodeur peut comprendre un système de traduction automatique statistique sur base de phrases. Dans une autre variante, le système peut en outre comprendre un processeur qui met en oeuvre le module de reclassement.

Dans une autre variante illustrative relative aux modes de réalisation décrits ci-dessus, un procédé pour l'entraînement d'un système de traduction pour la traduction de requêtes comprend, pour chaque ensemble de requêtes originales dans une langue source, la traduction de la requête pour générer un ensemble de traductions dans une langue cible et, pour chaque traduction dans l'ensemble de traductions, l'extraction de valeurs de caractéristiques pour chaque caractéristique d'un ensemble fini de caractéristiques, et l'obtention d'une mesure de la performance d'extraction, pour chaque traduction, par rapport à la requête originale, soit directement, soit en référence à une traduction séparée de celle-ci. Les poids de caractéristique sont appris pour chacune des caractéristiques sur base des valeurs extraites des caractéristiques et de la mesure respective de la performance d'extraction pour chaque traduction. Les poids de caractéristique sont stockés pour être utilisés dans la traduction d'une nouvelle requête, différente de chacune des requêtes originales, depuis la langue source vers la langue cible. Les traductions candidates de la nouvelle requête peuvent être classées sur base de leurs valeurs de caractéristique extraites et des poids de caractéristique stockés.

Selon une autre variante illustrative, un produit logiciel comprend un support d'enregistrement non volatile lisible par un ordinateur qui stocke des instructions pour mettre en oeuvre le procédé d'entraînement décrit ci-dessus.

Selon encore une autre variante illustrative, un système informatique comprend une mémoire non volatile qui stocke des instructions pour mettre en oeuvre le procédé d'entraînement et un processeur en communication avec la mémoire pour exécuter les instructions.

La FIGURE 1 est un schéma fonctionnel d'un environnement dans lequel fonctionne un exemple de système de traduction de requêtes. La FIGURE 2 est un organigramme qui illustre un procédé de traduction de requêtes. La FIGURE 3 est un organigramme qui illustre un exemple de procédé pour entraîner un composant de reclassement pour le procédé de traduction de requêtes de la FIGURE 2. La FIGURE 4 illustre un exemple de paires de traduction dans l'entraînement du composant de reclassement. La FIGURE 5 illustre graphiquement divers éléments du système et du procédé.

Les FIGURES 6 et 7 illustrent des résultats de l'exemple de procédé utilisant différents modèles de reclassement pour des traductions de classe 1 et de classe 5. Des aspects de l'exemple de mode de réalisation ont trait à un système et à un procédé de traduction de requêtes qui reclassent des requêtes traduites en utilisant des poids de caractéristique entraînés avec des traductions de requêtes et la pertinence (par rapport à la requête d'entrée respective) d'information (par ex. des documents) extraite par celles-ci. Une requête, telle qu'utilisée ici, comprend une chaîne de texte, telle qu'une expression ou une phrase, comprenant souvent uniquement quelques mots, généralement dix mots ou moins, qui est utilisée pour extraire des documents réceptifs parmi une collection de documents. Les documents extraits comprennent en général des documents de texte en langue naturelle. Dans l'exemple de mode de réalisation, la fonction objective d'optimisation de systèmes SMT est optimisée sur base de mesures d'extraction d'information (IR) via une structure de reclassement. Un document, tel qu'utilisé ici, peut être tout texte stocké dans une langue naturelle, tel qu'un document stocké en entier ou une portion de celui-ci. Certains documents peuvent inclure des images ainsi que du texte. Un document peut donc être un ou plusieurs fichiers de texte, PDF, XML, ou tout autre document structuré ou semi-structuré, un fichier d'image ou vidéo/audio, avec une courte description en langue naturelle, ou similaire, à partir duquel une chaîne de texte peut être extraite.

La FIGURE 1 illustre un exemple de système de traduction de requêtes 10 conformément à un aspect de l'exemple de mode de réalisation. Le système 10 est adapté pour recevoir une requête d'entrée (requête source) 12 dans une première langue naturelle (langue source), telle que le français, et sortir une requête de sortie (requête cible) 14 dans une deuxième langue naturelle (langue cible) différente de la première langue naturelle, telle que l'anglais (dans l'exemple). Le système comprend une mémoire principale 16 qui stocke des instructions 18 pour mettre en oeuvre le ou les exemples de procédé décrits ici dans un processeur 20 en communication avec la mémoire 16 pour exécuter les instructions. Une mémoire de données 22, qui peut être séparée de la mémoire principale 16 ou être intégrée dans celle-ci, stocke un modèle de reclassement 24 qui comprend un ensemble de poids de caractéristique 26 qui ont été entraînés avec des données d'entraînement 28. Les exemples de données d'entraînement 28 comprennent des caractéristiques de requêtes cibles et de scores de pertinence correspondants des documents extraits avec celles-ci. Une fois les poids 26 appris, les données d'entraînement 28 peuvent être omises dans le système. La requête de sortie 14 peut être utilisée pour extraire des documents réceptifs 30 parmi une collection de documents 32, par ex. par un moteur de recherche 34 stocké localement, par ex. en mémoire 16, ou par un moteur de recherche 36 stocké à distance, auquel le système 10 n'a pas accès. L'exemple de système de traduction 10 réside sur un ou plusieurs dispositifs informatiques 38 et comprend un ou plusieurs dispositifs d'entrée/sortie 40, 42 pour communiquer avec des dispositifs externes. Des composants matériels 16, 20, 22, 40, 42 du système 10 peuvent être reliés pour communiquer via un bus de données/contrôle 44. La requête d'entrée 12 peut être entrée dans le système 10 sous une forme adaptée quelconque, par ex. à partir d'un dispositif client 50, connecté au système via une liaison filaire ou sans fil 52, telle qu'une connexion filaire, un réseau local ou un réseau étendu, tel que le réseau Internet. Dans d'autres modes de réalisation, la requête est entrée dans le système à partir d'un dispositif de stockage de mémoire, tel qu'un disque ou une carte de mémoire, ou est générée dans le système 10 lui-même.

Le système 10 comprend par ex., stocké en mémoire 16 ou accédé à partir d'une mémoire distante, un décodeur 58, tel qu'utilisé conventionnellement dans un système de traduction automatique statistique (SMT) basé sur des phrases avec un module de calcul de scores de traduction (soit « Translation Scoring Module », TSM) 60. Le système SMT 58 peut accéder à une bibliothèque de biphrases 62 qui stocke des paires de phrases source-cible. En utilisant des biphrases extraites par la bibliothèque de biphrases dans des combinaisons pour lesquelles un score est calculé par le TSM 60, le décodeur 58 sort un ensemble 64 de traductions candidates de la requête 12 dans la langue cible, qui sont entrées dans un composant reclassement 66. Les traductions candidates 64 de la requête d'entrée 12 sont désignées ici comme des requêtes candidates. Le composant de reclassement 66 classe l'ensemble de requêtes candidates 64, sur base de leurs performances d'extraction prédites. Ceci est réalisé avec le modèle entraîné 24 (en incorporant les poids de caractéristique appris précédemment 26) et des caractéristiques extraites sur base des requêtes candidates 64. Le classement est effectué pour trouver une traduction optimale ou en ensemble de traductions optimales parmi les requêtes candidates 64. Le composant de reclassement 66 sort une requête cible 14 sur base d'une ou plusieurs requêtes candidates optimales 64, par ex. vers le moteur de recherche 34 ou un dispositif externe, tel qu'un dispositif client 50. La requête cible 14 peut donc être une seule requête optimale parmi les requêtes candidates 64 ou une combinaison (par ex. par enchaînement) de deux ou plusieurs requêtes candidates 64. L'exemple de composant de reclassement 66 peut être incorporé dans le décodeur 58 ou être un composant séparé. Le système informatique 38 peut être un ordinateur personnel, tel qu'un ordinateur de bureau, un ordinateur portable, un mini-ordinateur portable, un assistant numérique personnel (soit « Portable Digital Assistant », ou PDA), un ordinateur serveur, un téléphone mobile, un ordinateur tablette, un dispositif de radiomessagerie, une combinaison de ceux-ci, ou un autre dispositif informatique capable d'exécuter des instructions pour mettre en oeuvre l'exemple de procédé. Le dispositif client 50 peut être configuré de manière similaire au système informatique 38.

La mémoire 16, 22 peut consister en un type quelconque de support non volatile lisible par un ordinateur, tel qu'une mémoire vive (soit « Random Access Memory », ou RAM), une mémoire morte (soit (< Read Only Memory », ou ROM), un disque ou une bande magnétique, un disque optique, une mémoire flash ou une mémoire holographique. L'exemple d'interface de réseau 40, 42 permet à l'ordinateur de communiquer avec d'autres dispositifs via un réseau informatique et peut comprendre un modulateur-démodulateur (MODEM). Le processeur numérique 20 peut être réalisé de plusieurs façons, tel que sous forme d'un processeur à simple coeur, un processeur à double cceur (ou plus généralement un processeur multi-cceur), un processeur numérique et un coprocesseur arithmétique associé, un contrôleur numérique, etc.

Le terme « logiciel » tel qu'utilisé englobe toute collection ou ensemble d'instructions exécutables par un ordinateur ou autre système numérique de manière à configurer l'ordinateur ou autre système numérique pour mettre en oeuvre la tâche désignée du logiciel.

La FIGURE 2 illustre des étapes de l'exemple de procédé. Le procédé commence au point S100. Au point S102, des poids de caractéristique 26 de chacune des caractéristiques d'un ensemble de deux ou plusieurs caractéristiques (généralement 10 ou plus) sont appris pour un ensemble fini de caractéristiques. L'apprentissage utilise des données d'entraînement 28 dans lesquelles des requêtes traduites dans la langue cible sont associées à une mesure de leurs performances d'extraction d'information (par ex. des scores d'extraction). Dans l'exemple de mode de réalisation, les performances d'extraction sont basées sur la pertinence, par rapport à la requête originale en langue source, d'un ensemble de documents extraits en réponse à la requête traduite. Au point S104, une nouvelle requête 12 est reçue en provenance d'un utilisateur dans la langue source. Au point S106, la requête 12 est traduite à l'aide du décodeur 58 pour produire un ensemble de requêtes candidates 64 dans la langue cible.

Au point S108, une représentation de caractéristique Fa), telle qu'un vecteur de caractéristiques qui représente une valeur pour chaque caractéristique de l'ensemble de caractéristiques dans l'ensemble fini de caractéristiques, est assignée à chaque traduction t dans l'ensemble 64 de requêtes candidates. Au point S110, une traduction optimale t (ou une collection de traductions optimale) est choisie parmi l'ensemble 64 de requêtes candidates en identifiant la traduction (requête candidate) tï qui procure le score de traduction le plus élevé, sur base d'une fonction de calcul de score pour le vecteur de caractéristiques respectif, en utilisant les poids déterminés au point S102. La traduction optimale peut être une traduction qui maximise le score de traduction parmi toutes les traductions t de l'ensemble 64. Le score de traduction peut être défini comme une combinaison linéaire pondérée des valeurs des caractéristiques Fis t = argmaxtiEGEN(q)n ' F(tù (équ. 1) où (GEN(q)) représente une requête candidate générée à partir d'une requête source q, représente l'ensemble de poids de caractéristique, avec un poids pour chacune des caractéristiques dans F , et - représente un produit scalaire.

Les poids de caractéristique A peuvent être appris (au point S102) pour optimiser une mesure globale de la performance d'extraction, telle que la précision moyenne d'extraction (soit « Mean Average Precision », ou MAP) sur l'ensemble d'entraînement 26 pour toutes les requêtes d'entraînement dans la langue source, tel que décrit plus en détail ci-dessous en référence à la FIGURE 3.

Au point S112, la traduction optimale t (ou la collection de traductions optimale) sortie au point S110 est utilisée en variante comme une requête 14 pour demander une collection de documents 32 afin d'extraire des documents réceptifs, qui peuvent être renvoyés en tout ou en partie à l'utilisateur, par ex. à un dispositif client 50 ou à un autre dispositif de stockage de mémoire.

L'utilisateur peut préférer continuer à indexer et rechercher sur place (en utilisant son propre moteur de recherche). Dans ce cas, au point S114, la requête 14 peut être renvoyée à un utilisateur pour révision et modification éventuelle par l'utilisateur. L'accès à la collection de documents 32 à rechercher peut alors être possible au moment de l'extraction uniquement via le moteur de recherche de l'utilisateur 36. Une possibilité de vérification et de révision de la requête traduite 14 peut aussi être offerte à l'utilisateur avant l'entrée de la requête dans le moteur de recherche 34. Le procédé se termine au point S116. Des aspects du système et du procédé seront maintenant décrits plus en détail. Système de traduction automatique Le décodeur 58 utilisé au point S106 peut être tout système de traduction automatique conventionnel, tel qu'un système qui comporte ou accède à un modèle de calcul de scores de traduction (soit « Translation Scoring Model », ou TSM) 60 qui a été entraîné avec un recueil parallèle conventionnel de documents de texte dans les langues source et cible, pour sortir une traduction d'un texte d'une nouvelle source dans la langue cible. Les exemples de document textuels utilisés pour l'entraînement du décodeur 58 ne se présentent pas pour la plupart sous forme de requêtes, c'est-à-dire qu'il s'agit de phrases complètes dans des textes conventionnels comprenant un grand nombre de telles phrases, par ex. en format paragraphe. Le système SMT 58 entraîné sur base de phrases reçoit la requête d'entrée 12 et la convertit en unités lexicales, c'est-à-dire qu'il identifie une séquence d'unités lexicales. Ces unités lexicales sont les mots en langue source et d'autres unités lexicales, telles que des nombres et la ponctuation, qui constituent la chaîne de texte de la requête d'entrée 12. Le décodeur 58 a accès à la bibliothèque de biphrases 62, par ex. stockée en mémoire 22, qui comporte des paires de phrases (biphrases) qui ont été automatiquement déterminées pour constituer une traduction correspondante (sur base d'un traitement automatique du recueil parallèle de documents de texte). Lors du décodage de la requête d'entrée 12, le décodeur 58 peut extraire un grand nombre de telles biphrases de la bibliothèque 62 qui couvre un ou plusieurs mots source de la requête 12, y compris, par exemple, les biphrases (préparatifs, preparations) et (préparatifs de mariage, marraage preparations) dans le cas de l'exemple de requête : préparatifs de mariage, montré à la FIGURE 1. Chacune des biphrases extraites comprend donc un ou plusieurs mots source dans la requête 12 et comprend un ou plusieurs mots correspondants dans la langue cible. Le décodeur 58 utilise le modèle de calcul de scores de traduction 60 pour classer des combinaisons de ces biphrases extraites pour trouver une combinaison dans laquelle chaque mot de la requête source 12 est couvert par une des biphrases tout au plus. Certains mots ou autres unités lexicales peuvent ne pas être reconnus dans la bibliothèque 62 et ne sont donc couverts par aucune des biphrases. Ces unités lexicales non reconnues peuvent donc être préservées sous leur format original dans la requête candidate 64. Étant donné qu'il y a en général de nombreuses combinaisons différentes de biphrases, le décodeur 58 est capable de sortir un ensemble de requêtes candidates 64 dans la langue cible qui reçoivent un classement élevé par le modèle de calcul de scores de traduction 60. En fonctionnement normal, le décodeur 58 sortirait uniquement la requête au rang le plus élevé comme traduction. Dans l'exemple de mode de réalisation, le décodeur sort toutefois une liste des N meilleures (un ensemble des traductions ayant reçu les scores les plus élevés, tel que déterminé par exemple avec le modèle TSM). Les 100 premières requêtes candidates (ou plus) 64 de la requête 12 sont par exemple sorties, par ex. au moins 200 requêtes candidates ou plus. II n'y a pas de limite spécifique pour le nombre maximal de requêtes candidates qui sont sorties et il peut y en avoir 10.000 ou plus.

Dans l'exemple de mode de réalisation, un maximum d'environ 1.000 requêtes candidates est sorti pour chaque requête d'entrée. Si la requête 12 est courte, le système SMT 58 peut bien sûr sortir moins de requêtes candidates que le maximum prédéterminé, et dans de rares cas, même une seule requête candidate, par ex. si une seule biphrase couvre la requête d'entrée. En général toutefois, le système SMT est capable de sortir une pluralité de requêtes candidates 64, et pour la plupart des requêtes 12, au moins 10 requêtes candidates sont sorties vers le composant de reclassement 66. Comme il apparaît dans la description ci-dessous, la même procédure de traduction que celle décrite précédemment peut être utilisée pour l'entraînement du composant de reclassement (S102), bien que dans ce cas le décodeur 58 soit appliqué aux requêtes d'entraînement dans la langue source. Dans les exemples qui suivent, le système SMT Moses est utilisé comme décodeur 58 au point S106 (voir http://www.statmt.org/moses/ et Koehn, et al., « Moses: open source toolkit for traduction automatique statistique », in Proc. 45th Annual Meeting of the ACL, demonstration session, pp. 177-180, Prague, Czech Republic (2007)). II convient cependant d'apprécier que d'autres systèmes SMT peuvent être utilisés, tels que les systèmes de traduction automatique basés sur des phrases, décrits par exemple dans les documents U.S. 2004/0024581, 2004/0030551, 2008/0300857, 2006/0190241, 2007/0150257 et 2007/0265825. La FIGURE 4 illustre en ensemble de requêtes candidates (traductions) 64 de l'exemple de requête q telles que t,, t2, t3, et t4, à des fins d'illustration. Dans la sortie du système SMT 58, un alignement peut être fourni (indiqué par les flèches entre les mots) dans chaque paire de traduction (q, (q, t2), etc. L'alignement indique quel élément (mot(s)) de la requête q est aligné avec quel élément (mot(s)) de la requête candidate t dans la paire de traduction. Le décodeur 58 indique donc par exemple, pour la paire de traduction q,t,, que le premier mot de la requête préparatifs est aligné avec le premier mot de la requête candidate preparations. Le décodeur 58 peut également procurer des éléments de discours (soit « Parts-Of-Speech », ou POS) 74, 76, etc. pour chacun des mots dans chaque paire de traduction. La paire d'éléments préparatifs, preparations reçoit donc par exemple l'étiquette (NOM, NOM). Dans d'autres modes de réalisation, un composant séparé procure l'étiquetage POS. Un étiquetage POS plus complexe est également contemplé. Un analyseur syntaxique peut par exemple être utilisé pour identifier des dépendances entre des mots, et ceux-ci peuvent être incorporés dans le POS, sous forme par exemple de dépendances sujet-objet, de têtes de syntagmes nominaux, etc.

Ces étiquettes POS sont utilisées dans des caractéristiques de calcul, tel que décrit plus en détail ci-dessous. Poids d'apprentissage (S102) Les poids de caractéristique A peuvent être appris au point S102 pour optimiser les performances d'extraction sur l'ensemble d'entraînement, par ex. pour optimiser un score d'extraction global, tel que la précision moyenne d'extraction (MAP), sur des requêtes traduites. La précision moyenne pour une requête candidate peut être calculée comme une précision d'extraction, optionnellement en prenant en compte le classement des documents pertinents pour chaque requête.

Dans l'exemple de mode de réalisation, un simple classement binaire est utilisé pour les premiers documents extraits, c'est-à-dire pertinent ou non pertinent pour la requête ; il faut toutefois considérer que des systèmes de classement plus raffinés peuvent être utilisés. L'apprentissage implique la présence d'un ensemble d'entraînement étiqueté 26 où un score d'extraction, tel que la précision d'extraction moyenne (AP), est disponible pour que chaque traduction de chaque requête source. Au moment de l'entraînement par exemple, les conditions d'accès à une collection de documents 70 et de présence d'annotations pertinentes pour les requêtes de l'ensemble d'entraînement sont toutes deux remplies. Chaque document de la collection 70 comprend par exemple une annotation qui indique pour laquelle des requêtes d'entraînement il est pertinent. Une fois les poids de caractéristique 26 pour le modèle de reclassement 24 appris, le modèle peut être réutilisé pour une traduction de requêtes indépendamment de la collection de documents annotés 70. En référence aux FIGURES 4 et 5, l'apprentissage des poids peut être effectué comme suit. Au point S200, un ensemble 80 de requêtes d'entraînement (Q1, 02, etc.) est fourni. Les requêtes d'entraînement (requêtes originales) 80 sont des requêtes en langue source, comme pour la requête d'entrée 12, par ex. généralement de dix (10) mots ou moins. Au point S202, une collection annotée de documents en langue cible 70 peut être fournie. Ce sont des documents étiquetés selon leur sensibilité à chaque requête d'entraînement dans l'ensemble 80. Dans un mode de réalisation, un jeu de données pré-généré, par ex. un jeu de données parallèle de requêtes dans les langues source et cible peut être utilisé pour fournir les requêtes d'entraînement et des documents annotés aux points S200 et S202. Un tel jeu de données peut être généré à partir des pistes AdHoc-main, AdHoc-TEL et/ou GeoCLEF d'une ou plusieurs années des données de confrontation CLEF (voir la page Internet wvvw.clef-campaign.org). Chaque piste contient environ 50 requêtes multilingues, qui sont désignées par le terme « thème » (soit « topic »). Un grand nombre de ces thèmes parallèles, par ex. plusieurs centaines, peut être utilisé pour l'entraînement du composant de reclassement 66. Comme on pourra le comprendre, seuls les thèmes source dans la langue d'intérêt sont nécessaires comme requêtes d'entraînement ; dans certains modes de réalisation toutefois, les thèmes cible peuvent être utilisés pour évaluer la pertinence des documents extraits. Chaque requête a été étiquetée manuellement en référence à des documents dans le recueil d'entraînement 70 qui y sont réceptifs. En pratique, les annotations humaines pour les documents dans le recueil d'entraînement 70 ne doivent pas être fournies pour tous les documents, mais seulement pour un sous-ensemble représentatif des documents. Un avantage de l'utilisation de telles données d'entraînement 28 est qu'elles ont été préparées de telle manière que de nouveaux systèmes SMT puissent être évalués en les comparant entre eux, et les documents extraits sont déjà étiquetés en fonction de leur sensibilité à la requête d'entraînement. Cependant, de telles données peuvent ne pas être disponibles ou même appropriées pour la paire de langues source/cible. Lorsque par exemple le type de requêtes ou la collection de documents à demander concerne un domaine spécifique, il peut être plus approprié d'entraîner le composant de reclassement sur une collection de documents annotée 70 spécifique au domaine, qui peut être générée à partir d'une collection 32, par ex. avec des documents fournis ou sélectionnés par le client. Les requêtes d'entraînement 80 peuvent en variante ou en outre être générées manuellement ou être acquises automatiquement par un système qui reçoit des requêtes provenant de divers utilisateurs pour la collection 32. Étant donné l'ensemble d'entraînement 80 de requêtes d'entraînement et de documents annotés 70, les données d'entraînement 28 pour l'entraînement du modèle de reclassement peuvent alors être générées comme suit : Au point S204, un ensemble 82 de traductions (ti, t2, t3, etc.) est produit par le système SMT 58 pour chaque thème source (c'est-à-dire pour chaque requête d'entraînement Q1, S2, Q3, etc.). Au moins 100 ou 200, par ex. environ 1.000 traductions sont par exemple générées pour chaque requête d'entraînement, tel que décrit précédemment pour la requête d'entrée 12. Au point S206, pour chaque traduction (t1, t2, t3, etc.) de chaque requête d'entraînement, des caractéristiques (dont des exemples sont décrits ci-dessous) sont calculées pour fournir une représentation de caractéristiques respectives (ti F, t2F, t3F). Ceci peut inclure la détermination d'une valeur pour chacune des caractéristiques d'un ensemble de caractéristiques prédéfini. Dans l'exemple de mode de réalisation, au moins certaines des caractéristiques se basent sur les alignements produits par le système SMT 58 (par ex. le système de référence Moses), tel qu'illustré sur la FIGURE 4. Un vecteur de caractéristiques qui comprend une valeur pour chacune des caractéristiques d'un ensemble prédéterminé peut donc être généré pour chaque traduction. Au point S208, chaque traduction (t1, t2, t3, etc.) de chaque thème est utilisée pour effectuer une extraction parmi la collection de documents annotés 70 dans la langue cible. Un quelconque moteur de recherche 34 peut être utilisé à cet effet, tel que la boîte à outils Lemur toolkit (voir le site Internet www.lemurproject.org). Au point S210, un score de pertinence (R1, R2, R3, R4, R5, R5, R7, R8, R9, etc.) est ensuite assigné à chacun des documents (D1, D2, D3, D4, D5, D5, D7, D8, D9, etc.) extraits par le moteur de recherche de la collection 70, en utilisant les traductions (t1, t2, t3, etc.) comme requêtes. Dans un mode de réalisation, ceci peut être effectué manuellement en comparant le document extrait à la requête d'entraînement originale et en déterminant s'il est pertinent ou non (par ex. en assignant 0 pour non pertinent et 1 pour pertinent). Dans un autre mode de réalisation, un traducteur humain expérimenté traduit la requête d'entraînement source originale dans la langue cible pour générer une requête de référence (c'est-à-dire une requête dans la langue cible qui a été traduite par un moyen autre que le système SMT 10). La pertinence (R1, R2, R3, R4, R5, R5, R7, R8, R9, etc.) peut ensuite être évaluée manuellement par rapport à la requête de référence. Dans l'exemple de mode de réalisation, ceci peut être réalisé avec les annotations de pertinence procurées durant une campagne CLEF correspondante. Les documents de la collection 70 peuvent par exemple être déjà étiquetés avec une indication du fait qu'ils sont ou non pertinents pour chaque thème particulier (requête d'entraînement dans la langue cible) et cette information peut être utilisée pour assigner les scores de pertinence aux documents extraits. Au point S212, chaque traduction (t1, t2, t3, etc.) reçoit alors un score de précision correspondant (t1AP, t2AP, t3AP, etc.) sur base des scores de pertinence de chacun des documents extraits dans l'ensemble. Les n meilleurs documents extraits (par ex. n=20) par le moteur de recherche 34 pour chaque traduction sont par exemple considérés pour le calcul d'une mesure de performance d'extraction (par ex. la précision moyenne AP). Dans un mode de réalisation, le classement n'est pas considéré pour le calcul du score de précision AP. Si par exemple 5 des n documents extraits en réponse à la traduction t1 sont annotés comme « pertinents » pour la requête d'entraînement originale q, la précision moyenne AP pour cette traduction ti est calculée comme étant 5/20=0,25. Dans d'autres modes de réalisation, le classement de chaque document extrait est pris en compte. Le meilleur document extrait reçoit par exemple le plus haut classement, avec un score de classement de par exemple 20, et les autres 19 documents reçoivent chacun un score de classement séquentiel en ordre décroissant. La précision moyenne AP est ensuite calculée comme étant la somme des scores de classement multipliée par les scores de pertinence respectifs. Les caractéristiques et le score de précision AP correspondant pour chaque traduction constituent les données d'entraînement 28 qui, pour chaque requête Q1, Q2, etc., sont utilisées pour l'entraînement du modèle de reclassement 67. Au point S214, les poids de caractéristique A pour le modèle 67 sont appris sur base des vecteurs de caractéristiques calculés au point S206 et des scores AP des traductions calculés au point S212. Dans l'exemple de mode de réalisation, l'apprentissage est effectué avec l'objectif de maximiser la précision moyenne pour tous les thèmes (requêtes d'entraînement) de l'ensemble d'entraînement. Tout procédé d'apprentissage automatique adapté peut être utilisé à cette fin, tel que les méthodes structurées à perceptron, les procédés d'apprentissage à noyau, les réseaux neuronaux, etc. Un algorithme adapté est l'algorithme MIRA (« Margin Infused Relaxed Algorithm »), qui est une extension de l'algorithme à perceptron, adapté pour les problèmes à classes multiples. Cet algorithme peut apprendre un ensemble de paramètres (ici les poids de caractéristique du vecteur) en traitant tous les exemples d'entraînement donnés un par un et en mettant à jour les poids de caractéristique avec chaque exemple d'entraînement, de telle manière que l'exemple d'entraînement est classifié correctement avec une marge contre les classifications incorrectes au moins aussi grande que leur perte. La variation des poids de caractéristique à chaque itération est en général maintenue aussi faible que possible. Une telle mise à jour est effectuée pour chaque traduction, et plusieurs itérations sont possibles pour l'entièreté de l'ensemble d'entraînement. Pour plus de détails concernant l'algorithme MIRA, voir Crammer et al., « Ultraconservative Online Algorithms for Multiclass Problems », in J. Machine Learning Res., 3, 951-991 (2003). L'implémentation de MIRA proposée par Chiang et al., « Online large-margin training of syntactic and structural translation features », in Proc. Conf. on Empirical Methods in Natural Language Processing (EMNLP '08); Association for Computational Linguistics, Stroudsburg, PA, USA, pp. 224-233 (2008), peut par exemple être utilisée. Les poids de caractéristique A sont appris de telle sorte que les meilleures traductions des requêtes (celles ayant les AP les plus élevés) sont classées plus haut que la moyenne par le composant de reclassement que celles ayant des scores AP plus faibles. Dans un mode de réalisation, les poids de caractéristique sont appris au point S214 pour optimiser la précision moyenne d'extraction (MAP) sur l'ensemble d'entraînement. Le score MAP est simplement la valeur moyenne de tous les scores AP. Dans un exemple de mode de réalisation, la moyenne de tous les paramètres (version de vote) est utilisée. Dans ce mode de réalisation, les moyennes de chacun des poids générés via toutes les itérations sont prises comme poids de caractéristique A . Les poids apportant plus de traductions haut placées dans la liste ont donc plus d'impact sur le score moyen. Ceci rend l'algorithme plus robuste. Dans un mode de réalisation, les poids qui minimiseraient en moyenne le nombre d'erreurs d'extraction sur l'ensemble d'entraînement (qui n'est pas nécessairement une maximisation du score MAP mais augmente le score MAP final en pratique) sont utilisés. Comme on pourra le comprendre, dans d'autres modes de réalisation, les poids appris après un nombre d'itérations de l'algorithme ou à un point où des améliorations d'extraction ne sont plus significatives peuvent être utilisés. Considérons par exemple qu'une traduction t3 considérée a un vecteur de caractéristiques (1,0,1,0,1,1,1,0,0,1) pour dix exemples de caractéristiques et que les poids de caractéristique (par ex. normalisés pour être ajoutés à 1) sont actuellement tous assignés à 0,1 (à des fins d'illustration seulement) : sur base de l'équ. 1, son score de traduction est alors 0,6. Cette traduction doit par conséquent avoir un score AP égal à t3AP qui est supérieur à celui d'une traduction précédente t1 avec un score de traduction inférieur à 0,6, et/ou un score AP inférieur à celui d'une traduction précédente t2 avec un score de traduction supérieur à 0,6. Sinon, les poids A dans ce modèle peuvent être ajustés. Ce procédé est ensuite continué 30 avec des données d'entraînement additionnelles 28. Les paramètres du modèle 67, et en particulier les poids A (par ex. les poids moyens de toutes les itérations), sont ensuite bloqués. Le modèle de reclassement 67 est par conséquent entraîné pour prédire un score de précision AP pour chaque nouvelle traduction (t4, t5, t6) sortie par un 35 système SMT (tel que le décodeur 58 ou un système SMT différent) sur base de son vecteur de caractéristiques. Le composant de reclassement 66 peut ensuite sélectionner, parmi l'ensemble de traductions (t4, t5, t6) d'une nouvelle requête 12, celle (s) ayant le score de précision AP prédit le plus élevé (t6 dans cet exemple). Caractéristiques Les caractéristiques dont les valeurs sont utilisées dans l'équ. 1 peuvent être toutes les caractéristiques adaptées qui peuvent être extraites d'une paire de traduction (une requête et sa traduction, c'est-à-dire une requête d'entrée et/ou sa requête candidate ou une requête d'entraînement et sa requête traduite). Des exemples de caractéristiques qui peuvent être utilisées ici peuvent inclure l'une quelconque de celles utilisées dans le modèle de calcul de scores de traduction (TSM) 60 du système SMT. Elles peuvent par exemple inclure des caractéristiques basées sur les dépendances, telles que des dépendances syntaxiques dans la requête candidate, et/ou des caractéristiques utilisées dans le TSM. Les caractéristiques du TSM Moses 60 qui peuvent être utilisées comme caractéristiques dans le reclassement comprennent des probabilités de traduction lexicales (mots) et de phrases (probabilité d'un mot / d'une phrase source en connaissant le mot / la phrase cible, et inversement), des caractéristiques de modèle linguistique (fréquences de n-grammes, tels que des trigrammes, dans la traduction), et une caractéristique de distorsion qui représente le degré de réarrangement entre les mots dans la chaîne source et les mots correspondants dans la chaîne cible. Dans l'exemple de mode de réalisation, un sous-ensemble de caractéristiques de référence SMT Moses est utilisé (MOSES). Ces caractéristiques comprennent uniquement les caractéristiques de modèle de traduction qui ont trait à des probabilités lexicales (mots) et de phrases.

En outre ou en variante, une ou plusieurs caractéristiques à incitation syntaxique peuvent être employées. Elles sont basées sur la correspondance POS entre une requête source et sa traduction. Deux caractéristiques de ce type sont fournies à titre d'exemple, soit POS et LEX, qui n'appartiennent pas aux caractéristiques de référence Moses. Ces caractéristiques peuvent être calculées comme suit : dans une paire de traduction sortie par le système SMT, chaque élément (mot ou phrase courte) 70 dans la requête est aligné avec un élément correspondant (mot ou phrase courte) 72 dans la traduction, tel qu'illustré sur la FIGURE 3. Les éléments sont aussi marqués avec des étiquettes POS. Les étiquettes POS peuvent par exemple être sélectionnées parmi un ensemble fini, par ex. l'ensemble suivant : verbes, noms, pronoms, adverbes, adjectifs, prépositions, conjonctions et déterminants, ou des variantes de ceux-ci. Une caractéristique est basé sur les étiquettes POS de paires d'éléments alignés, avec un élément dans la source q et l'autre dans la cible t. Dans le cas où des mots multiples (par ex. deux ou plus) côté source sont alignés avec un mot cible, une paire de parties de discours peut être extraite pour chaque paire de mot source et de même mot cible (et inversement). Une caractéristique peut être introduite pour chaque paire d'éléments alignés, c'est-à-dire chaque paire d'étiquettes POS alignées (sur base d'alignements de mots produits par Moses) dans l'ensemble d'entraînement. La requête en français : Préparatifs (NOM) de mariage (NOM) peut par exemple être traduite en anglais par married (VERBE) preparations (NOM), comme dans t3 indiqué dans la FIG. 3, où Préparatifs est aligné avec preparations et de mariage avec married. Les deux caractéristiques introduites pour cet exemple seront : f_nom-nom et f_nomverbe. Le nombre d'occurrences de chacune de ces caractéristiques dans la paire de traduction peut être compté pour fournir un premier ensemble de valeurs de caractéristiques : POS. Le système compte par exemple, pour chaque requête candidate, un nombre d'occurrences de chaque paire spécifique d'étiquettes POS (f_nom-nom=1 et f_nom-verbe=l, et f_verbe-nom=0, par exemple, dans l'exemple ci-dessus).

Une autre caractéristique LEX pondère la caractéristique mappage POS générique avec un score d'alignement lexical p, (préparatifs 1 preparations) ou pr (preparations 1 préparatifs). Le score d'alignement lexical p, ou pr peut être extrait à partir de la bibliothèque de biphrases 62 sous forme d'une fréquence d'occurrence du deuxième terme comme traduction du premier dans le recueil d'entraînement parallèle de phrases alignées. Par exemple donc, si préparatifs est traduit par preparations dans 500/0 de toutes les occurrences au sein du recueil d'entraînement et (f_nom-nom)=1 pour la paire de traduction, la valeur de la caractéristique LEX (f_nom-nom) p,=1x0,5=0,5. Le vecteur de toutes les paires POS possibles peut être relativement grand (par ex. lorsqu'il y a une caractéristique pour chaque combinaison possible de huit parties de discours différentes) et clairsemé, en particulier dans le cas d'un ensemble d'entraînement de requêtes d'entraînement relativement petit (par ex. environ 400 exemples). Pour éviter un excès de correspondances, seules les paires d'étiquettes POS dont la fréquence est supérieure à un certain seuil dans le recueil d'entraînement doivent donc être considérées. Seules les environ 20 premières paires d'étiquettes POS possibles (par ex. 21 paires) sont par exemple considérées pour calculer les caractéristiques POS et LEX. Ceci procure un vecteur de caractéristiques d'environ 40 valeurs pour les deux caractéristiques qui, lorsqu'elles sont ajoutées aux caractéristiques sélectionnées parmi le système de référence Moses, procurent un vecteur de caractéristiques avec un nombre de valeurs gérable.

D'autres caractéristiques qui peuvent être utilisées sont les caractéristiques de couplage syntaxique. Des caractéristiques de ce type sont décrites par Nikoulina, V. et Dymetman, M. dans « Experiments in discriminating phrase-based translations on the basis of syntactic coupling features », dans Proc. « Experiments in discriminating phrase-based translations on the basis of syntactic coupling features », dans Proc. 2nd Workshop on Syntax and Structure in Statistical Translation (SSST '08), pp. 55-60, et par David Chiang et Dekai Wu (Eds.), Association for Computational Linguistics, Stroudsburg, PA (2008). Ces caractéristiques de couplage sont basées sur les dépendances syntaxiques entre des paires de mots respectifs qui sont alignés dans la paire respective requête / requête traduite. Afin d'utiliser ce type de caractéristiques, un analyseur syntaxique est utilisé pour chacune des langues afin d'extraire les dépendances syntaxiques. Un analyseur syntaxique adapté est l'analyseur syntaxique incrémentiel Xerox (soit « Xerox Incremental Parser », ou XIP). Pour chaque ensemble de combinaisons (q', q", t', t''), des valeurs de caractéristique sont ensuite calculées sur base d'une dépendance syntaxique, le cas échéant, entre q' et q" et entre t' et t", où q' et q" sont des éléments de q qui sont alignés avec des éléments t' et t" de t, respectivement. Par exemple donc, dans la deuxième paire indiquée sur la FIGURE 5, préparatifs dans q est en dépendance syntaxique de type MODIFICATEUR avec l'élément de mariage, et dans la traduction t2, preparations, qui est aligné avec préparatifs, est également en dépendance de type MODIFICATEUR avec l'élément marriage qui est aligné avec de mariage, donc la paire de dépendance (caractéristique de couplage) MOD,MOD a pu être extraite. Cette paire de dépendance peut ainsi être assignée à une valeur de caractéristique qui peut être sommée pour toutes les dépendances semblables dans la paire. Dans d'autres paires de q et t, la ou les paires de dépendance peuvent être différentes (voir par exemple la troisième paire q,t3). D'autres caractéristiques qui peuvent être utilisées comprennent des caractéristiques de modèle linguistique, telles que les fréquences de certains n-grammes particuliers. Comme on pourra le comprendre, dans l'apprentissage des poids pour les caractéristiques, les caractéristiques qui présentent une corrélation moins bonne avec les performances d'extraction reçoivent un poids moindre. En révisant l'ensemble de poids de caractéristique dans le modèle entraîné, les caractéristiques avec des poids inférieurs à une valeur seuil peuvent être identifiées et éventuellement éliminées du modèle. Calcul de scores de traduction (S110) Dans l'exemple de mode de réalisation, la traduction optimale (candidate de requête) est celle qui maximise le score de traduction sur toutes les traductions ti de l'ensemble 64. Comme indiqué précédemment, le score de traduction est une fonction pondérée des caractéristiques calculées pour la requête candidate, et peut être défini comme une combinaison linéaire pondérée des valeurs des caractéristiques, tout comme pour l'équ. 1 ci-dessus.

Il convient de noter que les termes « optimum » et « maximisation », ainsi que la terminologie similaire, doivent être compris ici au sens large, comme les comprendrait une personne du métier possédant des compétences ordinaires. Ces termes ne doivent par exemple pas être compris comme étant limités à la valeur optimale globale absolue. La maximisation d'une fonction peut par exemple employer un algorithme de maximisation itératif qui termine à un critère d'arrêt, avant qu'un maximum absolu ne soit atteint. Dans l'exemple de mode de réalisation cependant, la fonction de calcul de score est simplement un produit scalaire dans lequel chaque valeur de caractéristique est simplement pondérée par son poids approprié et les valeurs de caractéristique pondérées sont additionnées. La requête candidate, ou la collection de requêtes candidates, produisant le score le plus élevé est sortie. On comprendra qu'un traitement ultérieur des requêtes avant leur sortie vers un utilisateur peut être requis. Un avantage de l'exemple d'approche de reclassement est qu'il permet d'optimiser le modèle de reclassement en fonction d'un score d'extraction d'information (IR). En outre, la longueur de requête moyenne est généralement d'environ 5 mots, ce qui permet d'obtenir une diversité beaucoup plus élevée dans la liste des N meilleures traductions candidates que dans le cas d'une traduction de phrase générale, où la longueur moyenne de chaque chaîne source est d'environ 25 mots. Le procédé illustré sur les FIGURES 2 et 3 peut être mis en oeuvre dans un produit logiciel qui peut être exécuté sur un ordinateur, tel que sur un disque optique, un disque dur ou similaire. L'exemple de procédé peut être mis en oeuvre sur un ou plusieurs ordinateurs d'usage général ou d'usage spécialisé, sur un microprocesseur programmé ou un microcontrôleur et des éléments périphériques de circuit intégré, ou des composants similaires. EXEMPLES S'agissant d'un système SMT, le système de référence Moses fut entraîné avec un recueil parallèle de paires de phrases (Europarl français-anglais). Des données d'entraînement 28 pour entraîner le modèle de reclassement furent générées à partir des pistes AdHoc-main, AdHoc-TEL et GeoCLEF du CLEF 2001-2008. Un total de 400 thèmes parallèles fut extrait de ces données pour la paire de langues français-anglais. Pour tester le système entraîné, la tâche CLEF AdHoc-TEL 2009 (50 thèmes) fut utilisée. Ces requêtes furent traduites avec le système de référence Moses entraîné et un score AP fut assigné aux requêtes traduites, sur base des scores d'extraction des documents extraits. Comme caractéristiques pour le modèle de reclassement, les groupes de caractéristiques suivants furent évalués : MOSES : un sous-ensemble de caractéristiques de référence Moses (uniquement les caractéristiques du modèle de traduction qui ont trait aux probabilités lexicales ou de phrases). MOSES+POS : les caractéristiques MOSES ci-dessus, enrichies avec des caractéristiques POS (pour les 21 premières caractéristiques POS).

MOSES+LEX : les caractéristiques MOSES ci-dessus, enrichies avec des caractéristiques LEX (pour les 21 premières caractéristiques POS). MOSES+POS+LEX : les caractéristiques MOSES ci-dessus, enrichies avec des caractéristiques POS et LEX (pour les 21 premières caractéristiques POS). Les scores de précision moyenne de référence (MAP) pour le système SMT, sans reclassement, sont fournis dans la Table 1. Table 1 IR monolingue MAP IR bilingue MAP MAP 1 meilleur 5 meilleurs anglais 0,3159 français-anglais 0,1744 0,2199 L'extraction monolingue fut effectuée avec la boîte à outils Lemur toolkit, en utilisant les requêtes anglaises. Les scores MAP français-anglais sont calculés après avoir effectué la traduction de requêtes françaises en anglais et une extraction monolingue, avec soit la meilleure traduction, soit un enchaînement des 5 meilleures traductions proposées par le modèle de référence Moses (entraîné avec Europarl).

Les résultats d'extraction monolingue peuvent donc être considérés comme l'objectif du présent système. Résultats Les résultats du reclassement avec les différents modèles sont illustrés sur les FIGURES 6 et 7. Ces résultats montrent que l'exemple de procédé peut améliorer la qualité d'extraction entre langues en choisissant des traductions plus appropriées parmi une liste existante avec un modèle adapté. Des améliorations de la précision MAP par rapport au score MAP de référence sont généralement observées pour les deux cas 1 meilleur et 5 meilleurs (c'est-à-dire en prenant une seule meilleure traduction ou un enchaînement des 5 meilleures traductions proposées par le modèle de reclassement correspondant). La seule exception concerne le modèle MOSES dans le cas des 5 meilleurs, qui peut être une fonction de la dispersion des données d'entraînement 28.

Claims

REVENDICATIONS1. Procédé de traduction comprenant : la réception d'une requête d'entrée dans une langue source ; et la sortie d'une requête cible, la requête cible étant basée sur une traduction de la requête d'entrée dans une langue cible différente de la langue source, avec un système de traduction automatique qui a été entraîné avec des représentations de caractéristiques de requêtes traduites, les requêtes traduites ayant été générées par traduction d'une requête originale depuis la langue source vers la langue cible, et une mesure de performance de l'extraction d'information pour chacune des requêtes traduites, pour chaque requête d'un ensemble de requêtes originales.
2. Procédé selon la revendication 1, dans lequel la sortie comprend l'envoi de la requête cible vers un moteur de recherche et l'extraction d'information sur base de la requête cible.
3. Procédé selon la revendication 1, dans lequel la sortie comprend : la traduction de la requête d'entrée à l'aide d'un décodeur du système de traduction automatique pour générer un ensemble de requêtes candidates dans la langue cible ; l'extraction de caractéristiques pour chacune des requêtes candidates dans l'ensemble ; et le classement des requêtes candidates sur base d'une représentation des caractéristiques extraites pour chaque requête candidate et de poids de caractéristique pour les caractéristiques apprises lors de l'entraînement du système de traduction automatique.
4. Procédé selon la revendication 3, dans lequel le reclassement comprend le calcul d'une fonction des caractéristiques extraites et des poids de caractéristique appris pour les caractéristiques.
5. Procédé selon la revendication 4, dans lequel le calcul de la fonction comprend le calcul d'un score de traduction pour chacune des requêtes candidates sous forme d'une combinaison linéaire pondérée de ses caractéristiques extraites.
6. Procédé selon la revendication 5, dans lequel le procédé comprend la sortie, comme requête cible, d'une requête candidate qui répond à la condition : l t _ ar9maxtiEGEN(q)A . F(ti) (équ. 1) où (GEN(q)) représente une requête candidate générée à partir d'une requête source q, A représente un ensemble de poids de caractéristique acquis lors de l'entraînement, avec un poids pour chacune des caractéristiques dans FOEi), et - représente un produit scalaire.
7. Procédé selon la revendication 3, dans lequel au moins une des caractéristiques extraites est basée sur des parties de discours pour les requêtes candidates.
8. Procédé selon la revendication 3, dans lequel la sortie de la requête cible comprend la sortie de la requête candidate au rang le plus élevé comme requête cible ou la sortie d'une combinaison de requêtes candidates à rang plus élevé comme requête cible.
9. Procédé selon la revendication 1, dans lequel la performance de l'extraction d'information de chaque requête traduite est basée sur un score de pertinence pour des documents dans un ensemble de documents extraits en réponse aux requêtes traduites.
10.Système de traduction de requêtes comprenant : un décodeur qui reçoit une requête source dans une langue source et sort un ensemble de requêtes candidates dans une langue cible, chacune des requêtes candidates étant une traduction de la même requête source ; et un module de reclassement qui sort une requête cible sur base d'au moins une des requêtes candidates, le module de reclassement extrayant des caractéristiques de chacune des requêtes candidates et calculant une fonction dans laquelle les caractéristiques extraites sont pondérées par des poids de caractéristique, les poids ayant été appris pour des caractéristiques de chaquerequête d'un ensemble de requêtes traduites générées par la traduction d'une requête originale dans la langue cible et une mesure de performance de l'extraction d'information pour chacune des requêtes traduites, pour chaque requête originale dans un ensemble de requêtes originales.