FR3040808A1 - Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche - Google Patents

Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche Download PDF

Info

Publication number
FR3040808A1
FR3040808A1 FR1558249A FR1558249A FR3040808A1 FR 3040808 A1 FR3040808 A1 FR 3040808A1 FR 1558249 A FR1558249 A FR 1558249A FR 1558249 A FR1558249 A FR 1558249A FR 3040808 A1 FR3040808 A1 FR 3040808A1
Authority
FR
France
Prior art keywords
language
word
words
vectors
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1558249A
Other languages
English (en)
Other versions
FR3040808B1 (fr
Inventor
Guillaume Wenzek
Jocelyn Coulmance
Jean-Marc Marty
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dassault Systemes SE
Original Assignee
PROXEM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PROXEM filed Critical PROXEM
Priority to FR1558249A priority Critical patent/FR3040808B1/fr
Priority to PCT/EP2016/070971 priority patent/WO2017042161A1/fr
Priority to US15/757,649 priority patent/US11055370B2/en
Priority to EP16766260.0A priority patent/EP3347830A1/fr
Publication of FR3040808A1 publication Critical patent/FR3040808A1/fr
Application granted granted Critical
Publication of FR3040808B1 publication Critical patent/FR3040808B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

L'invention porte principalement sur un procédé d'établissement automatique de requêtes inter-langues exécutées par un moteur de recherche, caractérisé en ce que, à partir d'un fichier de texte contenant un corpus d'apprentissage comportant un ensemble de phrases exprimées de manière correspondante dans au moins deux langues, les mots de chacune des deux langues étant associés chacun à un vecteur cible, ledit procédé comporte: - une étape (101) d'alignement de vecteurs cibles des mots dudit corpus d'apprentissage (C) dans lesdites au moins deux langues, - une étape (102) de récupération de N mots dans chacune des au moins deux langues ayant des vecteurs cibles les plus proches par rapport à un vecteur cible associé à un mot de requête, et - une étape (103) d'établissement de requêtes exécutées par un moteur de recherche à partir des N mots précédemment récupérés dans lesdites au moins deux langues.

Description

PROCEDE D'ETABLISSEMENT AUTOMATIQUE DE REQUETES INTERLANGUES POUR MOTEUR DE RECHERCHE
DOMAINE TECHNIQUE DE L’INVENTION L'invention concerne le domaine de l'informatique appliquée au langage. Plus précisément, l'invention porte sur un procédé d'établissement automatique de requête inter-langues pour moteur de recherche.
ARRIERE PLAN TECHNOLOGIQUE
Il est connu de représenter des mots à l'aide de vecteurs de taille fixe. Il s'agit d'une représentation distribuée, dans la mesure où il n'est pas nécessaire qu'il existe une correspondance de type bijective entre les dimensions des vecteurs et les propriétés linguistiques des mots distribuées suivant les dimensions de l'espace.
Une méthode connue, dite Skip-gram (Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013a. Efficient estimation of word représentations in vector space. arXiv preprint arXiv:1301.3781) permet un apprentissage de vecteurs de mots autorisant le traitement d'une très grande quantité de données en un temps réduit. Ainsi, la méthode Skip-gram permet de traiter un ensemble de 1.6 milliards de mots en moins d'une journée.
Dans l'état de l'art, les requêtes établies sur les moteurs de recherche à partir de vecteurs de mots ne peuvent être réalisées que dans une seule langue uniquement.
OBJET DE L’INVENTION L'invention vise à permettre d'établir, à partir d'un mot de requête, des requêtes exécutables par un moteur de recherche dans plusieurs langues. A cet effet, l'invention propose un procédé d'établissement automatique de requêtes inter-langues exécutées par un moteur de recherche, caractérisé en ce que, à partir d'un fichier de texte contenant un corpus d'apprentissage comportant un ensemble de phrases exprimées de manière correspondante dans au moins deux langues, les mots de chacune des deux langues étant associés chacun à un vecteur cible, ledit procédé comporte: - une étape d'alignement de vecteurs cibles des mots dudit corpus d'apprentissage dans lesdites au moins deux langues, - une étape de récupération de N mots dans chacune des au moins deux langues ayant des vecteurs cibles les plus proches par rapport à un vecteur cible associé à un mot de requête, et - une étape d'établissement de requêtes exécutées par un moteur de recherche à partir des N mots précédemment récupérés dans lesdites au moins deux langues.
Selon une mise en oeuvre, pour permettre à un utilisateur de filtrer un sens dudit mot de requête parmi plusieurs sens, ledit procédé comporte en outre: i - une étape de détermination de M vecteurs cibles les plus proches dudit vecteur cible associé audit mot de requête, ii - une étape de sélection du vecteur cible le plus proche correspondant au sens dudit mot de requête à filtrer, et iii - une étape de retranchement dudit vecteur cible le plus proche sélectionné au vecteur cible associé audit mot de requête.
Selon une mise en oeuvre, les étapes précitées i) à iii) sont répétées jusqu'à ce que des résultats retournés par ledit moteur de recherche soient exempts du sens du mot de requête à filtrer.
Selon une mise en oeuvre, l'étape de retranchement est effectuée par application du processus d'ortho-normalisation de Graham-Schmit.
Selon une mise en oeuvre, chaque mot dudit corpus d'apprentissage étant associé à un vecteur cible et à un vecteur de contexte, l'étape d'alignement des vecteurs cibles comporte: - des étapes de calcul de fonctions de coût, dites fonctions intra-langues, pour calculer les vecteurs cibles et les vecteurs de contexte dans chacune des deux langues, - des étapes de calcul de fonctions de coût, dites fonctions de coût interlangues, respectivement pour aligner les vecteurs cibles des mots d'une première langue par rapport aux vecteurs de contexte des mots d'une deuxième langue ainsi que pour aligner les vecteurs cibles des mots de la deuxième langue par rapport aux vecteurs de contexte des mots de la première langue, et - une étape de minimisation de la somme des au moins quatre fonctions de coût précédemment calculées.
Selon une mise en oeuvre, l'étape de calcul de chaque fonction de coût intra-langue est réalisée par un procédé itératif mettant en oeuvre une fenêtre coulissante dans ledit corpus d'apprentissage et basé sur l'analyse d'un vecteur cible d'un mot d'intérêt de la fenêtre par rapport aux vecteurs de contexte des autres mots de la fenêtre, dits mots de contexte, situés autour du mot d'intérêt et exprimés dans la même langue que le mot d'intérêt.
Selon une mise en oeuvre, la fonction de coût intra-langue s'exprime de la façon suivante:
- C correspondant à l'ensemble des phrases dudit corpus d'apprentissage dans une langue donnée; - s[w-l:w+l] étant la fenêtre de mots correspondant à une phrase du corpus d'apprentissage centrée autour du mot d'intérêt w, - w étant le mot d'intérêt de la phrase, - c étant un mot de contexte, - w étant le vecteur cible du mot d'intérêt, - c correspondant au vecteur de contexte du mot de contexte, - σ étant une fonction de type Sigmoïde.
Selon une mise en oeuvre, les étapes de calcul des fonctions de coût interlangues d'une langue par rapport à une autre langue sont réalisées par un procédé itératif mettant en oeuvre une fenêtre coulissante dans le corpus d'apprentissage et basé sur l'analyse d'un vecteur cible d'un mot d'intérêt de la fenêtre par rapport aux vecteurs de contexte de l'ensemble des mots situés dans la fenêtre, y compris le mot d'intérêt, exprimés dans une langue différente de celle du mot d'intérêt.
Selon une mise en œuvre, la fonction de coût inter-langue s'exprime de la manière suivante:
- se étant une phrase exprimée dans la première langue e et correspondant à la traduction d'une phrase sf de la deuxième langue f, - Ae,f étant le corpus aligné des phrases exprimées dans la première et dans la deuxième langue, - we étant un mot cible sélectionné dans la phrase "se" correspondant à la fenêtre centrée autour du mot d'intérêt we et définie par se[we-l:we+l], - le contexte sélectionné pour un mot d'intérêt we dans la phrase "se" étant constitué par tous les mots cf apparaissant dans la phrase sf, y compris le mot d'intérêt we, - ' étant le vecteur cible du mot d'intérêt, - ^correspondant au vecteur des mots de contexte dans la langue autre que celle du mot d'intérêt, - σ étant une fonction de type Sigmoïde.
Selon une mise en œuvre, pour aligner des vecteurs cibles de mots d'une langue supplémentaire, ledit procédé comporte en outre: - une étape de calcul d'une fonction de coût intra-langue pour déterminer les vecteurs cibles et les vecteurs de contexte dans la langue supplémentaire, - une étape de calcul d'une fonction de coût inter-langue pour aligner les vecteurs cibles des mots de la langue supplémentaire par rapport aux vecteurs cibles des mots d'une des langues, dite langue pivot, ainsi que pour aligner les vecteurs cibles des mots de la langue pivot par rapport aux vecteurs cibles des mots de la langue supplémentaire, et - une étape de minimisation de la somme de l'ensemble des fonctions de coûts intégrant en outre la fonction de coût intra-langue et la fonction de coût inter-langue précédemment calculées pour la langue supplémentaire. L'invention a également pour objet un équipement informatique de type ordinateur ou serveur comportant une mémoire stockant des instructions logicielles permettant la mise en œuvre du procédé tel que précédemment défini.
BREVE DESCRIPTION DES FIGURES L’invention sera mieux comprise à la lecture de la description qui suit et à l’examen des figures qui l’accompagnent. Ces figures ne sont données qu’à titre illustratif mais nullement limitatif de l’invention.
La figure 1 montre un diagramme des différentes étapes du procédé d'établissement automatique de requêtes inter-langues selon la présente invention;
La figure 2 montre un diagramme des étapes mises en œuvre pour déterminer les vecteurs cibles alignés de mots dans deux langues différentes;
La figure 3 est un tableau illustrant les mots de requête pouvant être générés, grâce au procédé selon la présente invention, dans 21 langues à partir d'un vecteur cible associé à un seul mot de requête;
La figure 4 est un tableau illustrant la possibilité de désambiguïser un mot de requête ayant plusieurs sens par soustraction d'un vecteur cible associé à un mot d'une autre langue correspondant au sens à filtrer.
DESCRIPTION D’EXEMPLES DE REALISATION DE L’INVENTION
Le procédé selon la présente invention est mis en œuvre à partir d'un fichier de texte contenant un corpus d'apprentissage C comportant un ensemble de phrases exprimées de manière correspondante dans au moins deux langues, par exemple la langue anglaise "e" et la langue française "f". Les mots de chacune des deux langues sont associés chacun à un vecteur cible w et à un vecteur de contexte c. Les vecteurs cibles w et de contexte c comportent chacun un nombre de composantes compris entre 50 et 1000 et valant par exemple 300.
Comme cela est illustré par la figure 1, le procédé comporte dans un premier temps une étape de détermination 100 de vecteurs cibles w alignés des mots dans les deux langues, de telle façon que deux vecteurs cibles w associés à deux mots correspondants dans les deux langues sont les plus proches l'un de l'autre. Autrement dit, une fois l'étape d'alignement 100 des vecteurs cibles ir réalisée, pour un vecteur cible ir associé à un mot dans une première langue donné, il n'y a aucun autre vecteur cible ^plus proche que celui associé à la traduction du mot dans l'autre langue. A cet effet, comme cela est illustré par le diagramme de la figure 2, on réalise des étapes 201, 202 de calcul de fonctions de coût Je, Jf dites fonctions de coût intra-langues, pour calculer les vecteurs cibles w et les vecteurs de contexte c dans chacune des deux langues. Dans l'exemple, on calcule ainsi une fonction de coût intra-langue Je pour la langue anglaise et une fonction de coût intra-langue Jf pour la langue française.
De préférence, les étapes de calcul 201, 202 de chaque fonction de coût intra-langue Je, Jf sont réalisées par un procédé itératif mettant en œuvre une fenêtre coulissante dans le corpus d'apprentissage C et basé sur l'analyse d'un vecteur cible w d'un mot d'intérêt de la fenêtre par rapport aux vecteurs de contexte c des autres mots de la fenêtre, dits mots de contexte, situés autour du mot d'intérêt et exprimés dans la même langue que le mot d'intérêt. Le mot d'intérêt n'est pas pris en compte lors du calcul des vecteurs cibles des mots de contexte.
En l'occurrence, la fonction de coût intra-langue J s'exprime pour chaque langue de la façon suivante:
- C correspondant à l'ensemble des phrases du corpus d'apprentissage dans une langue donnée e ou f; - s[w-l:w+l] étant la fenêtre de mots correspondant à une phrase du corpus d'apprentissage centrée autour du mot w, - w étant le mot d'intérêt de la phrase, - c étant un mot de contexte autour du mot d'intérêt, - w étant le vecteur cible du mot d'intérêt, - c correspondant au vecteur de contexte du mot de contexte, - σ étant une fonction de type Sigmoïde.
En outre, on réalise des étapes de calcul 203, 204 de fonctions de coût Qe,f, Qf,e dites fonctions de coût inter-langues, respectivement pour aligner les vecteurs cibles V)e des mots de la première langue e par rapport aux vecteurs de contexte cf des mots de la deuxième langue f, ainsi que pour aligner les vecteurs cibles Wf des mots de la deuxième langue f par rapport aux vecteurs de contexte Ce des mots de la première langue e.
De préférence, l'étape de calcul 203, 204 de chaque fonction de coût interlangues Qe,f, Qf,e d'une langue par rapport à une autre est réalisée par un procédé itératif mettant en œuvre une fenêtre coulissante dans le corpus d'apprentissage C et basé sur l'analyse d'un vecteur cible VJ d'un mot d'intérêt de la fenêtre par rapport aux vecteurs de contexte c de l'ensemble des mots situés dans la fenêtre et exprimés dans la langue différente de celle du mot d'intérêt.
En l'occurrence, la fonction de coût inter-langue Ω s'exprime de la manière suivante:
- se étant une phrase exprimée dans une première langue e et correspondant à la traduction d'une phrase sf exprimée dans une deuxième langue f, - Ae,f étant le corpus aligné des phrases exprimées dans la première et dans la deuxième langue (c’est-à-dire que pour chaque phrase exprimée dans une langue il existe une phrase correspondante dans l'autre langue), - we étant un mot cible sélectionné dans la phrase se correspondant à la fenêtre centrée autour de we: se[we-l:we+l], - le contexte sélectionné pour un mot d'intérêt we dans la phrase "se" étant constitué par tous les mots cf apparaissant dans la phrase sf, y compris le mot d'intérêt, -We étant le vecteur cible du mot d'intérêt, - cf correspondant au vecteur de contexte dans la langue autre que celle du mot d'intérêt, - σ étant une fonction de type Sigmoïde.
La somme de ces quatre fonctions de coût Je, Jf Qe,f, Qf,e précédemment calculées (cf. bloc fonctionnel 205) est minimisée afin d'obtenir les vecteurs cibles we, ^alignés dans les deux langues.
Il est à noter qu'il est très simple d'adapter le procédé selon l'invention pour aligner des vecteurs cibles Wj de mots d'une langue supplémentaire. En effet, il suffit pour cela de calculer la fonction de coût intra-langue pour calculer les vecteurs cibles ^/et les vecteurs de contexte Ci dans la langue supplémentaire, ainsi que les fonctions de coût inter-langue pour aligner les vecteurs cibles Wj des mots de la langue supplémentaire par rapport aux vecteurs cibles '^edes mots d'une des langues, dite langue pivot, ainsi que pour aligner les vecteurs cibles wedes mots de la langue pivot par rapport aux vecteurs cibles Wides mots de la langue supplémentaire.
Ainsi, si l'on souhaite aligner les vecteurs de mots exprimés dans la langue italienne "i" et que l'anglais "e" est défini comme une langue pivot, on calculera outre les fonctions de coûts précitées la fonction de coût intra-langue Ji ainsi que les fonctions de coûts inter-langues Qi,e et Qe,i.
On minimise ensuite la somme de l'ensemble des fonctions de coûts intégrant, outre les fonctions de coût précitées Je, Jf, Qe,f, Qf,e, les fonctions de coûts Ji, Qi,e et Qe,i calculées pour la langue supplémentaire.
Ainsi, par prise en compte des fonctions de coûts pour chaque langue supplémentaire, l'invention pourra permettre aisément d'aligner des vecteurs cibles Wi dans plus de 15 langues différentes.
Une fois les vecteurs cibles w alignés suivant la méthode précédemment décrite, il est possible d'établir automatiquement des requêtes inter-langues pour un moteur de recherche. A cet effet, dans une étape 102, on récupère N mots dans chacune des langues considérées ayant des vecteurs cibles w les plus proches par rapport à un vecteur cible w associé à un mot de requête. La détermination des vecteurs cibles w les plus proches les uns des autres est effectuée par minimalisation de la distance euclidienne entre les vecteurs.
Dans une étape 103, les requêtes sont ensuite établies et exécutées par un moteur de recherche à partir des N mots précédemment récupérés dans les langues considérées. Le procédé met également en oeuvre une étape 104 d'affichage des résultats retournés par le moteur de recherche.
La figure 3 met ainsi en évidence qu'à partir d'un seul mot de requête, ici le mot "innovation", il est possible de faire une recherche à l'aide de 10 mots par langue ayant des vecteurs les plus proches du vecteur associé au mot "innovation", soit une recherche basée sur 210 mots de recherche dans le cas de l'utilisation de 21 langues. L'invention permet ainsi d'obtenir des résultats de recherche en relation avec le sens global d'un mot considéré dans une pluralité de langues, et cela sans avoir nécessairement connaissance des différentes langues du fait de l'utilisation des vecteurs cibles ir alignés dans les différentes langues.
En outre, pour permettre à un utilisateur de filtrer un sens d'un mot de requête ayant plusieurs sens, le procédé pourra également comporter en outre: i - une étape de détermination de M vecteurs cibles w les plus proches du vecteur cible associé audit mot de requête, ii - une étape de sélection du vecteur cible w le plus proche correspondant au sens dudit mot de requête à filtrer, et iii - une étape de retranchement du vecteur cible w le plus proche sélectionné au vecteur cible associé au mot de requête. Cette étape de retranchement est effectuée de préférence par application du processus d'ortho-normalisation de Graham-Schmit.
La figure 4 montre ainsi la liste des mots polonais ayant les vecteurs cibles les plus proches du mot "train" français accompagnés de leur traduction en anglais. Cette liste inclut des notions de véhicule, ainsi que des notions temporelles (ex: être en train de manger). Le tableau met en évidence que, si l'on soustrait le vecteur cible du mot "sta" italien associé uniquement à la notion temporelle au vecteur cible du mot "train" en français, on obtient une liste de mots polonais contenant uniquement des mots en relation avec la notion de véhicule. Autrement dit, la soustraction entre vecteurs cibles dans les différentes langues permet d'éliminer un ou plusieurs sens d'un mot de requête que l'utilisateur souhaite filtrer lors de sa recherche afin de désambiguïser un terme.
Les étapes précitées i) à iii) pourront être répétées par l'utilisateur ou de façon automatique jusqu'à ce que des résultats affichés par le moteur de recherche soient exempts du sens du mot de requête à filtrer. L'invention a également pour objet un équipement informatique de type ordinateur ou serveur comportant une mémoire stockant des instructions logicielles permettant la mise en œuvre du procédé tel que précédemment décrit. L'homme du métier pourra bien entendu apporter des modifications au procédé décrit ci-dessus sans sortir du cadre de l'invention défini ci-après par les revendications.

Claims (11)

  1. NOUVEAU JEU DE REVENDICATIONS
    1. Procédé d'établissement automatique de requêtes inter-langues exécutées par un moteur de recherche, caractérisé en ce que, à partir d'un fichier de texte contenant un corpus d'apprentissage (C) comportant un ensemble de phrases exprimées de manière correspondante dans au moins deux langues, les mots de chacune des deux langues étant associés chacun à un vecteur cible (W), ledit procédé comporte: - une étape (101) d'alignement de vecteurs cibles (^e, Wf) des mots dudit corpus d'apprentissage (C) dans lesdites au moins deux langues, - une étape (102) de récupération de N mots dans chacune des au moins deux langues ayant des vecteurs cibles (U)) les plus proches par rapport à un vecteur cible associé à un mot de requête, et - une étape (103) d'établissement de requêtes à partir des N mots précédemment récupérés dans lesdites au moins deux langues, - une étape d'exécution des requêtes par un moteur de recherche, et - une étape d'affichage des résultats retournés par le moteur de recherche.
  2. 2. Procédé selon la revendication 1, caractérisé en ce que, pour permettre à un utilisateur de filtrer un sens dudit mot de requête parmi plusieurs sens, ledit procédé comporte en outre: i - une étape de détermination de M vecteurs cibles (w) les plus proches dudit vecteur cible associé audit mot de requête, ii - une étape de sélection du vecteur cible (W) le plus proche correspondant au sens dudit mot de requête à filtrer, et iii - une étape de retranchement dudit vecteur cible le plus proche sélectionné au vecteur cible associé audit mot de requête.
  3. 3. Procédé selon la revendication 2, caractérisé en ce que les étapes précitées i) à iii) sont répétées jusqu'à ce que des résultats retournés par ledit moteur de recherche soient exempts du sens du mot de requête à filtrer.
  4. 4. Procédé selon la revendication 2 ou 3, caractérisé en ce que l'étape de retranchement est effectuée par application du processus d'orthonormalisation de Graham-Schmit.
  5. 5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que, chaque mot dudit corpus d'apprentissage (C) étant ~ '> jf- I associé à un vecteur cible (W) et à un vecteur de contexte (C), l'étape d'alignement des vecteurs cibles ('^e, Wf) comporte: - des étapes de calcul (201,202) de fonctions de coût, dites fonctions intra-langues (Je, Jf), pour calculer les vecteurs cibles (W) et les vecteurs de contexte (C) dans chacune des deux langues, - des étapes de calcul (203, 204) de fonctions de coût, dites fonctions de coût inter-langues (Ωβ,ί; Qf,e), respectivement pour aligner les vecteurs cibles (^’e) des mots d'une première langue (e) par rapport aux vecteurs de contexte (Cf) des mots d'une deuxième langue (f) ainsi que pour aligner les vecteurs cibles (Wf) des mots de la deuxième langue (f) par rapport aux vecteurs de contexte (Ce) des mots de la première langue (e), et - une étape de minimisation de la somme (205) des au moins quatre fonctions de coût (Je; Jf; ûe,f; Qf,e) précédemment calculées.
  6. 6. Procédé selon la revendication 5, caractérisé en ce que l’étape de calcul de chaque fonction de coût intra-langue (Je, Jf) est réalisée par un procédé itératif mettant en œuvre une fenêtre coulissante dans ledit corpus d'apprentissage (C) et basé sur l'analyse d'un vecteur cible (W) d’un mot d'intérêt de la fenêtre par rapport aux vecteurs de contexte (C) des autres mots de la fenêtre, dits mots de contexte, situés autour du mot d'intérêt et exprimés dans la même langue que le mot d'intérêt.
  7. 7. Procédé selon la revendication 6, caractérisé en ce que la fonction de coût intra-langue J s'exprime de la façon suivante:
    - C correspondant à l'ensemble des phrases dudit corpus d'apprentissage dans une langue donnée; - s[w-l:w+l] étant la fenêtre de mots correspondant à une phrase du corpus d'apprentissage centrée autour du mot w, - w étant le mot d'intérêt de la phrase, - c étant un mot de contexte, -A - W étant le vecteur cible du mot d'intérêt, t— - c correspondant au vecteur de contexte du mot de contexte, - σ étant une fonction de type Sigmoïde.
  8. 8. Procédé selon l'une quelconque des revendications 5 à 7, caractérisé en ce que les étapes de calcul (203, 204) des fonctions de coût inter-langues (Oe,f; ûf,e) d'une langue par rapport à une autre langue sont réalisées par un procédé itératif mettant en œuvre une fenêtre coulissante dans le corpus d'apprentissage (C) et basé sur l'analyse d’un vecteur cible —> ^ - (w) d'un mot d'intérêt de la fenêtre par rapport aux vecteurs de contexte (C) de l'ensemble des mots situés dans la fenêtre, y compris le mot d'intérêt, exprimés dans une langue différente de celle du mot d'intérêt.
  9. 9. Procédé selon la revendication 8, caractérisé en ce que la fonction de coût inter-langue Qe,f s'exprime de la manière suivante:
    - se étant une phrase exprimée dans la première langue e et correspondant à la traduction d'une phrase sf de la deuxième langue f, - Ae,f étant le corpus aligné des phrases exprimées dans la première et dans la deuxième langue, - we étant un mot cible sélectionné dans la phrase "se" correspondant à la fenêtre centrée autour de we définie par se[we-l:we+l], - le contexte sélectionné pour un mot d'intérêt we dans la phrase "se" étant constitué par tous les mots cf apparaissant dans la phrase sf, y compris le mot d'intérêt, lïf - e étant le vecteur cible du mot d'intérêt, - c/correspondant au vecteur des mots de contexte dans la langue autre que celle du mot d'intérêt, - σ étant une fonction de type Sigmoïde.
  10. 10. Procédé selon l'une quelconque des revendications 5 à 9, caractérisé en ce que, pour aligner des vecteurs cibles ('W\) de mots d'une langue supplémentaire, ledit procédé comporte en outre: - une étape de calcul d'une fonction de coût intra-langue pour déterminer les vecteurs cibles (^i) et les vecteurs de contexte (Ce) dans la langue supplémentaire, - une étape de calcul d'une fonction de coût inter-langue pour aligner les vecteurs cibles (W'\) des mots de la langue supplémentaire par rapport aux vecteurs cibles (we) des mots d'une des langues, dite langue pivot, ainsi que pour aligner les vecteurs cibles (^e) des mots de la langue pivot par rapport aux vecteurs cibles (^i) des mots de la langue supplémentaire, et - une étape de minimisation de la somme de l'ensemble des fonctions de coûts intégrant en outre la fonction de coût intra-langue et la fonction de coût inter-langue précédemment calculées pour la langue supplémentaire.
  11. 11. Equipement informatique de type ordinateur ou serveur comportant une mémoire stockant des instructions logicielles permettant la mise en oeuvre du procédé tel que défini selon l'une quelconque des revendications précédentes.
FR1558249A 2015-09-07 2015-09-07 Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche Active FR3040808B1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
FR1558249A FR3040808B1 (fr) 2015-09-07 2015-09-07 Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche
PCT/EP2016/070971 WO2017042161A1 (fr) 2015-09-07 2016-09-06 Procédé d'établissement automatique de requêtes inter-langues pour moteur de recherche
US15/757,649 US11055370B2 (en) 2015-09-07 2016-09-06 Method for automatically constructing inter-language queries for a search engine
EP16766260.0A EP3347830A1 (fr) 2015-09-07 2016-09-06 Procédé d'établissement automatique de requêtes inter-langues pour moteur de recherche

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1558249A FR3040808B1 (fr) 2015-09-07 2015-09-07 Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche

Publications (2)

Publication Number Publication Date
FR3040808A1 true FR3040808A1 (fr) 2017-03-10
FR3040808B1 FR3040808B1 (fr) 2022-07-15

Family

ID=55542737

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1558249A Active FR3040808B1 (fr) 2015-09-07 2015-09-07 Procede d'etablissement automatique de requetes inter-langues pour moteur de recherche

Country Status (4)

Country Link
US (1) US11055370B2 (fr)
EP (1) EP3347830A1 (fr)
FR (1) FR3040808B1 (fr)
WO (1) WO2017042161A1 (fr)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6705506B2 (ja) * 2016-10-04 2020-06-03 富士通株式会社 学習プログラム、情報処理装置および学習方法
US11100117B2 (en) * 2019-06-14 2021-08-24 Airbnb, Inc. Search result optimization using machine learning models
US11354513B2 (en) * 2020-02-06 2022-06-07 Adobe Inc. Automated identification of concept labels for a text fragment
US11416684B2 (en) 2020-02-06 2022-08-16 Adobe Inc. Automated identification of concept labels for a set of documents
CN113779205B (zh) * 2020-09-03 2024-05-24 北京沃东天骏信息技术有限公司 一种智能应答方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1072982A2 (fr) * 1999-07-30 2001-01-31 Matsushita Electric Industrial Co., Ltd. Méthode et système d'extraction de mots similaires et de recouvrement de documents
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
EP2624149A2 (fr) * 2012-02-02 2013-08-07 Xerox Corporation Traitement de documents utilisant une modélisation thématique probabiliste de documents représentés sous forme de mots textuels transformés en un espace continu
WO2015029241A1 (fr) * 2013-08-27 2015-03-05 Nec Corporation Procédé d'acquisition de traduction de mot
CN104731771A (zh) * 2015-03-27 2015-06-24 大连理工大学 一种基于词向量的缩写词歧义消除系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051061B2 (en) * 2007-07-20 2011-11-01 Microsoft Corporation Cross-lingual query suggestion

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
EP1072982A2 (fr) * 1999-07-30 2001-01-31 Matsushita Electric Industrial Co., Ltd. Méthode et système d'extraction de mots similaires et de recouvrement de documents
EP2624149A2 (fr) * 2012-02-02 2013-08-07 Xerox Corporation Traitement de documents utilisant une modélisation thématique probabiliste de documents représentés sous forme de mots textuels transformés en un espace continu
WO2015029241A1 (fr) * 2013-08-27 2015-03-05 Nec Corporation Procédé d'acquisition de traduction de mot
CN104731771A (zh) * 2015-03-27 2015-06-24 大连理工大学 一种基于词向量的缩写词歧义消除系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AUDREY LAROCHE ET AL: "Revisiting Context-based Projection Methods for Term-Translation Spotting in Comparable Corpora", PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS (COLING 2010), 1 October 2010 (2010-10-01), pages 617 - 625, XP055043428, Retrieved from the Internet <URL:http://www.aclweb.org/anthology-new/C/C10/C10-1070.pdf> [retrieved on 20121107] *
GAUCH ET AL: "A CORPUS ANALYSIS APPROACH FOR AUTOMATIC QUERY EXPANSION AND ITS EXTENSION TO MULTIPLE DATABASES", ACM TRANSACTIONS ON INFORMATION SYSTEMS, ASSOCIATION FOR COMPUTING MACHINERY, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, vol. 17, no. 3, 1 July 1999 (1999-07-01), pages 250 - 269, XP000865354, ISSN: 1046-8188, DOI: 10.1145/314516.314519 *
TOMAS MIKOLOV ET AL: "Efficient Estimation of Word Representations in Vector Space", 16 January 2013 (2013-01-16), XP055192736, Retrieved from the Internet <URL:http://arxiv.org/abs/1301.3781> [retrieved on 20160623] *

Also Published As

Publication number Publication date
EP3347830A1 (fr) 2018-07-18
US11055370B2 (en) 2021-07-06
US20190026371A1 (en) 2019-01-24
WO2017042161A1 (fr) 2017-03-16
FR3040808B1 (fr) 2022-07-15

Similar Documents

Publication Publication Date Title
EP3347830A1 (fr) Procédé d&#39;établissement automatique de requêtes inter-langues pour moteur de recherche
CN108416028B (zh) 一种搜索内容资源的方法、装置及服务器
JP2020528705A5 (fr)
CN111461553A (zh) 景区舆情监测分析系统和方法
US20180285744A1 (en) System and method for generating multimedia knowledge base
Isajevs et al. The effect of incisura angularis biopsy sampling on the assessment of gastritis stage
WO2012141655A1 (fr) Annotation de produit vidéo avec exploration d&#39;informations web
FR2977343A1 (fr) Syteme de traduction adapte a la traduction de requetes via un cadre de reclassement
US20170337222A1 (en) Image searching method and apparatus, an apparatus and non-volatile computer storage medium
US20150293905A1 (en) Summarization of a Document
US11423057B2 (en) Impression tagging system for locations
CN106096520A (zh) 一种信息推送方法及装置
US20140330792A1 (en) Application of text analytics to determine provenance of an object
CN109670080A (zh) 一种影视标签的确定方法、装置、设备及存储介质
Wang et al. COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training
EP2126735A1 (fr) Procede de traduction automatique
CN107688623A (zh) 一种实物检索方法、装置、设备及存储介质
FR2939537A1 (fr) Systeme de recherche d&#39;information visuelle
Martins et al. Massive stars in the young cluster VVV CL074
US9208157B1 (en) Spam detection for user-generated multimedia items based on concept clustering
CN111949767A (zh) 一种文本关键词的查找方法、装置、设备和存储介质
Holloway et al. Activity recognition using video event segmentation with text (vest)
CN109299243A (zh) 财务数据处理方法及财务数据处理系统
Pham Gia et al. An Interactive System for Multimedia Retrieval in Video Collection with Temporal Integration
US12086559B2 (en) Clause extraction using machine translation and natural language processing

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20170310

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

TP Transmission of property

Owner name: DASSAULT SYSTEMES, FR

Effective date: 20210927

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 9