FR2959333A1

FR2959333A1 - Procede et systeme d'adaptation d'un contenu textuel au comportement langagier d'une communaute en ligne

Info

Publication number: FR2959333A1
Application number: FR1001793A
Authority: FR
Inventors: Johan Stan; Hakim Hacid
Original assignee: Alcatel Lucent SAS
Current assignee: Alcatel Lucent SAS
Priority date: 2010-04-27
Filing date: 2010-04-27
Publication date: 2011-10-28
Anticipated expiration: 2030-04-27
Also published as: KR20120139791A; EP2564362A1; JP5940056B2; FR2959333B1; JP2013530437A; WO2011134804A1; CN102844775A; US20130096910A1; KR101415634B1

Abstract

Procédé d'adaptation d'un contenu textuel au comportement langagier d'une communauté en ligne, comprenant les étapes suivantes : - établissement d'un nuage sémantique de tags de la communauté en ligne ; - détermination, à partir du nuage sémantique de tags, d'au moins un voisinage sémantique à au moins un concept du contenu textuel ; - reformulation du contenu textuel à l'aide du voisinage sémantique déterminé.

Description

PROCEDE ET SYSTEME D'ADAPTATION D'UN CONTENU TEXTUEL AU COMPORTEMENT LANGAGIER D'UNE COMMUNAUTE EN LIGNE L'invention se rapporte à la communication électronique de groupe au sein d'une communauté en ligne.

L'expression « en ligne » désigne, ici, le simple recours à des dispositifs informatiques et électroniques pour interagir avec des membres d'une communauté. En effet, les communautés en ligne sont accessibles via le réseau Internet (Web 2), tel que par exemples les listes de diffusion, les forums de discussion, ou les réseaux sociaux, ou via un réseau Intranet/Extranet, tel qu'un espace de travail collaboratif d'une entreprise, une communauté de pratique ou analogues. Créée par un ou plusieurs administrateurs, une communauté en ligne, également dénommée communauté virtuelle, représente un lieu de communication électronique de groupe (collective) en temps différé (interactions asynchrones) entre intéressés par une certaine thématique d'ordre social, commercial ou éducatif par exemple. Tout utilisateur intéressé par cette thématique peut se joindre à la communauté et ainsi interagir avec ses membres. Ces derniers peuvent y échanger (déposer et/ou regarder) des contenus textuels, multimédia, ou plus généralement des données. Dans certaines communautés en ligne, seuls les usagers inscrits et identifiés pas un mot de passe peuvent déposer et/ou regarder des contenus. Ces communautés en ligne sont principalement langagières dans le sens où la communication électronique écrite est principalement l'unique moyen permettant un groupement d'utilisateurs de se constituer en une communauté. En effet, à part la thématique intéressant les membres, une communauté en ligne est généralement constituée par l'adoption et la pratique, par le groupe, d'un comportement langagier et interactionnel particulier dans cet espace de communication électronique de groupe. Ceci a pour effet que certaines pratiques langagières se ritualisent au cours du temps au sein d'une communauté en ligne, marquant, en conséquence, un indice d'appartenance communautaire à celle-ci. A001_B115_FR/806772 Autrement dit, l'appartenance à une communauté en ligne se manifeste par le partage d'un vocabulaire, d'un registre de langue, de conventions linguistiques, d'abréviations, d'acronymes, de protocoles de communication, de codes, de spécificités syntaxiques, et de concepts collectivement reconnus et attendus par ses membres, que par les normes linguistiques conventionnelles. A titre d'exemples, dans certaines communautés en ligne, on désigne la capitale de la France par « la ville de la tour Eiffel» ; le responsable d'équipe (dans le cas d'un espace de travail collaboratif sur un réseau Intranet par exemple) par « le Boss », l'expression « Long Term Evolution » par « LTE », le mot « salut » par « sit », l'équipe de football adverse par « les losers », le gagnant dans un jeu, organisé par la communauté en ligne, par « le king » ; on commence un message par « bonjour à tous », et clôture une question par « merci d'avance » ou « merci pour vos réponses »; on se tutoie. Il est à noter que ces pratiques langagières peuvent avoir peu de justesse linguistique en soi, mais elles en trouvent dans les concepts, le vocabulaire, et surtout la sémantique propres à la communauté en ligne. II s'agit d'une culture langagière qui n'est partagée que par les membres habitués d'une communauté en ligne. On parle, dans ce cas, d'un écosystème. Un lien communautaire envers une communauté en ligne se traduit, ainsi, par l'adoption et l'utilisation d'un langage et d'un code commun propre à 25 cette communauté. Pour un nouveau membre dans une certaine communauté en ligne, le dépôt d'une communication écrite (un message, une annotation, un commentaire, une question, ou plus généralement un écrit électronique) n'est réussi que si sa formulation est attendue par les membres habitués de cette 30 communauté. Equivalemment, la lecture d'une communication écrite déjà publiée par cette communauté en ligne n'est comprise au mieux que si ce nouveau membre reconnait (déchiffre) la pratique langagière de cette communauté en ligne. A défaut, tout nouveau membre aura un sentiment d'exclusion de la part de cette communauté en ligne. A001_B115_FR/806772 En effet, un des handicaps majeurs qu'un utilisateur rencontre lorsqu'il rejoint une communauté en ligne est certainement les efforts d'adaptation requis pour devenir un « vrai » membre de cette communauté. Cette adaptation se manifeste par la compréhension rapide et/ou la formulation d'une manière correcte, notamment à la lumière du comportement langagier de cette communauté, d'un écrit électronique. L'interprétation, par les membres d'une communauté en ligne, des messages (notamment des questions) postés par un nouveau membre û donc pas encore familiarisé avec le vocabulaire et la sémantique de cette communauté - peut prendre beaucoup de temps et altérer, par conséquent, la réactivité de cette communauté. Un nouveau utilisateur (ou un nouveau membre) aura, également, besoin de plus de temps pour comprendre une communication provenant de cette communauté en ligne. Un objet de la présente invention est de remédier aux inconvénients 15 précités. Un autre objet de la présente invention est de proposer un nouveau service à valeur ajoutée aux utilisateurs des communautés en lignes. Un autre objet de la présente invention est d'adapter (aligner) le contenu d'une communication électronique écrite au comportement langagier d'une 20 communauté en ligne. Un autre objet de la présente invention est de garantir une représentation uniforme du contenu des espaces de communications des communautés en ligne. Un autre objet de la présente invention est de favoriser et d'améliorer le 25 rendement du partage d'information dans le réseau d'une entreprise. Un autre objet de la présente invention est de faciliter l'intégration des nouveaux membres dans une communauté en ligne. Un autre objet de la présente invention est de caractériser, d'un point de vue linguistique, les communautés en ligne. A001_6115_FR/806772 Un autre objet de la présente invention est de favoriser l'essor des communautés en ligne. Un autre objet de la présente invention est de favoriser l'émergence d'un sentiment d'appartenance, chez un nouveau membre, à une communauté 5 virtuelle. Un autre objet de la présente invention est de proposer un dispositif sociotechnique favorisant l'émergence des communications au sein des communautés en ligne. Un autre objet de la présente invention est d'améliorer l'efficacité des 10 communications électronique de groupe. Un autre objet de la présente invention est d'identifier les comportements langagiers des communautés en ligne. A cette fin, l'invention se rapporte, selon un premier aspect, à un procédé d'adaptation d'un contenu textuel au comportement langagier d'une 15 communauté en ligne, ce procédé comprenant les étapes suivantes : établissement d'un nuage sémantique de tags de la communauté en ligne ; détermination, à partir du nuage sémantique de tags, d'au moins un voisinage sémantique à au moins un concept du contenu 20 textuel ; - reformulation du contenu textuel à l'aide du voisinage sémantique déterminé. L'invention se rapporte, selon un deuxième aspect, à un dispositif d'adaptation d'un contenu textuel au comportement langagier d'une 25 communauté en ligne, ce dispositif comprenant les modules suivants : un analyseur sémantique agencé pour établir un nuage sémantique de tags de la communauté en ligne ; un calculateur de proximité sémantique agencé pour déterminer, à partir du nuage sémantique de tags, d'au moins un voisinage 30 sémantique à au moins un concept du contenu textuel ; un reformulateur sémantique du contenu textuel à l'aide du voisinage sémantique déterminé. A001_B115_FR/806772 L'invention propose, selon un troisième aspect, un produit programme d'ordinateur implémenté sur un support mémoire, susceptible d'être mis en oeuvre au sein d'une unité de traitement informatique et comprenant des instructions pour la mise en oeuvre du procédé résumé ci-dessus.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement et de manière concrète à la lecture de la description ci-après de modes de réalisation préférés, laquelle est faite en référence aux dessins annexés dans lesquels : la figure 1 illustre schématiquement les modules d'un dispositif 10 d'adaptation sémantique d'un contenu textuel à un certain comportement langagier ; la figure 2 illustre schématiquement une architecture fonctionnelle non limitative d'un dispositif d'adaptation sémantique d'un contenu textuel à un certain comportement langagier. 15 Sur la figure 1 est représenté un utilisateur 20 procédant à interagir avec une communauté en ligne 51. On entend, ici, par « interagir avec une communauté en ligne » le fait de déposer et/ou de lire un contenu électronique textuel dans l'espace de communication électronique de cette communauté. A titre d'exemples non exhaustifs, la communauté en ligne 51 20 est un réseau social tel que « Facebook®», « Twitter® », « mySpace ®», ou « hi5®»; une indexation personnelle, dite aussi folksonomie (social tagging), telle que « delicious® », « youtube®», « flickr®», ou « yoolink® » ; 25 - un forum de discussion en ligne tel que www.commentcamarche.net, http://forum.hardware.fr/, ou http://voyageforum.com/; ou - un groupe d'utilisateurs sur un réseau Intranet ou Extranet tel qu'un espace de travail collaboratif. Dans son interaction avec une des communautés en ligne 5, l'utilisateur 20 30 est assisté par un adaptateur 10 sémantique. L'adaptateur 10 sémantique est configuré pour effectuer une projection sémantique du contenu textuel généré par l'utilisateur 20 sur les pratiques A001_B115_FR/806772 langagières de la communauté en ligne 51. Cette projection sémantique vise, notamment, à adapter au mieux le contenu textuel, que l'utilisateur 20 souhaite déposer, aux pratiques langagières de la communauté en ligne 51. A cet égard, l'adaptateur 10 sémantique est pourvu d'une pluralité de 5 modules incluant un analyseur 1 sémantique, un calculateur 2 de proximité sémantique, et un reformulateur 3 sémantique. L'analyseur 1 sémantique est agencé pour établir le nuage sémantique (notamment, « semantic cloud » en anglais) de tags (ou de mots clés) d'une communauté en ligne 51. 10 Pour cela, l'analyseur 1 sémantique effectue une analyse conversationnelle des échanges textuels publiés dans la communauté en ligne 51. Ces échanges sont généralement organisés en fils de discussion (un même sujet de discussion dans un forum, une même collection dans « Flickr® », un même projet dans un espace de travail collaboratif, un contenu publié 15 par un groupe d'amis sur « Facebook® » par exemple). Le nuage sémantique de tags, établi par l'analyseur 1 sémantique, est un condensé sémantique des termes caractéristiques de la communauté en ligne 51. Ces termes sont dotés d'au moins une métrique permettant de faire ressortir leurs importances dans les pratiques langagières de cette 20 communauté en ligne 51. A titre d'exemple, une métrique peut être la fréquence d'utilisation d'un certain concept dans les interactions déjà publiées au sein de cette communauté en ligne 51. Dans ce cas, chaque concept est caractérisé par un poids reflétant son occurrence dans cette communauté en ligne 51. 25 En variante ou en combinaison, cette métrique peut aussi se rapporter à d'autres propriétés telle que, par exemple, la distribution de Shanon de la théorie de l'information, qui reflète la quantité d'information qu'un concept comporte. Ainsi, ce nuage sémantique de tags ne se réduit pas à une simple liste des termes les plus utilisés dans une communauté en ligne 51, 30 mais à un véritable condensé sémantique de cette dernière. En effet, à titre d'exemple, un nuage sémantique de tags peut simultanément refléter les concepts les plus fréquents d'un contenu textuel ainsi que leurs proximités

A001_B115_FR/806772 sémantiques dans ce contenu (un nuage sémantique de tags arboré, un nuage sémantique de tags en 3D). Ces concepts peuvent concerner, à titre d'exemples, les règles de politesse (les messages d'ouverture et de clôture d'un 5 message, messages de salutations, remerciements anticipés) ; les abréviations ; - le registre de langue et le vocabulaire (vocabulaire métier, registre courant/soutenu/familier/populaire/argotique par exemple) ; - les indices paralinguistiques (des smileys ou des émoticônes) ; 10 - les ponctuations expressives (écriture en majuscule, démultiplication d'un même signe (redoublement d'un point d'exclamation par exemple) pour traduire l'intensité d'expression d'une opinion ou d'un sentiment) ; la pragmatique des interactions (utilisation des prénoms, se tutoyer). 15 Avantageusement, le nuage sémantique de tags permet de résumer un contenu complexe d'une communauté en ligne 51 à l'aide seulement des pratiques langagières qui lui sont propres. Autrement dit, l'analyseur 1 sémantique permet d'obtenir une image sémantique d'une communauté en ligne 51 à partir de ce qui y est communément pratiqué. 20 Le nuage sémantique de tags d'une communauté en ligne 51 est obtenu indépendamment de tout contenu textuel qu'un utilisateur souhaite déposer/lire dans cette communauté. Le calculateur 2 de proximité sémantique est agencé pour fournir, à partir d'un nuage sémantique de tags établi par l'analyseur 1 sémantique, un 25 voisinage sémantique à un contenu textuel généré par l'utilisateur 20, suivant des rapports de proximité sémantique prédéfinis (par synonymie, par parasynonymie, ou par analyse des logiques subjectives par exemple). Le calculateur 2 de proximité sémantique est configuré pour déterminer, dans le nuage sémantique de tags, des voisinages sémantiques composés 30 des termes/concepts les plus représentatifs, respectivement, des concepts identifiés dans le contenu textuel généré par l'utilisateur 20. Autrement dit, chaque voisinage sémantique déterminé comprend, de préférence, une

A001_B115_FR/806772 pluralité de concepts sémantiquement proche à un concept identifié dans le contenu textuel généré par l'utilisateur. De préférence, le calculateur 2 de proximité sémantique utilise des métadonnées 4 d'ontologies (telles que celles de WordNet®, SentiWordNet®, ConceptNet®), et/ou de vocabulaire prédéfini par l'utilisateur 20 ou généré automatiquement. Ces métadonnées 4 assistent le calculateur 2 de proximité sémantique à identifier les concepts compris dans le contenu textuel généré par l'utilisateur 20, auxquels il est supposé trouver leurs voisinages sémantiques respectifs dans un nuage sémantique de tags. Plus généralement, le calculateur 2 de proximité sémantique est un « mandataire sémantique » (ou « proxy sémantique »), étant donné sa fonction de fourniture d'au moins un voisinage sémantique en réponse à une requête concernant un certain contenu textuel.

Ce proxy sémantique est une métadonnée d'ontologies ou de passerelles vers les plateformes des communautés en ligne, et plus particulièrement vers les systèmes sociaux (réseaux sociaux et systèmes de « taggage » social tels que « Facebook® » ou « Flickr® »). Le reformulateur 3 sémantique permet de récupérer, à partir du nuage sémantique de tags, les termes/concepts étant les plus proches sémantiquement, selon le calculateur 2 de proximité sémantique, à ceux du contenu généré par l'utilisateur 20 ; et de reformuler, en conséquence, le contenu textuel généré par l'utilisateur 20 à l'aide des termes/concepts récupérés. Le contenu généré par l'utilisateur 20 est, donc, adapté à l'aide de son voisinage sémantique sélectionné à partir du nuage sémantique de tags, ensuite présenté à l'utilisateur 20. Dans le cas où le contenu textuel adapté est rejeté par l'utilisateur 20, une nouvelle adaptation différente de la précédente est, de préférence, proposée à l'utilisateur. Pour cela, le reformulateur 3 sémantique A001_B115_FR/806772 s'intéresse à la hiérarchie du contenu des voisinages sémantiques, déterminés par le calculateur 2 de proximité sémantique, vis-à-vis le contenu généré par l'utilisateur 20 en procédant à une mesure de proximité sémantique dont les étapes comprennent : l'évaluation de la distance sémantique entre un concept Ç généré par l'utilisateur 20 et le nuage sémantique NS de la communauté en ligne 51; la recherche d'un autre concept C' dans le voisinage du concept C de sorte que la distance sémantique entre C' et C soit minimale ; - la recommandation du concept C' pour remplacer le concept C, C' étant plus adapté au comportement langagier de cette communauté. Différentes techniques de mesure de la distance sémantique sont décrites, par exemple, dans (M.Z MAALA, et al., « Distance sémantique entre concepts définis en 7148 », publié dans Langages et Modèles à Objets 07 Toulouse, 2007). Une mesure de la similarité sémantique ou du degré de relation sémantique peut être aussi utilisée. On se réfère maintenant à la figure 2, illustrant une procédure d'interaction utilisateur avec une communauté en ligne 51.

La procédure d'adaptation sémantique d'un contenu textuel au comportement langagier d'une communauté en ligne 51 fait appel aux modules fonctionnels précités de la manière suivante: sur requête de l'utilisateur 20 ou d'une manière automatique précédant tout dépôt d'un contenu comprenant une annotation textuelle 21, cette dernière est communiqué au dispositif d'adaptation de contenu textuel au comportement langagier de la communauté en ligne 51 (étape 11 dans la figure 2) ; en utilisant les métadonnées 4 d'ontologies (étape 12 dans la figure 2), le calculateur 2 de proximité sémantique identifie au 30 moins un concept dans l'annotation 21 ; en utilisant de nouveau les métadonnées 4 d'ontologies (étape 12 dans la figure 2), le calculateur 2 de proximité sémantique recherche (étape 13 dans la figure 2), dans le nuage sémantique A001_B115_FR/806772 de tags 31 de la communauté en ligne 51, au moins un voisinage sémantique à chaque concept identifié dans l'annotation textuelle 21 , à l'aide du reformulateur 3 sémantique, les concepts du nuage de tags 31 les plus proches sémantiquement, selon le calculateur 2 de proximité sémantique, sont récupérés, ensuite apportés à l'annotation 21, résultant en une annotation 22 adapté au comportement langagier de la communauté en ligne 51. L'annotation 22 adaptée est adressée à l'utilisateur 20 (étape 14 dans la figure 2) ; l'utilisateur est libre d'approuver ou annuler, en tout ou en partie, les modifications apportées à l'annotation 21 (étape 15 dans la figure 2). De préférence, les concepts modifiés dans le contenu original généré par l'utilisateur 20 sont momentanément mis en surbrillance pour l'utilisateur 20, afin de faciliter l'identification des modifications apportées, accélérant ainsi l'appropriation de ces concepts par l'utilisateur 20 ce qui en résulte l'émergence d'un sentiment d'appartenance chez l'utilisateur 20 à la communauté en ligne 51.

II est à noter que le contenu textuel adapté aux comportements langagiers de la communauté en ligne cible n'est qu'une proposition que l'utilisateur 20 peut ignorer ou refuser. Autrement dit, le contenu textuel modifié ne peut être directement publié sans l'approbation explicite de l'utilisateur. Par ailleurs, le procédé décrit ci-dessus peut être aussi utilisé pour éclaircir, à la lumière du comportement langagier d'une communauté en ligne, un contenu textuel identifié (sélectionné par exemple) dans l'espace de communication de cette communauté. A titre d'exemple, l'utilisation d'un dictionnaire propre à une communauté en ligne permet de clarifier un contenu textuel publié par cette communauté, à tout autre utilisateur non- familiarisé avec cette communauté (un utilisateur d'âge très différent de ceux des membres de cette communauté en ligne par exemple). Le procédé qui vient d'être décrit trouve, notamment, application dans un réseau d'entreprise en vue d'améliorer et de faciliter la communication entre différentes équipes de travail. Grâce à ce procédé, les membres d'un A001_B115_FR/806772 espace de travail collaboratif inter-métiers, ayant des vocabulaires métier/cultures différents, auront une meilleure compréhension réciproque. Ce procédé permet, en outre, d'uniformiser le vocabulaire utilisé (les mêmes abréviations, les mêmes termes techniques par exemple).

Le procédé qui vient d'être décrit présente un certain nombre d'avantages. Il permet en effet d'aligner l'ontologie d'un contenu électronique textuel avec celles d'une communauté en ligne cible, ce qui le rend directement intelligible par les membres de cette communauté. Ce dispositif peut être mis en oeuvre sous la forme d'une extension ou une fonction associée à un navigateur Web et dont l'utilisation peut être automatique ou à l'initiative de l'utilisateur. Le contenu textuel adapté par ce dispositif peut être affiché, par exemple, dans le même emplacement que celui du contenu textuel original, dans une nouvelle fenêtre/onglet, ou dans une infobulle, tout en permettant de préférence, de distinguer les modifications apportées ; et - l'utilisateur d'approuver ou d'ignorer cette proposition (voire, désactiver cette extension/fonction d'adaptation). A001_B115_FR/806772

Claims

REVENDICATIONS1. Procédé d'adaptation d'un contenu textuel au comportement langagier d'une communauté en ligne, ce procédé comprenant les étapes suivantes : établissement d'un nuage sémantique de tags de la communauté en ligne ; détermination, à partir du nuage sémantique de tags, d'au moins un voisinage sémantique à au moins un concept du contenu textuel ; reformulation du contenu textuel à l'aide du voisinage sémantique déterminé.
2. Procédé selon la revendication 1, caractérisé en ce qu'il comprend en outre une étape d'indentification, à l'aide de métadonnées d'ontologies, d'au moins un concept compris dans le contenu textuel.
3. Procédé selon l'une quelconque des revendications 1 ou 2, caractérisé en ce que l'étape de détermination d'au moins un voisinage sémantique est faite suivant des rapports de proximité sémantique prédéfinis.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce que le voisinage sémantique déterminé comprend une pluralité de concepts sémantiquement proche au concept identifié dans le contenu textuel.
5. Procédé selon l'une quelconque des revendications 1 à 4, caractérisé en ce que la reformulation du contenu textuel comprend une étape de sélection d'un concept du nuage sémantique déterminé pour remplacer le concept identifié dans le contenu textuel.
6. Procédé selon la revendication 5, caractérisé en ce que le concept sélectionné est le plus proche sémantiquement au concept identifié dans le contenu textuel.
7. Dispositif d'adaptation d'un contenu textuel au comportement langagier d'une communauté en ligne, ce dispositif comprenant les modules suivants : un analyseur (1) sémantique agencé pour établir un nuage sémantique de tags de la communauté en ligne (51) ; A001_B115_FR/806772 15un calculateur (2) de proximité sémantique agencé pour déterminer, à partir du nuage sémantique de tags, d'au moins un voisinage sémantique à au moins un concept du contenu textuel ; un reformulateur (3) sémantique du contenu textuel à l'aide du voisinage sémantique déterminé.
8. Dispositif selon la revendication 7, caractérisé en ce qu'il comprend en outre des métadonnées (4) d'ontologies permettant d'identifier d'au moins un concept compris dans le contenu textuel.
9. Produit programme d'ordinateur implémenté sur un support mémoire, susceptible d'être mis en oeuvre au sein d'une unité de traitement informatique et comprenant des instructions pour la mise en oeuvre d'un procédé selon l'une des revendications 1 à 6.
10. Produit programme d'ordinateur selon la revendication 9, caractérisé en ce qu'il est une extension associée à un navigateur Web. A001_B115_FR/806772