FR3016712A1

FR3016712A1 - Procede d'identification d'une donnee comme pertinente ou hors sujet

Info

Publication number: FR3016712A1
Application number: FR1450498A
Authority: FR
Inventors: Alina Beck; Philippe Suignard
Original assignee: Electricite de France SA
Current assignee: Electricite de France SA
Priority date: 2014-01-21
Filing date: 2014-01-21
Publication date: 2015-07-24

Abstract

Procédé mis en œuvre par des moyens informatiques, pour identifier une donnée comprenant une liste de mots comme étant pertinente ou hors sujet relativement à une entité, ledit procédé comprenant une étape de : détermination d'un score de pertinence et d'un score de hors sujet, ledit score de pertinence dépendant du nombre d'occurrences de chaque mot de la donnée dans un ensemble pertinent de données étiquetées comme pertinentes, et ledit score de hors sujet dépendant du nombre d'occurrences de chaque mot de la donnée dans un ensemble hors sujet de données étiquetées comme hors sujet, et identification de la donnée comme étant pertinente ou hors sujet en fonctions desdits scores de pertinence et de hors sujet.

Description

PROCEDE D'IDENTIFICATION D'UNE DONNEE COMME PERTINENTE OU HORS SUJET La présente invention a pour objet un procédé pour identifier une donnée comme étant pertinente ou hors sujet relativement à une entité.

Elle trouve une application notamment dans le domaine des réseaux sociaux, tels que Twitter. En effet, quand une entreprise, par la suite appelée entité, souhaite connaître sa réputation sur internet, elle cherche à collecter et à analyser les messages publiés à son sujet par les internautes, en particulier sur les réseaux io sociaux. Or, de tels messages peuvent s'avérer ambigus étant donné qu'il peut être délicat de déterminer s'ils concernent vraiment l'entité en question, c'est-à-dire s'ils sont pertinents, ou au contraire s'ils ne concernent pas l'entité en question, c'est-à-dire s'ils sont hors sujet. 15 Ce peut être le cas par exemple quand le message inclut des mots pouvant être des homonymes. Cette détermination est rendue encore plus difficile lorsque le message comprend des fautes de frappe ou d'orthographe, ou encore quand le message est très court, comme sur le réseau Twitter où le nombre de 20 caractères de chaque message est limité à une valeur de 140. Il est une condition sine qua non de l'analyse que les messages hors sujet ne soient pas pris en compte, sous peine d'en fausser les résultats. Le document US 2013/0346421 propose un procédé pour lever l'ambigüité de messages comprenant des noms d'entité, ce procédé étant basé sur une 25 liste d'entrée comprenant des noms d'entité, et sur la construction d'un graphe incluant des noeuds et des liens, les noeuds correspondant aux noms des entités apparaissant dans les messages, et les liens étant créés entre tous les noeuds sauf entre deux noeuds dans lesquels une même entité est mentionnée. Un tel procédé nécessite de mobiliser de lourdes ressources, du fait de la structure même du graphe sur lequel il est basé, et présente également l'inconvénient que le temps de calcul peut se révéler excessivement long, du fait de la complexité du graphe. Un tel procédé ne permet pas non plus un traitement en temps réel des messages publiés sur internet. Le but de la présente invention est de remédier aux inconvénients précités. A cet effet, l'invention a pour objet un procédé mis en oeuvre par des moyens informatiques, pour identifier une donnée comprenant une liste de io mots comme étant pertinente ou hors sujet relativement à une entité, ledit procédé comprenant une étape de : - étiquetage de la donnée à identifier comme étant pertinente si la donnée comprend des mots appartenant à la liste pertinente sans comprendre de mots appartenant à la liste hors sujet, et étiquetage de la donnée (t) à identifier 15 comme étant hors sujet si la donnée comprend des mots appartenant à la liste hors sujet sans comprendre de mots appartenant à la liste pertinente, et, si l'étape d'étiquetage ne permet pas d'étiqueter la donnée, le procédé comprend l'étape de : détermination d'un score de pertinence et d'un score de hors sujet, ledit 20 score de pertinence dépendant du nombre d'occurrences de chaque mot de la donnée dans un ensemble pertinent de données étiquetées comme pertinentes, et ledit score de hors sujet dépendant du nombre d'occurrences de chaque mot de la donnée dans un ensemble hors sujet de données étiquetées comme hors sujet, et 25 - identification de la donnée comme étant pertinente ou hors sujet en fonctions desdits scores de pertinence et de hors sujet. L'étape préliminaire d'étiquetage permet d'identifier comme pertinent ou hors sujet les données les moins ambigües.

Si la donnée est identifiée comme hors sujet, elle est filtrée pour ne pas être analysée, alors que si elle est identifiée comme pertinente, elle est conservée pour analyse. Ainsi, le procédé selon la présente invention permet de traiter en temps réel les messages ambigus émis sur les réseaux sociaux, tout en requérant des ressources informatiques et un temps de calcul raisonnables, contrairement aux procédés de l'état de la technique. Dans une réalisation particulière, les scores de pertinence (s(t, E)) et de hors sujet (s(t, HS)) sont respectivement calculés par les formules suivantes : le paramètre n(m, Te) est le nombre d'occurrences du mot (m) dans l'ensemble des données appartenant à l'ensemble pertinent (Te), le paramètre n(m, Ths) est le nombre d'occurrences du mot (m) dans l'ensemble des données appartenant à l'ensemble hors sujet (Ths), le paramètre N(Te, Ths) est le nombre de mots distincts dans l'ensemble pertinent (Te) et l'ensemble hors sujet (Ths), le paramètre N(Te) est le nombre total de mots compris dans l'ensemble pertinent (Te) et le paramètre N(Ths) est le nombre total de mots compris dans l'ensemble hors sujet (Ths), Tel est le cardinal de l'ensemble pertinent Te et IThsI est le cardinal de l'ensemble hors sujet. Dans une réalisation particulière, le procédé comprend une étape de contrôle de similarité au cours de laquelle la donnée t à identifier est comparée aux données déjà identifiées.

Dans une réalisation particulière, si la donnée à identifier est similaire à au moins une donnée déjà identifiée, elle est intégrée dans un même groupe que ladite au moins une donnée déjà identifiée similaire, et, si la donnée t à identifier n'est pas similaire à au moins une donnée déjà identifiée, un nouveau groupe est créé. Cette étape de contrôle de similarité permet de ne pas procéder à des calculs inutiles en cherchant à identifier des données qui ont déjà été étiquetées comme pertinentes ou hors sujet. Dans une réalisation particulière, le procédé comprend une étape de calcul o d'un score de pertinence secondaire et d'un score de hors sujet secondaire, sur la base d'un graphe orienté où : - un noeud est associé à chaque auteur des données, et un noeud est associé à chaque groupe, - un noeud pertinent est associé aux données déjà étiquetées comme 15 étant pertinentes et appartenant à l'ensemble pertinent, - un noeud hors sujet est associé aux données déjà étiquetées comme hors sujet et appartenant à l'ensemble hors sujet, - un lien est associé entre un auteur et un groupe si ledit auteur a écrit au moins une donnée du groupe, ledit lien étant orienté à la fois de l'auteur 20 vers le groupe et du groupe vers l'auteur, - un lien est associé entre le groupe et le noeud pertinent si les données du groupe ont été identifiées comme pertinentes à l'étape d'étiquetage, ledit lien étant orienté du groupe vers le noeud pertinent, et - un lien est associé entre le groupe et le noeud hors sujet si les données 25 du groupe ont été identifiées comme hors sujet à l'étape d'étiquetage, ledit lien étant orienté du groupe vers le noeud hors sujet. Ce graphe orienté, associant le contenu textuel des messages et les relations entre les messages (par le biais de leurs auteurs), est relativement simple, assurant des temps de calcul et des ressources mobilisées raisonnables.

Dans une réalisation particulière, le procédé comprend une étape de distribution du poids de chaque noeud à tous les noeuds auxquels ledit noeud est lié par un lien. Dans une réalisation particulière, le procédé comprend une étape de distribution du poids à tous les noeuds auxquels ledit noeud est lié par un lien sortant. Cette distribution par lien rend le procédé encore plus efficient. Dans une réalisation particulière, la distribution du poids est faite de façon équitable. o Dans une réalisation particulière, le procédé comprend une étape initiale d'attribution de poids dans laquelle un poids de 1 est donné au noeud correspondant à la donnée à identifier et un poids de 0 est donné à chaque autre noeud. Dans une réalisation particulière, l'étape de distribution est itérée un nombre 15 préétabli de fois, de préférence 5. Dans une réalisation particulière, le score de pertinence secondaire et le score de hors sujet secondaire dépendent respectivement du poids du noeud pertinent et du poids du noeud hors sujet. Dans une réalisation particulière, l'étape de comparaison du score de 20 pertinence et du score de hors sujet est une étape de comparaison de la valeur absolue de la différence du score de pertinence et du score de hors sujet à une valeur seuil prédéfinie. Dans une réalisation particulière, le procédé comprend une étape de calcul d'un score de pertinence secondaire et d'un score de hors sujet secondaire si 25 la valeur absolue de la différence du score de pertinence et du score de hors sujet est inférieure à la valeur seuil prédéfinie. Dans une réalisation particulière, la donnée est identifiée comme étant pertinente si le score de pertinence secondaire est strictement supérieur au score de pertinence de hors sujet secondaire, et comme hors sujet si le score de pertinence secondaire est strictement inférieur au score de pertinence de hors sujet secondaire. L'invention a également pour objet un dispositif d'identification d'une donnée comprenant une liste de mots comme étant pertinente ou hors sujet relativement à une entité, ledit dispositif comprenant des moyens informatiques pour la mise en oeuvre du procédé tel que décrit précédemment. L'invention a également pour objet un programme informatique caractérisé en ce qu'il comporte des instructions pour la mise en oeuvre du procédé tel que décrit précédemment, lorsque ce programme est exécuté par un processeur. io La figure 1 illustre un exemple d'ordinogramme d'un algorithme général d'un tel programme. D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels : 15 - la figure 1 illustre un ordinogramme d'un procédé d'identification d'une donnée selon un mode de réalisation de l'invention ; - la figure 2 illustre plus en détail une étape de contrôle de similarité du procédé d'identification d'une donnée de la figure 1; - les figures 3a à 3e illustrent un exemple de graphe orienté selon un 20 mode de réalisation de l'invention ; - la figure 4 illustre un dispositif permettant la mise en oeuvre du procédé de la figure 1 ; et - la figure 5 illustre un exemple d'application d'un dispositif au sens de l'invention dans un serveur. 25 Le procédé selon la présente invention permet d'identifier une donnée, référencée t sur les figures, comprenant une liste de mots m, comme étant pertinente ou hors sujet relativement à une entité E.

Par donnée t, on entend un message, par exemple, publié sur internet, comme un tweet émis sur le réseau social Twitter. Par entité E, on entend par exemple le nom d'une entreprise ou d'une personnalité cherchant à analyser sa réputation sur internet. Par exemple, dans le cas d'une entité fournisseuse d'énergie notamment électrique, le retour d'informations pertinentes peut améliorer techniquement la qualité de fourniture par une gestion optimale du réseau de distribution et/ou de la génération d'énergie. Par le qualificatif « pertinent », on entend que la donnée t a effectivement pour io sujet l'entité E. Par le qualificatif « hors sujet », on entend que la donnée t n'a pas pour sujet l'entité E. Comme illustré à la figure 1, le procédé d'identification comprend une étape S2 de détermination d'un score de pertinence s(t, E) et d'un score de hors sujet 15 s(t, HS). Le score de pertinence s(t, E) dépend du nombre d'occurrences de chaque mot m de la donnée t dans un ensemble pertinent Te de données étiquetées comme pertinentes, comme il sera détaillé ci-après. Le score de hors sujet dépend du nombre d'occurrences de chaque mot m de 20 la donnée t dans un ensemble hors sujet Ths de données étiquetées comme hors sujet, comme il sera détaillé ci-après. Etape d'étiquetage Le procédé d'identification comprend avantageusement une étape préalable d'étiquetage S1 de la donnée t. 25 Cette étape S1 consiste à comparer les mots m de la donnée t à deux listes, une première liste Le dite liste pertinente comprenant du vocabulaire relatif à l'entité E, et à une deuxième liste Lhs dite hors sujet comprenant du vocabulaire qui n'est pas relatif à l'entité E.

La liste pertinente Le comprend du vocabulaire qui permet de caractériser l'entité E sans ambigüité. La liste Le comprend de préférence quelques dizaines de mots. Par exemple, pour l'entité EDF, la liste pertinente peut contenir le vocabulaire suivant : « nucléaire », « éolienne », « hydrolienne », et « marémotrice ». La liste hors sujet Lhs comprend du vocabulaire dont il est sans ambigüité qu'il n'est pas relatif à l'entité E. La liste Lhs comprend de préférence quelques dizaines de mots. Par exemple, pour l'entité EDF, la liste hors sujet peut contenir le vocabulaire io suivant : « foot », « football », « basket », « handball », « Benzema ». Ainsi, au cours de l'étape d'étiquetage, si la donnée t comprend des mots appartenant à la liste pertinente Le sans comprendre de mots appartenant à la liste hors sujet Lhs, elle est étiquetée comme étant pertinente. Si, au contraire, la donnée t comprend des mots appartenant à la liste hors 15 sujet Lhs sans comprendre de mots appartenant à la liste pertinente Le, elle est étiquetée comme étant hors sujet. Cette étape d'étiquetage permet ainsi d'identifier comme pertinent ou hors sujet les données les moins ambigües. Si la donnée t a été étiquetée comme pertinente, elle est ensuite incluse dans 20 l'ensemble Te dit de pertinence, qui comprend toutes les données déjà étiquetées comme étant pertinentes. Si la donnée t a été étiquetée comme hors sujet, elle est ensuite incluse dans l'ensemble Ths dit de hors sujet, qui comprend toutes les données déjà étiquetées comme étant hors sujet. 25 Si la donnée n'a pas été étiquetée comme étant pertinente ou hors sujet, le procédé comprend l'étape de détermination des scores de pertinence s(t, E) et de score de hors sujet s(t, HS).

Score de pertinence et score de hors sujet Plus précisément, les scores de pertinence et de hors sujet sont respectivement calculés par les formules suivantes : s(t,,E) = p(t, E) + et,..1'15) = Le paramètre n(m, Te) est le nombre d'occurrences du mot m dans l'ensemble des données appartenant à l'ensemble pertinent Te. io Le paramètre n(m, Ths) est le nombre d'occurrences du mot m dans l'ensemble des données appartenant à l'ensemble hors sujet Ths. Le paramètre N(Te, Ths) est le nombre de mots distincts dans l'ensemble pertinent Te et l'ensemble hors sujet Ths. Le paramètre N(Te) est le nombre total de mots compris dans l'ensemble 15 pertinent Te et le paramètre N(Ths) est le nombre total de mots compris dans l'ensemble hors sujet Ths. ITel est le cardinal de l'ensemble pertinent Te et IThsI est le cardinal de l'ensemble hors sujet Ths. Etape de contrôle de similarité 20 Comme illustré à la figure 2, le procédé comprend avantageusement une étape SO de contrôle de similarité au cours de laquelle la donnée t à identifier est comparée aux données qui ont déjà été identifiées comme pertinentes ou hors sujet (étape COMP sur la figure 2).

Si la donnée t à identifier est similaire à au moins une donnée déjà identifiée, elle est intégrée dans un même groupe c (pour cluster en anglais) que ladite au moins une donnée déjà identifiée similaire (étape INT sur la figure 2). Si la donnée t à identifier n'est pas similaire à au moins une donnée déjà identifiée, un nouveau groupe est créé. Cette étape de contrôle de similarité est préalable à l'étape d'étiquetage de la donnée t. Graphe orienté : construction Cette étape est une étape de construction d'un graphe orienté où : - un noeud est associé à chaque auteur a des données t, et un noeud est associé à chaque groupe c, - un noeud pertinent E dit spécial est associé aux données déjà étiquetées comme étant pertinentes et appartenant à l'ensemble pertinent Te, - un noeud hors sujet HS dit spécial est associé aux données déjà étiquetées comme hors sujet et appartenant à l'ensemble hors sujet Ths, - un lien est associé entre un auteur a et un groupe c si ledit auteur a écrit au moins une donnée du groupe c. Ce lien est orienté à la fois de l'auteur a vers le groupe c et du groupe c vers l'auteur a (c'est-à-dire qu'il est à la fois rentrant et sortant vis-à-vis du noeud a et rentrant et sortant vis-à-vis du noeud c), - un lien est associé entre le groupe c et le noeud spécial pertinent E si les données du groupe c ont été identifiées comme pertinentes à l'étape d'étiquetage, ledit lien étant orienté du groupe c vers le noeud spécial pertinent E (c'est-à-dire que le lien est sortant vis-à-vis du noeud c et entrant vis-à-vis du noeud spécial E), et - un lien est associé entre le groupe c et le noeud spécial hors sujet HS si les données du groupe c ont été identifiées comme hors sujet à l'étape d'étiquetage, ledit lien étant orienté du groupe c vers le noeud spécial hors sujet HS (c'est-à-dire que le lien est sortant vis-à-vis du noeud c et entrant vis-à-vis du noeud spécial HS). Les noeuds HS et E sont qualifiés de spéciaux dans la mesure où ils ne sont liés aux autres noeuds du graphe que par des liens entrants. Par la suite les noeuds E et HS et les noeuds correspondants aux auteurs a et aux groupes c sont référencés sous la référence générique v (pour vertex en anglais). Graphe orienté : attribution de poids o Une fois le graphe construit comme décrit ci-dessus, le procédé comprend une étape d'attribution d'un poids à chaque noeud du graphe. Initialement, le poids 1 est attribué au noeud du groupe de la donnée t à identifier, et un poids 0 est attribué aux autres noeuds. Le procédé comprend alors une étape de distribution du poids de chaque 15 noeud à tous les noeuds auquel ledit noeud est lié par un lien. Avantageusement, chaque noeud distribue son poids à tous les noeuds auxquels il est lié par un lien sortant. Le procédé comprend de préférence plusieurs itérations i de l'étape de distribution du poids de chaque noeud. 20 Le poids poids (i, y) du noeud v à l'itération i est calculé de façon équitable, c'est-à-dire : - si le noeud v est connecté à d'autres noeuds du graphe uniquement par des liens entrants : D 50 25 - si le noeud v est connecté à d'autres noeuds du graphe par des liens entrants et des liens sortants : où INout(u)I représente le nombre des noeuds auxquels u est connecté par des liens sortants, et où Nin(v) représente l'ensemble des noeuds auxquels v est connecté par des liens entrants. Avantageusement, le procédé comprend cinq itérations de l'étape de distribution du poids de chaque noeud, c'est-à-dire que dans les formules ci-dessus, E Ce nombre limité d'itérations assure un bon compromis entre une durée de io calcul raisonnable et un résultat efficient. En effet, les trois premières itérations permettent essentiellement de déterminer si l'auteur a a déjà écrit des données t qui ont été identifiées comme pertinentes ou au contraire hors sujet. Les deux autres itérations permettent de déterminer si un auteur a a déjà écrit avec des auteurs dont les données ont été identifiées comme pertinentes ou 15 au contraire hors sujet. Un exemple d'itérations d'attribution de poids est illustré aux figures 3a à 3e, où la donnée t à identifier appartient au groupe c4. A l'étape initiale, le poids de c4 est de 1, tandis que les autres noeuds ont un poids nul. 20 Comme illustré à la figure 3a, à la première itération, i=1, le noeud c4 donne un poids de 1/2 au noeud a6 et un poids de 1/2 au noeud a5. Les autres noeuds ont un poids nul. Comme illustré à la figure 3b, à la deuxième itération, i=2, le noeud c2 a un poids de 1/6, le noeud c3 a un poids de 1/6 et le noeud c4 a un poids de 2/3. 25 Les autres noeuds ont un poids nul. Comme illustré à la figure 3c, à la troisième itération, i=3, le noeud a3 a un poids de 1/24, le noeud a4 a un poids de 1/24, le noeud HS a un poids de 1/24, le noeud a6 a un poids de 1/3, et le noeud a5 un poids de 13/24. Les autres 3016 712 13 noeuds ont un poids nul. Comme illustré à la figure 3d, à la quatrième itération, i=4, le noeud cl a un poids de 1/48, le noeud c2 a un poids de 35/144, le noeud HS a un poids de 1/24, le noeud c3 a un poids de 13/72 et le poids c4 a un poids de 37/72. Les 5 autres noeuds ont un poids nul. A la cinquième itération, i=5, le noeud al a un poids de 1/192, le noeud a2 a un poids de 1/192, le noeud a3 a un poids de 38/576, le noeud a4 a un poids de 35/576, le noeud a5 a un poids de 287/576, le noeud a6 a un poids de 37/144, le noeud E a un poids de 1/192 et le noeud HS a un poids de 59/576. o Les autres noeuds ont un poids nul. Calcul final de score - identification de la donnée comme pertinente ou hors sujet Selon le procédé de l'invention, l'étape de comparaison du score de pertinence s(t, E) et du score de hors sujet s(t, HS) est une étape de 15 comparaison de la valeur absolue de la différence du score de pertinence s(t, E) et du score de hors sujet s(t, HS) à une valeur seuil E prédéfinie. Cette étape est référencée S3 sur la figure 1. 20 Si r='- hr5:11 > E et ; , la donnée t est identifiée comme hors sujet. , la donnée t est identifiée comme pertinente. Si 11;.7 5 < r , le procédé comprend avantageusement une étape ultérieure de calcul d'un score de pertinence secondaire s2(t, E) et d'un score de hors sujet secondaire s2(t, HS) (étape S4 sur la figure 1). Le score de pertinence secondaire s2(t, E) et le score de hors sujet secondaire 25 s2(t, HS) dépendent respectivement du poids du noeud pertinent E et du poids du noeud hors sujet HS. De préférence, les scores secondaires de pertinence et de hors sujet sont donnés respectivement par le poids du noeud pertinent E et hors sujet HS à l'issue des itérations de l'étape de distribution des poids de noeuds.

Ainsi, dans l'exemple des figures 3a à 3e, le score de pertinence secondaire s2(t, E) est de 1/192 (égal au poids du noeud E) et le score de hors sujet secondaire est de 59/576 (égal au poids du noeud HS). Les scores secondaires sont alors comparés l'un à l'autre (étape S5 sur la figure 1). Si , la donnée t est identifiée comme hors sujet. Si - -, la donnée la donnée t est identifiée comme pertinente. Si = , on utilise les scores de pertinence et de hors sujet calculés à l'étape précédente S2 et : , la donnée t est identifiée comme hors sujet. -, la donnée t est identifiée comme pertinente. , et l'identification est tirée au sort. Ainsi, dans l'exemple des figures 3a à 3e, la donnée du groupe c4 est identifiée comme étant hors sujet.

15 Le procédé selon la présente invention permet le traitement des données en temps réel : par exemple, dès qu'un tweet est publié, il est traité par le procédé d'identification. Le procédé selon la présente invention associe le contenu textuel des messages et les relations entre les messages (par le biais de leurs auteurs), 20 ce qui permet d'utiliser un graphe orienté relativement simple, assurant des temps de calcul et des ressources mobilisées raisonnables. Exemple de réalisation La présente invention vise aussi un dispositif pour la mise en oeuvre du procédé ci-avant. La figure 4 représente un exemple d'un tel dispositif 25 d'identification d'une donnée comprenant une liste de mots comme étant pertinente ou hors sujet relativement à une entité, ledit dispositif comprenant des moyens informatiques pour la mise en oeuvre du procédé tel que décrit précédemment. Comme illustrés aux figures 4 et 5, dans cet exemple de réalisation, le dispositif comporte un ordinateur 400, comprenant une mémoire 405 pour stocker des instructions permettant la mise en oeuvre du procédé, les données de mesures reçues, et des données temporaires pour réaliser les différentes étapes du procédé tel que décrit précédemment. L'ordinateur comporte en outre un circuit 404. Ce circuit peut être, par exemple : - un processeur apte à interpréter des instructions sous la forme de io programme informatique, ou - une carte électronique dont les étapes du procédé de l'invention sont décrites dans le silicium, ou encore - une puce électronique programmable comme une puce FPGA (pour « Field-Programmable Gate Array » en anglais).

15 Cet ordinateur comporte une interface d'entrée 403 pour la réception des données t (txt sur la figure 4), et une interface de sortie 406 pour la fourniture de commandes contrôlant l'identification de la donnée t (SC pour score sur la figure 4). En référence à la figure 5, ce dispositif D peut être connecté ou intégré à un 20 serveur SER connecté à un réseau RE tel que l'Internet, pour une accessibilité de terminaux TER au serveur SER d'un service de type Twitter. Programme d'ordinateur Un programme informatique, mettant en oeuvre tout ou partie du procédé décrit ci-avant, installé sur un équipement préexistant, est en lui-même 25 avantageux, dès lors qu'il permet de réduire le temps de calcul pour l'identification des données t tout en nécessitant moins de mémoire. Ainsi, la présente invention vise également un programme informatique comportant des instructions pour la mise en oeuvre du procédé précédemment décrit, lorsque ce programme est exécuté par un processeur. Ce programme peut utiliser n'importe quel langage de programmation (par exemple, un langage objet ou autre), et être sous la forme d'un code source interprétable, d'un code partiellement compilé ou d'un code totalement compilé.

Claims

REVENDICATIONS1. Procédé mis en oeuvre par des moyens informatiques, pour identifier une donnée (t) comprenant une liste de mots (m) comme étant pertinente ou hors sujet relativement à une entité (E), ledit procédé comprenant une étape de : - étiquetage de la donnée (t) à identifier comme étant pertinente si la donnée (t) comprend des mots appartenant à la liste pertinente (Le) sans comprendre de mots appartenant à la liste hors sujet (Lhs), et étiquetage de la donnée (t) à identifier comme étant hors sujet si la donnée (t) comprend des mots appartenant à la liste hors sujet (Lhs) io sans comprendre de mots appartenant à la liste pertinente (Le), et, si l'étape d'étiquetage ne permet pas d'étiqueter la donnée (t), le procédé comprend l'étape de : - détermination d'un score de pertinence (s(t, E)) et d'un score de hors sujet (s(t, HS)), ledit score de pertinence (s(t, E)) dépendant du nombre 15 d'occurrences de chaque mot (m) de la donnée (t) dans un ensemble (Te) pertinent de données étiquetées comme pertinentes, et ledit score de hors sujet (s(t, HS)) dépendant du nombre d'occurrences de chaque mot (m) de la donnée (t) dans un ensemble hors sujet (Ths) de données (t) étiquetées comme hors sujet, et 20 - identification de la donnée (t) comme étant pertinente ou hors sujet en fonction desdits scores de pertinence et de hors sujet.
2. Procédé selon la revendication 1, dans lequel les scores de pertinence (s(t, E)) et de hors sujet (s(t, HS)) sont respectivement calculés par les formules 25 suivantes :J ." + le paramètre n(m, Te) est le nombre d'occurrences du mot (m) dans l'ensemble des données appartenant à l'ensemble pertinent (Te), le paramètre n(m, Ths) est le nombre d'occurrences du mot (m) dans l'ensemble des données appartenant à l'ensemble hors sujet (Ths), le paramètre N(Te, Ths) est le nombre de mots distincts dans l'ensemble pertinent (Te) et l'ensemble hors sujet (Ths), le paramètre N(Te) est le nombre total de mots compris dans o l'ensemble pertinent (Te) et le paramètre N(Ths) est le nombre total de mots compris dans l'ensemble hors sujet (Ths), Tel est le cardinal de l'ensemble pertinent (Te) et IThsI est le cardinal de l'ensemble hors sujet (Ths).
3. Procédé selon l'une quelconque des revendications précédentes, 15 comprenant une étape de contrôle de similarité au cours de laquelle la donnée t à identifier est comparée aux données déjà identifiées.
4. Procédé selon la revendication 3, dans lequel, si la donnée (t) à identifier est similaire à au moins une donnée déjà identifiée, elle est intégrée dans un 20 même groupe (c) que ladite au moins une donnée déjà identifiée similaire, et, si la donnée (t) à identifier n'est pas similaire à au moins une donnée déjà identifiée, un nouveau groupe est créé.
5. Procédé selon l'une des revendications précédentes, comprenant une étape 25 de calcul d'un score de pertinence secondaire (s2(t, E)) et d'un score de hors sujet secondaire (s2(t, HS)), sur la base d'un graphe orienté où :- un noeud est associé à chaque auteur (a) des données (t), et un noeud est associé à chaque groupe (c), - un noeud pertinent (E) est associé aux données déjà étiquetées comme étant pertinentes et appartenant à l'ensemble pertinent (Te), - un noeud hors sujet (HS) est associé aux données déjà étiquetées comme hors sujet et appartenant à l'ensemble hors sujet (Ths), - un lien est associé entre un auteur (a) et un groupe (c) si ledit auteur (a) a écrit au moins une donnée du groupe (c), ledit lien étant orienté à la fois de l'auteur (a) vers le groupe (c) et du groupe (c) vers l'auteur (a), - un lien est associé entre le groupe (c) et le noeud pertinent (E) si les données du groupe (c) ont été identifiées comme pertinentes à l'étape d'étiquetage, ledit lien étant orienté du groupe (c) vers le noeud pertinent (E), et - un lien est associé entre le groupe (c) et le noeud hors sujet (HS) si les données du groupe (c) ont été identifiées comme hors sujet à l'étape d'étiquetage, ledit lien étant orienté du groupe (c) vers le noeud hors sujet (HS).
6. Procédé selon la revendication précédente, comprenant une étape de distribution du poids (poids (i, y)) de chaque noeud (a, c, y) à tous les noeuds auxquels ledit noeud est lié par un lien.
7. Procédé selon la revendication précédente, comprenant une étape de distribution du poids (poids (i, y)) à tous les noeuds auxquels ledit noeud est lié par un lien sortant.
8. Procédé selon la revendication précédente, dans lequel la distribution du poids est faite de façon équitable.
9. Procédé selon l'une des revendications 5 à 8, comprenant une étape initiale d'attribution de poids dans laquelle un poids de 1 est donné au noeud correspondant à la donnée (t) à identifier et un poids de 0 est donné à chaque autre noeud (a, c, y).
10. Procédé selon l'une des revendications 6 à 9, dans lequel l'étape de distribution est itérée un nombre préétabli de fois, de préférence 5.
11. Procédé selon l'une des revendications 6 à 10, dans lequel le score de pertinence secondaire s2(t, E) et le score de hors sujet secondaire s2(t, HS), dépendent respectivement du poids du noeud pertinent (E) et du poids du noeud hors sujet (HS).
12. Procédé selon l'une des revendications précédentes, dans lequel l'étape de comparaison du score de pertinence (s(t, E)) et du score de hors sujet (s(t, HS)) est une étape de comparaison de la valeur absolue de la différence du score de pertinence (s(t, E)) et du score de hors sujet (s(t, HS)) à une valeur seuil (c) prédéfinie.
13. Procédé selon la revendication précédente, dans lequel l'étape de calcul du score de pertinence secondaire (s2(t, E)) et du score de hors sujet secondaire (s2(t, HS)) est réalisée si la valeur absolue de la différence du score de pertinence (s(t, E)) et du score de hors sujet (s(t, HS)) est inférieure à la valeur seuil (c) prédéfinie.
14. Procédé selon la revendication précédente, dans lequel la donnée (t) est identifiée comme étant pertinente si le score de pertinence secondaire (s2(t, E)) est strictement supérieur au score de pertinence de hors sujet secondaire(s2(t, HS)), et comme hors sujet si le score de pertinence secondaire (s2(t, E)) est strictement inférieur au score de pertinence de hors sujet secondaire (s2(t, HS)).
15. Dispositif d'identification d'une donnée comprenant une liste de mots comme étant pertinente ou hors sujet relativement à une entité, ledit dispositif comprenant des moyens informatiques pour la mise en oeuvre du procédé selon l'une des revendications 1 à 14.
16. Programme informatique caractérisé en ce qu'il comporte des instructions pour la mise en oeuvre du procédé selon l'une des revendications 1 à 14, lorsque ce programme est exécuté par un processeur.