FR2971597A1 - Method for calculation of social relevance index of digital documents to sort list of documents to search documents in documentary base in enterprise, involves calculating index from set of actions realized on document - Google Patents

Method for calculation of social relevance index of digital documents to sort list of documents to search documents in documentary base in enterprise, involves calculating index from set of actions realized on document Download PDF

Info

Publication number
FR2971597A1
FR2971597A1 FR1151194A FR1151194A FR2971597A1 FR 2971597 A1 FR2971597 A1 FR 2971597A1 FR 1151194 A FR1151194 A FR 1151194A FR 1151194 A FR1151194 A FR 1151194A FR 2971597 A1 FR2971597 A1 FR 2971597A1
Authority
FR
France
Prior art keywords
user
document
documents
conceptual
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1151194A
Other languages
French (fr)
Other versions
FR2971597B1 (en
Inventor
Francois Yves Villemin
Guillaume Vauvert
Amel Fraisse
Alain Paoli
Jean Jacques Arnal
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMAGINATIO
Original Assignee
IMAGINATIO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMAGINATIO filed Critical IMAGINATIO
Priority to FR1151194A priority Critical patent/FR2971597B1/en
Publication of FR2971597A1 publication Critical patent/FR2971597A1/en
Application granted granted Critical
Publication of FR2971597B1 publication Critical patent/FR2971597B1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification

Abstract

The method involves calculating (21) a proximity value of a first set of users (U1) from a set of data included in a user profile. A second set of users (U2) whose proximity value is higher than a predetermined threshold, is selected (22) from the first set of users, where the calculated proximity value is dependant on the first set of users. Social relevance index of documents is calculated from a set of actions realized on the documents by the second set of users using a calculator. Independent claims are also included for the following: (1) a method for sorting a list of documents (2) a method for searching documents in a documentary base (3) a system for calculation of social relevance index of a digital document (4) a computer program comprising a set of instructions for implementing a method for calculation of social relevance index of a digital document.

Description

PROCEDE DE CALCUL D'UN INDICE DE PERTINENCE D'UN DOCUMENT PARMI UNE BASE DE DONNEES, PROCEDES DE TRI ET DE RECHERCHE ASSOCIES, SYSTEME POUR LA MISE EN CEUVRE DES PROCEDES ET PROGRAMME D'ORDINATEUR ASSOCIE. 5 La présente invention concerne les procédés de recherches dans une base documentaire. Plus particulièrement, l'invention concerne un procédé de calcul d'un indice de pertinence sociale d'un document d'une 10 base documentaire pour un utilisateur donné. Enfin le domaine de l'invention s'applique à un réseau fermé d'utilisateurs. Actuellement, de nombreux procédés de tris permettent de retourner une liste de documents pertinents selon des critères de recherches prédéfinis. 15 La plupart des moteurs de recherche, comme celui de Google par exemple, restitue, à partir d'une requête définissant des mots clefs, une liste de liens correspondants renvoyant à des sites web, triée par un critère de pertinence. Le tri effectué dépend d'un mode de recherche prenant en compte notamment le nombre d'occurrences d'un mot clef dans le contenu 20 du site web. D'autres paramètres sont utilisés mais font intervenir principalement la corrélation entre les mots clefs définis dans la requête et le contenu de pages de sites web. Par ailleurs, des liens entre les pages sont aussi utilisés pour déterminer les pages appréciées des autres sites. La plupart des procédés de tris et de recherche documentaires 25 s'appuient sur la création d'un index regroupant des mots clefs et des thématiques qui sont référencés dans les documents d'une base de données. Ainsi un procédé de recherche de documents à partir de la définition d'une requête ne scanne pas le contenu de tous les documents et 30 peut comporter une étape de recherche dans l'index afin de trouver et trier les documents pertinents. La figure 1 représente un tel procédé permettant à partir de sujets prédéfinis de générer des requêtes automatiques à partir d `un système de recommandation lors d'une navigation d'un utilisateur. Le moteur de 35 recherche effectue alors une recherche sur un index comprenant des thèmes ou des termes ou des mots clefs collectés d'une base de données de documents Dn. L'interaction entre la requête et l'index étant définie au moyen d'une étape d'appariement A. D'autres procédés de tris existent et intègrent un marquage des documents effectués par des utilisateurs. Ces procédés permettent de prendre en compte une dimension d'appréciation dans le tri et notamment si un utilisateur a apprécié un document. Ces procédés sont notamment utilisés dans la recherche de médias de certains sites web qui permettent de mettre en avant ou de trier des documents selon un critère d'appréciation d'un média. METHOD OF CALCULATING A PERTINENCE INDEX OF A DOCUMENT FROM A DATABASE, METHODS OF SORTING AND SEARCHING THE SAME, SYSTEM FOR IMPLEMENTING METHODS, AND ASSOCIATED COMPUTER PROGRAM. The present invention relates to methods of searching a document base. More particularly, the invention relates to a method of calculating a social relevance index of a document of a document base for a given user. Finally, the field of the invention applies to a closed network of users. Currently, many sorting methods make it possible to return a list of relevant documents according to predefined search criteria. Most search engines, such as Google, for example, render a list of corresponding links to websites, sorted by a relevance criterion, from a query defining keywords. The sorting performed depends on a search mode taking into account in particular the number of occurrences of a keyword in the content of the website. Other parameters are used but mainly involve the correlation between the keywords defined in the request and the content of pages of websites. In addition, links between the pages are also used to determine the pages appreciated by other sites. Most of the sorting and document retrieval methods rely on the creation of an index grouping key words and themes that are referenced in the documents of a database. Thus, a document search method from the definition of a query does not scan the contents of all the documents and may include a search step in the index to find and sort the relevant documents. FIG. 1 represents such a method making it possible, from predefined subjects, to generate automatic requests from a recommendation system during a user's navigation. The search engine then searches for an index comprising themes or keywords or keywords collected from a database of documents Dn. The interaction between the request and the index being defined by means of a matching step A. Other sorting methods exist and include a marking of the documents made by users. These methods make it possible to take into account a dimension of appreciation in the sorting and especially if a user has appreciated a document. These methods are notably used in the search for media of certain websites which make it possible to highlight or sort documents according to a criterion of appreciation of a medium.

D'autres procédés de tris de documents intègrent une définition de groupes d'appartenances d'utilisateurs et l'affection de certains droits à ces groupes. Ces doits comprennent différents type d'actions possibles sur des documents. Certains systèmes de gestion documentaire utilisent des procédés de tris qui intègrent les interactions entre documents et utilisateurs dans l'attribution d'indice de pertinence aux documents retournés à partir d'une requête, c'est le cas du système décrit dans les brevets US7761471 et US20020087600. Un inconvénient des procédés de tris actuels est que leurs performances sont coûteuses en termes de calculs. En outre, les ressources nécessaires aux calculs deviennent très importantes dès lors qu'un procédé de tri de documents prend en compte des données sociales, notamment les données de chaque profil utilisateur et les interactions entre ces profils et les taggages sémantiques des documents. De ce fait, un inconvénient des procédés de tris est qu'ils ne prennent pas en compte les corrélations qui peuvent exister entre les utilisateurs ou les minimisent pour ne pas pénaliser les ressources de calculs. Un autre inconvénient réside en ce que certaines données entre un document et un utilisateur, telle que des données représentant des appréciations, sont stockées dans une base de données mais ne reflètent que partiellement les centres d'intérêts communs des différents utilisateurs. En effet les profils utilisateurs peuvent comprendre différents types de données qui ne sont pas pris en compte dans les critères de tris pour définir un indice de pertinence d'un document. Other document sorting methods include a definition of user membership groups and the assignment of certain rights to these groups. These rights include different types of possible actions on documents. Some document management systems use sorting methods that integrate the interactions between documents and users in the assignment of relevance index to the documents returned from a request, this is the case of the system described in patents US7761471 and US20020087600. A disadvantage of current sorting methods is that their performance is expensive in terms of calculations. In addition, the resources required for the calculations become very important when a document sorting process takes into account social data, in particular the data of each user profile and the interactions between these profiles and the semantic taggages of the documents. As a result, a drawback of the sorting methods is that they do not take into account the correlations that may exist between the users or minimize them so as not to penalize the computation resources. Another disadvantage is that some data between a document and a user, such as data representing appreciations, is stored in a database but only partially reflects the common interests of the different users. Indeed, the user profiles can include different types of data that are not taken into account in the sorting criteria to define a relevance index of a document.

Un problème qui se pose est donc d'améliorer les performances de procédés de tri de documents numériques. La présente invention se propose d'améliorer les processus de tri de document afin d'optimiser les recherches documentaire dans le cadre d'utilisation de moteur de recherche. L'invention permet de résoudre ces inconvénients. En outre l'invention permet de définir un sous-ensemble d'utilisateurs proches d'un premier utilisateur exécutant une recherche à partir du calcul d'une valeur de proximité avec chaque utilisateur. A problem that arises is therefore to improve the performance of digital document sorting processes. The present invention proposes to improve document sorting processes in order to optimize document searches in the context of using a search engine. The invention solves these disadvantages. In addition, the invention makes it possible to define a subset of users close to a first user performing a search from the calculation of a proximity value with each user.

L'invention permet de prendre en compte la valeur de proximité avec le calcul d'un indice de pertinence d'un document à partir d'une requête définie par le premier utilisateur, la corrélation de la valeur de proximité avec l'indice de pertinence définissant un indice d'intérêt. L'ensemble des documents sont triés par le procédé de l'invention par un ordonnancement selon chaque indice d'intérêt. Avantageusement, le procédé de calcul d'un indice de pertinence sociale d'un premier document numérique accessible à un premier ensemble d'utilisateurs, chaque utilisateur étant susceptible de réaliser un premier ensemble d'actions sur le premier document, comporte : - une étape d'identification d'un premier utilisateur du premier ensemble ; - une étape de calcul d'au moins une valeur de proximité avec le premier utilisateur à partir d'un ensemble de données comprises dans un profil utilisateur de chaque utilisateur ; ^ une étape de sélection dans le premier ensemble, d'un second ensemble d'utilisateurs dont la valeur de proximité est supérieure à un seuil prédéterminé, chaque valeur de proximité calculée étant dépendante du premier utilisateur ; - une étape de calcul, à partir du calculateur, de l'indice de pertinence sociale à partir de l'ensemble des actions réalisées de chaque utilisateur du second ensemble sur le premier document. Avantageusement, le premier ensemble d'actions comprend la modification d'un document, la création d'un document et la consultation d'un document. 5 10 15 20 25 30 Avantageusement, le premier ensemble d'actions comprend la génération d'une appréciation mesurable d'un document. Avantageusement, le premier ensemble d'actions comprend la transmission d'un document au moyen d'une messagerie électronique. Avantageusement, le premier ensemble d'actions comprend un téléchargement d'un document ou une sélection d'une partie du document. Avantageusement, l'invention concerne un procédé de tri d'une liste de documents, comprenant : - une étape de calcul, à partir d'un calculateur, d'un ensemble d'indices de pertinence sociale selon le procédé, d'une première liste de documents ordonnée selon un premier ordre; - une étape de tri, à partir d'un calculateur, de la première liste de documents ordonnés selon un second ordre correspondant à un ordre décroissant de la valeur de chaque indice de pertinence sociale. Avantageusement, chaque document comprenant un descripteur sémantique référençant un ensemble de données sémantiques propre à chaque document comprenant : - une étape de définition d'une première requête définie aux moyens d'une interface utilisateur, l'utilisateur définissant la requête permettant de déterminer le premier utilisateur du procédé, ladite requête comprenant au moins un terme ; - une étape de génération, à partir du calculateur, d'une seconde liste de documents numériques, extraits d'une première base documentaire, la génération de la seconde liste étant déclenchée à partir de la première requête, la seconde liste étant ordonnée à partir d'une première fonction de génération d'un indice de pertinence sémantique attribuant à chaque document une valeur issue d'une corrélation entre les termes de la requête et le descripteur sémantique de chaque document, la seconde liste étant ordonnée selon un ordre décroissant de la valeur de l'indice de pertinence sémantique, la seconde liste comprenant la première liste de documents. The invention makes it possible to take into account the proximity value with the calculation of a relevance index of a document from a request defined by the first user, the correlation of the proximity value with the relevance index. defining an index of interest. The set of documents are sorted by the method of the invention by a scheduling according to each index of interest. Advantageously, the method of calculating a social relevance index of a first digital document accessible to a first set of users, each user being able to perform a first set of actions on the first document, comprises: a step identifying a first user of the first set; a step of calculating at least one proximity value with the first user from a set of data included in a user profile of each user; a step of selecting in the first set of a second set of users whose proximity value is greater than a predetermined threshold, each calculated proximity value being dependent on the first user; a step of calculating, from the calculator, the social relevance index from the set of actions performed by each user of the second set on the first document. Advantageously, the first set of actions includes the modification of a document, the creation of a document and the consultation of a document. Advantageously, the first set of actions comprises generating a measurable judgment of a document. Advantageously, the first set of actions comprises the transmission of a document by means of an electronic mail. Advantageously, the first set of actions includes a download of a document or a selection of a part of the document. Advantageously, the invention relates to a method for sorting a list of documents, comprising: a step of calculating, from a calculator, a set of indices of social relevance according to the method, of a first list of documents ordered according to a first order; a step of sorting, from a calculator, the first list of documents ordered according to a second order corresponding to a descending order of the value of each index of social relevance. Advantageously, each document comprising a semantic descriptor referencing a set of semantic data specific to each document comprising: a step of defining a first request defined by means of a user interface, the user defining the request making it possible to determine the first user of the method, said request comprising at least one term; a step of generating, from the computer, a second list of digital documents extracted from a first documentary database, the generation of the second list being triggered from the first request, the second list being ordered from a first function of generating a semantic relevance index attributing to each document a value resulting from a correlation between the terms of the request and the semantic descriptor of each document, the second list being ordered according to a descending order of the value of the semantic relevance index, the second list including the first list of documents.

Avantageusement, un profil utilisateur d'un utilisateur comprend une liste des actions effectuées sur chacun des documents de la première base documentaire. Avantageusement, un profil utilisateur d'un utilisateur comprend un ensemble de transmission des documents de la première base documentaire et des destinataires associés aux transmissions. Avantageusement, un profil utilisateur comprend un profil d'intérêts comportant des données sémantiques dont une liste de termes. Avantageusement, la valeur de proximité d'un profil utilisateur d'un utilisateur du second ensemble avec le premier utilisateur est calculée à partir d'une seconde fonction déterminant une première valeur calculée à partir d'une corrélation entre les termes du profil d'intérêts de chaque utilisateur du premier ensemble avec le profil d'intérêts du premier utilisateur. Avantageusement, la liste de termes référencés dans chaque profil d'intérêts comprend le nombre d'occurrences de chaque terme référencé plusieurs fois dans le profil d'intérêts de chaque utilisateur du premier ensemble, la seconde fonction pondérant les termes communs entre le profil d'intérêts de chaque utilisateur du premier ensemble avec le profil d'intérêts du premier utilisateur par leur nombre d'occurrences, une seconde valeur étant calculée. Avantageusement, le profil d'intérêts d'un utilisateur du premier ensemble est généré à partir d'une troisième fonction permettant d'extraire une liste de termes du descripteur sémantique d'au moins un document sur lequel l'utilisateur a effectuée une action du premier ensemble d'actions et de pondérer chaque extraction par le type d'action sur le document. Avantageusement, le profil utilisateur comprend une quatrième valeur correspondant au résultat d'une quatrième fonction comparant un statut d'un utilisateur avec le premier utilisateur, chaque utilisateur comprenant un statut, les statuts différents étant différenciés par une valeur représentant un degré de différence. Avantageusement, la valeur de proximité d'un profil utilisateur d'un utilisateur avec celui du premier utilisateur est une cinquième fonction comptabilisant le nombre d'échanges entre les deux utilisateurs. Avantageusement, la valeur de proximité d'un profil utilisateur d'un utilisateur avec le premier utilisateur est une sixième fonction comparant les actions effectuées par les deux utilisateurs sur un ensemble prédéterminé de documents et de leurs similitudes. Avantageusement, l'invention concerne un procédé de recherche documentaire comprenant : ^ une première étape de définition d'une requête ; - une seconde étape de tri selon le procédé de l'invention ; - une étape de sélection et d'affichage d'au moins un document dont l'indice de pertinence est le plus élevée de la liste triée à la seconde étape. Advantageously, a user profile of a user includes a list of the actions performed on each of the documents of the first document base. Advantageously, a user profile of a user comprises a set of transmission of the documents of the first document base and the recipients associated with the transmissions. Advantageously, a user profile comprises an interest profile comprising semantic data including a list of terms. Advantageously, the proximity value of a user profile of a user of the second set with the first user is calculated from a second function determining a first value calculated from a correlation between the terms of the interest profile. of each user of the first set with the interest profile of the first user. Advantageously, the list of terms referenced in each interest profile comprises the number of occurrences of each term referenced several times in the interest profile of each user of the first set, the second function weighting the common terms between the profile of each user. interests of each user of the first set with the interest profile of the first user by their number of occurrences, a second value being calculated. Advantageously, the interest profile of a user of the first set is generated from a third function making it possible to extract a list of terms from the semantic descriptor of at least one document on which the user has performed an action of the first set of actions and weight each extraction by the action type on the document. Advantageously, the user profile comprises a fourth value corresponding to the result of a fourth function comparing a status of a user with the first user, each user comprising a status, the different statuses being differentiated by a value representing a degree of difference. Advantageously, the proximity value of a user profile of a user with that of the first user is a fifth function accounting for the number of exchanges between the two users. Advantageously, the proximity value of a user profile of a user with the first user is a sixth function comparing the actions performed by the two users on a predetermined set of documents and their similarities. Advantageously, the invention relates to a documentary search method comprising: a first step of defining a request; a second sorting step according to the method of the invention; a step of selecting and displaying at least one document whose relevance index is the highest of the list sorted in the second step.

Le procédé de tri d'une liste de documents, chaque document comprenant un descripteur sémantique, tire un avantage des étapes de définition et de génération des descripteurs sémantiques de chaque document. Avantageusement, l'invention concerne un système pour la mise en oeuvre du procédé comprenant : - un premier moyen de stockages de données permettant l'enregistrement et la mise à jour dans une première base de données du premier ensemble d'utilisateurs ; - un second moyen de stockage permettant l'enregistrement et la mise à jour dans une seconde base de données des profils utilisateurs ; - une interface permettant de réaliser l'identification d'un premier utilisateur ; - des moyens de calculs permettant le calcul des valeurs de proximité entre les utilisateurs du premier ensemble et le premier utilisateur ainsi que la sélection du second ensemble d'utilisateurs. Avantageusement, l'invention concerne un programme d'ordinateur comprenant des instructions pour la mise en oeuvre des étapes du procédé. Un effet technique de l'invention réside dans l'efficacité du traitement de données relatif au tri automatique et dynamique de documents au format numérique, et en particulier à la prise en compte dans ce traitement de critères susceptibles d'être appliqués à des éléments de profils, régulièrement mis à jour, d'utilisateurs ayant accès à ces dits documents. 25 30 D'autres caractéristiques et avantages de l'invention seront présentés dans une description détaillée & illustrée par les figures suivantes : à l'aide de la description qui suit, faite en regard des dessins annexés qui représentent : figure 1 : un schéma de principe d'un procédé de recherche documentaire selon l'art antérieur ; figure 2 : la représentation d'étapes du procédé de calcul d'indices d'intérêts d'une liste de documents selon l'invention ; figure 3 : un schéma de principe du procédé de l'invention ; figure 4 : un schéma des moyens permettant de mettre en oeuvre le procédé de l'invention ; figure 5 : un schéma de principe représentant les étapes de la génération d'un descripteur sémantique de l'invention. La figure 2 représente un schéma comprenant les principales étapes du procédé de l'invention. Définition des utilisateurs Un premier utilisateur Up définit une requête R par le biais d'une interface utilisateur. Un moteur de recherche MR, comprenant des moyens de calculs, permet d'extraire d'une première base documentaire BDp une liste de documents pertinents au regard de la requête prédéfinie. Une requête peut être soit définie de manière explicite lorsqu'elle est formulée par un utilisateur ou elle peut être définie implicitement par un contexte défini par des actions du premier utilisateur. Les actions ne sont prises en compte que lorsque le premier utilisateur est identifié au moyen d'une interface. Par exemple, un contexte peut être la consultation d'un document donné de la base documentaire. Une requête est alors automatiquement générée à partir du contexte et des recommandations sont proposées au premier utilisateur comme détaillé dans la suite de la description. The method of sorting a list of documents, each document comprising a semantic descriptor, takes advantage of the steps of defining and generating the semantic descriptors of each document. Advantageously, the invention relates to a system for implementing the method comprising: - first data storage means for recording and updating in a first database of the first set of users; a second storage means enabling the recording and updating in a second database of the user profiles; an interface making it possible to identify a first user; - Calculation means for calculating the proximity values between the users of the first set and the first user and the selection of the second set of users. Advantageously, the invention relates to a computer program comprising instructions for implementing the steps of the method. A technical effect of the invention lies in the efficiency of the data processing relating to the automatic and dynamic sorting of documents in digital format, and in particular to the inclusion in this processing of criteria that can be applied to elements of profiles, regularly updated, of users having access to these documents. Other features and advantages of the invention will be set forth in a detailed description & illustrated by the following figures: with the aid of the description which follows, given with reference to the appended drawings which represent: FIG. principle of a documentary research method according to the prior art; FIG. 2: the representation of steps of the method of calculating indices of interest of a list of documents according to the invention; Figure 3: a block diagram of the method of the invention; FIG. 4: a diagram of the means making it possible to implement the method of the invention; FIG. 5: a block diagram representing the steps of generating a semantic descriptor of the invention. Figure 2 shows a diagram comprising the main steps of the method of the invention. Definition of users A first user Up defines an R request through a user interface. A search engine MR, comprising calculation means, makes it possible to extract from a first database BDp a list of documents that are relevant to the predefined query. A request can be either explicitly defined when it is formulated by a user or it can be defined implicitly by a context defined by actions of the first user. Actions are only taken into account when the first user is identified by means of an interface. For example, a context may be the consultation of a given document from the document base. A request is then automatically generated from the context and recommendations are proposed to the first user as detailed in the following description.

Un réseau d'utilisateurs fermé est défini, par exemple, par l'ensemble des utilisateurs s'identifiant à l'interface utilisateur. Il peut s'agir d'une communauté particulière telle qu'un réseau d'entreprise ou d'un réseau social d'utilisateurs partageant des données prédéfinies. L'ensemble des utilisateurs du réseau considéré dans le procédé de l'invention est appelé premier ensemble, il est noté Ul. Nous notons uke[1;N] un utilisateur indexé dans un réseau comprenant un nombre N de personnes ou d'utilisateurs. L'ensemble des utilisateurs identifiés du réseau est le premier ensemble Ul. Les utilisateurs de l'ensemble Ul sont enregistrés dans une première base de données d'utilisateurs, notée BDu. Le procédé de l'invention comprend une première étape 20 de détermination d'un premier utilisateur up du premier ensemble à partir d'une interface. Dans un mode de réalisation de l'invention, un mécanisme d'authentification ou d'identification permet de déterminer un premier utilisateur up du premier ensemble Ul. Lors de l'étape de configuration, le premier utilisateur up peut également définir un profil ou un matricule permettant de se connecter à un réseau d'utilisateurs. Le procédé de l'invention permet d'identifier un premier utilisateur up parmi un réseau comprenant uke[1;N] utilisateurs. Ce premier utilisateur up est défini comme l'utilisateur définissant, explicitement ou implicitement, une requête R à un instant To. Définition de la base documentaire Le procédé de calcul d'un indice de pertinence sociale d'un premier document concerne un premier document Dk donné extrait de la première base documentaire, noté BDp. La base de documentaire BDp comprend un ensemble de documents qui constitue pour chacun d'entre eux un support d'information. Chaque document de la base documentaire comprend un descripteur sémantique. A closed user network is defined, for example, by all users identifying with the user interface. It can be a particular community such as a corporate network or a social network of users sharing predefined data. The set of users of the network considered in the method of the invention is called the first set, it is denoted by U. We denote uke [1; N] an indexed user in a network comprising a number N of persons or users. The set of identified users of the network is the first set Ul. The users of the set Ul are registered in a first database of users, denoted BDu. The method of the invention comprises a first step 20 of determining a first user up of the first set from an interface. In one embodiment of the invention, an authentication or identification mechanism makes it possible to determine a first user up of the first set Ul. During the configuration step, the first user up can also define a profile or a user. number to connect to a network of users. The method of the invention makes it possible to identify a first user up among a network comprising uke [1; N] users. This first user up is defined as the user defining, explicitly or implicitly, a request R at a time To. Definition of the document base The method of calculating a social relevance index of a first document concerns a first document Dk given extract of the first documentary database, noted BDp. The BDp documentary database comprises a set of documents which constitutes for each of them an information medium. Each document in the document base includes a semantic descriptor.

Un descripteur sémantique décrit les thèmes auxquels il se rapporte et le contenu sémantique du document, notamment : - des termes simples ou composés ; - des phrases simples telles que des sujets, verbes, compléments. Les thèmes sont pondérés en fonction de l'importance qu'ils ont dans le document. Les termes et les phrases sont pondérés de façon à être les plus discriminants sémantiquement. Les termes et les phrases qui permettent de rapprocher les documents qui sont les plus proches sémantiquement sont utilisés de manière préférentielle. A semantic descriptor describes the topics to which it refers and the semantic content of the document, including: - simple or compound terms; - simple sentences such as subjects, verbs, complements. Themes are weighted according to the importance they have in the document. Terms and sentences are weighted to be the most discriminating semantically. Terms and phrases that bring semantically closest documents closer together are used preferentially.

Un descripteur sémantique du procédé de l'invention peut être élaboré par un utilisateur donné ou généré automatiquement à partir d'un procédé de génération de descripteur sémantique, tel qu'un moteur d'indexation sémantique évoqué ci-dessus. Il peut être également créé par une combinaison de ces deux procédés. Ses mises à jours peuvent être soit effectuées manuellement soit automatiquement à partir d'un procédé de mise à jour d'un descripteur sémantique à partir d'une configuration préétablie permettant de configurer à quels moments une indexation est effectuée et de définir la politique d'extraction des mots clefs ou des termes générés à partir du texte du document. La mise à jour du descripteur sémantique peut également être une combinaison de ces deux derniers modes de mises à jour. Dans la suite de la description : On note (Di)ie[1 ;N] l'ensemble des documents de la base documentaire notée BDp. On note (Ai)ie[1 ;N] l'ensemble des actions qui peuvent être effectuées par un utilisateur. L'ensemble des actions comprennent au moins les types d'actions suivants : - une création d'un document ; - une appréciation mesurable d'un document ; Selon les modes de réalisations, les types d'actions peuvent comprendre également : - une modification d'un document ; - une consultation d'un document ; - un téléchargement d'un document ; - une sélection d'une partie du document ; - une transmission d'un document par l'émission ou la réception de ce document par le biais d'une messagerie par exemple ; - un référencement du document par l'association d'au moins un terme au document. Enfin, le type d'actions d'un utilisateur peut également comprendre une action résultant d'une combinaison des précédentes actions. A semantic descriptor of the method of the invention may be developed by a given user or automatically generated from a semantic descriptor generation method, such as a semantic indexing engine mentioned above. It can also be created by a combination of these two methods. Its updates can either be done manually or automatically from a method of updating a semantic descriptor from a pre-established configuration allowing to configure at which moments an indexing is done and to define the policy of extraction of keywords or terms generated from the text of the document. The update of the semantic descriptor can also be a combination of these last two modes of updates. In the remainder of the description: Note (Di) ie [1; N] all the documents of the documentary database denoted BDp. We denote (Ai) ie [1; N] all the actions that can be performed by a user. All the actions include at least the following types of actions: - creation of a document; - a measurable assessment of a document; Depending on the embodiments, the types of actions may also include: - a modification of a document; - a consultation of a document; - a download of a document; - a selection of a part of the document; a transmission of a document by the transmission or reception of this document by means of an e-mail for example; - referencing the document by associating at least one term with the document. Finally, a user's action type may also include an action resulting from a combination of the previous actions.

Définition des profils utilisateurs et des profils d'intérêts Chaque utilisateur comprend un profil utilisateur. Un profil utilisateur comprend selon les modes de réalisations de l'invention : - un profil d'intérêts comportant des données sémantiques dont des mots clefs, des thèmes, des termes ou des phrases complexes, le profil d'intérêts peut selon les modes de réalisation être défini par un utilisateur ou mis à jour automatiquement à partir d'actions effectuées sur un ensemble de documents de l'ensemble (Di)ie[1 ;N] ou une combinaison des deux fonctionnements ; - une liste des actions effectuées sur un ensemble de documents de l'ensemble U1 qui ont été consultés ou crées ; - un ensemble de transmissions comprenant des émissions et des réceptions d'un ensemble de documents de l'ensemble U1. Dans un mode de réalisation de l'invention, le profil d'intérêts est généré ou mis à jour à partir d'une fonction permettant d'extraire une liste de termes des descripteurs sémantiques des documents sur lequel un utilisateur a effectuée au moins une action du premier ensemble d'actions et de pondérer chaque extraction de termes par le type d'action sur chaque document. Defining user profiles and interest profiles Each user includes a user profile. According to the embodiments of the invention, a user profile comprises: a profile of interests comprising semantic data including key words, themes, terms or complex sentences, the interest profile may according to the embodiments be defined by a user or updated automatically from actions performed on a set of documents of the set (Di) ie [1; N] or a combination of the two operations; a list of the actions performed on a set of documents of the set U1 which have been consulted or created; a set of transmissions comprising transmissions and receptions of a set of documents of the set U1. In one embodiment of the invention, the interest profile is generated or updated from a function making it possible to extract a list of terms from the semantic descriptors of the documents on which a user has performed at least one action. of the first set of actions and weight each extraction of terms by the type of action on each document.

Dans un mode de réalisation de l'invention, le nombre de transmissions d'un document entre deux utilisateurs ou entre un utilisateur donné et un groupe d'utilisateurs comptabilise des intérêts communs entre les utilisateurs. L'intérêt est mesurable par une comptabilisation des envois à partir d'une messagerie électronique et peut dans une variante de réalisation pondérer les intérêts selon si un utilisateur a un profil « émetteur » de documents ou un profil de « récepteur ». C'est-à-dire qu'un utilisateur reçoit plus souvent qu'il n'émet des documents ou l'inverse. Dans un mode de réalisation, les profils utilisateurs sont crées et sauvegardés dans une seconde base de données notée BDp. Dans d'autres modes, les profils utilisateurs peuvent être crées, sauvegardés et mis à jour dans un fichier ou un index ou une table d'une autre base de données. En outre, une troisième base de données dite sociale, notée BDSo, comprend les interactions entre les documents et les utilisateurs par la sauvegarde des actions effectuées par chaque utilisateur sur chacun des documents de la base documentaire BDp. In one embodiment of the invention, the number of transmissions of a document between two users or between a given user and a group of users accounts for common interests between the users. The interest is measurable by a posting of the items from an electronic mail and can in an alternative embodiment weight the interest according to whether a user has a profile "issuer" of documents or a profile of "receiver". That is, a user receives more often than he emits documents or vice versa. In one embodiment, the user profiles are created and saved in a second database denoted BDp. In other modes, user profiles can be created, saved, and updated in a file or index or table in another database. In addition, a third so-called social database, denoted BDSo, includes interactions between the documents and the users by saving the actions performed by each user on each of the documents of the BDp database.

Mise à four du profil utilisateurs Le procédé permet de mettre à jour les profils utilisateurs d'utilisateurs au fil du temps et permet une mise à jour automatique des profils utilisateurs selon les actions effectuées par l'ensemble des utilisateurs. Les mises à jour des profils utilisateurs peuvent être réalisées sur la base de données BDP comprenant les données enregistrées des profils d'intérêts ainsi que les autres données stockées dans un profil utilisateur. La base de données BDP permet dans un mode de réalisation de l'invention d'enregistrer pour chaque utilisateur u; les données des, descripteurs sémantiques de chaque documents, notamment les mots clefs, les thèmes ou les phrases complexes générés, correspondant aux documents sur lesquels des actions ont été effectuées. Le procédé de l'invention permet de prendre en considération dans le profil utilisateur les messages transmis avec un autre utilisateur contenant par exemple un document donné Dk. Les thèmes d'un descripteur sémantique d'un document donné regroupent des thématiques sémantiques. Une thématique n'est pas forcément présente dans un document mais elle regroupe par exemple un champ lexical donné ou un domaine d'un document. Un profil d'intérêt est l'ensemble des données sémantiques présente dans un profil utilisateur qui sont soient définis par l'utilisateur soient automatiquement collectés à partir des actions d'un utilisateur sur un document ou bien une combinaison des deux fonctionnements. User Profile Baking The process updates user user profiles over time and automatically updates user profiles according to the actions performed by all users. The updates of the user profiles can be performed on the BDP database including the recorded data of the profiles of interest as well as the other data stored in a user profile. The database BDP allows in one embodiment of the invention to record for each user u; the data of the semantic descriptors of each document, in particular the keywords, the themes or the complex sentences generated, corresponding to the documents on which actions have been carried out. The method of the invention makes it possible to take into consideration in the user profile the messages transmitted with another user containing for example a given document Dk. The themes of a semantic descriptor of a given document include semantic topics. A theme is not necessarily present in a document but it includes for example a given lexical field or a domain of a document. A profile of interest is the set of semantic data present in a user profile that are either user-defined or automatically collected from a user's actions on a document or a combination of both.

De ce fait un profil d'intérêts peut comprendre des thèmes collectés de descripteurs sémantiques de documents consultés. Ces thèmes peuvent être, par exemple, considérés comme des termes comprenant une pondération spécifique. Plusieurs modes de réalisation de la mise à jour d'un profil utilisateur sont possibles : - un premier mode permet une mise à jour régulière à des moments prédéterminés, par exemple à une heure définie d'une journée, la mise à jour se faisant quotidiennement ; dans ce cas les thèmes, les termes et les valeurs de proximité sont calculées pour chaque utilisateur à ce moment là ; - un second mode permet de mettre à jour le profil utilisateur d'un utilisateur dès qu'une action sur un document est effectuée, dans ce cas les termes et les phrases complexes et données permettant de générer les valeurs de proximité peuvent être mise à jour automatiquement dans le profil utilisateur de chaque utilisateur. Les mises à jours des profils utilisateurs peuvent également être effectuées en temps réel ou de façon périodique sur des périodes plus importantes telles que hebdomadairement ou mensuellement. Exemple de définition de profils utilisateurs Chaque profil utilisateur d'utilisateurs comprend un ensemble de données permettant de calculer une distance avec le premier utilisateur identifié. La valeur de proximité peut être nulle si un utilisateur du premier ensemble Ul n'a pas d'intérêt commun avec le premier utilisateur up. C'est 15 par exemple le cas si aucun message n'a été échangé entre les deux utilisateurs et si aucun thème ou terme en commun n'a été collecté dans leur profil utilisateur. Dans un mode de réalisation de l'invention, la définition d'un profil utilisateur d'un utilisateur peut être enrichie par d'autre d'autres données, par 20 exemple : - la définition d'un premier ensemble de données, dites données explicites dont une valeur peut être calculée de manière à représenter un type et la nature d'une tâche exercée et/ou correspondre à une fonction ou un poste ; 25 ^ une mise à jour régulière d'un second ensemble de données, dites données implicites, dont au moins une valeur correspond à une quantification d'un nombre d'échanges de données ou de messages transmis comprenant un document donné avec au moins un autre utilisateur ; 30 ^ un troisième ensemble de données, dites données sémantiques comprenant une liste de termes, de thèmes ou de phrases complexes ainsi qu'éventuellement un indice de récurrence. Dans un exemple de réalisation, un type de tâche peut être déterminé 35 parmi une liste de tâches préenregistrées. Typiquement un exemple de tâche 10 est « travailler sur un projet X ». Cette tâche peut être associée à une première valeur 15. Le premier chiffre 1 signifie « travailler » ou non et le second chiffre permet de définir une tâche parmi un nombre de tâche prédéfini, il s'agit de la tâche n°5. As a result, an interest profile can include collected themes of semantic descriptors of documents consulted. These themes can be, for example, considered as terms including a specific weighting. Several embodiments of the update of a user profile are possible: a first mode allows a regular update at predetermined times, for example at a defined time of a day, the update being done daily ; in this case the themes, the terms and the proximity values are calculated for each user at that moment; a second mode makes it possible to update the user profile of a user as soon as an action on a document is performed, in which case the complex terms and sentences and data that make it possible to generate the proximity values can be updated automatically in the user profile of each user. Updates to user profiles can also be done in real time or periodically over larger periods such as weekly or monthly. Example of defining user profiles Each user user profile includes a set of data to calculate a distance with the first identified user. The proximity value may be zero if a user of the first set Ul has no common interest with the first user up. This is for example the case if no message has been exchanged between the two users and if no theme or term in common has been collected in their user profile. In one embodiment of the invention, the definition of a user profile of a user can be enriched by other other data, for example: the definition of a first set of data, called data; explicit, of which a value may be calculated to represent a type and the nature of a task performed and / or to correspond to a function or position; 25 ^ a regular update of a second set of data, called implicit data, of which at least one value corresponds to a quantization of a number of data exchanges or messages transmitted comprising a given document with at least one other user; A third set of data, called semantic data including a list of terms, themes or complex sentences and possibly a recurrence index. In an exemplary embodiment, a task type may be determined from a list of prerecorded tasks. Typically an example of task 10 is "working on a project X". This task can be associated with a first value 15. The first digit 1 means "to work" or not and the second digit makes it possible to define a task among a number of predefined tasks, this is the task n ° 5.

Dans d'autres exemples équivalents, le procédé de l'invention permet d'attribuer une valeur à une tache prédéfinie. Une autre valeur peut être attribuée à la fonction ou poste plus généralement à un statut d'un utilisateur parmi le réseau. Le procédé permet d'évaluer le statut d'un utilisateur à partir de cette valeur. In other equivalent examples, the method of the invention allows to assign a value to a predefined task. Another value may be assigned to the function or item more generally to a status of a user among the network. The method evaluates the status of a user from this value.

Par exemple, dans une organisation hiérarchique, le niveau hiérarchique d'un utilisateur peut être associé à une valeur. Le calcul de la distance entre deux utilisateurs peut prendre en compte cette dernière valeur. Lorsque des groupes sont prédéfinis dans le réseau d'utilisateur, une relation d'appartenance à un groupe peut être mesurable selon si deux utilisateurs appartiennent au même groupe ou à des groupes éloignés ou proches. Lorsque la définition d'un profil utilisateur permet d'attribuer une liste de termes issus des actions sur des documents par un utilisateur dans son profil d'intérêt, on note ces données des données sémantiques. Dans un exemple de réalisation, chaque document comporte un descripteur sémantique. Selon les modes de réalisation, le descripteur sémantique d'un document peut être généré automatiquement à partir de la reconnaissance de termes métiers du document ou par une action d'une personne collectant des termes dits « représentatifs » des sujets abordés par un document ou considérés comme génériques pour représenter les sujets abordés dans le document. Le descripteur sémantique d'un document peut également être généré par une combinaison d'une action manuelle et d'un référencement automatique des termes du document. Les termes permettent en outre de référencer le document dans la base documentaire. Dans une variante, le descripteur sémantique peut être considéré comme la première page du document. Le profil d'intérêt d'un utilisateur peut être enrichi par l'enregistrement de termes ou de thèmes collectés dans les descripteurs sémantiques selon le type d'actions effectuées par un utilisateur sur lesdits documents. Les termes recensés peuvent être pondérés par le type d'actions définies précédemment sur un ou des documents. For example, in a hierarchical organization, the hierarchy level of a user can be associated with a value. The calculation of the distance between two users can take into account this last value. When groups are predefined in the user network, a group membership relationship can be measurable according to whether two users belong to the same group or to distant or close groups. When the definition of a user profile makes it possible to assign a list of terms from the actions on documents by a user in his profile of interest, these semantic data data are recorded. In an exemplary embodiment, each document includes a semantic descriptor. According to the embodiments, the semantic descriptor of a document can be generated automatically from the recognition of business terms of the document or by an action of a person collecting terms known as "representative" of the subjects addressed by a document or considered as generic to represent the topics covered in the document. The semantic descriptor of a document can also be generated by a combination of a manual action and an automatic referencing of the terms of the document. The terms also make it possible to reference the document in the document base. In one variant, the semantic descriptor can be considered as the first page of the document. The profile of interest of a user can be enriched by the recording of terms or themes collected in the semantic descriptors according to the type of actions performed by a user on said documents. The terms identified may be weighted by the type of actions previously defined on one or more documents.

Un ensemble de termes d'un utilisateur donné définis dans son profil d'intérêt peut être par exemple : {boulangerie, pain, croissant, moto, frein, pneu}. Lorsque ces termes sont pondérés par leur récurrence dans les documents ayant fait l'objet d'une action, l'ensemble des termes de l'exemple précédent peut être défini ainsi : {boulangerie-2-4, pain-3-7, croissant-1-8, moto-5-3, frein-1-1, pneu-2-61. Le premier chiffre associé à chaque terme représente le nombre d'occurrences du terme dans les documents et le second chiffre associé à chaque terme permet de pondérer le terme par une valeur représentant le type d'actions. Ainsi, dans cet exemple, il y a deux occurrences du mot boulangerie, 3 occurrences pour le mot pain, etc. La définition du profil d'intérêt d'un utilisateur comprend, dans un mode de réalisation, la définition de thèmes. Chaque thème est associé à des termes d'une même famille. A set of terms of a given user defined in his profile of interest can be for example: {bakery, bread, croissant, motorcycle, brake, tire}. When these terms are weighted by their recurrence in the actioned documents, the set of terms in the preceding example can be defined as: {bakery-2-4, bread-3-7, croissant -1-8, moto-5-3, brake-1-1, tire-2-61. The first digit associated with each term represents the number of occurrences of the term in the documents and the second digit associated with each term is used to weight the term by a value representing the type of actions. Thus, in this example, there are two occurrences of the word bakery, 3 occurrences for the word bread, and so on. The definition of the profile of interest of a user comprises, in one embodiment, the definition of themes. Each theme is associated with terms from the same family.

Le procédé de l'invention permet de générer deux thèmes issus des termes de la liste de l'exemple précédent. Par exemple, le premier thème est : PREPARATION CULINAIRE, le second thème est MECANIQUE AUTOMOBILE. Le procédé comprend l'identification d'un terme et l'association du terme à une thématique prédéfinie. Un score peut être associé à la thématique, en reprenant l'exemple précédent, on comptabilise trois termes du premier thème et trois termes associés au second thème. Les scores des thèmes peuvent être pondérés par le nombre d'occurrences de termes concernant un thème prédéterminé et par la note concernant les types d'actions d'un utilisateur sur un document. Le procédé de l'invention comprend l'interrogation d'une table ou d'un fichier ou d'une base de données sémantiques dans laquelle sont enregistrées les termes ou phrases complexes associés aux thèmes. Le procédé de l'invention permet donc de déduire les thèmes des termes et des phrases complexes des documents ayant fait l'objet d'actions d'un utilisateur. L'invention comprend plusieurs modes de réalisations du calcul des thèmes à partir des termes d'un document. The method of the invention makes it possible to generate two themes from the terms of the list of the preceding example. For example, the first theme is: CULINARY PREPARATION, the second theme is AUTOMOTIVE MECHANICS. The method includes identifying a term and associating the term with a predefined theme. A score can be associated with the theme, taking the previous example, we count three terms of the first theme and three terms associated with the second theme. The scores of the topics can be weighted by the number of occurrences of terms relating to a predetermined theme and by the note concerning the types of actions of a user on a document. The method of the invention includes querying a table or a semantic file or database in which the complex terms or phrases associated with the themes are recorded. The method of the invention thus makes it possible to deduce the themes of the complex terms and sentences from the documents that have been the subject of actions by a user. The invention comprises several embodiments of the calculation of themes from the terms of a document.

Dans un premier mode de réalisation, à partir des occurrences des termes dans les documents d'un corpus prédéterminé, le procédé calcule pour chaque couple de termes un coefficient de corrélation. Ces coefficients de corrélation permettent de construire un graphe pondéré. Les composantes les plus fortement connexes de ce graphe forment des ensembles de termes qui sont liés sémantiquement : ce sont des thèmes. Dans un second mode de réalisation, le procédé de l'invention permet d'enregistrer les thèmes dans une table, un registre ou un fichier ou encore dans la base de données. Pour chaque thème, une liste de documents est associée à la thématique. Dans un mode de réalisation, une pondération est calculée en fonction du nombre de documents comportant des thèmes correspondant à une thématique donnée. Le procédé permet de calculer les termes les plus discriminants pour chaque thème. Le calcul des thèmes comprend la détermination de la présence de termes dans les documents et du nombre d'occurrences de chaque terme. Afin d'améliorer ce calcul, dans un mode de réalisation, le système utilise un procédé de détermination de connaissances sémantiques sur le domaine concerné. Plusieurs critères peuvent être utilisés tels que la taxonomie, le thésaurus ou l'ontologie. In a first embodiment, from the occurrences of the terms in the documents of a predetermined corpus, the method calculates for each pair of terms a correlation coefficient. These correlation coefficients make it possible to construct a weighted graph. The most strongly connected components of this graph form sets of terms that are semantically related: they are themes. In a second embodiment, the method of the invention makes it possible to save the themes in a table, a register or a file or in the database. For each theme, a list of documents is associated with the theme. In one embodiment, a weighting is calculated according to the number of documents comprising themes corresponding to a given theme. The method makes it possible to calculate the most discriminating terms for each theme. The calculation of the topics includes the determination of the presence of terms in the documents and the number of occurrences of each term. In order to improve this calculation, in one embodiment, the system uses a method for determining semantic knowledge on the domain concerned. Several criteria can be used such as taxonomy, thesaurus or ontology.

La génération des thèmes peuvent comprendre l'ajout de termes qui ne sont pas présents dans un document mais dont le document aborde la thématique. Par exemple, le procédé de l'invention permet d'associer des termes larges imbriquant des termes moins larges. Un exemple est le terme « programmation » qui est une thématique comprenant les termes « langage objet » et « JAVA ». Le thème « langage objet » est lui-même une thématique comprenant le terme JAVA. Le procédé de l'invention permet de pondérer les termes pris en compte dans chaque thème selon différents critères : la spécificité des termes, la multiplicité des occurrences, certaines catégories grammaticales comme les entités nommées. The generation of themes may include the addition of terms that are not present in a document but whose document addresses the theme. For example, the method of the invention allows to associate broad terms interleaving less broad terms. An example is the term "programming" which is a theme including the terms "object language" and "JAVA". The theme "object language" is itself a theme including the term JAVA. The method of the invention makes it possible to weight the terms taken into account in each theme according to different criteria: the specificity of the terms, the multiplicity of occurrences, certain grammatical categories such as the named entities.

Définition du calcul d'une distance/ Valeur de proximité Lorsque l'on considère un premier utilisateur up, le procédé de l'invention permet de calculer une valeur de proximité avec chaque utilisateur du premier ensemble. Definition of distance calculation / proximity value When considering a first user up, the method of the invention makes it possible to calculate a proximity value with each user of the first set.

La figure 2 représente une étape 21 du procédé permettant de déterminer un sous ensemble, noté second ensemble U2, d'utilisateurs du premier ensemble qui comprennent une valeur de proximité supérieure à un seuil prédéterminé. Le procédé de l'invention permet de définir un second ensemble d'utilisateurs compris dans le premier ensemble permettant de définir un nombre restreint d'utilisateurs ayant une proximité d'intérêt avec le premier utilisateur identifié up qui effectue implicitement ou explicitement une recherche documentaire. Une valeur de proximité entre deux utilisateurs peut être calculée selon des critères de distance mesurable à partir de données mesurables du profil utilisateur de chaque utilisateur. Différentes méthodes peuvent être utilisées pour générer un second ensemble U2 d'utilisateurs proche du premier utilisateur up. Un mode de réalisation possible est celui qui se base sur les techniques de filtrage collaboratif. Cette technique permet de calculer la distance entre deux utilisateurs en utilisant par exemple le coefficient de corrélation de Pearson. Cette technique permet de calculer la distance entre deux utilisateurs en fonction de leurs actions sur un ensemble de documents et/ou en fonction des données contenues dans chaque profil utilisateur. FIG. 2 represents a step 21 of the method making it possible to determine a subset, denoted second set U2, of users of the first set which comprise a value of proximity greater than a predetermined threshold. The method of the invention makes it possible to define a second set of users included in the first set for defining a restricted number of users having a proximity of interest with the first identified user up who implicitly or explicitly performs a document search. A proximity value between two users can be calculated according to measurable distance criteria from measurable data of the user profile of each user. Different methods can be used to generate a second set U2 of users close to the first user up. One possible embodiment is one based on collaborative filtering techniques. This technique makes it possible to calculate the distance between two users by using, for example, the Pearson correlation coefficient. This technique makes it possible to calculate the distance between two users according to their actions on a set of documents and / or according to the data contained in each user profile.

Pour calculer la valeur de proximité entre deux utilisateurs du premier ensemble, le procédé de l'invention permet de définir une fonction comparant des valeurs générées par les données de deux profils utilisateurs permettant de calculer une distance entre deux utilisateurs. Une première distance peut être déterminée par une fonction déterminant une première valeur calculée à partir d'une corrélation entre les termes du profil d'intérêts, noté Tub d'un utilisateur u; de l'ensemble Ul avec le profil d'intérêts, noté Tm, du premier utilisateur up. Cette première distance peut prendre en compte dans un mode de réalisation le nombre d'occurrences de chaque terme référencé plusieurs fois dans le profil d'intérêts Tu; d'un utilisateur u;, de manière à pondérer la valeur de proximité. Une seconde distance peut être déterminée par une fonction comparant un statut d'un utilisateur u; avec le premier utilisateur up, chaque utilisateur comprenant un statut, les statuts différents étant différenciés par une valeur représentant un degré de différence. Une troisième distance peut être déterminée par une fonction comptabilisant le nombre d'échanges, par exemple d'une messagerie électronique, entre deux utilisateurs donnés ou un utilisateur donné tel que le premier utilisateur avec un groupe d'utilisateurs. Une quatrième distance peut être déterminée par une fonction comparant les actions effectuées par deux utilisateurs pris deux à deux ou entre un utilisateur donné et un groupe d'utilisateurs sur un ensemble prédéterminé de documents et de leurs similitudes. To calculate the proximity value between two users of the first set, the method of the invention makes it possible to define a function comparing values generated by the data of two user profiles making it possible to calculate a distance between two users. A first distance can be determined by a function determining a first value calculated from a correlation between the terms of the interest profile, noted Tub of a user u; of the set Ul with the profile of interests, noted Tm, of the first user up. This first distance can take into account in one embodiment the number of occurrences of each term referenced several times in the profile of interests Tu; of a user u;, so as to weight the proximity value. A second distance can be determined by a function comparing a status of a user u; with the first user up, each user including a status, the different statuses being differentiated by a value representing a degree of difference. A third distance can be determined by a function counting the number of exchanges, for example of an electronic mail, between two given users or a given user such as the first user with a group of users. A fourth distance can be determined by a function comparing the actions performed by two users taken two by two or between a given user and a group of users on a predetermined set of documents and their similarities.

Enfin une distance peut être déterminée par une pondération des précédentes distances. Le procédé de l'invention permet, à partir d'un document identifié ou consulté par un premier utilisateur, de générer un second ensemble U2 de l'ensemble Ul d'utilisateurs. Le second ensemble U2 est déterminé à partir d'une fonction permettant de calculer une distance entre chaque utilisateur de l'ensemble Ul et le premier utilisateur et de la comparer à un seuil prédéterminé. Un avantage de la création de ce second sous ensemble est de diminuer les coûts et les temps de calcul et de proposer une liste de documents pertinents au premier utilisateur. Le seuil peut être une donnée configurable et/ou dépendante de l'environnement de l'utilisateur. Et de son profil utilisateur. Il peut être calculé pour le second ensemble U2 d'utilisateurs. Par exemple, les 100 distances les plus courtes entre l'ensemble des utilisateurs de l'ensemble Ul et le premier utilisateur définit un seuil variable. Un avantage de l'utilisation d'un seuil paramétrable est que le procédé de l'invention peut s'adapter et se configurer de manière adéquate à différents type de réseaux. Par exemple, le seuil peut être adapté à un réseau d'utilisateurs de plus ou moins grandes taille, de quelques dizaines d'utilisateurs à plusieurs milliers ou même de centaine de milliers pour des grands réseaux. Par ailleurs, un autre avantage est de s'adapter à la disparité des sujets et donc des thèmes d'une base documentaire. Notamment, lors de l'étape 20 permettant d'identifier un utilisateur effectuant une recherche à partir d'une requête, le procédé de l'invention permet de définir un second ensemble U2 d'utilisateurs ayant une valeur de proximité supérieure à un seuil prédéfini. Le procédé permet alors d'identifier des thèmes qui présentent un intérêt commun pour un ensemble d'utilisateurs. Le procédé de l'invention permet de définir, dans une variante de réalisation, des groupes d'utilisateurs selon certaines thématiques communes. Dans ce dernier cas, le profil utilisateur d'un utilisateur comprend l'identification du ou des groupes d'appartenances d'un utilisateur et dans ce cas le procédé y associe une valeur qui peut être comparée. La figure 2 représente une étape 21 correspondante à la détermination du second ensemble U2 d'utilisateurs ayant une valeur de proximité supérieure à un seuil prédéfini avec le premier utilisateur. Le calcul de la valeur de proximité étant une fonction de corrélation entre le profil utilisateur du premier utilisateur et chaque profil utilisateur des autres utilisateurs. Finally, a distance can be determined by a weighting of the previous distances. The method of the invention makes it possible, from a document identified or consulted by a first user, to generate a second set U2 of the set U1 of users. The second set U2 is determined from a function making it possible to calculate a distance between each user of the set U1 and the first user and to compare it with a predetermined threshold. An advantage of the creation of this second subassembly is to reduce the costs and calculation times and to propose a list of documents relevant to the first user. The threshold may be data that is configurable and / or dependent on the user's environment. And from his user profile. It can be calculated for the second set U2 of users. For example, the 100 shortest distances between all users of the set Ul and the first user defines a variable threshold. An advantage of using a parameterizable threshold is that the method of the invention can adapt and configure itself adequately to different types of networks. For example, the threshold can be adapted to a network of users of greater or lesser size, from a few tens of users to several thousand or even hundreds of thousands for large networks. In addition, another advantage is to adapt to the disparity of subjects and thus themes of a documentary base. In particular, during step 20 making it possible to identify a user performing a search from a request, the method of the invention makes it possible to define a second set U2 of users having a value of proximity greater than a predefined threshold. . The method then makes it possible to identify themes that are of common interest for a set of users. The method of the invention makes it possible to define, in an alternative embodiment, groups of users according to certain common themes. In the latter case, the user profile of a user includes the identification of the group or groups of memberships of a user and in this case the method associates a value that can be compared. FIG. 2 represents a step 21 corresponding to the determination of the second set U2 of users having a proximity value greater than a predefined threshold with the first user. The calculation of the proximity value is a correlation function between the user profile of the first user and each user profile of the other users.

Définition de l'indice de pertinence social Pour un document donné, noté DK, et pour le premier utilisateur up, le procédé de l'invention permet de déterminer la valeur d'un indice de pertinence sociale, noté Iso d'une manière générale et Ik dans la figure 2. A un instant donné, un calculateur permet de dénombrer, l'ensemble des actions effectuées sur le document DK par les utilisateurs du second ensemble U2 dont la valeur de proximité avec le premier utilisateur est supérieure à un seuil prédéfini. Le procédé permet de générer un score à l'ensemble des actions effectuées par les utilisateurs du second ensemble U2 d'utilisateurs sur le document DK. La figure 2 représente une étape 23 dans laquelle est calculée l'indice de pertinence sociale Ik d'un document DK pour le second ensemble U2 d'utilisateurs calculé à l'étape 21 ayant une proximité d'intérêt avec le premier utilisateur. Definition of the social relevance index For a given document, denoted DK, and for the first user up, the method of the invention makes it possible to determine the value of a social relevance index, denoted Iso in a general manner and Ik in Figure 2. At a given time, a calculator allows to count, the set of actions performed on the DK document by the users of the second set U2 whose proximity value with the first user is greater than a predefined threshold. The method makes it possible to generate a score for all the actions performed by the users of the second set U2 of users on the document DK. FIG. 2 represents a step 23 in which is computed the social relevance index Ik of a document DK for the second set U2 of users calculated in step 21 having a proximity of interest with the first user.

Ainsi, lorsque le procédé s'applique à un ensemble de documents (Di)ie[1 ;N], les documents peuvent être triés selon un ordre croissant ou décroissant des scores calculés par le procédé de l'invention de chaque document Di. Thus, when the method applies to a set of documents (Di) ie [1; N], the documents can be sorted in ascending or descending order of the scores calculated by the method of the invention of each document Di.

L'invention concerne en ce sens un procédé de tris d'une liste prédéterminée de documents et peut donc être combiné à un premier moteur de recherche retournant une liste de documents à partir de n'importe quel moteur de recherche conventionnel. Le procédé de tris de l'invention permet de trier une liste ordonnée générée préalablement par un moteur de recherche sémantique. Un avantage du procédé de tris de l'invention est qu'il est compatible à n'importe quel moteur de recherche puisqu'il peut s'appliquer à toute liste de documents ordonnée. La figure 2 représente une étape de sélection 22 qui permet de trier une liste de documents pertinents dont au moins une action a été réalisée par les utilisateurs du second ensemble U2, c'est-à-dire ceux ayant les plus petites distances avec le premier utilisateur. Dans la figure 2, les actions sont noté (Ai)ie[1 ;n]. Le procédé de l'invention comprend une étape 23 permettant de définir pour un document donné Dk et un groupe d'utilisateurs donnés un indice de pertinence du document Dk. Un mode de réalisation de l'invention permet d'exploiter une base de données dite sociale notée BPso qui comprend pour un chaque document de la base documentaire BDp, les utilisateurs ayant réalisé au moins une action sur un document et le type d'actions. Eventuellement, la base de données répertorie les occurrences des actions effectuées par les utilisateurs sur les documents. L'étape 23 du procédé de l'invention de la figure 2 permet d'interroger une ou des bases de données permettant de restituer le type d'actions d'un utilisateur ou d'un ensemble d'utilisateurs sur un document donné Dk de la base documentaire BDp. Dans un mode de réalisation, une base de données stocke pour chaque couple {document Dk, utilisateur ui} une valeur qui est modifiée selon le type et le nombre d'actions effectuées sur le document Dk au fil du temps. Cette valeur correspond à l'intérêt que l'utilisateur ui porte au document Dk.35 Un exemple de calcul de l'indice de pertinence sociale A chacune de ces actions, une valeur est attribuée qui peut être pondérée selon le nombre d'actions identiques effectuées. Il s'agit d'un score qui permet de mesurer l'intérêt d'un document par un ensemble d'utilisateurs. The invention relates in this sense to a method of sorting a predetermined list of documents and can therefore be combined with a first search engine returning a list of documents from any conventional search engine. The sorting method of the invention makes it possible to sort an ordered list generated previously by a semantic search engine. An advantage of the sorting method of the invention is that it is compatible with any search engine since it can be applied to any ordered list of documents. FIG. 2 represents a selection step 22 that makes it possible to sort a list of relevant documents of which at least one action has been performed by the users of the second set U2, that is to say those having the smallest distances with the first user. In Figure 2, the actions are denoted by (Ai) ie [1; n]. The method of the invention comprises a step 23 for defining for a given document Dk and a given group of users a relevance index of the document Dk. One embodiment of the invention makes it possible to exploit a so-called social database denoted BPso which comprises for each document of the database BDp, the users having performed at least one action on a document and the type of actions. Optionally, the database lists the occurrences of actions performed by users on documents. Step 23 of the method of the invention of FIG. 2 makes it possible to interrogate one or more databases making it possible to render the type of actions of a user or of a set of users on a given document Dk of the BDp database. In one embodiment, a database stores for each pair {document Dk, user ui} a value that is changed according to the type and number of actions performed on the document Dk over time. This value corresponds to the interest the user has in document Dk.35 An example of calculation of the social relevance index For each of these actions, a value is attributed which can be weighted according to the number of identical actions performed. This is a score that measures the interest of a document by a set of users.

Un exemple permet de considérer un utilisateur Uq qui aurait effectué les actions suivantes : - Création d'un document D1 : valeur 10 - Création d'un document D2 : valeur 10 - Téléchargement d'un document D3 : valeur 100 - Sélection d'un passage du document D3 : valeur 100 - Modification du document D3 : valeur 10 - Appréciation d'un document D4 par une note positive : valeur 1 - Appréciation d'un document D5 par une note positive : valeur 1 Chaque document comprend un indice correspondant à une première valeur V1 qui est calculée selon le type et le nombre d'actions effectuées sur le document au fil du temps. La valeur V1 correspond à l'intérêt que les utilisateurs portent à ce document. La première valeur V1 peut être augmentée ou diminuée selon si les actions sont configurées et leur nombre pour être prise en compte de manière positive ou négative. An example allows to consider a user Uq who would have performed the following actions: - Creation of a document D1: value 10 - Creation of a document D2: value 10 - Download of a document D3: value 100 - Selection of a document change from document D3: value 100 - Modification of the document D3: value 10 - Appreciation of a document D4 by a positive score: value 1 - Appreciation of a document D5 by a positive score: value 1 Each document includes an index corresponding to a first value V1 which is calculated according to the type and number of actions performed on the document over time. The value V1 is the user's interest in this document. The first value V1 can be increased or decreased depending on whether the actions are configured and their number to be taken into account positively or negatively.

La première valeur V1 regroupe, par exemple, les précédentes valeurs permettant de définir l'intérêt d'un document par un ensemble d'utilisateurs. Dans l'exemple précédent, la première valeur V1 peut être définie comme la somme des précédentes valeurs. Le procédé de l'invention permet donc de définir une valeur V1 = 232. Chaque unité précisant un degré d'appréciation. Par exemple, le chiffre 2 des unités représente une « notion de participation collaborative », le chiffre 3 des dizaines représente le « degré d'expertise » d'un utilisateur lorsqu'il modifie ou créée un document, le chiffre 2 des centaines représente la quantification d'un « partage de connaissance ». D'autres manières équivalentes permettant de définir une première valeur V1 peuvent être définies. La première valeur V1 permet de définir une qualification de l'intérêt global d'un document par un ensemble d'utilisateurs. The first value V1 includes, for example, the previous values for defining the interest of a document by a set of users. In the previous example, the first value V1 can be defined as the sum of the previous values. The method of the invention thus makes it possible to define a value V1 = 232. Each unit specifies a degree of appreciation. For example, the number 2 of the units represents a "notion of collaborative participation", the digit 3 of the tens represents the "degree of expertise" of a user when he modifies or creates a document, the number 2 of the hundreds represents the quantification of a "knowledge sharing". Other equivalent ways of defining a first value V1 can be defined. The first value V1 makes it possible to define a qualification of the global interest of a document by a set of users.

De la même manière, un document donné Dk peut avoir été l'objet d'actions identiques ou différentes d'un second ensemble U2 d'utilisateurs. La communauté d'utilisateurs du second ensemble U2 ayant réalisé une action sur un document donné est prise en compte dans l'évaluation de l'indice de pertinence sociale ISo. U2 est établi à partir du calcul d'une distance entre le premier utilisateur et les utilisateurs du premier ensemble. Un seuil prédéfini permet de sélectionner un sous ensemble d'utilisateurs ayant un intérêt commun avec le premier utilisateur. Dans ce cas un autre mode de calcul d'une seconde valeur permet de prendre en compte le nombre d'actions réalisées par un ensemble d'utilisateurs du second ensemble U2 et du type d'action effectué par chacun d'entre eux. Prenons deux exemples ou DK = DI et Dk = D2. La seconde valeur V2 représente la vie sociale d'un document. In the same way, a given document Dk may have been the subject of identical or different actions of a second set U2 of users. The community of users of the second set U2 having performed an action on a given document is taken into account in the evaluation of the index of social relevance ISo. U2 is established from the calculation of a distance between the first user and the users of the first set. A predefined threshold makes it possible to select a subset of users having a common interest with the first user. In this case, another method of calculating a second value makes it possible to take into account the number of actions performed by a set of users of the second set U2 and the type of action performed by each one of them. Let's take two examples where DK = DI and Dk = D2. The second value V2 represents the social life of a document.

Cette valeur dépend du document. Un exemple pour un document D1 a été : - « aimé » par 16 personnes du second ensemble U2, - « consulté » par 20 personnes du second ensemble U2, - « non apprécié » par 2 personnes du second ensemble U2, - « enregistré » par 10 personnes du second ensemble U2. This value depends on the document. An example for a document D1 was: - "liked" by 16 people of the second set U2, - "consulted" by 20 people of the second set U2, - "not appreciated" by 2 people of the second set U2, - "registered" by 10 people from the second set U2.

La seconde valeur V2 qui représente la vie sociale du document D1 est égale à 15 par exemple. Dans cet exemple, prenons un second document D2 qui a été : - « aimé » par 1 personne du second ensemble U2, - « consulté » par 20 personnes du second ensemble U2, ^ « non apprécié » par 12 personnes du second ensemble U2, - « enregistré » par 0 personnes du second ensemble U2. Ainsi, la seconde valeur V2 de D2 est égale par exemple à 3. Cela implique que le document D1 a une vie sociale plus « intéressante » que D2 et donc il est plus pertinent « socialement » que D1 pour le premier utilisateur. Dans un mode de réalisation il est possible de prendre en compte une troisième valeur qui peut être une combinaison des première et seconde valeur ou de choisir un mode de calcul équivalent permettant de calculer un indice de pertinence sociale ISo d'un document donné Dk. The second value V2 which represents the social life of the document D1 is equal to 15 for example. In this example, let us take a second document D2 which was: - "loved" by 1 person of the second set U2, - "consulted" by 20 people of the second set U2, ^ "not appreciated" by 12 people of the second set U2, - "registered" by 0 people from the second set U2. Thus, the second value V2 of D2 is equal for example to 3. This implies that the document D1 has a social life more "interesting" than D2 and therefore it is more relevant "socially" than D1 for the first user. In one embodiment it is possible to take into account a third value which may be a combination of the first and second values or to choose an equivalent calculation mode for calculating a social relevance index ISo of a given document Dk.

Un autre exemple permet de définir la première valeur représentant le niveau d'intérêt pour un document notamment par une pondération par le type d'action d'une valeur unitaire. Ainsi une création de document peut refléter un intérêt d'un utilisateur deux fois supérieure à un téléchargement du même document et deux fois inférieure à une modification du même document. Le procédé de l'invention permet d'attribuer une note à l'intérêt à un document donné par un ensemble d'utilisateurs. Le procédé de l'invention s'applique également à un mécanisme de recommandation. Dans ce dernier cas le premier utilisateur up est un utilisateur qui est connecté au réseau comprenant le premier ensemble Ul d'utilisateurs. La recommandation est réalisée par la soumission d'une liste de documents proposés au premier utilisateur lors d'actions entreprises par le premier utilisateur up. Typiquement, lors de la consultation d'un document ou d'un support de données, certains documents pertinents sont proposés au premier utilisateur. En lieu et place de la requête formulée parle premier utilisateur par le biais du moteur de recherche sémantique, le descripteur sémantique d'un document consulté par le premier utilisateur permet de définir une requête enrichie au moteur. L'ensemble des données, du descripteur sémantique ou une partie filtrée selon un contexte donné des données du descripteur sémantique, permettent de générer selon le procédé de l'invention une liste de documents au premier utilisateur de manière interactive. Another example makes it possible to define the first value representing the level of interest for a document, in particular by a weighting by the type of action of a unit value. Thus a document creation may reflect a user's interest twice as much as a download of the same document and two times less than a modification of the same document. The method of the invention makes it possible to assign a note to the interest in a given document by a set of users. The method of the invention also applies to a recommendation mechanism. In the latter case the first user up is a user who is connected to the network comprising the first set Ul of users. The recommendation is made by submitting a list of proposed documents to the first user during actions taken by the first user up. Typically, when viewing a document or a data carrier, some relevant documents are offered to the first user. In place of the request formulated by the first user through the semantic search engine, the semantic descriptor of a document accessed by the first user makes it possible to define an enriched request to the engine. The set of data, the semantic descriptor or a part filtered according to a given context of the data of the semantic descriptor, makes it possible to generate according to the method of the invention a list of documents to the first user interactively.

Lorsque le premier utilisateur formule une requête dans un moteur de recherche sémantique, le procédé de l'invention est mise en oeuvre par une démarche active du premier utilisateur. Lorsque le premier utilisateur consulte un document, le procédé de l'invention est mise en oeuvre par une démarche passive du premier utilisateur. L'ensemble comprenant un profil utilisateur donné, une action donnée sur un document et le descripteur sémantique du document permet de définir un contexte. La définition du contexte permet d'initier la recommandation, c'est-à-dire la soumission d'une liste de documents susceptibles d'intéressés l'utilisateur. When the first user makes a request in a semantic search engine, the method of the invention is implemented by an active approach of the first user. When the first user consults a document, the method of the invention is implemented by a passive approach of the first user. The set comprising a given user profile, a given action on a document and the semantic descriptor of the document makes it possible to define a context. The definition of the context makes it possible to initiate the recommendation, that is to say the submission of a list of documents likely to interest the user.

Dans le cas d'une recommandation, l'étape de définition d'une requête n'est pas nécessaire. Mais les étapes 22, 21 et 23 du procédé de l'invention sont réalisées. La figure 2 représente donc un premier utilisateur up s'identifiant à une interface 20 et formulant une requête R dans un moteur de recherche MR. Un moteur de recherche sémantique 24 génère une première liste de documents à partir d'une requête R d'un corpus de documents D et d'un moteur d'indexation sémantique S. Une fonction notée F4(R, D) permet de générer un score pour chaque document d'une base documentaire permettant d'établir cette première liste ordonné selon un ordre croissant ou décroissant des scores K de chaque document. Une étape 21 du procédé permet de définir un second ensemble U2 d'utilisateurs à partir d'une fonction d= F1(up, u;) permettant de calculer une valeur de proximité entre les utilisateurs du premier ensemble Ul et le premier utilisateur. Pour chaque document DK de la première liste, un indice de pertinence sociale Ik est calculé à partir d'une fonction F2(u;, Dk) et du second ensemble U2 prenant en compte au moins l'ensemble des actions A; réalisées par chaque utilisateur u; du second ensemble U2 sur ledit document DK. Une étape 22 permet de générer un tri de la première liste de document de manière à générer une seconde liste de document ordonné selon un ordre croissant ou décroissant de l'indice de pertinence sociale calculé de chaque document de la première liste. In the case of a recommendation, the step of defining a request is not necessary. But steps 22, 21 and 23 of the process of the invention are carried out. FIG. 2 thus represents a first up user identifying with an interface 20 and formulating a request R in a search engine MR. A semantic search engine 24 generates a first list of documents from a request R of a corpus of documents D and a semantic indexing engine S. A function denoted F4 (R, D) makes it possible to generate a score for each document of a document base making it possible to establish this first ordered list in ascending or descending order of the scores K of each document. A step 21 of the method makes it possible to define a second set U2 of users from a function d = F1 (up, u;) making it possible to calculate a value of proximity between the users of the first set U1 and the first user. For each document DK of the first list, a social relevance index Ik is calculated from a function F2 (u ;, Dk) and the second set U2 taking into account at least all of the actions A; performed by each user u; of the second set U2 on said document DK. A step 22 makes it possible to generate a sorting of the first document list so as to generate a second list of documents ordered in ascending or descending order of the calculated social relevance index of each document of the first list.

Dans une variante de réalisation un indice d'intérêt est calculé à partir du score et de l'indice de pertinence sociale de chaque document selon une fonction notée PERTp. Cet indice d'intérêt peut être pondéré par un coefficient permettant de plus ou moins privilégier le score que l'indice de pertinence sociale ou réciproquement. In an alternative embodiment an index of interest is calculated from the score and the social relevance index of each document according to a function rated PERTp. This index of interest can be weighted by a coefficient allowing more or less privileging the score than the index of social relevance or vice versa.

Enfin dans cette variante de réalisation une fonction notée ORD = F6(PERTp, p) de générer une liste triée de documents selon l'indice d'intérêt. La figure 3 représente de manière schématique la génération d'une première liste LI triée à partir d'un moteur de recherche sémantique MR selon un score de chaque document de la base documentaire et une selon liste L2 triée et filtrée à partir d'un moteur de recherche collaboratif Fc correspondant aux étapes 21, 22 et 23 de la figure 2. Un utilisateur up s'identifie à partir d'une interface notée VISU qui permet notamment de générer, dans un mode de réalisation, des requêtes R comprenant des données sémantiques. Les requêtes dans un autre mode peuvent être générées automatiquement à partir des actions d'un utilisateur, il s'agit de la recommandation définie précédemment. La figure 4 représente les moyens permettant de mettre en oeuvre l'invention. Notamment, une architecture possible permet de disposer d'une première base documentaire BDp stockant les documents partagés par le premier ensemble Ul d'utilisateurs. Dans un mode de réalisation, une configuration possible pour mettre en oeuvre le procédé de l'invention est la création de plusieurs bases de données permettant de stocker les données du système. D'autres configurations équivalentes notamment en ce qui concerne le regroupement de données dans une même base de données est une alternative possible pour mettre en oeuvre le procédé de l'invention. Une configuration possible comprend la définition de : - Une première base de donnée permettant de sauvegarder, éditer, créer et supprimer les utilisateurs, elle est notée BDu ; - Une seconde base de données permettant de sauvegarder, éditer, créer et supprimer les profils utilisateurs des utilisateurs, elle est notée BDp ; - Une troisième base de données, dites sociales, permettant de sauvegarder, éditer, créer et supprimer les actions effectuées par chaque utilisateur sur chaque documents de la base documentaire, elle est notée BDso ; - Une quatrième base de données permettant de sauvegarder, éditer, créer et supprimer les distances entre utilisateurs de la base de données, elle est notée BDDIsT. - Une cinquième base de données permettant de sauvegarder, éditer, créer et supprimer les descripteurs sémantiques de chaque document de la base documentaire BDD, elle est notée BDps. Dans un autre mode de réalisation les première BDu et seconde BDp bases de données peuvent être regroupées en une seule base de données. Finally, in this variant embodiment, a function denoted ORD = F6 (PERTp, p) generates a sorted list of documents according to the index of interest. FIG. 3 schematically represents the generation of a first list LI sorted from a semantic search engine MR according to a score of each document of the documentary database and a list according to a list L2 sorted and filtered from an engine. collaborative search method Fc corresponding to steps 21, 22 and 23 of FIG. 2. A user up identifies himself from an interface denoted VISU which makes it possible in particular to generate, in one embodiment, requests R comprising semantic data . Queries in another mode can be generated automatically from the actions of a user, this is the recommendation defined previously. FIG. 4 represents the means making it possible to implement the invention. In particular, a possible architecture makes it possible to have a first database BDp storing the documents shared by the first set Ul of users. In one embodiment, a possible configuration for implementing the method of the invention is the creation of several databases for storing the data of the system. Other equivalent configurations, particularly as regards the grouping of data in the same database is a possible alternative to implement the method of the invention. A possible configuration includes the definition of: - A first database to save, edit, create and delete users, it is denoted BDu; - A second database to save, edit, create and delete user profiles of users, it is denoted BDp; - A third database, called social, to save, edit, create and delete the actions performed by each user on each document in the database, it is noted BDso; - A fourth database to save, edit, create and delete distances between users of the database, it is noted BDDIsT. - A fifth database to save, edit, create and delete the semantic descriptors of each document in the database BDD, it is denoted BDps. In another embodiment the first BDu and second BDp databases can be grouped into a single database.

De même dans un autre mode de réalisation, la quatrième base de données BDDIsT peut être remplacée par un calcul pour chaque nouvelle opération d'un utilisateur à partir d'un nouveau calcul de distances. Les type d'actions, intrinsèquement aux utilisateurs et aux documents, peuvent être enregistrées soient dans une base de données soient dans un index ou un fichier. D'une manière alternative et équivalente, les bases de données peuvent être remplacées par des index, fichiers ou tables d'une base de données plus générale. Différents moyens d'organisation de données peuvent permettre la mise en oeuvre du procédé de l'invention. Le procédé de l'invention est mis en oeuvre également par un serveur WEB, noté S-WEB, comprenant au moins une carte mère, un processeur, une mémoire, un disque dur et une interface réseau. Un client WEB de chaque utilisateur permet d'accéder aux bases de données et au serveur Web. Le serveur WEB comprend également un système d'exploitation. Le serveur web comprend dans un mode de réalisation du procédé de l'invention : - une interface web permettant d'accéder aux applications et aux données du serveur ; - un serveur d'authentification permettant d'identifier un utilisateur se connectant au réseau ; - un gestionnaire de documents permettant une interface avec la première base documentaire BDp de manière à permettre la gestion des documents dont l'ajout, la modification, la suppression, et toutes les actions autorisées sur les documents ; - un gestionnaire d'utilisateurs permettant les accès à la base de données utilisateurs et la gestion des utilisateurs, notamment leur ajout, leur suppression ; - un gestionnaire de profils qui permet notamment la création d'un profil utilisateur, sa mise à jour par l'utilisateur et sa mise à jour automatique ainsi que sa suppression ; - un calculateur de thèmes permettant à partir d'un parseur de documents de générés des thèmes à partir de termes de chaque document ; - un réseau social permettant d'administrer et de gérer les liens entre utilisateurs notamment sur des groupes d'appartenance, des tâches communes ; - un gestionnaire de messages permettant de connaitre la quantification des messages reçus et envoyés d'un utilisateur avec d'autres utilisateurs et d'élaborer des scores associés ; - un gestionnaire d'actions utilisateurs permettant d'enregistrer chaque action d `un utilisateur sur chaque document, ainsi que le type d'actions effectuées ; - un moteur d'indexation sémantique permettant de s'interfacer avec la cinquième base de données BDps qui permet notamment d'attribuer une liste de termes, de thèmes des phrases complexes à un document dans son descripteur sémantique ; - des interfaces d'échanges avec la cinquième base de données BDps et la première base de données BDu et la première base documentaire BDp de manière à enregistrer et extraire des données dans les bases de données à partir de requêtes effectuées sur le serveur WEB. Plus généralement, le serveur Web désigne à la fois un ordinateur qui fait office de serveur informatique qui héberge un logiciel serveur http de type « Apache » ou encore un programme serveur de type « Apache » lui-même et encore un programme serveur permettant de communiquer avec d'autres serveurs, gestionnaires et calculateurs Dans un mode de réalisation, le gestionnaire de messages peut être remplacé de manière équivalente par un gestionnaire de micro-blogging permettant de connaître l'intérêt que porte un utilisateur aux messages émis par un autre utilisateur et d'élaborer des scores associés. Dans une autre variante de réalisation, de manière alternative, un serveur d'enregistrements de trafic de messages permet de recevoir de la part d'un client d'enregistrements de trafic de messages la quantification des messages reçus et envoyés d'un utilisateur avec d'autres utilisateurs et d'élaborer des scores associés. De manière réciproque, un client d'enregistrements de trafic de messages permet d'envoyer au serveur d'enregistrements de trafic de messages la quantification des messages reçus et envoyés d'un utilisateur avec d'autres utilisateurs. Enfin, le procédé de l'invention est mis en oeuvre à partir d'un client WEB, noté C-WEB, également appelé interface utilisateur qui permet d'échanger des données avec le serveur WEB S-WEB à travers un réseau N. Le client C-WEB comprend au moins une carte mère, un processeur, une mémoire, un disque dur et une interface réseau de manière à connecter chaque client WEB au reste du réseau. Similarly, in another embodiment, the fourth database BDDIsT can be replaced by a calculation for each new operation of a user from a new distance calculation. Action types, intrinsically to users and documents, can be stored either in a database or in an index or file. In an alternative and equivalent way, databases can be replaced by indexes, files or tables of a more general database. Various data organization means may allow the implementation of the method of the invention. The method of the invention is also implemented by a WEB server, denoted S-WEB, comprising at least a motherboard, a processor, a memory, a hard disk and a network interface. A WEB client for each user provides access to the databases and the web server. The WEB server also includes an operating system. The web server comprises in one embodiment of the method of the invention: a web interface allowing access to the applications and data of the server; an authentication server for identifying a user connecting to the network; a document manager allowing an interface with the first database BDp so as to allow the management of documents including the addition, the modification, the deletion, and all the authorized actions on the documents; a user manager allowing access to the user database and the management of the users, in particular their addition and deletion; - A profile manager that allows the creation of a user profile, its updating by the user and its automatic update and its deletion; a theme calculator allowing from a document parser to generate themes from terms of each document; a social network making it possible to administer and manage links between users, in particular on home groups, common tasks; - a message manager to know the quantization of messages received and sent from a user with other users and develop associated scores; a user action manager for recording each action of a user on each document, as well as the type of actions performed; a semantic indexing engine making it possible to interface with the fifth database BDps which makes it possible in particular to assign a list of terms, from themes of complex sentences to a document in its semantic descriptor; exchanges interfaces with the fifth database BDps and the first database BDu and the first database BDp so as to record and extract data in the databases from requests made on the web server. More generally, the Web server designates both a computer that acts as a computer server that hosts an Apache-type http server software or an Apache-type server program itself and another server program that makes it possible to communicate. with other servers, managers and calculators In one embodiment, the message manager can be replaced in an equivalent manner by a microblogging manager to know the interest of a user in messages sent by another user and to develop associated scores. In another variant embodiment, alternatively, a message traffic record server makes it possible to receive from a client of message traffic records the quantization of the messages received and sent from a user with a message. other users and develop associated scores. Conversely, a message traffic record client is used to send to the message traffic record server the quantization of messages received and sent from a user with other users. Finally, the method of the invention is implemented from a WEB client, denoted C-WEB, also called a user interface that makes it possible to exchange data with the WEB S-WEB server through an N network. C-WEB client includes at least one motherboard, a processor, a memory, a hard disk and a network interface so as to connect each WEB client to the rest of the network.

Un système d'exploitation et navigateur Web permettent d'offrir à un utilisateur une interface enrichie. L'invention concerne un programme d'ordinateur comprenant des instructions pour la mise en oeuvre des étapes du procédé de l'invention. Notamment, le programme d'ordinateur comprend les instructions de manière à générer des requêtes permettant d'extraire des informations des descripteurs sémantiques de documents de la base documentaire et de retourner des données bibliographiques de chaque document sous forme de liste. Le programme d'ordinateur est exécuté à partir de moyens de calculs sur un serveur de données. Les instructions sont générées à partir de requêtes provenant d'ordinateurs dit « clients » à partir desquels les utilisateurs se connectent. Une interface client permet de définir des instructions au programme d'ordinateur de manière à ce qu'il exécute des étapes du procédé. An operating system and web browser allow to offer a user an enriched interface. The invention relates to a computer program comprising instructions for carrying out the steps of the method of the invention. In particular, the computer program includes the instructions so as to generate queries for extracting information from the semantic descriptors of documents from the document base and to return bibliographic data of each document in the form of a list. The computer program is run from computing means on a data server. The instructions are generated from queries from so-called "client" computers from which users connect. A client interface is used to define instructions to the computer program so that it executes steps of the method.

La figure 5 représente les étapes de la génération d'un descripteur sémantique DS d'un document Dk comprenant des données dont : - un premier ensemble, noté EdMC, de données représentants les mots clefs générés à partir des données sémantiques d'au moins un document Dk; - un second ensemble, noté EdTP, de données représentants les termes parents, appelés concepts dans la suite de la description, des données sémantiques d'un document Dk; - un troisième ensemble de données, noté EdT, représentants des relations génériques de triplets de termes générés à partir de relation de triplets d'un document Dk. FIG. 5 represents the steps of generating a semantic descriptor DS of a document Dk comprising data of which: a first set, denoted EdMC, of data representing the key words generated from the semantic data of at least one document Dk; a second set, denoted EdTP, of data representing the parent terms, called concepts in the remainder of the description, semantic data of a document Dk; a third set of data, denoted EdT, representing the generic relations of triplets of terms generated from triplet relation of a document Dk.

Les données de l'ensemble EdMC sont générés à partir d'un dictionnaire, noté PEL, qui comprend des données lexicales. Les termes parents sont générés à partir d'un premier ensemble de concepts, noté PEN, qui représentent des données qui s'apparente à un dictionnaire dans lequel des termes sont représentés dans un graph permettant de déterminer les termes parents des termes d'un document. Les données de l'ensemble EdTP sont généré à partir d'un ensemble de relations génériques prédéterminées, noté PER. Un pointeur permet de déterminer le sens d'une relation d'un triplet de termes. The data in the EdMC set are generated from a dictionary, denoted PEL, which includes lexical data. The parent terms are generated from a first set of concepts, denoted PEN, which represent data which is similar to a dictionary in which terms are represented in a graph making it possible to determine the parent terms of the terms of a document . The data of the EdTP set is generated from a set of predetermined generic relationships, denoted PER. A pointer makes it possible to determine the meaning of a relation of a triplet of terms.

Eventuellement, un index temporaire est généré, noté IT permettant de sélectionner les termes et de générer des listes intermédiaires ou temporaires. Cette étape est facultative. La génération du descripteur sémantique DS comprend des étapes permettant de collecter des données pertinentes afin de faciliter l'exécution du procédé de tri de l'invention. Notamment, de manière à générer des descripteurs sémantiques pour chaque document de la base documentaire, le procédé comprend une étape de définition : o d'au moins un premier ensemble lexical de termes comportant la forme canonique et la nature grammaticale de chaque terme ; o d'au moins un premier ensemble de concepts, chaque concept représentant un noeud d'un graphe, chaque concept pouvant avoir une ou plusieurs relations de parenté, chaque noeud ayant un degré de parenté prédéfini, chaque concept pouvant avoir une ou plusieurs relations avec un terme du premier ensemble lexical de termes ; o d'au moins la définition d'un premier ensemble de relations conceptuelles, chaque relation conceptuelle représentant un noeud du graphe, chaque relation conceptuelle pouvant avoir avec d'autres relations conceptuelle zéro, une ou plusieurs relations de parenté ; o d'au moins la définition d'un premier ensemble de faits conceptuels, chaque fait conceptuel étant définie par une relation conceptuelle du premier ensemble de relations 25 30 35 5 10 15 20 30 conceptuelles, chaque fait conceptuel associant deux concepts du premier ensemble de concepts de manière à former au moins un triplet ordonné. En outre, la génération du descripteur sémantique DS comprend : o une étape d'identification d'un premier document ; o une étape de génération d'un index temporaire comprenant chaque terme du premier document commun au premier ensemble lexical ; o une étape de génération d'un ensemble de mots clefs du premier ensemble lexical présent dans l'index temporaire ; o une étape de génération d'au moins un ensemble de concepts du premier ensemble de conceptsà partir de l'analyse : ^ des termes de l'index temporaire ; ^ des relations entre les termes du premier ensemble lexical et le premier ensemble de concepts ; ^ des relations de parenté entre concepts ; o une quatrième étape de génération d'un second ensemble de faits conceptuels à partir de la corrélation de l'analyse : ^ des termes de l'index temporaire ; ^ des relations entre les termes du premier ensemble lexical et les relations conceptuelles du premier ensemble de relations conceptuelles ; ^ des relations de parenté entre relations conceptuelles ; o une cinquième étape de génération d'un ensemble de concepts choisis à partir de la corrélation de l'analyse : ^ des concepts générés à la troisième étape ^ des relations de parenté entre les concepts ^ du nombre d'occurrences des termes liés à ces concepts par la relation ; o une dernière étape de génération d'un descripteur sémantique comprenant : ^ l'ensemble des mots clefs ; ^ l'ensemble des concepts choisis à la cinquième étape ; ^ l'ensemble de faits conceptuels générés à la cinquième étape. Optionally, a temporary index is generated, denoted by IT, making it possible to select the terms and to generate intermediate or temporary lists. This step is optional. The generation of the semantic descriptor DS includes steps for collecting relevant data to facilitate the execution of the sorting method of the invention. In particular, so as to generate semantic descriptors for each document of the document base, the method comprises a definition step: of at least a first lexical set of terms comprising the canonical form and the grammatical nature of each term; o at least a first set of concepts, each concept representing a node of a graph, each concept having one or more kinship relations, each node having a predefined degree of kinship, each concept having one or more relations with a term of the first lexical set of terms; o at least the definition of a first set of conceptual relations, each conceptual relation representing a node of the graph, each conceptual relation being able to have with other conceptual relations zero, one or more relations of kinship; o at least the definition of a first set of conceptual facts, each conceptual fact being defined by a conceptual relation of the first set of conceptual relations, each conceptual fact associating two concepts of the first set of conceptual relations; concepts so as to form at least one ordered triplet. In addition, the generation of the semantic descriptor DS comprises: a step of identifying a first document; a step of generating a temporary index comprising each term of the first document common to the first lexical set; o a step of generating a set of key words of the first lexical set present in the temporary index; a step of generating at least one set of concepts of the first set of concepts from the analysis of: the terms of the temporary index; relations between the terms of the first lexical set and the first set of concepts; ^ kinship relations between concepts; a fourth step of generating a second set of conceptual facts from the correlation of the analysis of the terms of the temporary index; relations between the terms of the first lexical set and the conceptual relations of the first set of conceptual relations; relations of kinship between conceptual relations; o a fifth step of generating a set of concepts chosen from the correlation of the analysis: ^ of the concepts generated in the third step ^ of the relationship between the concepts ^ of the number of occurrences of terms related to these concepts by relationship; a last step of generating a semantic descriptor comprising: the set of key words; ^ the set of concepts chosen in the fifth step; ^ the set of conceptual facts generated in the fifth step.

Enfin, nous détaillons un exemple de réalisation permettant d'illustrer une mise en oeuvre du procédé de génération d'un descripteur sémantique DS. Le document est considéré comme un signal. Le signal initial est une liste de caractères, noté LCr, encodés au format UTF-8. Chaque étape de traitement enrichit ce signal initial avec des informations. Nous notons Tokenization la première étape permettant de générer des mots clefs. La tokenization crée une liste de token, noté LTk, à partir de LCr. Finally, we detail an exemplary embodiment for illustrating an implementation of the method for generating a semantic descriptor DS. The document is considered a signal. The initial signal is a list of characters, denoted LCr, encoded in UTF-8 format. Each processing step enriches this initial signal with information. We note Tokenization as the first step to generate keywords. The tokenization creates a token list, denoted LTk, from LCr.

Définition du type de token : Un token est une suite de caractères ne contenant pas d'espaces. Il existe trois types de token selon les classes de caractères Unicode : - un token de type « mot » TTkWord est une suite de caractères commençant par une lettre et ne contenant que des lettres et des chiffres ; - un token de type « nombre » TTkNumber est une suite de caractères commençant par un chiffre et ne contenant que des chiffres ; - un token de type « caractère spécial » TTkSpec est un caractère qui n'est ni une lettre ni un chiffre ni un espace. Définition de I'adjacence : Deux tokens sont adjacents si ils ne sont pas séparés par un ou plusieurs caractères « espace ». Un token est caractérisé par : - son type, pris parmi les valeurs TTkWord, TTkNumber et TTkSpec; - un « offset de début » et un « offset de fin » qui déterminent la sous-liste de LCr sur laquelle il porte ; - son adjacence, une valeur « vrai » ou « faux » par rapport au token précédent et au token suivant. Token type definition: A token is a sequence of characters that do not contain spaces. There are three types of token according to the Unicode character classes: - a "word" token TTkWord is a sequence of characters beginning with a letter and containing only letters and numbers; - a number-type token TTkNumber is a sequence of characters beginning with a digit and containing only numbers; - a "special character" token TTkSpec is a character that is neither a letter nor a number nor a space. Adjacency Definition: Two tokens are adjacent if they are not separated by one or more "space" characters. A token is characterized by: - its type, taken from the values TTkWord, TTkNumber and TTkSpec; a "start offset" and an "end offset" which determine the LCR sub-list to which it relates; - its adjacency, a "true" or "false" value in relation to the previous token and the next token.

On produit ainsi de façon déterministe une liste de token LTk. A list of LTk tokens is thus deterministically produced.

Plusieurs types de détections peuvent être associés de manière à traiter un document pour générer des mots clefs, appelés également « tags ». Les étapes ci-après sont numérotés 1 à N et les sous étapes i.1 à i.M pour faciliter la lecture. Aucun ordre séquentiel n'est imposé pour l'exécution du procédé par la numérotation, les étapes pouvant être réalisées indépendamment des unes des autres. Etape 1 : Détection de termes simples Un terme simple est une séquence de tokens qui forme un terme et le lie à un concept par une relation « a pour sens ». Several types of detections can be associated to process a document to generate keywords, also called "tags". The following steps are numbered 1 to N and sub-steps i.1 to i.M for easy reading. No sequential order is imposed for the execution of the method by the numbering, the steps can be performed independently of each other. Step 1: Detection of simple terms A simple term is a sequence of tokens that forms a term and links it to a concept by a relation "has for meaning".

Pour détecter les termes et les lier aux concepts, on utilise : - des dictionnaires qui associent à chaque terme un concept ; - des automates de tokens qui créent des termes et leur associent un concept. Un dictionnaire lie chaque terme à un ou plusieurs concepts par une relation « a pour sens » : - France, Espagne : type = Pays - Paris, Lyon, Marseille : type = Ville - Alphonse, Béatrice : type = Prénom - Durant, Dupond : type = Nom - Martin : type = Prénom, Nom - Albert Einstein, Jean Jaurès : type = Célébrité - ONU, UNICEF : Organisation - Google, Microsoft : Entreprise - BBC, France Culture : Média - défaut de paiement, prêt à taux fixe : MetierBanque Un automate de tokens reconnaît une ou plusieurs des caractéristiques suivantes : - le type du token ; - la séquence de caractère délimitée par l'offset de début et l'offset de fin ; - l'adjacence entre les token. Un automate est défini par un motif de contraintes sur les token qu'il cherche à reconnaître. Une contrainte, décrite entre une paire d'accolades, spécifie les valeurs que peuvent prendre les attributs d'un token : - type : un ou plusieurs types possible ; si non spécifié, tous les types sont acceptés ; - séq : motif de caractères acceptables sous forme d'expression régulière ; si non spécifié, toutes les chaines de caractères sont acceptées ; - adjSuivant : peut prendre deux valeurs, « true » ou « false » ; la valeur vaut true si et seulement si le token doit être adjacent au token suivant ; si non spécifié, l'adjacence des tokens n'est pas contrainte. To detect terms and link them to concepts, we use: - dictionaries that associate each term with a concept; - Token automatons that create terms and associate them with a concept. A dictionary links each term to one or more concepts by a relation "for meaning": - France, Spain: type = Country - Paris, Lyon, Marseille: type = City - Alphonse, Béatrice: type = First name - Durant, Dupond: type = Name - Martin: type = First name, Last name - Albert Einstein, Jean Jaures: type = Celebrity - UN, UNICEF: Organization - Google, Microsoft: Company - BBC, France Culture: Media - default, fixed rate loan: BetBank A token automaton recognizes one or more of the following characteristics: - the type of the token; the character sequence delimited by the start offset and the end offset; - the adjacency between the token. An automaton is defined by a constraint pattern on the token it seeks to recognize. A constraint, described between a pair of braces, specifies the values that the attributes of a token can take: - type: one or more possible types; if not specified, all types are accepted; - seq: acceptable character pattern as a regular expression; if not specified, all strings are accepted; - adjNext: can take two values, "true" or "false"; the value is true if and only if the token must be adjacent to the next token; if not specified, the adjacency of the tokens is not constrained.

La définition de l'automate contient aussi le concept reconnu par l'automate. Etape 1.1 : Détection des unités Exemples : °C On reconnaît une unité à partir d'une liste de toutes les unités décrites sous forme d'automates. The PLC definition also contains the concept recognized by the PLC. Step 1.1: Unit Detection Examples: ° C A unit is recognized from a list of all units described as PLCs.

Liste : - type = TTkSpec, séq = "0", adjSuivant = true type = TTkWord, séq = "C" } List: - type = TTkSpec, seq = "0", adjNext = true type = TTkWord, seq = "C"}

Concept= "unit" Etape 1.2 : Détection des adverbes ordinaux Exemples : "2O1 "301 ... Automate : {type=TTkNumber, adjSuivant=true}{type=TTkSpec, séq="°"}. Concept = "adverb.latin" Etape 1.3 : Détection des abréviations ordinales Exemples : "2ème", "3ème", ... Automate : { type = TTkNumber, adjSuivant = true } { type = TTkSpec, séq = { "e", "es", "er", "ers", "re", "res", "ièmes" ou "èmes" } }. Concept = "abbreviation.ordinal" Etape 1.4 : Détection des abréviations éditoriales Valeurs : "n°" "d°" "v°" "r°" "f°" Automate : { type = TTkWord, séq = { "n°", "d°", "v°", "r°", "f°" }, adjSuivant = true } { type = TTkSpec, séq = 101 }. Concept = "abbreviation.edition" Etape 1.5 : Détection des fractions Exemples : "1/2", "3/4", mais aussi "'A" ou "Y4". Automate : { type = TTkNumber } { type = TTkSpec, séq = { type = TTkNumber } 1 { type = TTkSpec, séq = { "'A" ou "¾" } } Concept = "math.expression.fraction" Etape 1.6 : Détection des mots composés avec tiret Exemples : "wagon-lit", "vis-à-vis". Automate : {type = TTkWord} ({ type = TTkSpec, séq = "-" } { type = TTkWord})* Concept = "name.composed" Etape 1.7 : Détection des enclitiques Exemples : "moi-même", "eux-mêmes", "soi-même", "nous-mêmes", "vous-mêmes", "fais-je", "fais-tu", "fait-il", "fait-elle", "faisons-nous", "faites-vous", "font-ils", "font-elles", "fait-le", "fait-la", "fait-les", "fais-en", "vas-y", "est-ce", etc. Automate : { type = TTkWord, séq = { "moi", "elle", "elles", "eux", "soi", "nous", "vous" } } { type = TTkSpec, séq = "-" } { type = TTkWord } Il { type = TTkWord } { type = TTkSpec, séq = "-" } { type = TTkWord, séq = { "je", "tu", "moi", "toi", "il", "ils", "elle", "elles", "nous", "vous", "le", "la", "en", "y", "ce" } } Etape 1.8 : Détection des éphelcystiques Exemples : "a-t-il dit", "va-t'en" , "donne-m'en" Automate : { type = TTkWord } { type = TTkSpec, séq = "-" } { type = TTkWord, séq = "t" } { type = TTkSpec, séq = "-" } { type = TTkWord } Il { type = TTkWord } { type = TTkSpec, séq = "-" } { type = TTkWord, séq = { "t", "m" } } { type = TTkSpec, séq = "'" } { type = TTkWord } Concept = "ephelcystique" Etape 1.9 : Détection du '-' utilisé à titre de parenthèse Exemple : "Depuis que pour suivre - et voir se démentir - les principes militaires de Saint-Loup, j'avais suivi avec grand détail la guerre des Boërs, j'avais été conduit à relire d'anciens récits d'explorations, de voyages." Une typographie alternative est d'utiliser le caractère - sans espace avant et après. Automate : { type = TTkWord, adjSuivant = false } { type = TTkSpec, séq = "-" } { type = TTkWord } Il { type = TTkWord, adjSuivant = false } { type = TTkSpec, séq = "-" } { type = TTkWord } Il { type = TTkWord } { type = TTkSpec, séq = "-", adjSuivant = false } { type = TTkWord } Concept = "segmentation.bloc" Etape 1.10 : Détection des nombres littéraux avec ou sans tiret Exemple : entités de la forme "cent vingt trois" ou "cent-vingt-trois" (orthographe moderne) ou "cent vingt-trois" (mauvaise ou orthographe ancienne). Soit numberSet = ={"un", "deux", "trois", "quatre", "cinq", "six", "sept", "huit", "neuf, "dix", "onze", "douze", "treize", "quatorze", "quinze", "seize", "vingt", "trente", "quarante", "cinquante", "soixante", "cent", "mille", "million", "millions", "milliard", "milliards", "billion", "billions", "trillion", "trillions"}. Automate : {type = TTkWord, séq = numberSet } ( { type = TTkSpec, séq = "-" } ? { type = TTkWord, séq = numberSet } ) Concept = "general.literalNumber" Etape 1.11 : Détection des acronymes Exemples : acronymes simples avec '.' : "S.N.C.F." (la nouvelle forme est "SNCF"), mais aussi d'acronymes dit "complexes" comme : "SUD-PTT", "CFDT-Fgaac", "SUD-E", etc. Automate : { type = TTkWord, séq = {A-Z} } ( { type = TTkSpec, séq = "." } { type = TTkWord, séq = {A-Z} } ) * Il { type = TTkWord, séq = {A-Zr } { type = TTkSpec, séq = "-" } { type = TTkWord, séq = {A-Z}{a-zr } Concept = "general.acronym" Etape 1.12 : Détection des abréviations de prénoms simples ou composés Exemples: - Prénoms simples : "F", "A", "Ch", ... - Prénoms composés bien formés : "F.-Y.", "J.-J.", ... - Prénoms composés mal formés : "F.Y.", "M.", "FY", "JJ", ... Soit abbPrenSet={A-Z, "BI", "Br", "Ch", "Cl", "Br", "FI", "Fr", "Gh", "GI", "Gr", "Kh", "KI", "Ph", "Pr", "Sh", "Th", "Tr", "VI", "Wh", "Chr"} Automate : { type = TTkWord, séq = abbPrenSet } { type = TTkSpec, séq = "." } Il ( { type = TTkSpec, séq = "-" } { type = TTkWord, séq = abbPrenSet } { type = TTkSpec, séq = "." } )* Concept = "familyName.abbreviation.firstName" Etape 1.13 : Détection de la ponctuation Exemples : - Les séparations de blocs au sein d'une phrase : deux points, virgule, double quotte, parenthèse ou crochet, '..', '...' - Les séparateurs de phrase non ambigus : point virgule, point d'interrogation ou d'exclamation, astérisque. Etape 1.14 : Détection des nombres entiers et décimaux Exemple : les formats français et anglo-saxons sont supportés, mais pas la notation scientifique exponentielle. Automate : { type = TTkNumber, adjSuivant = true } ( { type = TTkSpec, séq _ "\.I," } { type = TTkNumber } ) ? Concept="general.number" Etape 1.15 : Détection de l'apostrophe Exemple : Regroupement de l'apostrophe avec le token de gauche: "1" suivi de ""' devient "I"", etc. Même traitement pour les cas suivants : les portions de texte "GWENC'HLAN" et "EVAN'S" produisent les listes de tokens regroupés "GWENC"' + "HLAN" et "EVAN"' + "S". Concept = "unit" Step 1.2: Detection of ordinal adverbs Examples: "2O1" 301 ... PLC: {type = TTkNumber, adjNext = true} {type = TTkSpec, seq = "°"}. Concept = "adverb.latin" Step 1.3: Detection of ordinal abbreviations Examples: "2nd", "3rd", ... Automaton: {type = TTkNumber, adjNext = true} {type = TTkSpec, seq = {"e", "es", "er", "ers", "re", "res", "ièmes" or "èmes"}}. Concept = "abbreviation.ordinal" Step 1.4: Detection of editorial abbreviations Values: "n °" "d °" "v °" "r °" "f °" Automaton: {type = TTkWord, seq = {"n °" , "d °", "v °", "r °", "f °"}, adjNext = true} {type = TTkSpec, seq = 101}. Concept = "abbreviation.edition" Step 1.5: Fraction detection Examples: "1/2", "3/4", but also "A" or "Y4". PLC: {type = TTkNumber} {type = TTkSpec, seq = {type = TTkNumber} 1 {type = TTkSpec, seq = {"'A" or "¾"}} Concept = "math.expression.fraction" Step 1.6: Detection of compound words with hyphen Examples: "sleeping car", "vis-à-vis". Controller: {type = TTkWord} ({type = TTkSpec, seq = "-"} {type = TTkWord}) * Concept = "name.composed" Step 1.7: Detection of enclitics Examples: "myself", "themselves same "," self "," ourselves "," yourself "," do I "," do you "," do it "," do it "," do we " , "do you", "do they", "do they", "do it", "do it", "do it", "do it", "do it", "do it" is this ", etc.? Automaton: {type = TTkWord, seq = {"me", "she", "they", "them", "self", "us", "you"}} {type = TTkSpec, seq = "-"} {type = TTkWord} It {type = TTkWord} {type = TTkSpec, seq = "-"} {type = TTkWord, seq = {"I", "you", "me", "you", "it", "they", "she", "they", "we", "you", "the", "the", "in", "y", "this"}} Step 1.8: Ephelcystic Detection Examples: " he said, "go away", "give me some" Automate: {type = TTkWord} {type = TTkSpec, seq = "-"} {type = TTkWord, seq = "t "} {type = TTkSpec, seq =" - "} {type = TTkWord} It {type = TTkWord} {type = TTkSpec, seq =" - "} {type = TTkWord, seq = {" t "," m " }} {type = TTkSpec, seq = "'"}} {type = TTkWord} Concept = "ephelcystic" Step 1.9: Detection of the' - 'used as a parenthesis Example: "Since to follow - and see to be denied - the military principles of Saint-Loup, I had followed with great detail the Boer War, I had been led to reread ancient stories explorations, travels. " An alternative typography is to use the character - without spaces before and after. Automatic: {type = TTkWord, adjNext = false} {type = TTkSpec, seq = "-"} {type = TTkWord} It {type = TTkWord, adjNext = false} {type = TTkSpec, seq = "-"} {type = TTkWord} There {type = TTkWord} {type = TTkSpec, seq = "-", adjNext = false} {type = TTkWord} Concept = "segmentation.bloc" Step 1.10: Detection of literal numbers with or without hyphen Example: entities of the form "one hundred and twenty-three" or "one hundred and twenty-three" (modern spelling) or "one hundred and twenty-three" (bad or old spelling). Let numberSet = = {"one", "two", "three", "four", "five", "six", "seven", "eight", "nine", "ten", "eleven", "twelve" "thirteen", "fourteen", "fifteen", "sixteen", "twenty", "thirty", "forty", "fifty", "sixty", "hundred", "thousand", "million", "million", "billion", "billion", "trillion", "billion", "trillion", "trillions"} Automaton: {type = TTkWord, seq = numberSet} ({type = TTkSpec, seq = "- "}? {type = TTkWord, seq = numberSet}) Concept =" general.literalNumber "Step 1.11: Acronym detection Examples: Simple acronyms with '.' : "SNCF" (the new form is "SNCF"), but also "complex" acronyms such as: "SUD-PTT", "CFDT-Fgaac", "SUD-E", etc. PLC: {type = TTkWord, seq = {AZ}} ({type = TTkSpec, seq = "."} {Type = TTkWord, seq = {AZ}}) * It {type = TTkWord, seq = {A-Zr} {type = TTkSpec , seq = "-"} {type = TTkWord, seq = {AZ} {a-zr} Concept = "general.acronym" Step 1.12: Detection of abbreviations of simple or compound first names Examples: - First names: "F", "A", "Ch", ... - Well-formed first names: "F.-Y.", "J.-J.", ... - Poorly formed first names: "FY", "M." , "FY", "JJ", ... Let abbPrenSet = {AZ, "BI", "Br", "Ch", "Cl", "Br", "FI", "Fr", "Gh", "GI", "Gr", "Kh", "KI", "Ph", "Pr", "Sh", "Th", "Tr", "VI", "Wh", "Chr"} PLC: {type = TTkWord, seq = abbPrenSet} {type = TTkSpec, seq = "."} There ({type = TTkSpec, seq = "-"} {type = TTkWord, seq = abbPrenSet} {type = TTkSpec, seq = " . "}) * Concept =" familyName.abbreviation.firstNa me "Step 1.13: Detection of punctuation Examples: - The separations of blocks within a sentence: two points, comma, double quotte, parenthesis or hook, '..', '...' - Sentence separators unambiguous: semicolon, question mark or exclamation mark, asterisk. Step 1.14: Detection of integers and decimals Example: French and Anglo-Saxon formats are supported, but not the exponential scientific notation. PLC: {type = TTkNumber, adjNext = true} ({type = TTkSpec, seq _ "\ .I,"} {type = TTkNumber})? Concept = "general.number" Step 1.15: Detection of the apostrophe Example: Grouping of the apostrophe with the token on the left: "1" followed by "" 'becomes "I" ", etc. Same treatment for the following cases : The text portions "GWENC'HLAN" and "EVAN'S" produce the token lists grouped together "GWENC" '+ "HLAN" and "EVAN"' + "S".

Automate : { type = TTkWord, adjSuivant = true } { type = TTkSpec, séq = ""' } Concept = "general.rightApostrophe" Etape 1.16 : Détection de dates Exemple : 2010/10/08 ; 12-08-1971 ; 14 juillet 1789 On définit : monthPattern = "janvierlfévrierlmarslavril Imailjuinljuilletlaoûtlseptembreloctobrelnovembreldé cembre" Automate : { type = TTkNumber, adjSuivant = true } { type = TTkSpec, séq = "-I I/ adjSuivant = true } { type = TTkNumber } { type = TTkSpec, séq = "-1 I/ adjSuivant = true } { type = TTkNumber } Il { type = TTkNumber, adjSuivant = false } { type = TTkWord, séq = monthPattern, adjSuivant = false } { type = TTkNumber } Concept : "date" Etape 2 : Création de termes complexes et suppression de termes simples Un moteur d'inférence est utilisé pour créer des termes complexes. Les faits initiaux sont les relations d'adjacence entre les termes. Automaton: {type = TTkWord, adjNext = true} {type = TTkSpec, seq = "" '} Concept = "general.rightApostrophe" Step 1.16: Date Detection Example: 2010/10/08; 12-08-1971; July 14, 1789 We define: monthPattern = "januaryfbruarylmarslavril Imailjuinljuilletlasttobeptemberembelctober november" Automate: {type = TTkNumber, adjNext = true} {type = TTkSpec, seq = "-II / adjNext = true} {type = TTkNumber} {type = TTkSpec, seq = "-1 I / adjNext = true" {type = TTkNumber} Il {type = TTkNumber, adjNext = false} {type = TTkWord, seq = monthPattern, adjNext = false} {type = TTkNumber} Concept: "date" Step 2 : Creating complex terms and deleting simple terms An inference engine is used to create complex terms. The initial facts are the adjacency relations between the terms.

Les règles ont comme effet : - supprimer des termes simples de manière à gérer les ambiguïtés ; - créer des termes complexes en concaténant plusieurs termes et en le liant à une relation « a pour sens » à un concept déterminé ; - ajouter des relations « a pour sens » entre les termes et les concepts. Exemples textes législatifs : les formes reconnues sont : décret no 72-1263 du 29 décembre 1972 (décret, loi, Loi, arrêté, Arrêté), loi n° 2005-380 du 23 avril 2005, article 8 de la loi du 17 juillet 1975. ( { type = TTkWord, séq = "article", adjSuivant = false } { type = TTkNumber, adjSuivant = false } { type = TTkWord, séq = "(de laldu)", adjSuivant = false } ) ? { type = TTkWord, séq = "(décretlloilarrété) (n° ?Ino ?ln adjSuivant = false } { type = TTkNumber, adjSuivant = false } ( { type = TTkSpec, séq = "-", adjSuivant = false } { type = TTkNumber } ) ? ( { type = TTkWord, séq = "du", adjSuivant = false } { type = Date } ) ? Concept = "droit.citation.legislatif' Etape 3 : reconnaissance des relations De la même façon que pour les concepts, on reconnaît des relations conceptuelles. Ex : le terme « conduit » est en relation « a pour sens » avec la relation conceptuelle « Conduire ». Etape 4 : Calcul des taqs, éqalement appelés « mots clefs » Cette étape consiste à décider quels tags seront générés à partir des termes. A partir des caractéristiques des termes, de leur relations avec le texte (nombre d'occurrence, présence dans le titre, etc.) et du concept reconnu, une fonction détermine si le terme doit être retenu ou non et détermine son poids. En itérant sur tous les termes, on construit une liste LTag de termes. Etape 5 : Détection de faits conceptuels Le traitement précédent a généré pour chaque phrase une liste LCR de concepts détectés et de relations détectées. The rules have the effect of: - deleting simple terms to manage ambiguities; - create complex terms by concatenating several terms and linking it to a relation "has for meaning" to a given concept; - add "meaning" relationships between terms and concepts. Examples legislative texts: the recognized forms are: decree no 72-1263 of December 29th, 1972 (decree, law, Law, decree, Decree), law n ° 2005-380 of April 23rd, 2005, article 8 of the law of July 17th, 1975 . ({type = TTkWord, seq = "article", adjNext = false} {type = TTkNumber, adjNext = false} {type = TTkWord, seq = "(of laldu)", adjNext = false})? {type = TTkWord, seq = "(decree) (n °? Ino? ln adjSext = false} {type = TTkNumber, adjNext = false} ({type = TTkSpec, seq =" - ", adjNext = false} {type = TTkNumber})? ({Type = TTkWord, seq = "from", adjNext = false} {type = Date})? Concept = "right.citation.legislative" Step 3: recognition of relations In the same way as for concepts we can recognize conceptual relations, eg the term "leads" is related to "a for sense" with the conceptual relation "Drive." Step 4: Calculation of taqs, also called "keywords" This step consists of deciding which tags will be generated from the terms, based on the characteristics of the terms, their relation to the text (number of occurrences, presence in the title, etc.) and the recognized concept, a function determines whether the term should be retained or not. and determining its weight By iterating on all the terms, one builds a list LTag of ter Step 5: Detect Conceptual Facts Previous processing generated for each sentence an LCR list of detected concepts and detected relationships.

Exemple : la phrase « Michel Dupont conduit sa bagnole. ». Le terme « bagnole » est lié par une relation « a pour sens » au concept « [Voiture] », donc le concept « [Voiture] » est présent dans la phrase. Le terme « Michel Dupont » est lié par une relation « a pour sens » au concept « [Personne] ». Le terme « conduit » est lié par une relation « a pour sens » à la relation « (Conduire]) ». Définition des relations conceptuelles On définit un ensemble de relations conceptuelles ER. Certaines relations conceptuelles ont des relations conceptuelles parentes. Exemple : la relation « Conduire » a pour relation parente « Piloter ». Définition des signatures des relations conceptuelle La signature d'une relation conceptuelle est un couple de concepts (C1, C2). Exemple : la relation « Conduire » a pour signature {« [Humain] », « [Véhicule] »}. On dispose d'une ensemble de relations conceptuelles RC, d'une relation de parenté entre ces relations conceptuelles, et de signatures de relations conceptuelles. Définition d'un fait conceptuel : Un fait conceptuel est un triplet constitué d'un concept, d'une relation, et d'un concept. Voici la méthode qui permet de détecter la présence de ces faits conceptuels : - Pour chaque phrase du texte P, on considère la liste LCR des concepts de la phrase et des relations de P. - Si la liste LCR contient deux concepts C1 et C2 et une relation R1 tels qu'il existe une relation R2 de signature (C3, R2, C4) telle que : o R1 = R2 ou R1 a pour ancêtre R2 o C1 = C3 ou C1 a pour ancêtre C3 o C2 = C4 ou C2 a pour ancêtre C4 - Alors on ajoute le fait conceptuel (C1, R1, C2) à la liste des faits conceptuels LFC. 30 Exemple : la phrase « Michel Dupont conduit sa bagnole. ». La phrase contient deux concepts personne C1=« [Personne] » et C2=« [Voiture] » et une relation R1=« (Conduire) ». La relation R2 « (Contrôler) » a une signature qui est (C3=[Personne], R2=(Contrôle), C4=[Véhicule]) telle que : - R1 = « (Conduire) » a pour ancêtre R2= « (Contrôler) » - Cl = « [Personne] » = C3 - C2 = « [Voiture] » a pour ancêtre C4 = « [Véhicule] » Le fait conceptuel « ( [Personne : Michel Dupont], (Contrôler), [Véhicule] ) est ajouté à la liste des faits conceptuels. Example: the phrase "Michel Dupont drives his car. ". The term "car" is related by a relation "has for meaning" to the concept "[Car]", so the concept "[Car]" is present in the sentence. The term "Michel Dupont" is linked by a relation "has for sense" to the concept "[Person]". The term "leads" is linked by a relation "a for meaning" to the relation "(Conduct)". Definition of the conceptual relations One defines a set of conceptual relations ER. Some conceptual relationships have related conceptual relationships. Example: The relationship "Drive" has the parent relationship "Pilot". Definition of the signatures of the conceptual relations The signature of a conceptual relation is a pair of concepts (C1, C2). Example: The "Drive" relationship has the signature {"[Human]", "[Vehicle]"}. We have a set of conceptual relations RC, a relation of kinship between these conceptual relations, and signatures of conceptual relations. Definition of a conceptual fact: A conceptual fact is a triplet consisting of a concept, a relation, and a concept. Here is the method to detect the presence of these conceptual facts: - For each sentence of the text P, we consider the LCR list of the concepts of the sentence and the relations of P. - If the LCR list contains two concepts C1 and C2 and a relation R1 such that there exists a relation R2 of signature (C3, R2, C4) such that: R1 = R2 or R1 has for ancestor R2 o C1 = C3 or C1 has for ancestor C3 o C2 = C4 or C2 a for ancestor C4 - Then we add the conceptual fact (C1, R1, C2) to the list of CFL conceptual facts. Example: the phrase "Michel Dupont drives his car. ". The sentence contains two person concepts C1 = "[Person]" and C2 = "[Car]" and a relation R1 = "(Drive)". The relation R2 "(Check)" has a signature which is (C3 = [Person], R2 = (Control), C4 = [Vehicle]) such that: - R1 = "(Drive)" has ancestor R2 = "( Check) "- Cl =" [Person] "= C3 - C2 =" [Car] "has for ancestor C4 =" [Vehicle] "The conceptual fact" ([Person: Michel Dupont], (Check), [Vehicle] ) is added to the list of conceptual facts.

Un descripteur sémantique est défini par : - la liste de termes sélectionnés LTag - la liste des faits conceptuels LFC La base document associe à chaque document d de D un descripteur sémantique ds de DS. A semantic descriptor is defined by: - the list of selected terms LTag - the list of LFC conceptual facts The document base associates with each document d of D a semantic descriptor ds of DS.

Une base document sémantique BDS est constituée d'un ensemble (di)i de documents et des descripteurs (dsi)i associés générés comme décrit précédemment partir d'un document dx de D. Le système calcule son descripteur sémantique dsx de DS. Lors de l'exécution d'une recherche sémantique par exemple par 20 recommandation comme définie précédemment dans la description de l'invention, le système calcule ensuite pour chaque descripteur sémantique (dsi)i une valeur de similarité sim(i) en fonction : - des termes de LTagi de dsi et des termes de LTagx de dsx - des relations terminologiques de RTMi et des relations terminologiques de RTMx Enfin, on rappelle ici quelques avantages du procédé de l'invention qui permettent de : - améliorer l'accès aux informations pertinentes au sein des entreprises quelle que soit leurs taille. Ce qui implique une réduction de temps de recherche d'information ; - valoriser toute la connaissance présente dans les différents documents et des actions effectuées sur ces derniers ; - améliorer le partage d'information au sein d'une organisation comprenant un ensemble fermé d'utilisateurs telle qu'une 35 entreprise ; 25 30 - détecter des évolutions de compétences de certains utilisateurs d'une organisation. - Favoriser l'échange et le partage d'information entre les utilisateurs d'un réseau - Créer des liens entre les utilisateurs de façon implicite : création des communautés utilisateurs ayant les mêmes centres d'intérêts. A semantic document base BDS consists of a set (di) i of documents and associated descriptors (dsi) i generated as previously described from a dx document of D. The system calculates its DS dsx semantic descriptor. When carrying out a semantic search, for example by recommendation as defined previously in the description of the invention, the system then calculates for each semantic descriptor (dsi) i a similarity value sim (i) as a function: dsi LTagi terms and dsx LTagx terms - RTMi terminology relations and RTMx terminology relations Finally, here are some advantages of the method of the invention which make it possible to: - improve access to relevant information in companies regardless of their size. This implies a reduction of information search time; - value all the knowledge present in the various documents and the actions performed on them; to improve the sharing of information within an organization comprising a closed set of users such as a company; 25 30 - detect changes in skills of certain users of an organization. - Promote the exchange and sharing of information between users of a network - Create links between users implicitly: creation of user communities with the same interests.

Claims (20)

REVENDICATIONS1. Procédé de calcul d'un indice de pertinence sociale (ISo) d'un premier document (Dk) numérique accessible à un premier ensemble (U1) d'utilisateurs (ui), chaque utilisateur (ui) étant susceptible de réaliser un premier ensemble d'actions ((Ai)ie[1 ;N]) sur le premier document (Dk), caractérisé en ce que le procédé comporte : - une étape d'identification d'un premier utilisateur (up) du premier ensemble (U1) ; - une étape de calcul d'au moins une valeur de proximité (dip) avec le premier utilisateur à partir d'un ensemble de données comprises dans un profil utilisateur (Pi) de chaque utilisateur (ui) , ^ une étape de sélection dans le premier ensemble (U1), d'un second ensemble (U2) d'utilisateurs dont la valeur de proximité est supérieure à un seuil prédéterminé (drain), chaque valeur de proximité calculée étant dépendante du premier utilisateur ; - une étape de calcul, à partir du calculateur (K), de l'indice de pertinence sociale (ISo) à partir de l'ensemble (AkU2) des actions réalisées de chaque utilisateur du second ensemble (U2) sur le premier document (Dk). REVENDICATIONS1. A method for calculating a social relevance index (ISo) of a first digital document (Dk) accessible to a first set (U1) of users (ui), each user (ui) being capable of producing a first set of actions ((Ai) ie [1; N]) on the first document (Dk), characterized in that the method comprises: - a step of identifying a first user (up) of the first set (U1); a step of calculating at least one proximity value (dip) with the first user from a set of data included in a user profile (Pi) of each user (ui), a selection step in the first set (U1) of a second set (U2) of users whose proximity value is greater than a predetermined threshold (drain), each calculated proximity value being dependent on the first user; a step of calculating, from the calculator (K), the social relevance index (ISo) from the set (AkU2) of the actions performed by each user of the second set (U2) on the first document ( Dk). 2. Procédé de calcul d'un indice de pertinence sociale selon la revendication 1, caractérisé en ce que le premier ensemble d'actions ((Ai)ie[1 ;N]) comprend la modification d'un document, la création d'un document et la consultation d'un document. 2. Method for calculating a social relevance index according to claim 1, characterized in that the first set of actions ((Ai) ie [1; N]) comprises the modification of a document, the creation of a document and the consultation of a document. 3. Procédé de calcul d'un indice de pertinence sociale selon la revendication 1, caractérisé en ce que le premier ensemble d'actions ((Ai)ie[1 ;N]) comprend la génération d'une appréciation mesurable d'un document. Method for calculating a social relevance index according to claim 1, characterized in that the first set of actions ((Ai) ie [1; N]) comprises the generation of a measurable assessment of a document . 4. Procédé de calcul d'un indice de pertinence sociale selon la revendication 1, caractérisé en ce que le premier ensemble d'actions ((Ai)ie[1 ;N]) comprend la transmission d'un document au moyen d'une messagerie électronique.35 4. Method for calculating a social relevance index according to claim 1, characterized in that the first set of actions ((Ai) ie [1; N]) comprises the transmission of a document by means of a email.35 5. Procédé de calcul d'un indice de pertinence sociale selon la revendication 1, caractérisé en ce que le premier ensemble d'actions «Miel ;ni]) comprend un téléchargement d'un document ou une sélection d'une partie du document. 5. A method of calculating a social relevance index according to claim 1, characterized in that the first set of actions "Honey; ni]) comprises a download of a document or a selection of a part of the document. 6. Procédé de tri d'une liste de documents, caractérisé en ce qu'il comprend : - une étape de calcul, à partir d'un calculateur, d'un ensemble d'indices de pertinence sociale (Iso) selon le procédé de la revendication 1, d'une première liste (LI) de documents ((Di)ie[1 ;mi) ordonnée selon un premier ordre (ORDRE1) ; - une étape de tri, à partir d'un calculateur, de la première liste (LI) de documents ordonnés selon un second ordre (ORDRE2) correspondant à un ordre décroissant de la valeur de chaque indice de pertinence sociale (Iso). 6. A method of sorting a list of documents, characterized in that it comprises: a step of calculating, from a calculator, a set of indices of social relevance (Iso) according to the method of claim 1, of a first list (LI) of documents ((Di) ie [1; mi) ordered according to a first order (ORDRE1); a step of sorting, from a calculator, the first list (LI) of documents ordered according to a second order (ORDER2) corresponding to a descending order of the value of each social relevance index (Iso). 7. Procédé de tri d'une liste de documents selon la revendication 6, chaque document (Di) comprenant un descripteur sémantique (DSi) référençant un ensemble de données sémantiques (Tipi) propre à chaque document (Di), caractérisé en ce qu'il comprend : - une étape de définition d'une première requête (RI) définie aux moyens d'une interface utilisateur, un utilisateur définissant la requête permettant de déterminer un premier utilisateur (up), ladite requête (RI) comprenant au moins un terme (TRI); - une étape de génération, à partir du calculateur (K), d'une seconde liste (L2) de documents numériques, extraits d'une première base documentaire (BDD), la génération de la seconde liste (L2) étant déclenchée à partir de la première requête (RI), la seconde liste (L2) étant ordonnée à partir d'une première fonction (FI) de génération d'un indice de pertinence sémantique attribuant à chaque document (Di) une valeur (Vi) issue d'une corrélation entre les termes de la requête (RI) et le descripteur sémantique (DSi) de chaque document (D;), la seconde liste (L2) étant ordonnée selon un ordre décroissant de la valeur de l'indice de pertinence sémantique, la seconde liste (L2) comprenant la première liste (LI) de documents (D;). 25 30 7. A method of sorting a list of documents according to claim 6, each document (Di) comprising a semantic descriptor (DSi) referencing a set of semantic data (Tipi) specific to each document (Di), characterized in that it comprises: a step of defining a first request (RI) defined by means of a user interface, a user defining the request for determining a first user (up), said request (RI) comprising at least one term; (SORTING); a step of generating, from the computer (K), a second list (L2) of digital documents extracted from a first documentary database (BDD), the generation of the second list (L2) being triggered from of the first request (RI), the second list (L2) being ordered from a first function (FI) for generating a semantic relevance index attributing to each document (Di) a value (Vi) resulting from a correlation between the terms of the request (RI) and the semantic descriptor (DSi) of each document (D;), the second list (L2) being ordered in descending order of the value of the semantic relevance index, the second list (L2) including the first list (LI) of documents (D;). 25 30 8. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un profil utilisateur (Pi) d'un utilisateur (ui) comprend une liste des actions (Ai) effectuées sur chacun des documents de la première base documentaire (BDp) 8. Method according to one of the preceding claims, characterized in that a user profile (Pi) of a user (ui) comprises a list of actions (Ai) performed on each of the documents of the first documentary database (BDp). 9. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un profil utilisateur (Pi) d'un utilisateur (ui) comprend un ensemble de transmission des documents de la première base documentaire (BDp) et des destinataires associés aux transmissions. 9. Method according to one of the preceding claims, characterized in that a user profile (Pi) of a user (ui) comprises a set of transmission of the documents of the first database (BDp) and the recipients associated with the transmissions. . 10. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'un profil utilisateur (Pi) comprend un profil d'intérêts (-fui) comportant des données sémantiques dont une liste de termes. 10. Method according to one of the preceding claims, characterized in that a user profile (Pi) comprises a profile of interests (-fui) comprising semantic data including a list of terms. 11. Procédé selon la revendication 10, caractérisé en ce que la valeur de proximité (dip) d'un profil utilisateur (Pi) d'un utilisateur (ui) du second ensemble (U2) avec le premier utilisateur (up) est calculée à partir d'une seconde fonction (F2) déterminant une première valeur calculée à partir d'une corrélation entre les termes du profil d'intérêts (-fui) de chaque utilisateur (ui) du premier ensemble (U1) avec le profil d'intérêts du premier utilisateur (Tm). 11. Method according to claim 10, characterized in that the proximity value (dip) of a user profile (Pi) of a user (ui) of the second set (U2) with the first user (up) is calculated from from a second function (F2) determining a first value calculated from a correlation between the terms of the interest profile (-fui) of each user (ui) of the first set (U1) with the interest profile of the first user (Tm). 12.Procédé selon la revendication 11, caractérisé en ce que la liste de termes référencés dans chaque profil d'intérêts (-fui) comprend le nombre d'occurrences de chaque terme référencé plusieurs fois dans le profil d'intérêts (-fui) de chaque utilisateur (ui) du premier ensemble (U1), la seconde fonction (F2) pondérant les termes communs entre le profil d'intérêts (-fui) de chaque utilisateur du premier ensemble (U1) avec le profil d'intérêts (Tm) du premier utilisateur (up) par leur nombre d'occurrences, une seconde valeur étant calculée. 12.Procédé according to claim 11, characterized in that the list of terms referenced in each profile of interest (-fui) comprises the number of occurrences of each term referenced several times in the profile of interest (-fui) of each user (ui) of the first set (U1), the second function (F2) weighting the common terms between the interest profile (-fui) of each user of the first set (U1) with the interest profile (Tm) of the first user (up) by their number of occurrences, a second value being calculated. 13. Procédé selon l'une quelconque des revendications 9 à 12, caractérisé en ce que le profil d'intérêts d'un utilisateur du premier ensemble (U1) est généré à partir d'une troisième fonction permettant d'extraire une liste de termes du descripteur sémantique (DSi) d'au moins un document (Di) sur lequel l'utilisateur a effectuée une action du premier ensemble d'actions ((Ai)ie[1 ;N]) et de pondérer chaque extraction par le type d'action sur le document (Di). 13. Method according to any one of claims 9 to 12, characterized in that the interest profile of a user of the first set (U1) is generated from a third function for extracting a list of terms. of the semantic descriptor (DSi) of at least one document (Di) on which the user has performed an action of the first set of actions ((Ai) ie [1; N]) and weighting each extraction by the type d action on the document (Di). 14. Procédé selon l'une des revendications précédentes, caractérisé en ce que le profil utilisateur comprend une quatrième valeurcorrespondant au résultat d'une quatrième fonction comparant un statut d'un utilisateur avec le premier utilisateur (up), chaque utilisateur (u;) comprenant un statut, les statuts différents étant différenciés par une valeur représentant un degré de différence. 14. Method according to one of the preceding claims, characterized in that the user profile comprises a fourth value corresponding to the result of a fourth function comparing a status of a user with the first user (up), each user (u;) including a status, the different statuses being differentiated by a value representing a degree of difference. 15. Procédé selon l'une quelconque des revendications 9 à 14, caractérisé en ce que la valeur de proximité (d;p) d'un profil utilisateur (P;) d'un utilisateur (u;) avec celui du premier utilisateur (up) est une cinquième fonction comptabilisant le nombre d'échanges entre les deux utilisateurs. 15. Method according to any one of claims 9 to 14, characterized in that the value of proximity (d; p) of a user profile (P;) of a user (u;) with that of the first user ( up) is a fifth function accounting for the number of exchanges between the two users. 16. Procédé selon l'une quelconque des revendications 8 à 14, caractérisé en ce que la valeur de proximité (d;p) d'un profil utilisateur (P;) d'un utilisateur (u;) avec le premier utilisateur (up) est une sixième fonction comparant les actions effectuées par les deux utilisateurs sur un ensemble prédéterminé de documents et de leurs similitudes. 16. A method according to any one of claims 8 to 14, characterized in that the proximity value (d; p) of a user profile (P;) of a user (u;) with the first user (up) ) is a sixth function comparing the actions performed by the two users on a predetermined set of documents and their similarities. 17. Procédé de recherche documentaire comprenant : - une première étape de définition d'une requête ; - une seconde étape de tri selon l'une des revendications 6 à 16 de documents ; - une étape de sélection et d'affichage d'au moins un document dont l'indice de pertinence est le plus élevée de la liste triée à la seconde étape. 17. A documentary search method comprising: a first step of defining a request; a second sorting step according to one of the claims 6 to 16 of documents; a step of selecting and displaying at least one document whose relevance index is the highest of the list sorted in the second step. 18. Procédé de tri d'une liste de documents selon l'une quelconque des revendications 7 à 16, chaque document (D;) comprenant un descripteur sémantique (DS;), caractérisé en ce que le descripteur sémantique (DS) est généré à partir des étapes suivantes : - une étape de définition : o d'au moins un premier ensemble lexical de termes comportant la forme canonique et la nature grammaticale de chaque terme ; o d'au moins un premier ensemble de concepts, chaque concept représentant un noeud d'un graphe, chaque concept pouvant avoir une ou plusieurs relations de parenté, chaque noeud ayant un degré de parenté prédéfini, chaque concept pouvant avoir une ou plusieurs relations avec un terme du premier ensemble lexical de termes ;o d'au moins la définition d'un premier ensemble de relations conceptuelles, chaque relation conceptuelle représentant un noeud du graphe, chaque relation conceptuelle pouvant avoir avec d'autres relations conceptuelle zéro, une ou plusieurs relations de parenté ; o d'au moins la définition d'un premier ensemble de signatures de relations conceptuelles, chaque signature de relation conceptuelle associant à chaque relation conceptuelle au moins un couples de concepts du premier ensemble de concepts ; o d'au moins la définition d'un premier ensemble de faits conceptuels, chaque fait conceptuel étant définie par une relation conceptuelle du premier ensemble de relations conceptuelles, chaque fait conceptuel associant deux concepts du premier ensemble de concepts de manière à former au moins un triplet ordonné, - une étape de génération du descripteur de document, comprenant : o une étape d'identification d'un premier document ; 20 o une étape de génération d'un index temporaire comprenant chaque terme du premier document commun au premier ensemble lexical ; o une étape de génération d'un ensemble de mots clefs du premier ensemble lexical présent dans l'index temporaire ; 25 o une étape de génération d'au moins un ensemble de concepts du premier ensemble de concepts à partir de l'analyse : ^ des termes de l'index temporaire ; ^ des relations entre les termes du premier ensemble lexical et le premier ensemble de concepts ; ^ des relations de parenté entre concepts ; o une étape de génération d'au moins un ensemble de relations du premier ensemble de relations conceptuelles à partir de l'analyse : ^ des termes de l'index temporaire ; 10 15 30 35^ des relations entre les termes du premier ensemble lexical et le premier ensemble de relations conceptuelles ; ^ des relations de parenté entre relations conceptuelles ; o une quatrième étape de génération d'un second ensemble de faits conceptuels à partir de la corrélation de l'analyse : ^ des termes de l'index temporaire ; ^ des relations entre les termes du premier ensemble lexical et les relations conceptuelles du premier ensemble de relations conceptuelles ; ^ des relations de parenté entre relations conceptuelles ; ^ des signatures des relations conceptuelles ; 15 o une cinquième étape de génération d'un ensemble de concepts choisis à partir de la corrélation de l'analyse : ^ des concepts générés à la troisième étape ^ des relations de parenté entre les concepts ^ du nombre d'occurrences des termes liés à ces 20 concepts par la relation ; ^ de la structure du document dans laquelle ce concept apparaît ; ^ des faits conceptuels générés à la quatrième étape dans lesquels le concept apparaît ; 25 o une dernière étape de génération d'un descripteur sémantique comprenant : ^ l'ensemble des mots clefs ; ^ l'ensemble des concepts choisis à la cinquième étape ; 30 ^ l'ensemble de faits conceptuels générés à la cinquième étape. 18. A method of sorting a document list according to any one of claims 7 to 16, each document (D;) comprising a semantic descriptor (DS;), characterized in that the semantic descriptor (DS) is generated at from the following steps: a step of definition: of at least a first lexical set of terms comprising the canonical form and the grammatical nature of each term; o at least a first set of concepts, each concept representing a node of a graph, each concept having one or more kinship relations, each node having a predefined degree of kinship, each concept having one or more relations with a term of the first lexical set of terms, o at least the definition of a first set of conceptual relations, each conceptual relation representing a node of the graph, each conceptual relation having, with other conceptual relations zero, one or more kinship relations; at least the definition of a first set of conceptual relationship signatures, each conceptual relationship signature associating with each conceptual relation at least one concept pair of the first set of concepts; o at least the definition of a first set of conceptual facts, each conceptual fact being defined by a conceptual relation of the first set of conceptual relations, each conceptual fact associating two concepts of the first set of concepts so as to form at least one ordered triplet, - a step of generating the document descriptor, comprising: a step of identifying a first document; O a step of generating a temporary index comprising each term of the first document common to the first lexical set; o a step of generating a set of key words of the first lexical set present in the temporary index; A step of generating at least one set of concepts of the first set of concepts from the analysis of the terms of the temporary index; relations between the terms of the first lexical set and the first set of concepts; ^ kinship relations between concepts; a step of generating at least one set of relations of the first set of conceptual relations from the analysis of the terms of the temporary index; Relationships between the terms of the first lexical set and the first set of conceptual relationships; relations of kinship between conceptual relations; a fourth step of generating a second set of conceptual facts from the correlation of the analysis of the terms of the temporary index; relations between the terms of the first lexical set and the conceptual relations of the first set of conceptual relations; relations of kinship between conceptual relations; ^ signatures of conceptual relations; O a fifth step of generating a set of concepts selected from the correlation of the analysis: ^ of the concepts generated in the third step ^ of the relationship between the concepts ^ of the number of occurrences of the terms related to these 20 concepts by the relation; ^ the structure of the document in which this concept appears; ^ conceptual facts generated in the fourth stage in which the concept appears; A last step of generating a semantic descriptor comprising: the set of key words; ^ the set of concepts chosen in the fifth step; 30 ^ the set of conceptual facts generated in the fifth step. 19. Système pour la mise en oeuvre du procédé de l'une quelconque des revendications 1 à 18 comprenant : 10 5 15- un premier moyen de stockages de données permettant l'enregistrement et la mise à jour dans une première base de données (BDu) du premier ensemble d'utilisateurs (Ul) ; - un second moyen de stockage permettant l'enregistrement et la mise à jour dans une seconde base de données (BDP) des profils utilisateurs ((Pi)ie[1 ;N]) ; - une interface permettant de réaliser l'identification d'un premier utilisateur (up) ; - des moyens de calculs permettant le calcul des valeurs de proximité (dip) entre les utilisateurs du premier ensemble et le premier utilisateur ainsi que la sélection du second ensemble d'utilisateurs (U2). 19. A system for carrying out the method of any one of claims 1 to 18 comprising: first data storage means for recording and updating in a first database (BDu) ) of the first set of users (Ul); a second storage means for recording and updating in a second database (BDP) user profiles ((Pi) ie [1; N]); an interface making it possible to identify a first user (up); - Calculation means for calculating the proximity values (dip) between the users of the first set and the first user and the selection of the second set of users (U2). 20. Programme d'ordinateur comprenant des instructions pour la mise en oeuvre des étapes du procédé selon l'une quelconque des revendications 1 à 16. 20. Computer program comprising instructions for carrying out the steps of the method according to any one of claims 1 to 16.
FR1151194A 2011-02-14 2011-02-14 METHOD FOR CALCULATING A RELEVANCE INDEX OF A DOCUMENT FROM A DATABASE, METHODS OF SORTING AND SEARCHING THE SAME, SYSTEM FOR IMPLEMENTING METHODS, AND ASSOCIATED COMPUTER PROGRAM. Expired - Fee Related FR2971597B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1151194A FR2971597B1 (en) 2011-02-14 2011-02-14 METHOD FOR CALCULATING A RELEVANCE INDEX OF A DOCUMENT FROM A DATABASE, METHODS OF SORTING AND SEARCHING THE SAME, SYSTEM FOR IMPLEMENTING METHODS, AND ASSOCIATED COMPUTER PROGRAM.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1151194A FR2971597B1 (en) 2011-02-14 2011-02-14 METHOD FOR CALCULATING A RELEVANCE INDEX OF A DOCUMENT FROM A DATABASE, METHODS OF SORTING AND SEARCHING THE SAME, SYSTEM FOR IMPLEMENTING METHODS, AND ASSOCIATED COMPUTER PROGRAM.

Publications (2)

Publication Number Publication Date
FR2971597A1 true FR2971597A1 (en) 2012-08-17
FR2971597B1 FR2971597B1 (en) 2014-02-07

Family

ID=44382323

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1151194A Expired - Fee Related FR2971597B1 (en) 2011-02-14 2011-02-14 METHOD FOR CALCULATING A RELEVANCE INDEX OF A DOCUMENT FROM A DATABASE, METHODS OF SORTING AND SEARCHING THE SAME, SYSTEM FOR IMPLEMENTING METHODS, AND ASSOCIATED COMPUTER PROGRAM.

Country Status (1)

Country Link
FR (1) FR2971597B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6041311A (en) * 1995-06-30 2000-03-21 Microsoft Corporation Method and apparatus for item recommendation using automated collaborative filtering

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6041311A (en) * 1995-06-30 2000-03-21 Microsoft Corporation Method and apparatus for item recommendation using automated collaborative filtering

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HERLOCKER J ET AL: "An algorithmic framework for performing collaborative filtering", INTERNET CITATION, 1 January 1999 (1999-01-01), pages 230 - 237, XP002639412, ISBN: 978-1-58113-096-6, Retrieved from the Internet <URL:http://portal.acm.org/citation.cfm?id=312682> [retrieved on 20110530] *

Also Published As

Publication number Publication date
FR2971597B1 (en) 2014-02-07

Similar Documents

Publication Publication Date Title
US11720572B2 (en) Method and system for content recommendation
TWI493367B (en) Progressive filtering search results
US8666984B2 (en) Unsupervised message clustering
US8296309B2 (en) System and method for high precision and high recall relevancy searching
WO2002067142A2 (en) Device for retrieving data from a knowledge-based text
EP1719061A2 (en) Methods of manipulating information objects and of accessing such objects in a computer environment
FR3043816B1 (en) METHOD FOR SUGGESTION OF CONTENT EXTRACTED FROM A SET OF INFORMATION SOURCES
US10021061B1 (en) Message presentation management in a social networking environment
US20140201203A1 (en) System, method and device for providing an automated electronic researcher
Chatterjee et al. Python social media analytics
Larner Forensic authorship analysis and the world wide web
Zemlyanskiy et al. DOCENT: Learning self-supervised entity representations from large document collections
Decker et al. Finding light in dark archives: using AI to connect context and content in email
Fafalios et al. Multi-aspect entity-centric analysis of big social media archives
FR2971597A1 (en) Method for calculation of social relevance index of digital documents to sort list of documents to search documents in documentary base in enterprise, involves calculating index from set of actions realized on document
Vassilakis et al. Database knowledge enrichment utilizing trending topics from Twitter
WO2013117872A1 (en) Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device
WO2018015515A1 (en) Methods for opinion sharing, computer programs and hardware for implementing methods
FR2975553A1 (en) HELP IN SEARCHING VIDEOS CONTENT ON A COMMUNICATION NETWORK
Nuapia et al. Text mining to enhance hydroinformatics
WO2022129760A2 (en) Method for collecting data, method for using collected data, corresponding electronic device and computer program products and medium
Moscato et al. Mowis: A system for building multimedia ontologies from web information sources
Er Advanced information extraction by example
Annapoorani et al. Indexing the enormous legal documents to the aid of tech-savvy lawyers
Rajapaksha et al. Semantic information retrieval based on topic modeling and community interests mining

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 5

ST Notification of lapse

Effective date: 20161028