EP1938219A1 - Method for sorting a set of electronic documents - Google Patents

Method for sorting a set of electronic documents

Info

Publication number
EP1938219A1
EP1938219A1 EP06808294A EP06808294A EP1938219A1 EP 1938219 A1 EP1938219 A1 EP 1938219A1 EP 06808294 A EP06808294 A EP 06808294A EP 06808294 A EP06808294 A EP 06808294A EP 1938219 A1 EP1938219 A1 EP 1938219A1
Authority
EP
European Patent Office
Prior art keywords
documents
correlation
function
document
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
EP06808294A
Other languages
German (de)
French (fr)
Inventor
Jérôme GALTIER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of EP1938219A1 publication Critical patent/EP1938219A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing

Definitions

  • the invention relates to the fields of telecommunications and in particular to the field of search engines for the search of electronic documents.
  • the invention relates to a method of sorting a set of electronic documents.
  • a set results for example from a search carried out by a user by means of a search engine on an Internet-type network, the electronic documents being in this case Web pages (abbreviation of "World Wide Web"), which can be accessed locally via a local storage medium or remotely via the network.
  • Web pages abbreviation of "World Wide Web”
  • Search engines use several techniques for sorting or sorting pages from a search.
  • Some are based on semantics, a page being classified as being all the more relevant because it includes a large number of occurrences of the searched word or words.
  • These techniques are sensitive to a practice known as the Anglo-Saxon
  • spammming intended to include in a given page a very large number of times the words commonly used by users in their search query, which has the effect of frequently appearing the page as relevant.
  • Some of the techniques exploiting the topological structure of the Web consist of classifying Web pages by assigning to the different pages a rank that is a function of the relationships of a page with the others.
  • PageRank An example of such a method, known as “PageRank”, is used in the implementation of the Google TM search engine and is described in the document: "The Page Rank Quotation Ranking: Bringing Order on the Web" by L. Page, S. Brin, R. Motwani and T. Winograd; Technical Report, Computer Science Department, Stanford University, 1998.
  • the PageRank method orders pages based on their visibility on the Web.
  • a random navigation from page to page on the Web following the hypertext links is simulated. This navigation corresponds to that caused by a user accessing the Web when the latter randomly activates one of the hypertext links in a page viewed to access another page.
  • This method carries out a probabilistic analysis of this simulated navigation in order to determine the probability for the user to find himself on a given page during such random navigation from page to page.
  • the rank of a page is even higher than the number of times this page is quoted by other pages is high.
  • Such a method provides a ranking rank that is not necessarily relevant to the search performed by a user, the top ranked pages (of highest rank) not necessarily being the pages corresponding best waiting for the user.
  • this method does not make it possible to identify in the set of documents thematic communities or communities of interest, likely to point the user more quickly to an interesting page.
  • the object of the invention is therefore in particular to solve the aforementioned drawbacks of the state of the art by proposing a technique for sorting electronic documents, for example Web pages, which makes it possible in particular to detect spamming problems, which is applicable. to a large set of documents while being fast in its implementation, and which allows to simply obtain a sort of documents, not by ranking, but by building communities of documents or subset of documents close each other, that this concept of proximity is defined according to the semantic content of the documents, the hypertext links between these documents or in a different way.
  • the object of the invention is, according to a first aspect, a method for sorting a set of electronic documents, comprising:
  • the applications of the process are multiple: building clusters of documents, filing or selection of documents. These operations are performed in the space R / as a function of the spatial position of the projections of the documents or on the basis of measurement of distance, that is to say by taking into account their degree of correlation or proximity as determined.
  • the method according to the invention can for example be used to perform all sorts of sorting operations, classification, classification of WEB pages resulting from a search carried out by means of a search engine, the most original pages, it is that is, those that are furthest from each other, for example, being ranked first.
  • the pages are sorted by group, each group corresponding to a set of pages whose projections by the function X are in a predefined space area of the sphere of the space R /.
  • a partition of this sphere into spatial zones is defined, and the documents are classified according to the belonging of their projection to one of the spatial zones of the partition.
  • the method according to the invention can also be used to detect the presence of "Spam", that is to say pages that point to each other, because the projections of all these pages on the sphere S will be found substantially close to each other.
  • the method according to the invention can also be used to generate a visual representation of the WEB pages resulting from a search carried out by means of a search engine.
  • the degree of correlation between two documents u and v is determined as a function of the number of hypertext links and / or the number of cocitation bonds, present between the documents u and v, the degree of correlation being even higher than this number is high, the lack of correlation corresponding to the absence of links.
  • This first variant advantageously allows the realization of sorting operations taking into account the hypertext links or cocitation between documents.
  • the degree of correlation between two documents u and v is determined as a function of a measure of proximity of the semantic contents of the documents u and v, the degree of correlation being all the greater as this measure is weak, the absence of correlation corresponding to a measurement lower than a predefined threshold.
  • This second variant advantageously allows the realization of operations sorting that takes into account the semantic content of documents.
  • the degree of correlation is determined according to the favorite pages defined by a plurality of users.
  • each user is associated with a set of documents (his favorite pages), the degree of correlation between two documents u and v being determined as the number of such sets to which the documents u and v belong.
  • This third variant advantageously makes it possible to take account of user profiles in determining the degree of correlation between pages.
  • the three variants can further be combined in them to determine a degree of correlation that takes into account both hypertext links, semantic content and / or user preferences. Any other type of link between two documents can also be used for the definition of a degree of correlation.
  • the method further comprising:
  • a step of determining a projection function Z of said set on said sphere said projection function Z being obtained from the initial function Z 0 in at least one iteration, each iteration consisting in determining a function Z 1 from the function Z 1-1 obtained at the preceding iteration by replacing, for at least one document u of said set, the value of Z 1-1 (w) by the value X 1 (w) allowing to optimize a predefined criterion which is a function of the value of Z ⁇ 1 (W) as well as values of Z 1-1 (V) and degrees of correlation ⁇ ⁇ u, v) between the documents u and v for any document v belonging to the whole audit.
  • the method according to the invention lends itself to an iterative determination of the X function, which simplifies its implementation and makes it possible to precisely control the convergence of the method.
  • the function Z 0 is defined randomly. Starting from a random function statistically improves the speed of convergence to the desired X function, without the need for prior knowledge of the function to be obtained.
  • the optimization of the predefined criterion consists in to maximize for the document u the value of a quantity ⁇ (w) equal to:
  • the invention also relates to a computer program on an information medium readable by a computer system, said program comprising instructions for implementing a method according to the invention as briefly defined above, when this program is loaded. then executed by a computer system.
  • the invention also relates to a data processing device comprising data processing means for executing the steps of a method according to the invention.
  • a data processing device comprising data processing means for executing the steps of a method according to the invention.
  • a device is for example a computer server implementing a document search engine.
  • the invention also relates to a recording medium, readable by a computer system, comprising a program comprising program code instructions for implementing a method according to the invention when said program is executed by a system. computer science.
  • FIG. 1 is a flowchart of a mode. embodiment of the method according to the invention.
  • the method according to the invention is applied to a set of electronic documents, in particular a set of WEB pages, some of which contain one or more hypertext links to one or more other pages.
  • the degree of correlation between two documents u and v of the set of documents V is determined as a function of the number of hypertext links and cocitation links existing between the documents u and v.
  • the meaning of the hypertext links is not taken into account and "symmetrized" hypertext links are considered, that is to say that one treats in the same way the case where the document u has a link to the document v and the case where the document v has a link to the document u.
  • Step S100 consists in determining for any pair (u, v) of documents of set V a weight a ⁇ ⁇ u, v) which is a function of the number of hypertext links between documents u and v.
  • the function ⁇ ⁇ ⁇ u, v) is an increasing function of the number of hypertext links between the documents u and v.
  • the value of a ⁇ ⁇ u, v) is between a predefined minimum value (typically 0) and a predefined maximum value (typically 1).
  • the minimum value corresponds to the absence of a hypertext link between the documents u and v
  • the maximum value corresponds for example to the presence of a predetermined minimum number of hypertext links between the documents u and v.
  • the value of a ⁇ (u, v) is chosen equal to 0 in the absence of hypertext link and equal to 1 in the presence of at least one hypertext link between the documents u and v.
  • the value of o ⁇ (u, v) is chosen equal to 0 in the absence of hypertext link, equal to 0.5 in the presence of a single hypertext link between the documents u and v and equal to 1 in the presence of two or more hypertext links between documents u and v.
  • the value of a ⁇ (u, v) is defined as a continuously increasing function of the number N h of hypertext links between the documents u and v, for example:
  • Step S105 consists in determining for any pair (u, v) of documents of set V a weight ⁇ 2 (u, v) which is a function of the number of cocitation links between documents u and v.
  • the function ⁇ 2 (u, v) is an increasing function of the number of cocitation links between the documents u and v.
  • the function definition examples given for a ⁇ (u, v) are transposable to ⁇ 2 (u, v).
  • the value of ⁇ 2 (u, v) is chosen equal to 0 in the absence of a cocitation link and equal to 1 in the presence of at least one cocitation link between the documents u and v.
  • the degree of correlation ⁇ (u, v) thus takes real values between 0 and 1, the value 0 corresponding to the absence of links.
  • the value given to the coefficient k1 will be chosen all the more high if one wishes to give importance to the presence of hypertext links.
  • the value given to the coefficient k2 will be chosen all the more high if we wish to give importance to the presence of cocitation bonds.
  • This method of determining the degree of correlation between the documents makes it possible to take into account, in the document classification method according to the invention, two types of links between documents: the hypertext links and the cocitation links.
  • This method is generalized to other types of links.
  • the determination of the degree of correlation between two documents is made on the basis of an analysis and a comparison of the semantic content of both documents.
  • known semantic content comparison methods are applicable.
  • the degree of correlation represents a measure of the semantic proximity between the two documents.
  • the degree of semantic correlation can be determined for example on the basis of a statistical analysis and comparison of the words contained in each of the documents.
  • the degree of correlation between two documents is then determined as a weighted sum of elementary correlation degrees, for example a sum of a degree of correlation function of the number of cohesive links between the two documents and a degree of correlation function of semantic contents of both documents.
  • the method allows the simultaneous taking into account of information provided by hypertext links between documents and by the semantic content of documents.
  • steps S120 to S135 consist in determining a projection function X between the set V of documents and a sphere S of the set R / (Cartesian power d-th of R, where R denotes l set of real numbers and d is a positive integer).
  • R denotes l set of real numbers and d is a positive integer.
  • d is chosen equal to 2 or 3.
  • the determined function X is such that, for at least one document u, the distance in R ⁇ between two points X (u) and X (v) where v is a document for the correlation between the documents u and v, is even smaller as the degree of correlation is high.
  • an iterative process is used for the determination of the function X.
  • Each iteration of this iterative process consists in determining a function X 1 from the function X 1-1 obtained in the preceding step, in replacing, for at least one document u of the set V, the value of X 1-1 [U) by the value of X 1 (w) making it possible to optimize a predefined criterion; this criterion is on the one hand a function of the value of X 1-1 (U) obtained for the document u considered and values of -X " , _i (v) obtained for any document v of the set V, and of 'other on the other hand, a function of the degrees of correlation ⁇ (u, v) between the document u and any document v of the set V.
  • the criterion is chosen so as to converge the sequence of functions X 1 to an X function presenting the properties listed above.
  • the optimization of said predefined criterion consists in maximizing for a given document u the value of a quantity ⁇ (w) equal to,
  • step S120 the initial projection function Z 0 is determined.
  • the initial function Z 0 takes random values on the sphere S.
  • step S125 begins the iterative process of determining the projection function X.
  • An iteration corresponds to the execution of steps S125, S130 and S135.
  • the iterations are indexed by the index i.
  • the index i takes its initial value and is 0.
  • step S135 it is determined whether the iterative process terminates.
  • the process is iterated a sufficient number of times for the function X to be modified at least once for each document u of the set V.
  • the decision to stop the iterations can also be based on: - the number of iterations already carried out, a measure of the convergence of the function, carried out after each iteration.
  • step S140 If, in step S135, the decision to stop the iterative process is taken, then step S140 is executed; otherwise, the next iteration is executed from step S125.
  • step S140 a sorting operation is performed on at least a part of the set V of the documents as a function of the values taken by the function X obtained at the last iteration.
  • the position of a point X (u) on the sphere S is a function of the links of the document u with the other documents.
  • the distance between two points is representative of the degree of correlation between the documents corresponding to these two points.
  • this sorting operation may aim at:
  • the sorting operation comprises the following operations:
  • the sorting operation comprises the operation of determining a subset V 1 for which any point X (u) belongs to a given set, for example to a predefined area of the space in R /.
  • This zone may be for example the interior volume of a sphere, a cube, or a surface defined on the sphere S of R d .
  • the method according to the invention thus makes it possible to perform all sorts of sorting operations on a set of documents, on the basis of the values taken by the determined function X.
  • the calculation time of an iteration of this process is proportional to the number of hypertext links when the degree of correlation is determined as a function of this number of hypertext links.
  • the method of the invention can therefore be used on a large number of pages.
  • This representation makes it easier for the user to select relevant sets of documents.
  • This representation can be done for example in the form of a two-dimensional cartographic representation, in which each document is represented by a graphic symbol corresponding to the value of the function X determined for this document.
  • this graphic representation is displayed on a user's computer terminal, comprising a display screen and a graphic selection tool (for example a mouse used in combination with a pointer allowing define graphic areas on the screen), this tool being suitable for selecting at least a portion of the graphical representation.
  • a graphic selection tool for example a mouse used in combination with a pointer allowing define graphic areas on the screen
  • the user is then able to make a selection of one or more parts of the graphical representation corresponding to one or more sets, chosen by him, of documents.
  • the terminal obtains via the graphical selection tool data defining the selected parts. According to these data, the terminal sorts the set V of the documents. For example, it generates a reduced list of documents, corresponding to documents whose projection is in the parts selected by the user. Alternatively, the documents whose projection is in the selected parts are instead eliminated. From the list of documents retained by the user, additional sorting operations can be performed, these operations being performed automatically on the basis of document properties or their degree of correlation, or performed manually, based on new parts selected within the initially selected parts.
  • This mode of viewing the results of a search performed by a search engine is particularly ergonomic for the user. It brings up communities of documents, as a set of points close to each other,
  • the projection representation as defined in the invention therefore makes it possible to sort or classify, either visually and manually by means of a graphic selection tool, or automatically, according to predefined criteria related to the position of these documents. in the generated representation.
  • the steps of the method of sorting electronic documents, according to the invention are determined by instructions of a computer program.
  • computer program herein refers to one or more computer programs forming a set (software) whose purpose is the implementation of the invention when it is executed by an appropriate computer system.
  • the method according to the invention is then implemented when the aforesaid program is loaded in computer means incorporated, for example, in a user terminal connected if necessary to an Internet type network and equipped with Internet browser software.
  • the invention also relates to such a computer program, particularly in the form of software stored on an information carrier.
  • an information carrier may be constituted by any entity or device capable of storing a program according to the invention.
  • the medium in question may comprise a hardware storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk.
  • the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question.
  • the information medium can also be a transmissible immaterial medium, such as an electrical or optical signal that can be conveyed via an electrical or optical cable, by radio or by other means.
  • a program according to the invention can in particular be downloaded to an Internet type network.
  • a computer program according to the invention can use any programming language and be in the form of source code, object code, or intermediate code between source code and object code (for example eg, a partially compiled form), or in any other form desirable for implementing a method according to the invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The invention concerns a method for sorting a set of electronic documents, including the following steps: determining (S110) for each pair of documents {u, v} of the set the degree of correlation ω{ u,v} between the documents u and v; determining a function X of projection between the set of documents and a sphere of the set Rd where d is a positive integer, the function X being such that, for at least one document u, the distance in Rd between two points X (u) and X (v) where v is a document for which there is a correlation between the documents u and v, is as smaller as the degree of correlation is high; performing a sorting operation (S140) on at least one part of the set of documents based on the values taken by the function X.

Description

Procédé de tri d'un ensemble de documents électroniques Method of sorting a set of electronic documents
L'invention se rapporte aux domaines des télécommunications et en particulier au domaine des moteurs de recherche pour la recherche de documents électroniques.The invention relates to the fields of telecommunications and in particular to the field of search engines for the search of electronic documents.
Plus précisément l'invention concerne un procédé de tri d'un ensemble de documents électroniques. Un tel ensemble résulte par exemple d'une recherche effectuée par un utilisateur au moyen d'un moteur de recherche sur un réseau de type Internet, les documents électroniques étant dans ce cas des pages Web (abréviation de "World Wide Web"), qui sont accessibles localement via un support local de stockage ou à distance via le réseau.More specifically, the invention relates to a method of sorting a set of electronic documents. Such a set results for example from a search carried out by a user by means of a search engine on an Internet-type network, the electronic documents being in this case Web pages (abbreviation of "World Wide Web"), which can be accessed locally via a local storage medium or remotely via the network.
Les moteurs de recherches utilisent plusieurs techniques pour le classement ou le tri de pages issues d'une recherche. Parmi les techniques connues d'exploration d'un ensemble de pages Web, certaines reposent sur la sémantique, une page étant classée comme étant d'autant plus pertinente qu'elle comporte un grand nombre d'occurrences du ou des mots recherchés. Ces techniques sont sensibles à une pratique, connue sous la dénomination anglo-saxonne deSearch engines use several techniques for sorting or sorting pages from a search. Among the known techniques for exploring a set of web pages, some are based on semantics, a page being classified as being all the more relevant because it includes a large number of occurrences of the searched word or words. These techniques are sensitive to a practice known as the Anglo-Saxon
"spamming", visant à faire figurer dans une page donnée un très grand nombre de fois les mots utilisés couramment par les internautes dans leur requête de recherche, ce qui a pour effet de faire apparaître fréquemment la page comme pertinente."spamming", intended to include in a given page a very large number of times the words commonly used by users in their search query, which has the effect of frequently appearing the page as relevant.
D'autres techniques se basent sur la structure topologique du Web. Ces techniques tiennent compte à la fois des liens existants entre les pages considérées et des propriétés des pages elles mêmes, telles que l'appartenance d'une page à un domaine ou à un sous domaine réseau du Web. Ces techniques sont généralement basées sur une représentation par graphe des pages à traiter. Elles sont appropriées à la classification de pages répondant à des propriétés topologiques données dans le graphe. Ces techniques sont sensibles à une variante de la pratique de "spamming" visant à référencer un grand nombre de fois une page donnée, ce qui a pour effet de fausser localement les caractéristiques topologiques du graphe du Web.Other techniques are based on the topological structure of the Web. These techniques take into account both the links between the pages considered and the properties of the pages themselves, such as the membership of a page to a domain or a network subdomain of the Web. These techniques are generally based on a graphical representation of the pages to be processed. They are appropriate for the classification of pages corresponding to topological properties given in the graph. These techniques are sensitive to a variant of the practice of "spamming" aimed at referencing a large number of times a given page, which has the effect of distorting locally the topological characteristics of the graph of the Web.
Certaines des techniques exploitant la structure topologique du Web consistent à opérer une classification des pages Web par attribution aux différentes pages d'un rang qui est fonction des relations d'une page avec les autres.Some of the techniques exploiting the topological structure of the Web consist of classifying Web pages by assigning to the different pages a rank that is a function of the relationships of a page with the others.
Un exemple d'une telle méthode, connu sous le terme anglais "PageRank", est utilisé dans la mise en œuvre du moteur de recherche Google™ et est décrit dans le document : "The PageRank Citation Ranking : Bringing Order on the Web", de L. Page, S. Brin, R. Motwani et T. Winograd ; Technical Report, Computer Science Département, Stanford University, 1998.An example of such a method, known as "PageRank", is used in the implementation of the Google ™ search engine and is described in the document: "The Page Rank Quotation Ranking: Bringing Order on the Web" by L. Page, S. Brin, R. Motwani and T. Winograd; Technical Report, Computer Science Department, Stanford University, 1998.
La méthode PageRank ordonne les pages en fonction de leur visibilité sur le Web. Dans cette méthode, une navigation aléatoire de page en page sur le Web en suivant les liens hypertextes, est simulée. Cette navigation correspond à celle provoquée par un utilisateur accédant au Web lorsque ce dernier active aléatoirement un des liens hypertextes se trouvant dans une page visualisée, afin d'accéder à une autre page. Cette méthode procède à une analyse probabiliste de cette navigation simulée afin de déterminer la probabilité pour l'utilisateur de se retrouver sur une page donnée lors d'une telle navigation aléatoire de page en page. Le rang d'une page est d'autant plus élevé que le nombre de fois que cette page est citée par d'autres pages est élevé.The PageRank method orders pages based on their visibility on the Web. In this method, a random navigation from page to page on the Web following the hypertext links, is simulated. This navigation corresponds to that caused by a user accessing the Web when the latter randomly activates one of the hypertext links in a page viewed to access another page. This method carries out a probabilistic analysis of this simulated navigation in order to determine the probability for the user to find himself on a given page during such random navigation from page to page. The rank of a page is even higher than the number of times this page is quoted by other pages is high.
Une telle méthode fournit un rang de classement qui n'est pas forcément pertinent vis-à-vis de la recherche effectuée par un utilisateur, les pages les mieux classées (de rang le plus élevé) n'étant pas forcément les pages correspondant le mieux à l'attente de l'utilisateur.Such a method provides a ranking rank that is not necessarily relevant to the search performed by a user, the top ranked pages (of highest rank) not necessarily being the pages corresponding best waiting for the user.
En outre, cette méthode ne permet pas d'identifier dans l'ensemble des documents des communautés thématiques ou communautés d'intérêt, susceptibles d'aiguiller l'utilisateur plus rapidement vers une page intéressante.In addition, this method does not make it possible to identify in the set of documents thematic communities or communities of interest, likely to point the user more quickly to an interesting page.
Enfin, dans le cas où un utilisateur identifie dans l'ensemble des documents présentés un document qui l'intéresse particulièrement, il n'est pas possible en utilisant une liste de documents ordonnés en fonction simplement de leur rang, de déterminer aisément si d'autres documents, proches du document intéressant ou liés à celui-ci d'une manière ou d'une autre, sont présents dans l'ensemble des documents.Finally, in the case where a user identifies in the set of documents presented a document of particular interest to him, it is not possible by using a list of documents ordered according to simply their rank, to easily determine whether or not other documents, similar to the document of interest or related to it in one way or another, are present in all the documents.
L'invention a ainsi pour objectif notamment de résoudre les inconvénients susmentionnés de l'état de technique en proposant une technique de tri de documents électroniques, par exemples des pages Web, qui permette en particulier, de détecter des problèmes de spamming, qui soit applicable à un grand ensemble de documents tout en étant rapide dans sa mise en œuvre, et qui permette d'obtenir simplement un tri des documents, non pas par attribution de rang, mais par constitution de communautés de documents ou de sous-ensemble de documents proches les uns des autres, que cette notion de proximité soit définie en fonction du contenu sémantique des documents, des liens hypertextes entre ces documents ou d'une toute autre manière.The object of the invention is therefore in particular to solve the aforementioned drawbacks of the state of the art by proposing a technique for sorting electronic documents, for example Web pages, which makes it possible in particular to detect spamming problems, which is applicable. to a large set of documents while being fast in its implementation, and which allows to simply obtain a sort of documents, not by ranking, but by building communities of documents or subset of documents close each other, that this concept of proximity is defined according to the semantic content of the documents, the hypertext links between these documents or in a different way.
Dans ce but, l'invention a pour objet, selon un premier aspect, un procédé de tri d'un ensemble de documents électroniques, comprenant:For this purpose, the object of the invention is, according to a first aspect, a method for sorting a set of electronic documents, comprising:
- une étape de comptage de liens hypertexte ou de cocitations présents entre chaque couple de documents {u,v} dudit ensemble,a step of counting hypertext links or cocitations present between each pair of documents {u, v} of said set,
- une étape de détermination, pour chaque couple de documents {u,v} dudit ensemble, d'un degré de corrélation ω(u,v) entre les documents u et v, ledit degré de corrélation étant fonction du nombre de liens obtenu à l'issue de l'étape de comptage, - une étape de détermination, pour chaque document u dudit ensemble, d'un point X (M) associé situé sur une sphère de l'ensemble Cd où C est l'ensemble des réels et d est un entier positif, pour au moins un document u1 dudit ensemble la distance dans _Dd entre les points x(ul) et x{ul) associés, où u2 est un document pour lequel il y a corrélation entre les documents u1 et u2, étant d'autant plus petite que le degré de corrélation entre les documents u1 et u2 est élevé,a step of determining, for each pair of documents {u, v} of said set, a degree of correlation ω (u, v) between the documents u and v, said degree of correlation being a function of the number of links obtained at following the counting step, - a step of determining, for each document u of said set from a point X (M) located on a sphere associated to the set C d where C is the set of real and d is a positive integer, for at least one document u1 of said set the distance in _D d between the associated points x (ul) and x {ul), where u2 is a document for which there is correlation between the documents u1 and u2, being smaller as the degree of correlation between the documents u1 and u2 is high,
- une étape de tri d'au moins une partie dudit ensemble de documents en fonction des points déterminés sur ladite sphère.a step of sorting at least a part of said set of documents according to the points determined on said sphere.
Le fait d'utiliser une sphère pour déterminer la position des points est original en ce que cela permet de définir simplement pour les points obtenus - et donc pour les documents associés - des positions relatives de ces points les uns par rapport aux autres. En effet, dans ce mode de représentation aucun point n'est favorisé par rapport à un autre. En conséquence, la position relative entre deux points, et donc la distance entre ces deux points, peut être utilisée pour représenter un degré de corrélation entre les deux documents associés à ces deux points. La représentation ainsi obtenue reflète les corrélations ou liens entre les documents concernés.The fact of using a sphere to determine the position of the points is original in that it allows to simply define for the points obtained - and therefore for the associated documents - relative positions of these points relative to each other. Indeed, in this mode of representation no point is favored compared to another. Consequently, the relative position between two points, and therefore the distance between these two points, can be used to represent a degree of correlation between the two documents associated with these two points. The representation thus obtained reflects the correlations or links between the documents concerned.
Le fait de disposer d'une représentation de l'ensemble des documents sur une sphère, par exemple une sphère dans un espace à trois dimensions, permet en outre d'envisager tout type d'opérations de tri : par sélection, classement, filtrage, classification, et ce, très simplement, puisque chaque document est désormais représenté par un simple n-uplet de coordonnées dans un espace à N dimensions (par exemple par un triplet de coordonnées dans un espace à trois dimensions).Having a representation of all the documents on a sphere, for example a sphere in a three-dimensional space, makes it possible to envisage any sort of sorting operations: by selection, classification, filtering, classification, since each document is now represented by a simple n-tuple of coordinates in an N-dimensional space (for example by a coordinate triplet in a three-dimensional space).
Les applications du procédé sont multiples: constitution de clusters de documents, classement ou sélection de documents. Ces opérations sont effectuées dans l'espace R/ en fonction de la position spatiale des projections des documents ou sur la base de mesure de distance, c'est-à-dire en prenant en compte leur degré de corrélation ou de proximité tel que déterminé.The applications of the process are multiple: building clusters of documents, filing or selection of documents. These operations are performed in the space R / as a function of the spatial position of the projections of the documents or on the basis of measurement of distance, that is to say by taking into account their degree of correlation or proximity as determined.
Le procédé selon l'invention peut par exemple être utilisé pour effectuer toute sorte d'opérations de tri, classement, classification des pages WEB résultant d'une recherche effectuée au moyen d'un moteur de recherche, les pages les plus originales, c'est-à-dire celles qui sont les plus éloignées des autres, étant par exemple classées en premier.The method according to the invention can for example be used to perform all sorts of sorting operations, classification, classification of WEB pages resulting from a search carried out by means of a search engine, the most original pages, it is that is, those that are furthest from each other, for example, being ranked first.
En alternative ou en combinaison, les pages sont triées par groupe, chaque groupe correspondant à un ensemble de pages dont les projections par la fonction X se trouvent dans une zone spatiale prédéfinie de la sphère de l'espace R/ . De préférence, dans cette variante, une partition de cette sphère en zones spatiales est définie, et les documents sont classés selon l'appartenance de leur projection à une des zones spatiales de la partition. Le procédé selon l'invention peut aussi être utilisé pour détecter la présence de "Spam", c'est-à-dire de pages qui pointent les unes sur les autres, car les projections de toutes ces pages sur la sphère S vont se retrouver sensiblement proches les unes des autres.As an alternative or in combination, the pages are sorted by group, each group corresponding to a set of pages whose projections by the function X are in a predefined space area of the sphere of the space R /. Preferably, in this variant, a partition of this sphere into spatial zones is defined, and the documents are classified according to the belonging of their projection to one of the spatial zones of the partition. The method according to the invention can also be used to detect the presence of "Spam", that is to say pages that point to each other, because the projections of all these pages on the sphere S will be found substantially close to each other.
Le procédé selon l'invention peut également être utilisé pour générer une représentation visuelle des pages WEB résultant d'une recherche effectuée au moyen d'un moteur de recherche.The method according to the invention can also be used to generate a visual representation of the WEB pages resulting from a search carried out by means of a search engine.
Selon une première variante du procédé, dans lequel au moins un des documents présente au moins un lien hypertexte vers au moins un autre document, le degré de corrélation entre deux documents u et v est déterminé en fonction du nombre de liens hypertextes et/ou du nombre de liens de cocitation, présents entre les documents u et v, le degré de corrélation étant d'autant plus élevé que ce nombre est élevé, l'absence de corrélation correspondant à l'absence de liens.According to a first variant of the method, in which at least one of the documents has at least one hypertext link to at least one other document, the degree of correlation between two documents u and v is determined as a function of the number of hypertext links and / or the number of cocitation bonds, present between the documents u and v, the degree of correlation being even higher than this number is high, the lack of correlation corresponding to the absence of links.
Cette première variante permet avantageusement la réalisation d'opérations de tri prenant en compte les liens hypertextes ou de cocitation entre documents. Selon une deuxième variante du procédé, le degré de corrélation entre deux documents u et v est déterminé en fonction d'une mesure de proximité des contenus sémantiques des documents u et v, le degré de corrélation étant d'autant plus élevé que cette mesure est faible, l'absence de corrélation correspondant à une mesure inférieure à un seuil prédéfini. Cette deuxième variante permet avantageusement la réalisation d'opérations de tri prenant en compte le contenu sémantique des documents.This first variant advantageously allows the realization of sorting operations taking into account the hypertext links or cocitation between documents. According to a second variant of the method, the degree of correlation between two documents u and v is determined as a function of a measure of proximity of the semantic contents of the documents u and v, the degree of correlation being all the greater as this measure is weak, the absence of correlation corresponding to a measurement lower than a predefined threshold. This second variant advantageously allows the realization of operations sorting that takes into account the semantic content of documents.
Selon une troisième variante, le degré de corrélation est déterminé en fonction des pages favorites définies par une pluralité d'utilisateurs. Dans ce cas, à chaque utilisateur est associé un ensemble de documents (ses pages favorites), le degré de corrélation entre deux documents u et v étant déterminé comme étant le nombre de tels ensembles auxquels appartiennent les documents u et v.According to a third variant, the degree of correlation is determined according to the favorite pages defined by a plurality of users. In this case, each user is associated with a set of documents (his favorite pages), the degree of correlation between two documents u and v being determined as the number of such sets to which the documents u and v belong.
Cette troisième variante permet avantageusement de tenir compte de profils utilisateur dans la détermination du degré de corrélation entre pages.This third variant advantageously makes it possible to take account of user profiles in determining the degree of correlation between pages.
Les trois variantes peuvent en outre être combinées en elles afin de déterminer un degré de corrélation qui tienne compte à la fois des liens hypertexte, du contenu sémantique et/ou de préférence utilisateurs. Tout autre type de lien entre deux documents est également utilisable pour la définition d'un degré de corrélation.The three variants can further be combined in them to determine a degree of correlation that takes into account both hypertext links, semantic content and / or user preferences. Any other type of link between two documents can also be used for the definition of a degree of correlation.
Selon un mode de réalisation particulier, le procédé comprenant en outre:According to a particular embodiment, the method further comprising:
- une étape de définition d'une fonction initiale Z0 de projection dudit ensemble sur ladite sphère,a step of defining an initial function Z 0 for projecting said set onto said sphere,
- une étape de détermination d'une fonction Z de projection dudit l'ensemble sur ladite sphère, ladite fonction Z de projection étant obtenue à partir de la fonction initiale Z0 en au moins une itération, chaque itération consistant à déterminer une fonction Z1 à partir de la fonction Z1-1 obtenue à l'itération précédente en remplaçant, pour au moins un document u dudit l'ensemble, la valeur de Z1-1 (w) par la valeur X1 (w) permettant d'optimiser un critère prédéfini qui est fonction de la valeur de Z^1 (W) ainsi que des valeurs de Z1-1 (V) et des degrés de corrélation ω{u,v) entre les documents u et v pour tout document v appartenant audit l'ensemble. Le procédé selon l'invention se prête à une détermination itérative de la fonction X, ce qui simplifie sa mise en œuvre et permet de contrôler avec précision la convergence du procédé.a step of determining a projection function Z of said set on said sphere, said projection function Z being obtained from the initial function Z 0 in at least one iteration, each iteration consisting in determining a function Z 1 from the function Z 1-1 obtained at the preceding iteration by replacing, for at least one document u of said set, the value of Z 1-1 (w) by the value X 1 (w) allowing to optimize a predefined criterion which is a function of the value of Z ^ 1 (W) as well as values of Z 1-1 (V) and degrees of correlation ω {u, v) between the documents u and v for any document v belonging to the whole audit. The method according to the invention lends itself to an iterative determination of the X function, which simplifies its implementation and makes it possible to precisely control the convergence of the method.
De préférence la fonction Z0 est définie de manière aléatoire. Le fait de partir d'une fonction aléatoire améliore statistiquement la vitesse de convergence vers la fonction X souhaitée, et ce sans avoir besoin d'une connaissance a priori sur la fonction à obtenir.Preferably the function Z 0 is defined randomly. Starting from a random function statistically improves the speed of convergence to the desired X function, without the need for prior knowledge of the function to be obtained.
Dans ce mode de réalisation, l'optimisation du critère prédéfini consiste à maximiser pour le document u la valeur d'une quantité Δ(w) égale à :In this embodiment, the optimization of the predefined criterion consists in to maximize for the document u the value of a quantity Δ (w) equal to:
A(u) = 2 ^(M'V)|U;_I (M)-^;_I (V)|| -A (u) = 2 ^ ( M ' V ) | U; _ I (M) - ^; I (V) || -
{».v}e£ M ' X l l " avec δ(u,v) = \-ω(u,v) , 0 ≤ ω(u,v) ≤ l , ω(u,v) =O en l'absence de corrélation entre les documents u et v, la valeur X1 (u) étant égale à X1 Qt) = -Y(U) avec{».V} e £ M ' X ll " with δ (u, v) = \ -ω (u, v), 0 ≤ ω (u, v) ≤ l, ω (u, v) = O in l absence of correlation between the documents u and v, the value X 1 (u) being equal to X 1 Qt) = -Y (U) with
Y(U) = ∑ ^,V)X1-1(V) si Y(U) ≠ O , veV-{»} la valeur X1 (w) étant égale à X1-1 (M) si F(CZ) = O .Y (U) = Σ ^, V) X 1-1 (V) if Y (U) ≠ O, veV- {"} the value X 1 (w) being equal to X 1-1 (M) if F ( CZ) = O.
L'invention a également pour objet un programme d'ordinateur sur un support d'informations lisible par un système informatique, ledit programme comprenant des instructions pour mettre en œuvre un procédé selon l'invention tel que brièvement défini supra, lorsque ce programme est chargé puis exécuté par un système informatique.The invention also relates to a computer program on an information medium readable by a computer system, said program comprising instructions for implementing a method according to the invention as briefly defined above, when this program is loaded. then executed by a computer system.
L'invention a également pour objet un dispositif de traitement de données, comprenant des moyens de traitement de données pour l'exécution des étapes d'un procédé selon l'invention. Un tel dispositif est par exemple un serveur informatique mettant en œuvre un moteur de recherche de documents.The invention also relates to a data processing device comprising data processing means for executing the steps of a method according to the invention. Such a device is for example a computer server implementing a document search engine.
L'invention a également pour objet un support d'enregistrement, lisible par un système informatique, comprenant un programme comprenant des instructions de code de programme pour la mise en œuvre d'un procédé selon l'invention lorsque ledit programme est exécuté par un système informatique.The invention also relates to a recording medium, readable by a computer system, comprising a program comprising program code instructions for implementing a method according to the invention when said program is executed by a system. computer science.
D'autres buts, caractéristiques et avantages de l'invention apparaîtront à travers la description qui va suivre, donnée uniquement à titre d'exemple non limitatif, et faite par référence aux dessins annexés sur lesquels la figure 1 est un organigramme d'un mode de réalisation du procédé selon l'invention.Other objects, features and advantages of the invention will become apparent from the description which will follow, given solely by way of nonlimiting example, and made with reference to the appended drawings in which FIG. 1 is a flowchart of a mode. embodiment of the method according to the invention.
Le procédé selon l'invention est appliqué à un ensemble de documents électroniques, notamment un ensemble de pages WEB, comportant pour certaines un ou plusieurs liens hypertextes vers une ou plusieurs autres pages.The method according to the invention is applied to a set of electronic documents, in particular a set of WEB pages, some of which contain one or more hypertext links to one or more other pages.
Dans le mode de réalisation choisi et illustré, le degré de corrélation entre deux documents u et v de l'ensemble de documents V est déterminé en fonction du nombre de liens hypertextes et de liens de cocitation existant entre les documents u et v. Pour la détermination du nombre de liens hypertextes entre deux documents, il n'est pas tenu compte du sens des liens hypertextes et on considère des liens hypertextes "symétrisés", c'est-à-dire que l'on traite de la même façon le cas où le document u comporte un lien vers le document v et le cas où le document v comporte un lien vers le document u.In the embodiment chosen and illustrated, the degree of correlation between two documents u and v of the set of documents V is determined as a function of the number of hypertext links and cocitation links existing between the documents u and v. For the determination of the number of hypertext links between two documents, the meaning of the hypertext links is not taken into account and "symmetrized" hypertext links are considered, that is to say that one treats in the same way the case where the document u has a link to the document v and the case where the document v has a link to the document u.
Deux documents u et v possèdent un lien de cocitation s'il existe au moins un autre document w tel que:Two documents u and v have a cocitation link if there is at least one other document w such that:
- il existe au moins un lien hypertexte pointant de w vers u, etthere is at least one hypertext link pointing from w to u, and
- il existe au moins un lien hypertexte pointant de w vers v, Les étapes du procédé selon l'invention sont maintenant décrites plus en détail par référence à la figure 1.there is at least one hypertext link pointing from w to v. The steps of the method according to the invention are now described in more detail with reference to FIG.
L'étape S100 consiste à déterminer pour tout couple (u,v) de documents de l'ensemble V un poids a\ {u,v) qui est fonction du nombre de liens hypertextes entre les documents u et v. De préférence, la fonction ωλ {u,v) est une fonction croissante du nombre de liens hypertextes entre les documents u et v.Step S100 consists in determining for any pair (u, v) of documents of set V a weight a \ {u, v) which is a function of the number of hypertext links between documents u and v. Preferably, the function ω λ {u, v) is an increasing function of the number of hypertext links between the documents u and v.
De préférence, la valeur de a\ {u,v) est comprise entre une valeur minimale prédéfinie (typiquement 0) et une valeur maximale prédéfinie (typiquement 1 ). Dans ce cas, la valeur minimale correspond à l'absence de lien hypertexte entre les documents u et v, et la valeur maximale correspond par exemple à la présence d'un nombre minimal prédéfini de liens hypertextes entre les documents u et v.Preferably, the value of a \ {u, v) is between a predefined minimum value (typically 0) and a predefined maximum value (typically 1). In this case, the minimum value corresponds to the absence of a hypertext link between the documents u and v, and the maximum value corresponds for example to the presence of a predetermined minimum number of hypertext links between the documents u and v.
Selon un premier exemple, la valeur de a\ (u,v) est choisie égale à 0 en l'absence de lien hypertexte et égale à 1 en présence d'au moins un lien hypertexte entre les documents u et v.According to a first example, the value of a \ (u, v) is chosen equal to 0 in the absence of hypertext link and equal to 1 in the presence of at least one hypertext link between the documents u and v.
Selon un deuxième exemple, la valeur de o\ (u,v) est choisie égale à 0 en l'absence de lien hypertexte, égale à 0,5 en présence d'un lien hypertexte unique entre les documents u et v et égale à 1 en présence de deux liens hypertextes ou plus entre les documents u et v.According to a second example, the value of o \ (u, v) is chosen equal to 0 in the absence of hypertext link, equal to 0.5 in the presence of a single hypertext link between the documents u and v and equal to 1 in the presence of two or more hypertext links between documents u and v.
Selon un troisième exemple, la valeur de a\ (u,v) est définie comme une fonction continûment croissante du nombre Nh de liens hypertextes entre les documents u et v, par exemple:According to a third example, the value of a \ (u, v) is defined as a continuously increasing function of the number N h of hypertext links between the documents u and v, for example:
où Nhmax est un seuil plafonnant le nombre Nh de liens hypertextes. L'étape S105 consiste à déterminer pour tout couple (u,v) de documents de l'ensemble V un poids ω2 (u,v) qui est fonction du nombre de liens de cocitation entre les documents u et v. De préférence, la fonction ω2 (u,v) est une fonction croissante du nombre de liens de cocitation entre les documents u et v. Les exemples de définition de fonction donnés pour a\ (u,v) sont transposables à ω2 (u,v) . Par exemple, la valeur de ω2 (u,v) est choisie égale à 0 en l'absence de lien de cocitation et égale à 1 en présence d'au moins un lien de cocitation entre les documents u et v. where N hm a x is a threshold capping the number N h of hypertext links. Step S105 consists in determining for any pair (u, v) of documents of set V a weight ω 2 (u, v) which is a function of the number of cocitation links between documents u and v. Preferably, the function ω 2 (u, v) is an increasing function of the number of cocitation links between the documents u and v. The function definition examples given for a \ (u, v) are transposable to ω 2 (u, v). For example, the value of ω 2 (u, v) is chosen equal to 0 in the absence of a cocitation link and equal to 1 in the presence of at least one cocitation link between the documents u and v.
L'étape S1 10 consiste à déterminer pour tout couple (u,v) de documents le degré de corrélation ω{u,v) associé à un couple {w,v} par la relation ω(u,v} = ^u)1(U, v) + k2ω2(u,v) , k1 et k2 étant des coefficients réels tels que, 0 < Ic1 ≤ 1 , 0 ≤ *2 ≤ l , Jk1 -I- Jt2 = I .Step S1 consists in determining for each pair (u, v) of documents the degree of correlation ω {u, v) associated with a pair {w, v} by the relation ω (u, v} = u). 1 (U, v) + k 2 ω 2 (u, v), where k1 and k2 are real coefficients such that, 0 <Ic 1 ≤ 1, 0 ≤ * 2 ≤ 1, Jk 1 -I-Jt 2 = I .
Le degré de corrélation ω(u,v) prend ainsi des valeurs réelles comprises entre 0 et 1 , la valeur 0 correspondant à l'absence de liens.The degree of correlation ω (u, v) thus takes real values between 0 and 1, the value 0 corresponding to the absence of links.
La valeur donnée au coefficient k1 sera choisie d'autant plus élevée qu'on souhaite donner de l'importance à la présence de liens hypertextes. A contrario, la valeur donnée au coefficient k2 sera choisie d'autant plus élevée qu'on souhaite donner de l'importance à la présence de liens de cocitation.The value given to the coefficient k1 will be chosen all the more high if one wishes to give importance to the presence of hypertext links. On the other hand, the value given to the coefficient k2 will be chosen all the more high if we wish to give importance to the presence of cocitation bonds.
Cette méthode de détermination du degré de corrélation entre les documents permet de prendre en compte, dans le procédé de classification de documents selon l'invention, deux types de liens entre documents: les liens hypertextes et les liens de cocitation.This method of determining the degree of correlation between the documents makes it possible to take into account, in the document classification method according to the invention, two types of links between documents: the hypertext links and the cocitation links.
Cette méthode se généralise à d'autres types de liens. Par exemple, on peut définir que deux documents u et v sont liés entre eux par un lien hypertexte indirect s'il existe un ou plusieurs liens hypertextes permettant de passer de u à v, le nombre de liens hypertextes étant dans ce cas supérieur ou égal à 2. Selon un autre exemple, on peut considérer les liens de type sémantique entre les documents. Dans ce cas, la détermination du degré de corrélation entre deux documents est effectuée sur la base d'une analyse et d'une comparaison du contenu sémantique des deux documents. Dans ce but, des méthodes connues de comparaison de contenu sémantique sont applicables. Le degré de corrélation représente alors une mesure de la proximité sémantique entre les deux documents. Le degré de corrélation sémantique peut être déterminé par exemple sur la base d'une analyse et comparaison statistique des mots contenus dans chacun des documents. En variante, il est possible de définir une distance entre deux documents et de définir le degré de corrélation comme une fonction décroissante de la distance définie, de manière à ce que plus la distance entre deux documents est faible et plus le degré de corrélation entre ces documents est élevé. La méthode est généralisable enfin à un nombre quelconque de liens, quel que soit leur type. Le degré de corrélation entre deux documents est alors déterminé comme une somme pondérée de degrés de corrélation élémentaires, par exemple une somme d'un degré de corrélation fonction du nombre de liens de cocitation entre les deux documents et d'un degré de corrélation fonction des contenus sémantiques des deux documents. La méthode permet la prise en compte simultanée des informations apportées par les liens hypertextes entre documents et par le contenu sémantique des documents.This method is generalized to other types of links. For example, we can define that two documents u and v are linked to each other by an indirect hypertext link if there exists one or more hypertext links making it possible to go from u to v, the number of hypertext links being in this case greater than or equal to to 2. According to another example, one can consider the links of semantic type between the documents. In this case, the determination of the degree of correlation between two documents is made on the basis of an analysis and a comparison of the semantic content of both documents. For this purpose, known semantic content comparison methods are applicable. The degree of correlation then represents a measure of the semantic proximity between the two documents. The degree of semantic correlation can be determined for example on the basis of a statistical analysis and comparison of the words contained in each of the documents. As a variant, it is possible to define a distance between two documents and to define the degree of correlation as a decreasing function of the defined distance, so that the smaller the distance between two documents, the greater the degree of correlation between these two documents. documents is high. The method is generalizable finally to any number of links, whatever their type. The degree of correlation between two documents is then determined as a weighted sum of elementary correlation degrees, for example a sum of a degree of correlation function of the number of cohesive links between the two documents and a degree of correlation function of semantic contents of both documents. The method allows the simultaneous taking into account of information provided by hypertext links between documents and by the semantic content of documents.
De retour à la figure 1 , les étapes S120 à S135 suivantes consistent à déterminer une fonction X de projection entre l'ensemble V de documents et une sphère S de l'ensemble R/ (puissance cartésienne d-ième de R où R désigne l'ensemble des nombres réels et d est un entier positif). De préférence d est choisi égal à 2 ou à 3.Returning to FIG. 1, the following steps S120 to S135 consist in determining a projection function X between the set V of documents and a sphere S of the set R / (Cartesian power d-th of R, where R denotes l set of real numbers and d is a positive integer). Preferably d is chosen equal to 2 or 3.
La fonction X déterminée est telle que, pour au moins un document u, la distance dans R ^ entre deux points X (u) et X (v) où v est un document pour il y a corrélation entre les documents u et v, est d'autant plus petite que le degré de corrélation est élevé.The determined function X is such that, for at least one document u, the distance in R ^ between two points X (u) and X (v) where v is a document for the correlation between the documents u and v, is even smaller as the degree of correlation is high.
Selon un mode de réalisation particulier, on utilise un processus itératif pour la détermination de la fonction X. Chaque itération de ce processus itératif consiste à déterminer une fonction X1 à partir de la fonction X1-1 obtenue à l'étape précédente, en remplaçant, pour au moins un document u de l'ensemble V, la valeur de X1-1 [U) par la valeur de X1 (w) permettant d'optimiser un critère prédéfini ; ce critère est d'une part fonction de la valeur de X1-1 (U) obtenue pour le document u considéré et des valeurs des -X",_i (v) obtenues pour tout document v de l'ensemble V, et d'autre part, fonction des degrés de corrélation ω(u,v) entre le document u et n'importe quel document v de l'ensemble V. Le critère est choisi de manière à faire converger la suite des fonctions X1 vers une fonction X présentant les propriétés énoncées plus haut. De préférence, l'optimisation dudit critère prédéfini consiste à maximiser pour un document u donné la valeur d'une quantité Δ(w) égale à,According to a particular embodiment, an iterative process is used for the determination of the function X. Each iteration of this iterative process consists in determining a function X 1 from the function X 1-1 obtained in the preceding step, in replacing, for at least one document u of the set V, the value of X 1-1 [U) by the value of X 1 (w) making it possible to optimize a predefined criterion; this criterion is on the one hand a function of the value of X 1-1 (U) obtained for the document u considered and values of -X " , _i (v) obtained for any document v of the set V, and of 'other on the other hand, a function of the degrees of correlation ω (u, v) between the document u and any document v of the set V. The criterion is chosen so as to converge the sequence of functions X 1 to an X function presenting the properties listed above. Preferably, the optimization of said predefined criterion consists in maximizing for a given document u the value of a quantity Δ (w) equal to,
|2| 2
A(u) = ∑ δ(u,v) X(κ)-X(iA (u) = Σ δ (u, v) X (κ) -X (i
{w.vje£ avec δ(u,v) = \-ω(u,v) , 0 ≤ ω(u,v) ≤ l , et ω(u,v) =0 en l'absence de corrélation entre les documents u et v. A l'étape S120, la fonction initiale Z0 de projection est déterminée. De préférence, la fonction initiale Z0 prend des valeurs aléatoires sur la sphère S. Le processus itératif est ensuite appliqué à la fonction courante X1 = X0 .{w.vje £ with δ (u, v) = \ -ω (u, v), 0 ≤ ω (u, v) ≤ l, and ω (u, v) = 0 in the absence of correlation between documents u and v. In step S120, the initial projection function Z 0 is determined. Preferably, the initial function Z 0 takes random values on the sphere S. The iterative process is then applied to the current function X 1 = X 0 .
A partir de l'étape S125 commence le processus itératif de détermination de la fonction de projection X. Une itération correspond à l'exécution des étapes S125, S130 et S135. Les itérations sont indexées par l'indice i. A la fin de l'étape S120 l'indice i prend sa valeur initiale et vaut 0.From step S125 begins the iterative process of determining the projection function X. An iteration corresponds to the execution of steps S125, S130 and S135. The iterations are indexed by the index i. At the end of step S120 the index i takes its initial value and is 0.
A l'étape S125 cet indice est incrémenté : i= i+1.In step S125 this index is incremented: i = i + 1.
A l'étape S130, les opérations suivantes sont effectuées pour au moins un document u: - on détermine la valeur de Y(U) = ∑ S(^v)X1-1(V) véV-iu}In step S130, the following operations are performed for at least one document u: the value of Y (U) = Σ S (v v) X 1-1 (V) vev-iu is determined;
- si Y(U) ≠ O , on calcule X, (u) à partir de Y(U) par Z» = -y(£/)/|y(£/)| ,- if Y (U) ≠ O, we calculate X, (u) from Y (U) by Z "= -y (£ /) / | y (£ /) | ,
- si Y(U) = 0 , on prend X1 (u) égal à Z1-1 (u) .if Y (U) = 0, we take X 1 (u) equal to Z 1-1 (u).
A l'étape S135, on détermine si le processus itératif prend fin. De préférence, le processus est itéré un nombre suffisant de fois pour que la fonction X soit modifiée au moins une fois pour chaque document u de l'ensemble V.In step S135, it is determined whether the iterative process terminates. Preferably, the process is iterated a sufficient number of times for the function X to be modified at least once for each document u of the set V.
La suite des fonctions Z1 convergeant rapidement, même avec une fonction de départ aléatoire, il est possible d'itérer un nombre limité de fois sur l'ensemble des documents.The sequence of Z 1 functions converging quickly, even with a random start function, it is possible to iterate a limited number of times on all the documents.
La décision d'arrêter les itérations peut également être basée sur: - le nombre d'itérations déjà effectuées, - une mesure de la convergence de la fonction, effectuée après chaque itération.The decision to stop the iterations can also be based on: - the number of iterations already carried out, a measure of the convergence of the function, carried out after each iteration.
Cette mesure de la convergence peut s'effectuer en calculant après chaque itération la somme Δ( de la manière suivante : Δ, = ∑|X, (M)- X,^)!This measure of the convergence can be carried out by calculating after each iteration the sum Δ ( in the following way: Δ, = Σ | X, ( M ) - X, ^)!
et en fixant une valeur de seuil, éventuellement fonction du nombre de documents u de l'ensemble V, en dessous de laquelle le processus itératif s'arrête.and setting a threshold value, possibly depending on the number of documents u of the set V, below which the iterative process stops.
Si, à l'étape S135, la décision d'arrêter le processus itératif est prise, on exécute ensuite l'étape S140; sinon on exécute l'itération suivante, à partir de l'étape S125.If, in step S135, the decision to stop the iterative process is taken, then step S140 is executed; otherwise, the next iteration is executed from step S125.
A l'étape S140, on effectue une opération de tri sur au moins une partie de l'ensemble V des documents en fonction des valeurs prises par la fonction X obtenu à la dernière itération.In step S140, a sorting operation is performed on at least a part of the set V of the documents as a function of the values taken by the function X obtained at the last iteration.
Grâce à la fonction X de projection déterminée, la position d'un points X(u) sur la sphère S est fonction des liens du document u avec les autres documents. En particulier la distance entre deux points est représentative de degré de corrélation entre les documents correspondant à ces deux points.Thanks to the determined projection function X, the position of a point X (u) on the sphere S is a function of the links of the document u with the other documents. In particular, the distance between two points is representative of the degree of correlation between the documents corresponding to these two points.
Il est envisageable d'utiliser d'autres critères mathématiques pour faire converger la fonction aléatoire initiale vers une telle fonction. Dans le cas où l'ensemble V est un ensemble de pages WEB résultant d'une recherche effectuée au moyen d'un moteur de recherche, cette opération de tri peut viser à:It is conceivable to use other mathematical criteria to converge the initial random function to such a function. In the case where the set V is a set of WEB pages resulting from a search carried out by means of a search engine, this sorting operation may aim at:
- sélectionner les pages les plus originales, en détectant les pages ayant les projections les plus éloignées des autres projections; - filtrer les pages contenant des "Spam" (pages qui pointent les unes sur les autres) en détectant les pages dont les projections sont sensiblement proches des projections d'un groupe de pages;- select the most original pages, by detecting pages with projections farthest from other projections; - filter the pages containing "Spam" (pages that point to each other) by detecting the pages whose projections are substantially close to the projections of a group of pages;
- sélectionner les pages dont les projections répondent à un critère déterminé. Selon une première variante, l'opération de tri comprend les opérations suivantes:- select the pages whose projections meet a certain criterion. According to a first variant, the sorting operation comprises the following operations:
- calcul pour tout couple {w,v} de l'ensemble V de la valeur de la distance d(u,v) = \\x (u)-X (v)\\ ,computation for any pair {w, v} of the set V of the value of the distance d (u, v) = \\ x (u) -X (v) \\,
- détermination d'au moins un sous-ensemble V1 de l'ensemble V sur lequel la valeur d (u,v) répond à un critère prédéfini, par exemple en étant supérieure ou inférieure à un seuil prédéfini.determination of at least one subset V 1 of the set V on which the value d (u, v) meets a predefined criterion, for example by being greater or less than a predefined threshold.
Cette première variante permet de détecter des clusters de points sur la sphère et donc de déterminer les clusters correspondants de documents. Selon une deuxième variante l'opération de tri comprend l'opération consistant à déterminer un sous-ensemble V1 pour lequel tout point X(u) appartient à un ensemble déterminé, par exemple à une zone prédéfinie de l'espace dans R/ .This first variant makes it possible to detect clusters of points on the sphere and thus to determine the corresponding clusters of documents. According to a second variant, the sorting operation comprises the operation of determining a subset V 1 for which any point X (u) belongs to a given set, for example to a predefined area of the space in R /.
Cette zone peut être par exemple le volume intérieur d'une sphère, d'un cube, ou encore une surface définie sur la sphère S de Rd . En répétant cette opération pour plusieurs zones prédéfinies, il est possible de constituer des partitions ou une segmentation de l'ensemble des documents.This zone may be for example the interior volume of a sphere, a cube, or a surface defined on the sphere S of R d . By repeating this operation for several predefined zones, it is possible to create partitions or a segmentation of all the documents.
Le procédé selon l'invention permet ainsi d'effectuer toute sorte d'opérations de tri sur un ensemble de documents, sur la base des valeurs prises par la fonction X déterminée. En outre, on peut démontrer que le processus de détermination de la fonctionThe method according to the invention thus makes it possible to perform all sorts of sorting operations on a set of documents, on the basis of the values taken by the determined function X. In addition, it can be demonstrated that the process of determining the function
X converge rapidement.X converges quickly.
De plus, le temps de calcul d'une itération de ce processus est proportionnel au nombre de liens hypertextes lorsque le degré de corrélation est déterminé en fonction de ce nombre de liens hypertextes. Le procédé de l'invention peut donc être utilisé sur un grand nombre de pages.In addition, the calculation time of an iteration of this process is proportional to the number of hypertext links when the degree of correlation is determined as a function of this number of hypertext links. The method of the invention can therefore be used on a large number of pages.
Enfin, en cas de modification de l'ensemble des documents électroniques, (par ajout de document, suppression de document ou modification de liens entre documents), il suffit de partir de la fonction X obtenue pour l'ensemble non modifié, puis de procéder à l'exécution de l'étape 130 pour quelques documents choisis (de préférence au moins pour les documents ayant fait l'objet de modification ou ayant été rajoutés) pour déterminer une fonction X corrigée et qui prend en compte l'ensemble modifié des documents électroniques. L'invention est donc particulièrement adaptée au traitement d'ensembles contenant un grand nombre de documents, dont une partie est régulièrement mise à jour. Dans une variante du procédé selon l'invention, il est généré une représentation graphique de la fonction X, c'est-à-dire une représentation de ladite sphère et des points X(u) situés sur ladite sphère. Le fait de générer une telle représentation graphique permet de faciliter la sélection par l'utilisateur d'ensembles de documents pertinents. Cette représentation peut se faire par exemple sous forme d'une représentation cartographique en deux dimensions, dans laquelle chaque document est matérialisé par un symbole graphique correspondant à la valeur de la fonction X déterminée pour ce document.Finally, in case of modification of all the electronic documents, (by adding document, deleting a document or modifying links between documents), it suffices to start from the function X obtained for the unmodified set, then to proceed at the execution of step 130 for some selected documents (preferably at least for documents that have been modified or added) to determine a function X corrected and that takes into account the modified set of documents e. The invention is therefore particularly suitable for processing sets containing a large number of documents, a part of which is regularly updated. In a variant of the method according to the invention, there is generated a graphical representation of the function X, that is to say a representation of said sphere and points X (u) located on said sphere. Generating such a graphical representation makes it easier for the user to select relevant sets of documents. This representation can be done for example in the form of a two-dimensional cartographic representation, in which each document is represented by a graphic symbol corresponding to the value of the function X determined for this document.
L'invention se prête ainsi à un mode de réalisation dans lequel cette représentation graphique est affichée sur un terminal informatique d'utilisateur, comprenant un écran d'affichage et un outil de sélection graphique (par exemple une souris utilisée en combinaison avec un pointeur permettant de définir des zones graphiques sur l'écran), cet outil étant approprié pour la sélection d'au moins une partie de la représentation graphique.The invention thus lends itself to an embodiment in which this graphic representation is displayed on a user's computer terminal, comprising a display screen and a graphic selection tool (for example a mouse used in combination with a pointer allowing define graphic areas on the screen), this tool being suitable for selecting at least a portion of the graphical representation.
L'utilisateur est alors en mesure d'effectuer une sélection d'une ou de plusieurs parties de la représentation graphique correspondant à un ou plusieurs ensembles, choisis par lui, de documents. Le terminal obtient via l'outil de sélection graphique des données définissant les parties sélectionnées. En fonction de ces données, le terminal trie l'ensemble V des documents. Il génère par exemple une liste réduite de documents, correspondant aux documents dont la projection se situe dans les parties sélectionnées par l'utilisateur. En alternative, les documents dont la projection se situe dans les parties sélectionnées sont au contraire éliminés. A partir de la liste de documents retenus par l'utilisateur, peut s'effectuer des opérations supplémentaires de tri, ces opérations étant soient effectuées automatiquement sur la base des propriétés de documents ou de leur degré de corrélation, soient effectuées manuellement, sur la base de nouvelles parties sélectionnées à l'intérieur des parties initialement sélectionnées.The user is then able to make a selection of one or more parts of the graphical representation corresponding to one or more sets, chosen by him, of documents. The terminal obtains via the graphical selection tool data defining the selected parts. According to these data, the terminal sorts the set V of the documents. For example, it generates a reduced list of documents, corresponding to documents whose projection is in the parts selected by the user. Alternatively, the documents whose projection is in the selected parts are instead eliminated. From the list of documents retained by the user, additional sorting operations can be performed, these operations being performed automatically on the basis of document properties or their degree of correlation, or performed manually, based on new parts selected within the initially selected parts.
Ce mode de visualisation des résultats d'une recherche effectuée par un moteur de recherche est particulièrement ergonomique pour l'utilisateur. Elle fait apparaître des communautés de documents, sous forme d'ensemble de points proches les uns des autres,This mode of viewing the results of a search performed by a search engine is particularly ergonomic for the user. It brings up communities of documents, as a set of points close to each other,
La représentation par projection telle que définie dans l'invention permet donc d'effectuer un tri ou une classification, soit visuellement et manuellement au moyen d'un outil de sélection graphique, soit automatiquement, selon des critères prédéfinis liés à la position de ces documents dans la représentation générée. Selon une implémentation préférée, les étapes du procédé de tri de documents électroniques, selon l'invention, sont déterminées par des instructions d'un programme d'ordinateur.The projection representation as defined in the invention therefore makes it possible to sort or classify, either visually and manually by means of a graphic selection tool, or automatically, according to predefined criteria related to the position of these documents. in the generated representation. According to a preferred implementation, the steps of the method of sorting electronic documents, according to the invention, are determined by instructions of a computer program.
On entend ici par "programme d'ordinateur" un ou plusieurs programmes d'ordinateur formant un ensemble (logiciel) dont la finalité est la mise en œuvre de l'invention lorsqu'il est exécuté par un système informatique approprié. Le procédé selon l'invention est alors mis en œuvre lorsque le programme précité est chargé dans des moyens informatiques incorporés, par exemple, dans un terminal utilisateur relié le cas échéant à un réseau de type Internet et équipé d'un logiciel de navigation Internet. En conséquence, l'invention a également pour objet un tel programme d'ordinateur, en particulier sous la forme d'un logiciel stocké sur un support d'informations. Un tel support d'informations peut être constitué par n'importe quelle entité ou dispositif capable de stocker un programme selon l'invention.The term "computer program" herein refers to one or more computer programs forming a set (software) whose purpose is the implementation of the invention when it is executed by an appropriate computer system. The method according to the invention is then implemented when the aforesaid program is loaded in computer means incorporated, for example, in a user terminal connected if necessary to an Internet type network and equipped with Internet browser software. Accordingly, the invention also relates to such a computer program, particularly in the form of software stored on an information carrier. Such an information carrier may be constituted by any entity or device capable of storing a program according to the invention.
Par exemple, le support en question peut comporter un moyen de stockage matériel, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple un disque dur. En variante, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question. D'autre part, le support d'informations peut être aussi un support immatériel transmissible, tel qu'un signal électrique ou optique pouvant être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Un programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.For example, the medium in question may comprise a hardware storage means, such as a ROM, for example a CD ROM or a microelectronic circuit ROM, or a magnetic recording means, for example a hard disk. As a variant, the information carrier may be an integrated circuit in which the program is incorporated, the circuit being adapted to execute or to be used in the execution of the method in question. On the other hand, the information medium can also be a transmissible immaterial medium, such as an electrical or optical signal that can be conveyed via an electrical or optical cable, by radio or by other means. A program according to the invention can in particular be downloaded to an Internet type network.
D'un point de vue conception, un programme d'ordinateur selon l'invention peut utiliser n'importe quel langage de programmation et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet (par ex., une forme partiellement compilée), ou dans n'importe quelle autre forme souhaitable pour implémenter un procédé selon l'invention. From a design point of view, a computer program according to the invention can use any programming language and be in the form of source code, object code, or intermediate code between source code and object code (for example eg, a partially compiled form), or in any other form desirable for implementing a method according to the invention.

Claims

REVENDICATIONS
1. Procédé de tri d'un ensemble de documents électroniques, comprenant:A method of sorting a set of electronic documents, comprising:
- une étape de comptage de liens hypertexte ou de cocitations présents entre chaque couple de documents {u,v} dudit ensemble,a step of counting hypertext links or cocitations present between each pair of documents {u, v} of said set,
- une étape de détermination (S110), pour chaque couple de documents {u,v) dudit ensemble, d'un degré de corrélation ω(u,v) entre les documents u et v, ledit degré de corrélation étant fonction du nombre de liens obtenu à l'issue de l'étape de comptage,a determination step (S110), for each pair of documents {u, v) of said set, of a degree of correlation ω (u, v) between the documents u and v, said degree of correlation being a function of the number of links obtained at the end of the counting step,
- une étape de détermination (S120, S125, S130, S135), pour chaque document u dudit ensemble, d'un point X (u) associé situé sur une sphère de l'ensemble Ed où C est l'ensemble des réels et d est un entier positif, pour au moinsa determining step (S120, S125, S130, S135), for each document u of said set, of an associated point X (u) situated on a sphere of the set E , where C is the set of reals and d is a positive integer, for at least
un document u1 dudit ensemble la distance dans Cd entre les points x(ul) et x(u2) associés, où u2 est un document pour lequel il y a corrélation entre les documents u1 et u2, étant d'autant plus petite que le degré de corrélation entre les documents u1 et u2 est élevé, - une étape de tri (S140) d'au moins une partie dudit ensemble de documents en fonction des points déterminés sur ladite sphère.a document u1 of said set the distance in C d between the points x (ul) and x (u2) associated, where u2 is a document for which there is correlation between the documents u1 and u2, being all the smaller as the degree of correlation between the documents u1 and u2 is high, - a step of sorting (S140) at least a part of said set of documents according to the points determined on said sphere.
2. Procédé selon la revendication 1 , dans lequel au moins un desdits documents présente au moins un lien hypertexte vers au moins un autre document, le degré de corrélation entre deux documents u et v étant déterminé en fonction du nombre de liens hypertextes, et/ou du nombre de liens de cocitation, présents entre les documents u et v, le degré de corrélation étant d'autant plus élevé que ce nombre de liens est élevé, l'absence de corrélation correspondant à l'absence de liens.2. Method according to claim 1, wherein at least one of said documents has at least one hypertext link to at least one other document, the degree of correlation between two documents u and v being determined according to the number of hypertext links, and or the number of cocitation bonds, present between the documents u and v, the degree of correlation being even higher than the number of links is high, the lack of correlation corresponding to the absence of links.
3. Procédé selon la revendication 1 ou 2, dans lequel le degré de corrélation entre deux documents u et v est fonction d'une mesure de proximité des contenus sémantiques des documents u et v, le degré de corrélation étant d'autant plus élevé que ladite mesure est faible, l'absence de corrélation correspondant à une mesure inférieure à un seuil prédéfini. 3. Method according to claim 1 or 2, in which the degree of correlation between two documents u and v is a function of a measure of proximity of the semantic contents of the documents u and v, the degree of correlation being all the higher as said measurement is small, the absence of correlation corresponding to a measurement lower than a predefined threshold.
4. Procédé selon la revendication 1 ou 2, comprenant4. Process according to claim 1 or 2, comprising
- une étape de définition d'une (S120) fonction initiale Z0 de projection dudit ensemble sur ladite sphère,a step of defining an initial projection function (S120) Z 0 together on said sphere,
- une étape de détermination (S125, S130, S135) d'une fonction Z de projection dudit l'ensemble sur ladite sphère, ladite fonction Z de projection étant obtenue à partir de la fonction initiale Z0 en au moins une itération, chaque itération consistant à déterminer une fonction Z1 à partir de la fonction Z1-1 obtenue à l'itération précédente en remplaçant, pour au moins un document u dudit l'ensemble, la valeur de Z1-1 (^) par la valeur Xt (u) permettant d'optimiser un critère prédéfini qui est fonction de la valeur de Z1-1 (^) ainsi que des valeurs de Z1-1 (V) et des degrés de corrélation ω{u,v) entre les documents u et v pour tout document v appartenant audit l'ensemble.a determination step (S125, S130, S135) of a projection function Z of said set on said sphere, said projection function Z being obtained from the initial function Z 0 in at least one iteration, each iteration comprising determining a function Z 1 from the function Z 1-1 obtained at the preceding iteration by replacing, for at least one document u of said set, the value of Z 1-1 ()) by the value X t (u) allowing to optimize a predefined criterion which is a function of the value of Z 1-1 (^) as well as values of Z 1-1 (V) and degrees of correlation ω {u, v) between documents u and v for any document v belonging to the set.
5. Procédé selon la revendication 3 ou 4, dans lequel l'optimisation dudit critère prédéfini consiste à maximiser pour le document u la valeur d'une quantité Δ(M) égale à,5. Method according to claim 3 or 4, wherein the optimization of said predefined criterion consists in maximizing for the document u the value of a quantity Δ (M) equal to,
Δ(M) = 2 £(«>v) *._. (« )- Y. _. (v) -Δ (M) = 2 £ («> v) * ._. (") - Y. _. ( v ) -
{«.v}e£ " ' A ι ι u avec δ(u,v) - l-ω(u,v) , 0 ≤ ω(u,v) ≤ l , ω(u,v) =0 en l'absence de corrélation entre les documents u et v, la valeur X1 (u) étant égale à X, (u) = -Y(U)/\Y(U)\\ avec{«.V} e £"' A ι ι u with δ (u, v) - l-ω (u, v), 0 ≤ ω (u, v) ≤ l, ω (u, v) = 0 in the absence of correlation between the documents u and v, the value X 1 (u) being equal to X, (u) = -Y (U) / \ Y (U) \\ with
Y(U) = ∑ 5(M5V)X1-1(V) si Y(U) ≠ O , veV-{»} la valeur X1 (u) étant égale à Z1-1 (u) si Y(U) = 0.Y (U) = Σ 5 (M 5 V) X 1-1 (V) if Y (U) ≠ O, veV- {"} the value X 1 (u) being equal to Z 1-1 (u) if Y (U) = 0.
6. Procédé selon l'une quelconque des revendications précédentes, comportant en outre une étape consistant à générer une représentation graphique de ladite sphère et des points X(u) situés sur ladite sphère.The method of any one of the preceding claims, further comprising a step of generating a graphical representation of said sphere and X (u) points located on said sphere.
7. Procédé selon la revendication 6, comportant en outre les étapes consistant à:The method of claim 6, further comprising the steps of:
- afficher ladite représentation graphique sur un terminal,displaying said graphic representation on a terminal,
- fournir à un utilisateur du terminal un outil de sélection graphique approprié pour la sélection graphique d'au moins une partie de ladite représentation graphique, - obtenir des données définissant ladite au moins une partie sélectionnée par ledit utilisateur,providing a user of the terminal with an appropriate graphical selection tool for graphically selecting at least a portion of said graphical representation, obtaining data defining said at least one part selected by said user,
- effectuer un tri sur ledit ensemble de documents en fonction desdites données.sorting said set of documents according to said data.
8. Programme comprenant des instructions de code de programme enregistrées sur un support lisible par un système informatique pour mettre en œuvre un procédé selon l'une quelconque des revendications 1 à 7 lorsque ledit programme est exécuté par un système informatique.A program comprising program code instructions recorded on a computer readable medium for implementing a method as claimed in any one of claims 1 to 7 when said program is executed by a computer system.
9. Dispositif de traitement de données, comprenant des moyens de traitement de données pour l'exécution des étapes d'un procédé selon l'une quelconque des revendications 1 à 7.Data processing apparatus comprising data processing means for executing the steps of a method according to any one of claims 1 to 7.
10. Support d'enregistrement, lisible par un système informatique, comprenant un programme comprenant des instructions de code de programme pour la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 7 lorsque ledit programme est exécuté par un système informatique. A recording medium, readable by a computer system, comprising a program comprising program code instructions for implementing a method according to any of claims 1 to 7 when said program is executed by a system. computer science.
EP06808294A 2005-09-20 2006-09-07 Method for sorting a set of electronic documents Ceased EP1938219A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0552826 2005-09-20
PCT/FR2006/050856 WO2007034096A1 (en) 2005-09-20 2006-09-07 Method for sorting a set of electronic documents

Publications (1)

Publication Number Publication Date
EP1938219A1 true EP1938219A1 (en) 2008-07-02

Family

ID=36481229

Family Applications (1)

Application Number Title Priority Date Filing Date
EP06808294A Ceased EP1938219A1 (en) 2005-09-20 2006-09-07 Method for sorting a set of electronic documents

Country Status (5)

Country Link
US (1) US7827173B2 (en)
EP (1) EP1938219A1 (en)
JP (1) JP2009509259A (en)
CN (1) CN101268465B (en)
WO (1) WO2007034096A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4518168B2 (en) * 2008-03-21 2010-08-04 富士ゼロックス株式会社 Related document presentation system and program
WO2010078859A1 (en) * 2009-01-08 2010-07-15 Beel Joeran Method and system for detecting a similarity of documents
CN101937436B (en) * 2009-06-29 2013-09-25 华为技术有限公司 Text classification method and device
US9313284B2 (en) * 2013-03-14 2016-04-12 International Business Machines Corporation Smart posting with data analytics and semantic analysis to improve a message posted to a social media service
DK3436392T3 (en) 2016-03-31 2021-05-25 Nhlo Holding B V DECORATION WITH A ROTARY ARM AND A CONFIGURABLE SPRING
CN112528016B (en) * 2020-11-19 2024-05-07 重庆兆光科技股份有限公司 Text classification method based on low-dimensional spherical projection

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5808615A (en) * 1996-05-01 1998-09-15 Electronic Data Systems Corporation Process and system for mapping the relationship of the content of a collection of documents
US6453246B1 (en) * 1996-11-04 2002-09-17 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for representing proximity data in a multi-dimensional space
US5987470A (en) * 1997-08-21 1999-11-16 Sandia Corporation Method of data mining including determining multidimensional coordinates of each item using a predetermined scalar similarity value for each item pair
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
GB9811874D0 (en) * 1998-06-02 1998-07-29 Univ Brunel Information management system
JP2000076267A (en) * 1998-08-31 2000-03-14 Sharp Corp Information retrieval method, information retrieval device and computer readable recording medium recording information retrieval program
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
JP3604069B2 (en) * 1999-05-19 2004-12-22 日本電信電話株式会社 Apparatus for calculating relevance between documents, method therefor, and recording medium therefor
US6633868B1 (en) * 2000-07-28 2003-10-14 Shermann Loyall Min System and method for context-based document retrieval
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
JP4005798B2 (en) * 2001-12-05 2007-11-14 日本電信電話株式会社 Document relevance calculation device, recording medium, and software
US7194465B1 (en) * 2002-03-28 2007-03-20 Business Objects, S.A. Apparatus and method for identifying patterns in a multi-dimensional database
JP3904548B2 (en) * 2003-10-30 2007-04-11 チームラボ株式会社 Relevance display device, display method, and program
JP2005301786A (en) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> Evaluating apparatus, cluster generating apparatus, program, recording medium, evaluation method, and cluster generation method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2007034096A1 *

Also Published As

Publication number Publication date
US7827173B2 (en) 2010-11-02
WO2007034096A1 (en) 2007-03-29
CN101268465B (en) 2012-05-02
CN101268465A (en) 2008-09-17
JP2009509259A (en) 2009-03-05
US20080208860A1 (en) 2008-08-28

Similar Documents

Publication Publication Date Title
US7743047B2 (en) Accounting for behavioral variability in web search
US8161050B2 (en) Visualizing hyperlinks in a search results list
US20090158146A1 (en) Resizing tag representations or tag group representations to control relative importance
EP1902412A2 (en) Computer system which can be used to predict the future of a chronological set of numerical values
EP1184796A1 (en) Method of associative navigation in a multimedia database
CN110598086A (en) Article recommendation method and device, computer equipment and storage medium
EP2783303A1 (en) Prototype-based re-ranking of search results
WO2007034096A1 (en) Method for sorting a set of electronic documents
EP1746521A1 (en) Method of sorting a set of electronic documents of a type which may contain hypertext links to other electronic documents
US20100121844A1 (en) Image relevance by identifying experts
CN113239182A (en) Article recommendation method and device, computer equipment and storage medium
EP1766538A1 (en) Automatic search for similarities between images, including a human intervention
FR2817066A1 (en) Method for coding a mesh which represents a three dimensional object by wavelets, comprises a stage of suppressing wavelet coefficients which satisfy criteria of non-essentiality
EP2227755B1 (en) Method for analysing a piece of multimedia content and corresponding computer software product and analysis device
WO2010066774A1 (en) System for searching visual information
EP4143701A1 (en) Assessing similarity between items using embeddings produced using a distributed training framework
EP2180436B1 (en) Semi-supervised learning method system for data classification according to discriminating parameters
Sridhar et al. Envisaging prominence of Indian telecom operators using an ensemble link based approach
CN112182414A (en) Article recommendation method and device and electronic equipment
Gutiérrez-Soto Exploring the reuse of past search results in information retrieval
EP3114597B1 (en) Method for analysing a plurality of messages, and associated computer programme product and device
WO2019122664A1 (en) Method for improving the execution time of a computer application
FR2830958A1 (en) Indexing and comparing of multimedia documents such that documents can be compared without having to process the whole collection of data that make up the documents
Cheng et al. OSNI: Searching for Needles in a Haystack of Social Network Data.
EP1408428A1 (en) System and procedure in the processing and visualisation of search results produced by an index based search engine, interface model and corresponding meta-models

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20080403

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LI LT LU LV MC NL PL PT RO SE SI SK TR

17Q First examination report despatched

Effective date: 20080722

DAX Request for extension of the european patent (deleted)
RAP1 Party data changed (applicant data changed or rights of an application transferred)

Owner name: ORANGE

REG Reference to a national code

Ref country code: DE

Ref legal event code: R003

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION HAS BEEN REFUSED

18R Application refused

Effective date: 20160930