FR2952205A1 - Procede pour categoriser des documents lies par une expansion d'etiquettes formees simultanement. - Google Patents
Procede pour categoriser des documents lies par une expansion d'etiquettes formees simultanement. Download PDFInfo
- Publication number
- FR2952205A1 FR2952205A1 FR1004227A FR1004227A FR2952205A1 FR 2952205 A1 FR2952205 A1 FR 2952205A1 FR 1004227 A FR1004227 A FR 1004227A FR 1004227 A FR1004227 A FR 1004227A FR 2952205 A1 FR2952205 A1 FR 2952205A1
- Authority
- FR
- France
- Prior art keywords
- function
- component
- page
- functions
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Une pluralité de pages Web (100) contiennent chacune au moins un lien vers une autre page à l'intérieur du groupe. Un analyseur de fonctions (120) évalue des fonctions associées avec les une ou plusieurs pages Web afin d'identifier un contenu, une mise en page, des liens et/ou des métadonnées associées à la ou aux différentes pages Web, et il identifie des fonctions qui sont étiquetées et des fonctions qui ne le sont pas. Un composant de traçage (130) crée un vecteur associé à chaque fonction de page Web dans laquelle des vecteurs pour des fonctions non étiquetées sont déterminés grâce à leur proximité graphique avec des fonctions qui sont étiquetées. Un composant d'apprentissage simultané (140) reçoit le graphique de vecteurs provenant du composant de traçage et exerce une influence sur les fonctions disparates des pages Web afin de catégoriser chaque aspect de chaque fonction de la page. Un dispositif d'établissement de catégories de pages (150) reçoit des informations de la catégorisation d'aspects en provenance du composant d'apprentissage simultané et il établit une catégorie de la page Web au moins sur la base de ces informations.
Description
PROCÉDÉ POUR CATÉGORISER DES DOCUMENTS LIÉS PAR UNE EXPANSION D'ÉTIQUETTES FORMÉES SIMULTANÉMENT
L'invention se rapporte en général à un contenu à l'intérieur de documents Web liés. Dans un exemple particulier, un contenu non étiqueté à l'intérieur des documents liés est catégorisé par l'intermédiaire d'une expansion d'étiquettes formées simultanément On se rendra compte que les techniques décrites peuvent trouver application dans d'autres systèmes et/ou dans d'autres procédés.
À notre époque d'informations, les individus ont accès à une quantité et à une ampleur d'informations jamais possibles auparavant. Les informations peuvent être présentées par l'intermédiaire de pages Web liées entre elles contenant des articles postés par des utilisateurs, auxquelles il peut être fait accès par l'intermédiaire du réseau Internet. Les articles peuvent contenir une large plage de contenu y compris du texte, des images, de la vidéo, etc. se rapportant à des thèmes particuliers. Chaque article peut se voit assigner une ou plusieurs balises de métadonnées afin d'indiquer un thème et/ou un sujet particuliers se rapportant au contenu à l'intérieur de l'article.
De cette manière, des articles peuvent être étiquetés sur la base, au moins en partie, de telles balises afin de faciliter une organisation et une récupération ultérieures de ceux-ci. L'étiquetage manuel d'un contenu, cependant, prend du temps et est onéreux à la fois. Ainsi, un contenu étiqueté ne représente en général qu'une fraction de la quantité totale d'informations disponibles sur le réseau Internet en général et dans des documents liés en particulier. Si les informations ne sont pas étiquetées, des procédés alternatifs et en général inefficaces peuvent être utilisés pour essayer et identifier des informations pertinentes.
Dans un exemple, un moteur de recherche est utilisé comme une alternative à faible coût bien que les résultats puissent être difficile voire impossible pour effectuer une navigation. Par exemple, une page Web présentant un contenu pertinent peut être identifiée en même temps que des centaines d'autres pages Web renfermant un contenu non pertinent Ce problème est exacerbé par les sources volumineuses d'informations disponibles dans un nombre énorme de sites Web. Ce nombre continue à grossir à une vitesse d'environ 60 millions de nouvelles pages, annuellement. Une telle croissance rend impossible de revoir continuellement toutes les informations et de les étiqueter convenablement. De ce fait, la plupart de ce contenu n'est pas catégorisé et, par conséquent, il peut être difficile d'y accéder.
Ceci peut également être vrai pour des informations à l'intérieur de documents liés. Des documents liés contiennent des hyperliens à l'intérieur du texte d'un document qui fait l'objet d'un exposé dans un document disparate. Une telle liaison mutuelle peut fournir des références croisées pratiques vers un contenu ou des termes auxquels il est fait référence dans un article. Wikipédia est un exemple populaire de documents et de comptes liés pour environ 10 millions d'articles écrits en collaboration par des volontaires sur toute la planète. Presque tous les articles sont créés et réalisés par des utilisateurs qui accèdent au site Web Wikipédia en fonction de certaines politiques et directives. La majeure partie de ce contenu peut rester sans être placé dans une catégorie du fait que le nombre d'articles et de contributeurs est supérieur aux ressources disponibles permettant de catégoriser de telles informations. Ainsi, il est difficile, sinon impossible, d'identifier le contenu à l'intérieur de tous les articles de Wikipédia.
Des systèmes et des procédés sont nécessaires pour catégoriser un contenu, tels que des documents liés, disponibles sur le réseau Internet, afin de 30 faciliter un accès sans problème aux informations pertinentes.
Selon un premier aspect, un système facilite le placement en catégories d'un groupe de pages Web liées. Une pluralité de pages Web contiennent chacune au moins un lien vers une autre page à l'intérieur du groupe. Un analyseur de fonctions évalue des fonctions associées avec les une ou plusieurs pages Web afin d'identifier un contenu, une mise en page, des liens et/ou des métadonnées associées à la ou aux différentes pages Web, et il identifie des fonctions qui sont étiquetées et des fonctions qui ne le sont pas. Un composant de traçage crée un vecteur associé à chaque fonction de page Web dans laquelle des vecteurs pour des fonctions non étiquetées sont déterminés grâce à leur proximité graphique avec des fonctions qui sont étiquetées. Un composant d'apprentissage simultané (co-training) reçoit le graphique de vecteurs provenant du composant de traçage et exerce une influence sur les fonctions disparates des pages Web afin de catégoriser chaque aspect de chaque fonction de la page. Un dispositif d'établissement de catégories de pages reçoit des informations de la catégorisation d'aspects en provenance du composant d'apprentissage simultané et il catégorise la page Web au moins sur la base de ces informations.
Dans un mode de réalisation, le composant de traçage inclut en outre un dispositif 20 de création de fonction d'expansion qui crée une fonction d'expansion afin d'étiqueter chaque fonction non étiquetée de la page Web.
Dans un mode de réalisation le système inclue en outre un composant de construction qui visualise les informations provenant du dispositif de création de 25 fonction d'expansion et qui trace un vecteur associé à chaque fonction étiquetée et non étiquetée de la page Web.
Dans un mode de réalisation, le dispositif de création de fonction d'expansion inclut en outre un composant binaire qui, si des critères prédéterminés sont 30 satisfaits, un composant de pondération qui fournit une étiquette pour une fonction de pages Web sur la base d'un poids normalisé, et un composant de régularisation qui corrige les valeurs déterminées par le composant de pondération en mettant à nouveau à l'échelle les poids respectifs des fonctions sur des correspondances d'exemples non étiquetés avant une répartition par catégorie estimée à partir d'exemples étiquetés. Dans un mode de réalisation, le composant de construction inclut en outre : une matrice de contenus qui définit une matrice pondérée de contenus, et une matrice de mises en page qui définit une matrice pondérée d'éléments de mise en page.
10 Dans un mode de réalisation, le composant d'apprentissage simultané inclut en outre : un premier dispositif d'établissement de catégories qui catégorise une première fonction de page Web au moins sur la base d'informations reçues en provenance du composant de traçage, un deuxième dispositif d'établissement de catégories qui catégorise une deuxième fonction de la page Web au moins sur la 15 base d'informations reçues en provenance du composant de traçage, et un nième dispositif d'établissement de catégories qui catégorise une nième fonction de la page Web au moins sur la base d'informations reçues en provenance du composant de traçage.
20 Dans un mode de réalisation, le dispositif d'établissement de catégories inclut en outre : une mémoire de catégories pour stocker, éditer et récupérer une pluralité de catégories utilisées pour catégoriser les une ou plusieurs pages Web.
Dans un mode de réalisation la matrice de contenus utilise un modèle d'ensemble 25 de mots pour créer des matrices respectives.
Dans un mode de réalisation la matrice de mises en page utilise un modèle dit « d'ensemble de balises » pour créer des matrices respectives.
30 Dans un autre mode de réalisation, le composant d'apprentissage simultané inclut en outre : un dispositif d'établissement de catégories qui catégorise des fonctions5 associées au contenu des une ou plusieurs pages Web, et un dispositif d'établissement de catégories de mises en page qui catégorise des aspects associés à la mise en page des une ou plusieurs pages Web.
Dans un autre mode de réalisation, le dispositif d'établissement de catégories apprend sur la base des fonctions de contenu, le dispositif d'établissement de catégories de mises en page apprend sur la base des fonctions de mise en page, les notes de confiance étant associées à chaque catégorisation de telle sorte que les aspects présentant les notes de confiance les plus élevées sont associés à l'un du dispositif d'établissement de catégories de contenus et du dispositif d'établissement de catégories de mises en page.
Selon un autre aspect, un système catégorise un groupe de documents liés, un faible pourcentage du groupe étant étiqueté et un fort pourcentage du groupe n'étant pas étiqueté Une pluralité de pages Web contiennent chacune des aspects de contenu et de mise en page. Un composant de traçage catégorise chaque page non étiquetée en créant un vecteur associé à chaque fonction de page non étiquetée et en traçant les vecteurs sur un graphique avec des aspects caractéristiques. Un composant d'apprentissage simultané utilise les informations graphiques provenant du composant de traçage afin de catégoriser chaque aspect de la page Web sur la base, au moins en partie, de l'emplacement du vecteur à l'intérieur du graphique et de la catégorisation d'autres aspects dans chacune de la pluralité de pages Web.
Dans un autre mode de réalisation du système destiné à catégoriser des documents liés, le composant d'apprentissage simultané inclut : un dispositif d'établissement de contenu qui catégorise des fonctions de chaque page Web associées au contenu, et Dans un autre mode de réalisation, le composant d'apprentissage simultané inclut : un dispositif d'établissement de catégories de mises en page qui catégorise des aspects de la page Web sur la base de caractéristiques de la page.
Dans un autre mode de réalisation, le composant de traçage construit un graphique de similarités en utilisant une fonction pondérée d'expansion d'étiquettes, chaque fonction étant associée avec un aspect de chacune de la pluralité de pages Web.
Dans un autre mode de réalisation, le dispositif d'établissement de catégories de contenu obtient des poids pour chaque aspect en utilisant une similarité textuelle entre des pages.
Dans un autre mode de réalisation, les poids du dispositif d'établissement de catégories de mises en page sont obtenus en utilisant la similarité de mise en page ou de visualisation entre des pages.
Dans un autre mode de réalisation, le composant d'apprentissage simultané inclut un dispositif d'établissement de catégories de métadonnées dans lequel des poids sont obtenus en utilisant une similarité de métadonnées entre les pages. Dans un autre mode de réalisation, le composant d'apprentissage simultané utilise des données provenant de pages ayant été précédemment catégorisées afin de catégoriser des pages reçues ensuite.
25 Selon encore un autre aspect, un procédé est utilisé pour catégoriser des documents liés. D es fonctions étiquetées et non étiquetées sont extraites d'une pluralité de pages Web liées. Une fonction d'expansion est créée pour chaque fonction, dans laquelle la fonction d'expansion est minimisée pour générer un vecteur qui représente une catégorie pour chaque fonction non 30 étiquetée. U n graphique de vecteurs est construit sur la base de chaque fonction. Chaque catégorisation de graphiques de fonctions est formée20 simultanément, au moins en partie, sur la base de la catégorisation de graphiques de chaque fonction. Chaque page Web liée est catégorisée, au moins en partie, sur la base de l'apprentissage simultané.
La figure 1 illustre un système permettant de catégoriser des pages Web liées conformément à un mode de réalisation d'exemple.
La figure 2 illustre un système permettant de catégoriser des pages Web liées, dans lequel un composant de traçage et un composant d'apprentissage simultané sont plus explicitement définis conformément à un mode de réalisation d'exemple.
La figure 3 illustre un système permettant de catégoriser des pages Web liées, dans lequel un dispositif d'établissement de catégories de pages est 15 plus explicitement défini conformément à un mode de réalisation d'exemple.
La figure 4 illustre un système permettant de catégoriser des pages Web liées dans lequel le composant de traçage, un composant d'apprentissage simultané et un dispositif d'établissement de catégories de pages sont plus 20 explicitement définis conformément à un mode de réalisation d'exemple.
La figure 5 illustre un procédé permettant de catégoriser des pages Web liées, au moins en partie, sur la base d'un apprentissage simultané conformément à un mode de réalisation d'exemple. La figure 6 illustre un procédé permettant de minimiser une fonction pour générer un vecteur qui représente une catégorie pour des fonctions non étiquetées à l'intérieur de pages Web conformément à un mode de réalisation d'exemple. 25 30 La figure 7 illustre un procédé permettant d'apprendre simultanément une catégorisation de graphiques de fonctions disparates conformément à un mode de réalisation d'exemple.
La figure 8 illustre un procédé permettant d'apprendre simultanément des catégorisations de graphiques de fonctions disparates par un vote conformément à un mode de réalisation d'exemple.
La figure 9 illustre le comportement d'un apprentissage simultané fondé sur 10 un vote en traçant une valeur de confiance pour une première génération conformément à un mode de réalisation d'exemple.
La figure 10 illustre un apprentissage simultané fondé sur un vote sur trois premières itérations conformément à un mode de réalisation d'exemple. 15 En faisant référence à la figure 1, un système 100 est illustré, lequel catégorise un groupe de pages Web liées. Cette catégorisation est déterminée en exerçant une influence sur les informations liées aux fonctions étiquetées de pages Web afin de catégoriser les fonctions de non étiquetées 20 à l'intérieur du groupe Des pages Web peuvent être liées par l'intermédiaire d'un ou plusieurs hyperliens sur lesquels peut cliquer un utilisateur pour est dirigé sur une autre page. L'hyperlien instancie en général un code tel que du code HTML afin d'exécuter une séquence type qui pointe vers une adresse Web particulière et charge celle-ci. Dans un exemple, des mots dans une 25 phrase servent à la fois de contenu et de mécanisme pour rediriger un utilisateur vers des informations supplémentaires se rapportant au texte d'origine. Certains des liens et/ou des pages sont étiquetés et peuvent donc être utilisés pour fournir un contenu contextuel pour identifier précisément et étiqueter des fonctions non étiquetées. 30 Le groupe de pages Web est reçu dans le système 100 pour faciliter cette catégorisation. Dans un souci de clarté, une page unique est reçue à un instant comme décrit ici. Plus particulièrement, une page Web 110 est reçue par un analyseur de fonctions 120 pour déterminer des fonctions à l'intérieur de la page Web 110. De telles fonctions peuvent se reporter à différents aspects de la page Web dans laquelle chaque fonction est étiquetée ou non. Une fois que les fonctions sont identifiées, elles sont fournies en sortie à un composant de traçage 130 avec l'indication de ce que la fonction est étiquetée ou non.
Le composant de traçage 130 définit un vecteur pour chaque fonction à l'intérieur de la page Web 110 étant donné les fonctions contenues à l'intérieur d'autres pages Web liées. On peut accéder à de telles fonctions à partir d'une mémoire 170 reliée au composant de traçage 130. Un composant d'apprentissage simultané 140 examine chaque vecteur se rapportant à des aspects disparates de la page Web 110 dans un graphique unique. De cette manière, les vecteurs peuvent être comparés l'un à l'autre afin de réaliser un apprentissage simultané et d'identifier la catégorisation pour chaque fonction à l'intérieur de la page Web 110. Une fois que cette identification est achevée, un dispositif d'établissement de catégories 150 reçoit les données et affecte une catégorie à une page Web 110.
Dans un exemple, la page Web 110 est l'une d'une pluralité de documents liés à l'intérieur d'une encyclopédie en ligne telle que Wikipédia. Le contenu à l'intérieur de Wikipédia peut être largement catégorisé en quatre aspects différents pour chaque article. 1) le contenu - l'ensemble de mots dans la page ; 2) la mise en page - l'ensemble de balises HTML, d'attributs et leurs valeurs dans les pages. Ces fonctions pilotent la présentation du contenu de la page pour le lecteur ; 3) les liens - l'ensemble d'hyperliens dans la page et ; 4) les métadonnées - toutes les informations présentes dans une case d'informations de la page, y compris le type de gabarit, ses attributs et ses valeurs.
Le système 100 peut être utilisé pour catégoriser un important ensemble de documents liés de ce type comprenant un contenu, des fonctions de mise en page, des liens et des métadonnées associés. Le système 100 peut être en particulier avantageux lorsqu'il existe un petit nombre de pages étiquetées (par exemple 10 %) par rapport à un très grand nombre de pages non étiquetées (par exemple 90 %) à l'intérieur d'un jeu de données. Le composant d'apprentissage simultané 140 peut être utilisé sur la base d'une séparation naturelle de fonctions de page, telles que le contenu par rapport à la mise en page, la mise en page par rapport aux liens, etc.
Le fait d'utiliser deux jeux de fonctions disparates autorise l'indépendance de dispositifs d'établissement de catégories afin de permettre au composant d'apprentissage simultané 140 de fonctionner avec succès. Les principes d'apprentissage simultané s'appliquent en fonction de la manière avec laquelle sont construits deux dispositifs d'établissement de catégories alternatifs. La séparation naturelle de jeux de fonctions permet de décrire une première fonction (par exemple le contenu) et une seconde fonction (par exemple la mise en page) de la page Web 110. Toute combinaison de fonctions d'une page Web 110 est essentiellement envisagée. En extrayant les caractéristiques de mise en page de pages et en appliquant des procédés de sélection de fonctions, des dispositifs d'établissement de catégories peuvent être utilisés pour catégoriser précisément des aspects d'un groupe de pages Web. Un dispositif d'établissement de catégories (par exemple un deuxième dispositif d'établissement de catégories) peut fournir une précision comparable à un dispositif d'établissement de catégories purement basé sur le contenu (par exemple un premier dispositif d'établissement de catégories).30 En faisant à présent référence à la figure 2, celle-ci illustre un système 200 qui inclut une page Web 210, un analyseur de fonctions 220, un composant de traçage 230, un composant d'apprentissage simultané 240, un dispositif d'établissement de catégories 250 et une mémoire 270 Le système 200 est sensiblement identique au système 100, le composant de traçage 230 incluant en outre un dispositif de création de fonction d'expansion 232 et un composant de construction 234. De plus le composant d'apprentissage simultané 240 inclut un premier dispositif d'établissement de catégories 242, un deuxième dispositif d'établissement de catégories 244 et un troisième dispositif d'établissement de catégories 246.
L'analyseur de fonctions 220 identifie tout d'abord des fonctions à l'intérieur de la page Web 210 puis détermine si chacune de ces fonctions est étiquetée ou non. Dans cette approche fondée sur un graphique, un noeud dans le graphique représente une page unique (par exemple un article de Wikipédia) comme exposé dans Learning with local and global consistency (apprentissage de la cohérence locale et globale) de D. Zhou, O. Bousquet, T. Navin Lai, J. Weston, et B. S. Olkopf dans Avances dans les systèmes de traitement de l'information neuronaux 16, pages 321 à 328. MIT Press, 2004, incorporé ici par référence. Un graphique pondéré G.comportant n noeuds est indexé de 1 à n. Dans une matrice de pondération symétrique W, tous les poids ne sont pas négatifs (w;,; > 0) et le poids w;,j représente la similarité entre les noeuds i et j dans le graphique G. Si w;,~ = 0, il n'y a pas de bordure entre les noeuds i et j.
On suppose que les / premiers noeuds d'apprentissage possèdent comme étiquette, y,, y2,...,y;, où y; proviennent du jeu C d'étiquettes de catégorie, et où les u = n - 1 noeuds restants ne sont pas étiquetés. Le but consiste à prédire les étiquettes de chacune des fonctions non étiquetées y;+1,...,yä en exploitant la structure du graphique. En fonction d'une supposition de régularité, il est probable qu'une étiquette d'un noeud non étiqueté soit semblable aux étiquettes de ses noeuds voisins. Ainsi un noeud voisin fortement connecté affectera plus significativement le noeud.
Le dispositif de création de fonction d'expansion 232 génère une fonction d'expansion pour chaque vecteur associé à chaque fonction non étiquetée de la page Web 210. Le composant de construction 234 reçoit les vecteurs non étiquetés identifiés, et il construit un graphique qui inclut les vecteurs non étiquetés aussi bien que des vecteurs associés à des fonctions étiquetées de pages Web particulières. De cette manière, les propriétés du vecteur pour des fonctions étiquetées sont apprises et utilisées pour prédire des propriétés associées à des aspects non étiquetés de la page Web 210.
Le dispositif de création de fonction d'expansion 232 établit une fonction d'expansion fondée sur plusieurs paramètres initiaux. Le jeu C d'étiquettes est supposé inclure c valeurs différentes, chaque valeur étant représentative d'une catégorie disparate. Un graphique peut être construit par le composant de construction 234, dans un exemple, en échantillonnant de manière aléatoire des paires de pages Web à partir d'un groupe stocké en mémoire 270 et en sélectionnant les poids les plus importants pour chaque page Web. Selon une approche, un graphique de liens peut être utilisé pour garantir que le graphique établi à partir d'une fonction est connecté à un graphique établi à partir d'une autre fonction.
Le composant d'apprentissage simultané 240 utilise les graphiques construits par le composant de construction 234 pour identifier des catégories appropriées pour chaque fonction disparate. Dans un exemple, trois fonctions sont respectivement catégorisées par l'intermédiaire du premier dispositif d'établissement de catégories 242, du deuxième dispositif d'établissement de catégories 244 et du troisième dispositif d'établissement de catégories 246.
Selon une approche, le premier dispositif d'établissement de catégories est utilisé avec le contenu, le deuxième dispositif d'établissement de catégories est utilisé avec la mise en page et le troisième dispositif d'établissement de catégories est utilisé avec des liens associés à la page Web 210.
Un problème d'apprentissage peut être résolu en utilisant chaque graphique et en sélectionnant simplement le plus approprié en termes d'erreur de validation croisée. De cette manière, l'intégration de vues multiples est utilisée pour obtenir une précision plus importante qu'avec une quelconque vue unique. Afin d'incorporer tous les graphiques, chacun peut se voir affecter un poids uniforme fixe. La sélection de graphique à combiner peut affecter la précision de la prédiction de la catégorie pour chaque fonction.
La figure 3 illustre un système 300 et inclut une page Web 310, un analyseur de fonctions 320, un composant de traçage 330, un composant d'apprentissage simultané 340, un dispositif d'établissement de catégories 350 de pages et une mémoire 370. Le système 300 est sensiblement semblable au système 200 dans lequel le composant de traçage 330 inclut un dispositif de création de fonction d'expansion 332 et un composant de construction 334. Le composant d'apprentissage simultané 340 inclut un dispositif d'établissement de catégories 342 de contenus et un dispositif d'établissement de catégories 344 de mises en page.
Le dispositif d'établissement de catégories 342 de contenus est utilisé pour catégoriser des fonctions de contenu associées à la page Web 310. De façon semblable, le dispositif d'établissement de catégories 344 de mises en page est utilisé pour catégoriser des fonctions de mise en page associées à la page Web 310. Des modes de réalisation spécifiques prévus ci-dessous peuvent être utilisés pour faciliter une telle catégorisation. On devra se rendre compte que le dispositif d'établissement de catégories 342 de contenus et le dispositif d'établissement de catégories 344 de mises en page sont utilisés à titre d'exemple et que sensiblement toute fonction issue de la page 310 peut posséder un dispositif d'établissement de catégories associé.
Le dispositif d'établissement de catégories de pages inclut une mémoire de catégories 354 qui fournit une pluralité de catégories à partir desquelles affecter chaque fonction. La mémoire de catégories 354 peut permettre la création, la mémorisation et la récupération ultérieure de sensiblement tout nombre de catégories. De telles catégories peuvent être apprises à partir d'itérations précédentes de catégorisation et/ou ajoutées par l'utilisateur. La figure 4 illustre un système qui inclut une page Web 410, un analyseur de fonctions 420, un composant de traçage 430, un composant d'apprentissage simultané 440, un dispositif d'établissement de catégories 450 de pages et une mémoire 470. Le composant de traçage 430 inclut un dispositif de création de fonction d'expansion 432 et un composant de construction 434. Le système 400 est sensiblement semblable au système 300 dans lequel le dispositif de création de fonction d'expansion 432 inclut un composant binaire 472, un composant de pondération 474 et un composant de régularisation 476. En outre, le composant de construction 434 inclut une matrice de contenu 482 et une matrice de mises en page 484.
Le composant binaire 472, le composant de pondération 474 et le composant de régularisation 476 peuvent être utilisés pour faciliter la création et la convergence de la fonction d'expansion. En particulier, le composant binaire 472 peut être utilisé pour affecter un vecteur d'étiquette Y destiné à un noeud sous la forme = 1 if j = y;, 0 sinon. C'est-à-dire que le composant binaire 472 réalise une détermination explicite en ce qui concerne le fait qu'une fonction doit recevoir ou non une étiquette. En outre, le composant binaire 472 peut définir un vecteur de prédiction Y pour le noeud i.. À cette fin, une matrice dimensionnelle de notes n x c peut être définie comme 'r' _' . Lors de l'apprentissage, ~r peut être déterminée comme utilisant toutes les informations disponibles. Lors de la prédiction, les étiquettes peuvent être prédites en utilisant un seuil sur les vecteurs de notesr i. - . On supposera (a) que la note Y, devrait être proche des vecteurs donnés d'étiquettes dans des noeuds d'apprentissage et (b) que la note ':, ne devrait pas être trop différente des notes des sommets adjacents. Selon une approche, Y peut être déterminé en minimisant la fonction qui suit : r11i, n.'(' tri.] 1 i - Y.~ 112. (1) où le premier terme correspond à une fonction de perte selon les termes de la condition (a) et où le second terme représente une note de régularité selon les termes de la condition (b) Le paramètre a échange la perte par rapport à la régularité.
Dans un mode de réalisation, un autre terme de régularisation, rr=r+C 'H peut être ajouté afin de maintenir les notes de noeuds non étiquetés dans une plage raisonnable. 1Tll11~, ~~~~ - Y112 + f.tlly-z•LY11. (2) où la matrice L représente la matrice du Laplacien du graphique définie comme 20 étant L = D ù v~here D = (hg««.), À la place de L , le Laplacien normalisé, L' pour obtenir un résultat semblable.
25 Le composant de pondération 474 peut fournir une approche alternative dans laquelle, à chaque étape, un noeud i reçoit une contribution de ses voisins j = D- -1/2 peut être utilisé pondérée par le poids normalisé w;;, et par une petite contribution supplémentaire donnée par sa valeur initiale. Ce processus est détaillé dans l'algorithme 1 ci-dessous. Algorithme 1 : Expansion d'étiquettes Algorithm 1 Expansion d'étiquettes Require: matrice symmétrique W, ? 0 (and w;; :=0) Require: étiquettes y; pour x;, i = 1, Ensure: étiquettes pour 1: Calcul de la matrice diagonale (diagonal degree matrix) D 2 : pardi;:=jiw1 Calcul du Laplacien du graphique normalisé L := D"1/2W D-1/2 3: Initialise F(° r ..., i-5),où Y. _ = 1 if ? _ ,0 sinon 4: Choisit un paramètre a E [0,1) 5: while sans convergence à l'EX) do 6: Itère el) := aLlxt) + (1-a)0) 7: end white 8: étiquete x, par argmax (x) L'algorithme 1 converge toujours, une équation d'itération étant représentée par :
oc)t@''(~>> + (1 ù (3) 1=0
Alors que la matrice I) est une matrice stochastique par construction, ses valeurs propres se trouvent dans la plage [-1, 1]. La matrice est semblable à la matrice 1) 2.1 I.) , et elle présente les mêmes valeurs propres. Du fait que a 1 , les valeurs propres de se trouvent dans la plage (-1, 1). Par conséquent lorsque t ("L )t () En utilisant la décomposition matricielle, (1 ù ~~£ ) de telle sorte que la convergence t ù (1 ù (0(1- (z L ) I Y'0) soit obtenue. La vitesse de convergence de l'algorithme peut dépendre de propriétés spécifiques du graphique telles que les valeurs propres de son Laplacien. La matrice de notes Y peut être obtenue par le composant de pondération 474 en résolvant un important système linéaire incomplet (1 ù cI .)' = ''(d.". Comme on le sait, pour des algorithmes efficaces comme celui-ci, le temps de calcul est presque linéaire pour le nombre d'entrées non nulles dans la matrice de coefficients. Par conséquent, plus la matrice du Laplacien est incomplète, plus le calcul devient rapide.
Le composant de régularisation 476 peut être utilisé pour fournir une catégorisation convenable lorsque les catégories réelles de données (par exemple déterminées par le composant binaire 472 et/ou par le composant de pondération 474) sont déséquilibrées. Afin de résoudre ce problème, une normalisation en masse des catégories peut être effectuée, semblable à celle décrite dans le document Semisupervised learning using Gaussian fields and harmonic functions (apprentissage semi supervisé utilisant des champs Gaussiens et des fonctions harmoniques) de X. Zhu, Z. Ghahramani, and J. Lafferty dans Proceedings of the Twentieth International Conference on Machine Learning, pages 912 à 919, 2003, incorporé ici par référence. Les catégories peuvent être remises à l'échelle de telle sorte que leur poids respectifs sur des exemples non étiquetés correspondent à la répartition précédente de catégories estimée à partir d'exemple étiquetés.
Le composant de régularisation 476 peut suivre un algorithme d'exemple pour 30 remettre à l'échelle les catégories. Tout d'abord, pi peut indiquer la probabilité précédente de la catégorie j estimée à partir des exemples étiquetés. i t i=.i `J'• . En second, la masse de la catégorie j peut être donnée par la moyenne des poids estimés de j sur des exemples non étiquetés, 'ù =t+i 1f=i La normalisation de masse de catégories peut consister à mettre à l'échelle chaque catégorie j d'un facteur _ 1.5 . En d'autres termes, plutôt que par la fonction de décision'' , le noeud $ est catégorisé dans la catégorie déterminée par ar9?fl X.,r1 . En utilisant une telle mise à l'échelle, le composant de régularisation 476 peut fournir de meilleures performances de catégorisation lorsqu'il existe un nombre adéquat de données étiquetées afin d'estimer précisément la distribution des catégories et lorsque les données non étiquetées proviennent d'une distribution sensiblement semblable.
Pour construire un graphique G, le composant de construction 434 peut réutiliser une structure de liens utilisée par le groupe pertinent de documents liés (par exemple dans Wikipédia) en transformant des liens dirigés en liens non dirigés. De plus, des liens vers la même page peuvent être supprimés comme cela est exposé dans l'algorithme 1 ci-dessus. Des liens entre des noeuds, qui possèdent des étiquettes différentes, présentant une valeur w, élevée sont également supprimés dans le but de s'ajuster à une condition de régularité.
Une alternative à la structure par liens d'un groupe de documents donnés peut être utilisée avec les systèmes et procédés décrits ici. Des approches classiques construisent un graphique de type k - NN en prenant les k poids les plus élevés w, pour chaque noeud. Le graphique exhaustif k - NN est cependant impossible pour un groupe de documents liés tels que ceux dans Wikipédia. Afin de compenser cette réalité, un graphique G' est créé en échantillonnant de manière aléatoire des paires de noeuds à partir du groupe de documents liés entre eux et en sélectionnant les k les plus élevés. On devra se rendre compte que ce procédé peut générer un graphique différent G' qui dépend des fonctions sélectionnées en vue d'une comparaison (par exemple le contenu par rapport à la mise en page, etc.). Afin de garantir que le graphique est raccordé, il peut être combiné au graphique de liens. La matrice de contenu 482 est utilisée pour créer une matrice au contenu pondéré I'' qui inclut des descripteurs _K obtenus par l'intermédiaire d'un modèle « d'ensemble de mots » et des valeurs standard tf ù di'( (fréquence des termes - fréquence inversée des documents) comme ràf, où : 10 • f`r représente la fréquence des termes donnée par Ek, ~~..3, où r=~ est le nombre d'occurrences du terme dans le documenta , et où le dénominateur est le nombre d'occurrences de tous les termes dans le document IDI 10g • est la fréquence inversée des documents I{ .E I,où!DIestle nombre total de documents et où I{d E di)' est le nombre de documents ou 15 apparaît le terme t . Le principe de pondération tf ù df est souvent utilisé dans le modèle d'espace vectoriel avec la similarité cosinusoïdale pour déterminer la similarité entre deux documents. 20 La matrice de mises en page 484 est utilisée pour créer une matrice W pondérée, elle fournit des descripteurs de noeuds x; qui sont générés en suivant l'approche « ensemble de balises » qui est semblable au modèle « ensemble de mots » utilisé dans le graphique de contenus. À la place des 25 mots, elle utilise les fonctions d'une mise en page. Dans les pages formatées en langage HTML, la présentation est guidée par une instruction codée par des balises HTML, des attributs et leurs valeurs. La mise en page HTML forme généralement une structure imbriquée. Le modèle « d'ensemble de balises » peut présenter des instanciations différentes, fournies ci-dessous, où les termes forment l'un des ensembles qui suit : • ensemble de noms de balises, comme <table> ou <font>, • ensemble de paires de balises descendantes, comme <table><span> or 5 <tr><td>, • ensemble de chemins de racine à feuille dans une page HTML, comme <html><body><table><tr><td> .., • paires balise+attribut, comme <table font="">, • triples valeurs balise+attribut+attribut, comme <table font="times">. 10 Pour chacun de ces ensembles, des descripteurs .x~ pour le noeud sont extraits en fonction des poids tf û df . La matrice pondérée W peut être construite en utilisant la similarité de mise en page entre des pages évaluées grâce à un modèle « d'ensembles de balises » et l'un des 15 ensembles de balises énumérés. Une fois la similarité réalisée entre les vecteurs de description x; pour la totalité des noeuds dans le graphique G, une matrice pondérée W peut être obtenue en mesurant une similarité entre deux noeuds i et j dans le graphique G. Deux mesures d'exemple sont une largeur de noyau Gaussien (GBF) et une fonction cosinus. Dans le premier 20 exemple, le noyau RBF présente une largeur 6, et il est donné comme étant où la largeur 6 est évaluée à partir de la variance des descripteurs x;. Dans le second exemple la fonction cosinus est utilisée comme décrit ci-dessous : 1I _ 25 On devra se rendre compte que d'autres mesures de similarité peuvent être utilisées à la place des exemples ci-dessus ou en association avec ceux-ci.
Le composant d'apprentissage simultané 440 facilite une solution en combinant des vues séparées de données associées à chaque fonction. Dans chaque itération d'apprentissage simultané, chacun des deux dispositifs d'établissement de catégories s'engage vers deux étiquettes de catégories de plus grande confiance pour k 1 fonctions pour chaque catégorie - celles qui sont notées comme donnant nominalement le plus confiance. L'apprentissage simultané améliore les performances du dispositif d'établissement de catégories lorsqu'un dispositif d'établissement de catégories a fait une erreur pour une instance non étiquetée alors que l'autre dispositif d'établissement de catégories est très confiant et ajoute l'étiquette correcte de catégorie aux données étiquetées. Ce haut niveau de confiance peut être utilisé pour remplacer une étiquette qui aurait sinon été incorrecte pour une fonction donnée. De ce fait, l'indépendance des vues réduit le risque que les deux hypothèses s'accordent sur une étiquette fausse pour une instance non étiquetée.
En faisant à présent référence à la figure 5, celle-ci illustre un procédé 500 permettant de catégoriser des pages Web liées, au moins en partie, sur la base d'un apprentissage simultané. À l'étape de la référence numérique 502, des fonctions étiquetées et non étiquetées sont extraites d'une pluralité de pages Web liées. À l'étape 504, une fonction d'expansion est créée pour chaque fonction. À l'étape 506, la fonction est minimisée pour générer un vecteur qui représente une catégorie pour chaque fonction non étiquetée. Un graphique de vecteurs est construit à l'étape 508 sur la base de chaque fonction. À l'étape 510, chaque catégorisation de graphique de fonctions est formée simultanément, au moins en partie, sur la base de la catégorisation de fonctions disparates à partir des pages Web liées. Chaque page Web liée est catégorisée à l'étape 512, au moins en partie, sur la base de l'apprentissage simultané. De cette manière, des fonctions non étiquetées provenant des pages Web liées peuvent être catégorisées, au moins en partie, sur la base de fonctions étiquetées des pages Web disparates liées à celles-ci La figure 6 illustre un procédé 600 pour générer un vecteur destiné à une page Web non étiquetée. À l'étape 602, une matrice de pondération symétrique U°.' reçoit des noeuds dans lesquels tous les poids w, >_ 0 et dans 10 lesquels w;; = 0. À l'étape 604, des étiquettes sont reçues pour _x-,, . = 1, D vd À l'étape 606, une matrice diagonale de degrés 1 À l'étape 608, un Laplacien normalisé de graphique £ D_ 1vD est calculé. A l'étape 610, Y` est initialisée, dans laquelle ? ° := ...,è), où Y. = t.v:kl.'',k = 1 if k = 'O sinon. À l'étape 612, un paramètre a dans la 15 plage [0, 1] est sélectionné. Si on fait converger Y. vers Y°°, à l'étape 614, - ~; est étiquetée par Si on ne fait pas converger vers '°° alors + (1 ù a'Y(o) subit une itération. À l'étape 620, un contrôle est 20 réalisé pour vérifier si les catégories ne sont pas équilibrées pour les pages Web. Si les catégories ne sont pas équilibrées, à l'étape 624, une régularisation de masse des catégories est effectuée, comme exposé ci-dessus. Si les catégories ne sont pas déséquilibrées, le procédé se termine à l'étape 622. est calculée 25 La figure 7 ci-dessous décrit la technique d'apprentissage simultané avec la séparation naturelle d'un ensemble de fonctions. La figure 8 illustre une variation de vote de la figure 7 où, à chaque itération, une instance non étiquetée dans U est catégorisée avec les deux dispositifs d'établissement de catégories CI et C2, et un sous-ensemble de fonctions présentant la somme la plus importante de confiance est sélectionné pour se déplacer vers l'ensemble étiqueté L. Un exemple particulier de catégorisation de pages Web par l'intermédiaire d'un apprentissage simultané consiste à identifier des pages d'accueil de professeurs. On devra se rendre compte que la page Web peut être représentée par le texte sur la page mais également par le texte d'hyperliens faisant référence à la page.
La figure 7 illustre un procédé 700 utilisé pour classer des noeuds par l'intermédiaire d'un apprentissage simultané, les noeuds présentant une séparation naturelle de fonctions. À l'étape 702, sont reçues des fonctions naturelles de séparation FI et F2 pour x,,i = 1,...,n. À l'étape 704, sont reçues des étiquettes yi pour x;,i = 1,...,1. À l'étape 706, des étiquettes pour sont établies pour L.-= • 't} = + 1, ... n et, à l'étape 708, L1L,L2 ,1.1 1^U, 2~U Si U1 et U2 sont vides à l'étape 710, le procédé se termine à l'étape 720. Si U1 et U2 ne sont pas vides, à l'étape 712, un dispositif d'établissement de catégories fondé sur un graphique ci est formé en utilisant Li sur un jeu de fonctions Fi . À l'étape 714, un dispositif d'établissement de catégories fondé sur un graphique (Ill est formé en utilisant L sur un jeu de fonctions F2. À l'étape 716, des noeuds .x- dans un sous-ensemble U2 , sont classés avec ça dans lequel u2. est un sous-ensemble présentant les notes de plus haute confiance, les noeuds ; étant déplacés de à L2 . À l'étape 718, des noeuds K dans un sous-ensemble U1 , sont classés avec c; dans lequel U est un 30 sous-ensemble présentant les notes de plus haute confiance, les noeuds U3 étant déplacés de U; à L1. Une fois que le classement est achevé, à l'étape 718, le procédé se termine à l'étape 720.
La figure 8 illustre un procédé 800 utilisé pour faciliter l'apprentissage simultané en votant avec une séparation naturelle de fonctions. À l'étape 802, sont reçues des fonctions de séparation naturelle FI et F2 pour x;,i = 1,...,n. À l'étape 804, sont reçues des étiquettes y; pour xi,/ = 1,...,1. À l'étape 806, des étiquettes pour sont établies pour L ^ ta . , = = = z +1. ... n . Si U est vide à l'étape 808, le procédé se termine à l'étape 816. Si u n'est pas vide, à l'étape 808, des dispositifs d'établissement de catégories fondés sur un graphique CI et C2 sont formés en utilisant L sur un jeu de fonctions F1 et F2 à l'étape 810. x , en tant que sous-ensemble de u , est classé à la fois avec CI et C2. Soit uêtre le sous-ensemble avec les notes de plus haute confiance à la fois par CI et C2. À l'étape 814, U. est déplacé de u à L et le procédé se termine à l'étape 816.
Le texte d'une page peut inclure des mots apparaissant sur une page et/ou sur un texte d'hyperlien (un ensemble de mots apparaissant dans des hyperliens), lesquels pointent vers cette page. Ceci permet de créer deux vues afin d'appliquer l'apprentissage simultané. Dans un exemple, cet apprentissage simultané peut être utilisé pour catégoriser des pages d'accueil de professeurs. Par ailleurs, des pages liées qui présentent une faible corrélation entre des hyperliens (comme Wikipédia) peuvent ne pas avoir autant de succès. Ainsi, le fait d'utiliser le texte d'un hyperlien peut être un médiocre prédicteur qui peut provoquer la défaillance de l'apprentissage simultané. Dans notre approche, plutôt qu'un texte d'hyperlien, une mise en page et/ou des métadonnées peuvent être un aussi bon prédicteur que pour une approche fondée sur le texte.
Un ordinateur 550 illustre une configuration matérielle possible permettant de prendre en charge les systèmes et procédés décrits ici, y compris les procédés 500, 600, 700 et 800 décrits ci-dessus. On devra se rendre compte que bien qu'une architecture autonome soit illustrée, tout environnement de calcul approprié peut être utilisé conformément aux présents modes de réalisation. Par exemple, on peut utiliser des architectures de calcul incluant, sans y être limité, une structure autonome, des multiprocesseurs, une structure client/serveur répartie, un mini-ordinateur, un ordinateur principal, un superordinateur, des appareils numériques et analogiques, conformément au présent mode de réalisation.
L'ordinateur 550 peut inclure une unité de traitement (non représentée), une mémoire système (non représentée), ainsi qu'un bus système (non représenté) qui relie divers composants du système, y compris la mémoire système, à l'unité de traitement. L'unité de traitement peut être l'un quelconque des divers processeurs disponibles sur le marché. Des microprocesseurs doubles et d'autres architectures multiprocesseurs peuvent également être utilisés comme unité de traitement.
Le bus système peut être l'un quelconque parmi plusieurs types de structures de bus, y compris un bus mémoire ou un contrôleur mémoire, un bus de périphériques et un bus local utilisant une architecture quelconque parmi diverses architectures de bus disponibles sur le marché. La mémoire de l'ordinateur inclut de la mémoire en lecture seule (ROM) et de la mémoire à accès direct (RAM). Un système de base d'entrées/sorties (BIOS) contenant les sous programmes de base qui sont utiles pour transférer les informations entre les fonctions à l'intérieur de l'ordinateur, par exemple durant le démarrage, est stocké en mémoire ROM.
L'ordinateur 550 peut en outre inclure une unité de disque dur, une unité de disque magnétique, par exemple pour effectuer une lecture depuis un disque amovible ou écrire sur celui-ci, ainsi qu'une unité de disque optique, par exemple permettant de lire un disque CD-ROM ou d'effectuer une lecture depuis un autre support optique ou d'écrire sur celui-ci. L'ordinateur 550 inclut de manière caractéristique au moins certaines formes de supports pouvant être lus par ordinateur. Les supports pouvant être lus par ordinateur peuvent être tous les supports disponibles auxquels on peut accéder par ordinateur. À titre d'exemple, et sans être une limitation, des supports pouvant être lus par ordinateur peuvent comprendre des supports de stockage pour ordinateur et des supports de communication. Les supports de stockage pour ordinateur incluent des supports rémanents et non rémanents, amovibles et non amovibles, mis en oeuvre selon un quelconque procédé ou technologie permettant le stockage d'informations telles que des instructions pouvant être lues par ordinateur, des structures de données, des modules de programmes ou d'autres données. Les supports de stockage pour ordinateur incluent, sans y être limités, de la mémoire RAM, de la mémoire ROM, de la mémoire EEPROM, de la mémoire flash ou toute autre technologie de mémoire, des lecteurs de disques CD-ROM, des lecteurs de disques numériques polyvalents (DVD) ou tous autres dispositifs de stockage magnétique, ou encore tout autre support qui peut être utilisé pour stocker les informations souhaitées et auquel l'ordinateur peut accéder.
Les supports de communication incluent de manière caractéristique des instructions pouvant être lues par ordinateur, des structures de données, des modules de programmes ou d'autres données dans un signal de données modulé tel qu'un signal avec porteuse ou tout autre mécanisme de transport, et ils incluent tous supports de livraison d'informations. Le terme « signal de données modulé » indique un signal dont une ou plusieurs de ses caractéristiques peuvent être réglées ou modifiées de manière à coder des informations dans le signal. À titre d'exemple, sans être une limitation, des supports de communication incluent des supports câblés tels qu'un réseau câblé ou une connexion directe câblée, et des supports sans fil tels qu'un support acoustique, HF, infrarouge et d'autres supports sans fil. Des combinaisons de quelconques parmi ceux décrits ci-dessus peuvent également être inclus dans la portée des supports pouvant être lus par ordinateur.
Un certain nombre de modules de programmes peuvent être stockés dans les unités et dans la mémoire RAM, y compris un système d'exploitation, un ou plusieurs programmes d'application, d'autres modules de programmes et des données de programmes non interruptibles. Le système d'exploitation dans l'ordinateur 550 peut être l'un quelconque d'un certain nombre de systèmes d'exploitation disponibles sur le marché.
Un utilisateur peut saisir des instructions et des informations dans l'ordinateur par l'intermédiaire d'un clavier (non représenté) et d'un dispositif de pointage (non représenté) tel qu'une souris. D'autres dispositifs d'entrée (non représentés) peuvent inclure un microphone, une télécommande infrarouge, un manche à balai, une manette de jeu, une antenne parabolique, un dispositif de balayage (scanner) ou autre. Ceux-ci et d'autres dispositifs d'entrée sont souvent connectés à l'unité de traitement par l'intermédiaire d'une interface série (non représentée) qui est couplée au bus système mais qui peut être connectée par d'autres interfaces telles qu'un port parallèle, un port de jeu, un bus série universel (« USB »), une interface infrarouge, etc.
Un moniteur ou tout autre type de dispositif d'affichage est également connecté au bus système par l'intermédiaire d'une interface telle qu'un adaptateur vidéo (non représenté). En plus du moniteur, un ordinateur inclut de manière caractéristique d'autres dispositifs périphériques de sortie (non représentés) tels que des hauts parleurs, des imprimantes etc. Le moniteur peut être utilisé avec l'ordinateur 550 pour présenter des données qui sont reçues électroniquement depuis une ou plusieurs sources disparates. P ar exemple, le moniteur peut être un type d'écran LCD, plasma, un tube cathodique, etc. qui présente les données de manière électronique. En variante, ou en plus, le moniteur peut afficher sous forme de copie papier les données reçues, par exemple une imprimante, une télécopie, un traceur, etc. Le moniteur peut présenter les données dans n'importe quelles couleurs et peut recevoir des données issues de l'ordinateur 550 par l'intermédiaire d'un protocole quelconque sans fil ou câblé et/ou standard.
L'ordinateur 550 peut fonctionner dans un environnement en réseau en utilisant des connexions logiques et/ou physiques vers un ou plusieurs ordinateurs distants tels qu'un ou des ordinateurs distants. Le ou les ordinateurs distants peut être une station de travail, un serveur, un routeur, un ordinateur personnel, un appareil de divertissement à base de microprocesseur, un dispositif pair ou tout autre noeud de réseau commun, et il inclut de manière caractéristique beaucoup ou la totalité des fonctions décrites par rapport à l'ordinateur. Les connexions logiques décrites incluent un réseau local (LAN) et un réseau longue distance (WAN). De tels environnements en réseaux sont communs dans des bureaux, dans des réseaux d'ordinateurs d'entreprise, des intranets et le réseau Internet.
Lorsqu'il est utilisé dans un environnement de réseau local, l'ordinateur est connecté au réseau local par l'intermédiaire d'une interface ou d'un adaptateur de réseau. Lorsqu'il est utilisé dans un environnement de réseau longue distance, l'ordinateur inclut de manière caractéristique un modem, ou il est connecté à un serveur de communications sur le réseau local, ou encore comporte d'autres moyens pour établir des communications sur le réseau longue distance tel que le réseau Internet. Dans un environnement en réseau, des modules de programmes décrits par rapport à l'ordinateur, ou bien des parties de ceux-ci, peuvent être stockés dans le dispositif distant de stockage en mémoire. On se rendra compte que des connexions aux réseaux décrits ici servent d'exemple et qu'on peut utiliser d'autres moyens d'établissement d'une liaison de communications entre les ordinateurs.30 Selon un exemple, il est conduit une évaluation de n = 114 366 pages d'un corpus au format XML de Wikipédia. Dix pour cent de ces pages sont annotées (I = 11 347) et quatre-vingt-dix pour cent des pages ne le sont pas (u = 102 929) sur c = 15 catégories. Les caractéristiques globales du corpus sont données dans le tableau 1 ci-dessous. L'ensemble de mots est composé de tous les mots clés qui font partie de lexèmes, aucun mot non anglais, ni mot d'arrêt n'a été exclu Ensemble Taille Ensemble Taille Mots de textes 72766 Balise+paire 5 772 Gabarits 7 602 d'attributs balises de cases 1 208 voies de racine à 110 099 d'informations feuille Balises 1 257 Balise+attribut+valeur 943 422 hyperliens triples 636 187 Tableau 1 : recueil Wikipédia : certaines caractéristiques
Dans cette expérience, la précision d'un dispositif transductif d'établissement de catégories utilise une validation croisée à dix ramifications sur l'ensemble de l'apprentissage (en présence de données non étiquetées). Comme procédé de base, l'apprentissage semi supervisé est utilisé avec une machine vectorielle à support transductif (TSVM) comprenant x; descripteurs de noeuds comme valeur de fonctions comme exposé dans le document Transductive inference for text classification using support vector machines (Inférence transductive pour la classification de textes en utilisant des machines vectorielles de support) de T. Joachims. Dans ICML '99: Proceedings of the Sixteenth International Conference on Machine Learning, pages 200 à 209, San Francisco, CA, USA, 1999. Morgan Kaufmann Publishers Inc., incorporé ici par référence. Le contenu, la structure et les vues des cases d'informations sont combinés en concaténant les descripteurs correspondants. Une concaténation directe de ces vues alternatives n'apporte cependant aucun avantage. Le tableau 2 expose les résultats de l'évaluation.
Pour le procédé d'apprentissage simultané avec les dispositifs d'établissement de catégories à base de graphiques, nous avons utilisé le graphique fondé sur des liens de Wikipédia enrichi avec des liens supplémentaires échantillonnés à partir de paires de noeuds non liées, les matrices Wc (pour CI) et Ws (pour C2) étant respectivement générées avec des mesures de similarité de contenu ou de mise en page. Le fait d'utiliser des descripteurs balise+attribut enrichis avec des cases d'informations génère un dispositif d'établissement de catégories dont les performances sont comparables au dispositif d'établissement de catégories de contenu. Enfin, pour obtenir les meilleures performances, nous avons déployé les procédés 700 et 800 sur deux dispositifs d'établissement de catégories à base de graphiques obtenus grâce à la similarité de contenu et de structure. Le tableau 2 rapporte tous les résultats d'évaluation de l'apprentissage simultané et les compare à ceux de la machine TSVM. Procédé TSVM Préc. Procédé LP Préc. Commentaire (%) (%) Contenu 73,31 C1 : Contenu 75,03 Gaussienne Balise+attribut 72,74 C2 : balise+attribut 72,19 Cosinusoïdale, Voies 59,43 C2:voies 64,82 b=1.5 balise+attribut+case 72,92 C2 :balise+attribut+case 74,75 idem d'informations d'informations idem Contenu+balise+attrib 73,13 Apprentissage simultané, 77,86 Algorithme 2 ut+case d'informations C1&C2 :balise+attribut+case d'informations apprentissage simultané, 78,03 Algorithme 3 C, &C2 : balise+attribut+case d'informations Tableau 2 : Évaluation des performances pour différents procédés.
Les figures 9 et 10 démontrent le comportement de l'apprentissage simultané fondé sur un vote, comme exposé dans le procédé 800 ci-dessus. Le nombre d'éléments à accepter à chaque itération est de 20 ui par catégorie i où u; est le poids de la catégorie. En particulier, sur la figure 9 est tracée la valeur de confiance à la première itération lorsque la confiance votée est donnée par a. î z bpi + P )' et représente le dispositif d'établissement de catégories c) pour affecter une instance x à la catégorie . La valeur de confiance est 5 représentée comme une valeur positive si la catégorie est correcte, et comme une valeur négative (multipliée par -1) si la catégorie est mauvaise. La figure 10 montre l'évolution des ensembles L et U sur les trois premières itérations. Les valeurs de confiance pour toutes les fonctions x déplacées de 10 U à L à chaque itération sont multipliées par 2 (à la fois en positif et en négatif). Les hachures croisées disparates font référence à des valeurs de confiance et à des décisions lors des première, deuxième et troisième itérations.
15 II existe de multiples manières pour étendre les systèmes et procédés de catégorisation décrits ici. Selon un exemple, une approche par un ensemble de mots et par un ensemble de balises peut être étendu avec une technique de sélection de fonctions pouvant être mises à l'échelle afin de rendre les descripteurs x, plus compacts et concis. Selon un autre exemple, le 20 procédé 700 peut inclure une régularisation des graphiques telle qu'elle est utilisée dans le procédé 800. Enfin les dispositifs transductifs d'établissement de catégories peuvent être étendus au mode inductif là où il peut être utilisé pour catégoriser de nouvelle page non vues.
25 On se rendra compte que diverses caractéristiques et fonctions parmi celles décrites ci-dessus et d'autres, ou bien des alternatives de celles-ci peuvent être combinées à souhait dans de nombreux autres systèmes ou applications différentes.
Claims (10)
- REVENDICATIONS: 1. Système qui catégorise un groupe de pages Web liées, comprenant : une pluralité de pages Web, chaque page contient au moins un lien vers une autre page à l'intérieur du groupe, un analyseur de fonctions qui évalue des fonctions associées avec les une ou plusieurs pages Web afin d'identifier un contenu, une mise en page, des liens et/ou des métadonnées associées à la ou aux différentes pages Web, et qui identifie des fonctions qui sont étiquetées et des fonctions qui ne le sont pas, un composant de traçage qui crée un vecteur associé à chaque fonction de page Web dans laquelle des vecteurs pour des fonctions non étiquetées sont déterminés grâce à leur proximité graphique avec des fonctions qui sont étiquetées, un composant d'apprentissage simultané qui reçoit le graphique de vecteurs provenant du composant de traçage et exerce une influence sur les fonctions disparates des pages Web afin de catégoriser chaque aspect de chaque fonction de la page, et un dispositif d'établissement de catégories de pages qui reçoit des informations de la catégorisation d'aspects en provenance du composant d'apprentissage simultané et qui établit une catégorie de la page Web sur la base d'au moins ces informations.
- 2. Système qui catégorise des documents liés selon la revendication 1, dans lequel le composant de traçage inclut en outre : un dispositif de création de fonction d'expansion qui crée une fonction d'expansion afin d'étiqueter chaque fonction non étiquetée de la page Web.
- 3. Système qui catégorise des documents liés selon la revendication 2, incluant en outre : un composant de construction qui visualise les informations provenant du dispositif de création de fonction d'expansion et qui trace un vecteur associé à chaque fonction étiquetée et non étiquetée de la page Web.
- 4. Système qui catégorise des documents liés selon la revendication 2, dans lequel le dispositif de création de fonction d'expansion inclut en outre : un composant binaire qui, si des critères prédéterminés sont satisfaits, un composant de pondération qui fournit une étiquette pour une fonction de pages Web sur la base d'un poids normalisé, et un composant de régularisation qui corrige les valeurs déterminées par le composant de pondération en mettant à nouveau à l'échelle les poids respectifs des fonctions sur des correspondances d'exemples non étiquetés avant une répartition par catégorie estimée à partir d'exemples étiquetés.
- 5. Système qui catégorise des documents liés selon la revendication 1, dans lequel le composant de construction inclut en outre : une matrice de contenus qui définit une matrice pondérée de contenus, et une matrice de mises en page qui définit une matrice pondérée d'éléments de mise en page.
- 6. Système qui catégorise des documents liés selon la revendication 1, dans lequel le composant d'apprentissage simultané inclut en outre : un premier dispositif d'établissement de catégories qui catégorise une première fonction de page Web au moins sur la base d'informations reçues 25 en provenance du composant de traçage, un deuxième dispositif d'établissement de catégories qui catégorise une deuxième fonction de la page Web au moins sur la base d'informations reçues en provenance du composant de traçage, et un nième dispositif d'établissement de catégories qui catégorise une nième20 fonction de la page Web au moins sur la base d'informations reçues en provenance du composant de traçage.
- 7. Système qui catégorise des documents liés selon la revendication 1, dans lequel le dispositif d'établissement de catégories inclut en outre : une mémoire de catégories pour stocker, éditer et récupérer une pluralité de catégories utilisées pour catégoriser les une ou plusieurs pages Web.
- 8. Système qui catégorise des documents liés selon la revendication 5, dans lequel la matrice de contenus utilise un modèle d'ensemble de mots pour créer des matrices respectives.
- 9. Procédé permettant de catégoriser un groupe de documents liés, dans lequel un faible pourcentage du groupe est étiqueté et un fort pourcentage du groupe n'est pas étiqueté, comprenant : une pluralité de pages Web qui contiennent chacune des aspects de contenu et de mise en page, un composant de traçage qui catégorise chaque page non étiquetée en créant un vecteur associé à chaque fonction de page non étiquetée et en traçant les vecteurs sur un graphique avec des aspects caractéristiques, un composant d'apprentissage simultané qui utilise les informations graphiques provenant du composant de traçage afin de catégoriser chaque aspect de la page Web au moins en partie sur la base de l'emplacement du vecteur à l'intérieur du graphique et de la catégorisation d'autres aspects dans chacune de la pluralité des pages Web.
- 10. Procédé permettant de catégoriser des documents liés, comprenant : l'extraction de fonctions étiquetées et non étiquetées d'une pluralité de pages Web liées, la création d'une fonction d'expansion pour chaque fonction,la minimisation de la fonction pour générer un vecteur qui représente une catégorie pour chaque fonction non étiquetée, la construction d'un graphique de vecteurs sur la base de chaque fonction, l'apprentissage simultané de chaque catégorisation de graphiques de 5 fonctions en partie au moins sur la base de la catégorisation de graphiques de chaque fonction. la catégorisation de chaque page Web liée au moins en partie sur la base de l'apprentissage simultané.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/608,272 US8612364B2 (en) | 2009-10-29 | 2009-10-29 | Method for categorizing linked documents by co-trained label expansion |
Publications (1)
Publication Number | Publication Date |
---|---|
FR2952205A1 true FR2952205A1 (fr) | 2011-05-06 |
Family
ID=43919593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1004227A Pending FR2952205A1 (fr) | 2009-10-29 | 2010-10-27 | Procede pour categoriser des documents lies par une expansion d'etiquettes formees simultanement. |
Country Status (2)
Country | Link |
---|---|
US (1) | US8612364B2 (fr) |
FR (1) | FR2952205A1 (fr) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110106807A1 (en) * | 2009-10-30 | 2011-05-05 | Janya, Inc | Systems and methods for information integration through context-based entity disambiguation |
US9330167B1 (en) * | 2013-05-13 | 2016-05-03 | Groupon, Inc. | Method, apparatus, and computer program product for classification and tagging of textual data |
US20160156579A1 (en) * | 2014-12-01 | 2016-06-02 | Google Inc. | Systems and methods for estimating user judgment based on partial feedback and applying it to message categorization |
US9659214B1 (en) * | 2015-11-30 | 2017-05-23 | Yahoo! Inc. | Locally optimized feature space encoding of digital data and retrieval using such encoding |
US20180096261A1 (en) * | 2016-10-01 | 2018-04-05 | Intel Corporation | Unsupervised machine learning ensemble for anomaly detection |
CN106789888B (zh) * | 2016-11-18 | 2020-08-04 | 重庆邮电大学 | 一种多特征融合的钓鱼网页检测方法 |
CN108228675B (zh) * | 2016-12-22 | 2021-06-01 | 腾讯科技(深圳)有限公司 | 一种网页构建方法和装置 |
CN107463996B (zh) * | 2017-06-05 | 2021-11-16 | 西安交通大学 | 一种进行人物重标记的自步-协同训练学习方法 |
CN108304509B (zh) * | 2018-01-19 | 2021-12-21 | 华南理工大学 | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 |
US20200026767A1 (en) * | 2018-07-17 | 2020-01-23 | Fuji Xerox Co., Ltd. | System and method for generating titles for summarizing conversational documents |
US11651016B2 (en) * | 2018-08-09 | 2023-05-16 | Walmart Apollo, Llc | System and method for electronic text classification |
US11366645B2 (en) | 2019-11-11 | 2022-06-21 | Klarna Bank Ab | Dynamic identification of user interface elements through unsupervised exploration |
US11442749B2 (en) | 2019-11-11 | 2022-09-13 | Klarna Bank Ab | Location and extraction of item elements in a user interface |
US11379092B2 (en) | 2019-11-11 | 2022-07-05 | Klarna Bank Ab | Dynamic location and extraction of a user interface element state in a user interface that is dependent on an event occurrence in a different user interface |
US11086486B2 (en) | 2019-11-11 | 2021-08-10 | Klarna Bank Ab | Extraction and restoration of option selections in a user interface |
US11726752B2 (en) | 2019-11-11 | 2023-08-15 | Klarna Bank Ab | Unsupervised location and extraction of option elements in a user interface |
US11409546B2 (en) * | 2020-01-15 | 2022-08-09 | Klarna Bank Ab | Interface classification system |
US11386356B2 (en) * | 2020-01-15 | 2022-07-12 | Klama Bank AB | Method of training a learning system to classify interfaces |
US10846106B1 (en) | 2020-03-09 | 2020-11-24 | Klarna Bank Ab | Real-time interface classification in an application |
US11496293B2 (en) | 2020-04-01 | 2022-11-08 | Klarna Bank Ab | Service-to-service strong authentication |
CN112131446B (zh) * | 2020-08-19 | 2023-11-17 | 深圳云天励飞技术股份有限公司 | 图节点分类方法、装置、电子设备及存储介质 |
CN116501915B (zh) * | 2023-06-29 | 2023-10-20 | 长江三峡集团实业发展(北京)有限公司 | 一种能量管理端语音页面检索方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69829187T2 (de) * | 1998-12-17 | 2005-12-29 | Sony International (Europe) Gmbh | Halbüberwachte Sprecheradaptation |
US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
US7512582B2 (en) * | 2003-12-10 | 2009-03-31 | Microsoft Corporation | Uncertainty reduction in collaborative bootstrapping |
US7366705B2 (en) * | 2004-04-15 | 2008-04-29 | Microsoft Corporation | Clustering based text classification |
US7260568B2 (en) * | 2004-04-15 | 2007-08-21 | Microsoft Corporation | Verifying relevance between keywords and web site contents |
US7412425B2 (en) * | 2005-04-14 | 2008-08-12 | Honda Motor Co., Ltd. | Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps |
US8688208B2 (en) * | 2007-08-27 | 2014-04-01 | Microsoft Corporation | Method and system for meshing human and computer competencies for object categorization |
US8738354B2 (en) * | 2009-06-19 | 2014-05-27 | Microsoft Corporation | Trans-lingual representation of text documents |
-
2009
- 2009-10-29 US US12/608,272 patent/US8612364B2/en not_active Expired - Fee Related
-
2010
- 2010-10-27 FR FR1004227A patent/FR2952205A1/fr active Pending
Non-Patent Citations (5)
Title |
---|
BORIS CHIDLOVSKII ED - SHLOMO GEVA ET AL: "Semi-supervised Categorization of Wikipedia Collection by Label Expansion", 15 December 2009, ADVANCES IN FOCUSED RETRIEVAL, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 412 - 419, ISBN: 978-3-642-03760-3, XP019126721 * |
CHIDLOVSKII BORIS ED - WALTER DIDIMO ET AL: "Multi-label Wikipedia Classification with Textual and Link Features", 7 December 2009, NETWORK AND PARALLEL COMPU; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER INTERNATIONAL PUBLISHING, CHAM, PAGE(S) 387 - 396, ISBN: 978-3-642-24748-4, ISSN: 0302-9743, XP047310693 * |
RONG LIU ET AL: "Graph-based Semi-supervised Learning Algorithm for Web Page Classification", INTELLIGENT SYSTEMS DESIGN AND APPLICATIONS, 2006. ISDA '06. SIXT H INTERNATIONAL CONFERENCE ON, IEEE, PI, 1 October 2006 (2006-10-01), pages 856 - 860, XP031022964, ISBN: 978-0-7695-2528-0 * |
XIAOGUANG QI ET AL: "Web page classification", ACM COMPUTING SURVEYS, vol. 41, no. 2, 1 February 2009 (2009-02-01), pages 1 - 31, XP058021941, ISSN: 0360-0300, DOI: 10.1145/1459352.1459357 * |
XIAOJIN ZHU: "Semi-Supervised Learning Literature Survey", COMPUTER SCIENCES TR 1530, 19 July 2008 (2008-07-19), University of Wisconsin, Madison, XP055162566, Retrieved from the Internet <URL:http://pages.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf> [retrieved on 20150115] * |
Also Published As
Publication number | Publication date |
---|---|
US20110106732A1 (en) | 2011-05-05 |
US8612364B2 (en) | 2013-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2952205A1 (fr) | Procede pour categoriser des documents lies par une expansion d'etiquettes formees simultanement. | |
US11526675B2 (en) | Fact checking | |
Salloum et al. | Analysis and classification of Arabic newspapers’ Facebook pages using text mining techniques | |
Shankar et al. | An overview and empirical comparison of natural language processing (NLP) models and an introduction to and empirical application of autoencoder models in marketing | |
Ganu et al. | Improving the quality of predictions using textual information in online user reviews | |
CN105210064B (zh) | 使用深度网络将资源分类 | |
Naeem et al. | A deep learning framework for clickbait detection on social area network using natural language cues | |
US20130159277A1 (en) | Target based indexing of micro-blog content | |
Alhamdani et al. | Recommender system for global terrorist database based on deep learning | |
Hain et al. | The promises of Machine Learning and Big Data in entrepreneurship research | |
Yogi et al. | Scalability and Performance Evaluation of Machine Learning Techniques in High-Volume Social Media Data Analysis | |
Moskalenko et al. | Scalable recommendation of wikipedia articles to editors using representation learning | |
Tal et al. | A Joint Deep Recommendation Framework for Location‐Based Social Networks | |
Zhang et al. | MULTIFORM: few-shot knowledge graph completion via multi-modal contexts | |
Plaza | Semantics and experience in the future web | |
Xu et al. | Towards annotating media contents through social diffusion analysis | |
Alabdulkarim et al. | Exploring Sentiment Analysis on Social Media Texts | |
Zhou | Intelligent personalized content recommendations based on neural networks | |
Wang et al. | A spatial and sequential combined method for web service classification | |
Bhalerao et al. | Social media mining using machine learning techniques as a survey | |
Al-Baity et al. | Towards effective service discovery using feature selection and supervised learning algorithms | |
Tian et al. | A learning approach for topic-aware influence maximization | |
Zhang et al. | Complementary classification techniques based personalized software requirements retrieval with semantic ontology and user feedback | |
Kumar et al. | A finetuned language model for recommending cQA-QAs for enriching textbooks | |
Schlieder | Modeling collaborative semantics with a geographic recommender |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 7 |
|
PLSC | Publication of the preliminary search report |
Effective date: 20170217 |
|
PLFP | Fee payment |
Year of fee payment: 8 |