EP1910918A2

EP1910918A2 - Methode et systeme pour extraire automatiquement des donnees a partir de sites web

Info

Publication number: EP1910918A2
Application number: EP06787271A
Authority: EP
Inventors: Bora C. Gazen; Steven N. Minton
Original assignee: Fetch Technologies Inc
Current assignee: Fetch Technologies Inc
Priority date: 2005-07-15
Filing date: 2006-07-14
Publication date: 2008-04-16
Also published as: WO2007011714A3; CA2614774A1; WO2007011714A2; WO2007011714A9

Abstract

Selon un mode de réalisation de l'invention, des données peuvent être automatiquement extraites à partir de sites Web semi-structurés. Un apprentissage non supervisé peut être utilisé pour analyser des sites Web et pour découvrir leur structure. Une méthode de l'invention fait appel à un ensemble 'd'experts' hétérogènes, chaque expert permettant d'identifier certains types de structure générique. Chaque expert représente ses découvertes sous forme 'd'indices'. En fonction de ces indices, le système peut regrouper les pages et des segments de texte, et identifier des données semi-structurées pouvant être extraites. Pour identifier un bon rassemblement de pages, un modèle probabilistique du procédé de génération d'indices peut être utilisé.