CN101582075A

CN101582075A - Web信息抽取系统

Info

Publication number: CN101582075A
Application number: CNA200910012239XA
Authority: CN
Inventors: 陈荣; 郭银蕊; 刘亚清; 陈涛; 陈娟; 孙向伟; 史玉翡
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2009-06-24
Filing date: 2009-06-24
Publication date: 2009-11-18
Anticipated expiration: 2029-06-24
Also published as: CN101582075B

Abstract

本发明公开了一种Web信息抽取系统，其特征在于包括：检索解析模块、规则生成模块和数据抽取存储模块：检索解析模块包括网络爬虫单元和HTML解析器；规则生成模块包括单槽抽取规则生成单元和多槽抽取规则生成单元；数据抽取存储模块，规则生成模块生成的抽取规则，从检索解析模块下载的网页上提取数据并以结构化的形式存储。该系统具有：生成单槽抽取规则时界面操作简单、容易理解；对于生成多槽抽取规则，系统提供图形界面帮助用户标注，节省用户的时间和体力；对于预先生成的抽取规则和任务序列，系统提供两种方式实现批量任务的抽取和存储；系统可以根据用户配置的参数，在预先设定的周期和时间完成抽取存储任务。

Description

Web信息抽取系统

技术领域

本发明涉及一种Web信息抽取系统，尤其涉及一种网页的解析、抽取规则的定义与生成、数据的存储与分析的半自动化的Web信息抽取系统。

背景技术

当前，搜索引擎已经成为人们从万维网获取信息的主要工具之一。但是使用搜索引擎进行信息检索的结果往往包含着大量不相关的Web页面，用户需要浏览每张结果页面才能真正获取到自己所需要的信息。解决这一问题的主要方法是开发出相应的信息抽取工具。Web信息抽取(Web Information Extraction：WIE)是指从结构化或半结构化的Web页面中自动或者半自动地抽取出用户感兴趣的信息，并以结构化的形式存储到数据库中。信息抽取的有着广泛地应用领域：网上比较购物系统，系统通过抽取不同网站中不同品牌的同类商品的信息(如性能、价格等)，为用户提供清晰的商品比较分析；股票分析系统将分散在不同Web页面的动态变化的股市信息抽取出来，用于股市行情公告；天气分析系统通过抽取并存储每天的天气情况，为天气预报和分析提供依据。

根据Laender的观点，目前主要的web信息抽取工具可以分为六类：基于特定语法的，如Minerva和Web-OQL；基于web页面结构的，如W4F和RoadRunner；基于自然语言处理(NLP)技术的，如WHISK和RAPIER；基于归纳学习的，如WIEN和SoftMealy；基于数据模型的，如DEBYE；基于领域本体的，如BYU。这些信息抽取工具在自动化程度、处理网页类型、数据存储方式等方面都存在较大差异，但它们主要的问题是缺乏一定的通用性，且未能对抽取数据进行分析和预测。

发明内容

本发明针对以上问题的提出，而研制一个自动化程度较高且通用性较强的IE系统。具体采用的技术手段如下：

一种Web信息抽取系统，其特征在于包括：检索解析模块、规则生成模块和数据抽取存储模块：

所述检索解析模块包括网络爬虫单元和HTML解析器，

所述网络爬虫单元用于以设定的时间间隔动态地检索下载同检索规则匹配的Web页面，

所述HTML解析器用于对网络爬虫单元下载的HTML网页中的字符逐个扫描，解析HTML文档的结构层次关系，并为相同的HTML标签从零开始依次添加编号，最终形成HTML文件对应的DOM树和脚本网页；

所述规则生成模块包括单槽抽取规则生成单元和多槽抽取规则生成单元，

所述单槽抽取规则生成单元，用于生成一个孤立的信息点的抽取规则，即生成一个对网页中的局部信息点进行抽取的规则，

所述多槽抽取规则生成单元，用于生成多个相互联系的信息点的抽取规则，即生成一个对网页中多个结构相似的信息块中所有相关联的信息点进行抽取的规则；

所述数据抽取存储模块，根据所述规则生成模块生成的抽取规则，从检索解析模块下载的网页上提取数据并以结构化的形式存储。

所述单槽抽取规则生成单元包括：脚本网页信息节点获取单元和DOM树信息节点获取单元；

所述脚本网页信息获取单元，用于启动浏览器打开脚本网页，选择网页信息点后，并自动生成根节点到目标信息节点的DOM路径；

所述DOM树信息节点获取单元内部设有查找单元，用于用户提供网页中感兴趣的信息点的部分或全部内容，通过查找单元把DOM树中所有的相关节点展开，选中信息点对应的叶子节点，然后获得到信息点在DOM树中的路径。

所述多槽抽取规则生成单元包括：查找单元、选择单元、预处理单元、语义字典单元和学习算法单元；

所述查找单元，用于获得感兴趣信息块在DOM树中的位置；

所述选择单元，用于获得所述查找单元查找到的信息块在DOM树中的节点的路径，即得到包含HTML标签的信息块集合和信息块在DOM树中的路径；

所述预处理单元，用于对所述选择单元获得的信息块经过例子去噪和例子标注处理后作为训练例子作为学习算法单元的输入；

所述语义字典单元，用于对相关领域中基本术语作解释，其中语义部分采用正则表达式或采用单词和单词缩写的组合来表示，作为学习算法单元的输入；

所述学习算法单元对预处理单元和语义字典单元提供的训练例子和语义字典，经过学习算法处理后，获得信息块中所有相关联的信息点的正则表达式规则集。

上述，选择单元得到信息块在DOM树中的路径和学习算法单元得到的正则表达式集结合起来构成完整的多槽抽取规则集。

该系统还包括：趋势分析模块，用于对所述数据抽取存储模块抽取出相应的数据中的主题数据进行统计分析，生成直观的图形显示统计结果。

一种Web信息抽取方法，其特征在于包括如下步骤：

(1)利用系统中的网络爬虫部件以设定的时间间隔动态地检索下载同检索规则匹配的Web页面；

(2)然后使用系统中的HTML解析器对步骤(1)下载的HTML网页中的字符逐个扫描，解析HTML文档的结构层次关系，并为相同的HTML标签从零开始依次添加编号，最终形成HTML文件对应的DOM树和脚本网页；

(3)根据步骤(2)获取的DOM树和脚本网页生成信息的抽取规则，包括孤立的信息点的抽取规则和多个相互联系的信息点的抽取规则，具体生成步骤如下：

a、生成一个孤立的信息点的抽取规则，即生成一个对网页中的局部信息点进行抽取的规则；

b、生成多个相互联系的信息点的抽取规则，即生成一个对网页中多个结构相似的信息块中所有相关联的信息点进行抽取的规则；

(4)根据步骤(3)生成的抽取规则，从步骤(1)下载的网页上提取数据并以结构化的形式存储。

所述步骤(3)中的步骤a具体包括：

启动浏览器打开脚本网页，选择网页信息点后，并自动生成根节点到目标信息节点的DOM路径的步骤和用户提供网页中感兴趣的信息点的部分或全部内容，通过查找单元把DOM树中所有的相关节点展开，选中信息点对应的叶子节点，然后获得到信息点在DOM树中的路径的步骤；

所述步骤(3)中的步骤b具体包括如下步骤：

1)获得感兴趣信息块在DOM树中的位置；

2)获得所述步骤1)查找到的信息块在DOM树中的节点的路径，即得到包含HTML标签的信息块集合和信息块在DOM树中的路径；

3)对所述步骤2)获得的信息块经过例子去噪和例子标注处理后作为训练例子；

4)对相关领域中基本术语作解释，其中语义部分采用正则表达式或采用单词和单词缩写的组合来表示形成语义字典；

5)对步骤3)和步骤4)提供的训练例子和语义字典，经过学习算法处理后，获得信息块中所有相关联的信息点的正则表达式规则集。

6)对所述步骤2中获得的信息块在DOM树中的路径和所述步骤5中获得的正则表达式规则集，两者结合起来构成完整的多槽规则集。

该方法还包括：趋势分析的步骤，对所述步骤(4)抽取出相应的数据中的主题数据进行统计分析，生成直观的图形显示统计结果。

本发明提供的Web信息抽取系统同现有技术相比其优点是显而易见的，具体如下：

(1)本系统提供了用于抽取网页中感兴趣信息的抽取规则的表示和生成方法，使得不具备专业知识的任何用户都可以利用本系统生成抽取规则。生成单槽抽取规则时界面操作简单、容易理解；对于生成多槽抽取规则，系统提供图形界面帮助用户标注，节省用户的时间和体力。

(2)对于预先生成的抽取规则和任务序列，系统提供两种方式实现批量任务的抽取和存储。系统可以根据用户配置的参数，在预先设定的周期和时间完成抽取存储任务。

(3)对于抽取并存储在数据库中的大量数据，用户可以配置一定的参数，如设置时间段、关注信息的名称、生成图形样式等，形成在设定的时间段内用户所关注数据的趋势走向或统计分析图，方便用户总结归纳特定网页的特定信息，发现潜在规律和趋势。

附图说明

图1为本发明的系统结构图；

图2为本发明的实施例系统结构示意图；

图3为本发明的实施例系统流程图；

图4为本发明的实施例单槽抽取规则实现过程图；

图5为本发明的实施例多槽抽取规则实现过程图；

图6为本发明的实施例新浪天气实例用DOM树定义单槽抽取规则；

图7为本发明的实施例ebay网站book实例用DOM生成多槽抽取规则；

图8为本发明的实施例界面方式启动五个任务；

图9为本发明的实施例规则学习算法流程图；

图10为本发明的实施例趋势分析图。

具体实施方式

如图1所示，系统主要分为四个模块：检索解析模块、规则生成模块、数据抽取存储模块和趋势分析模块。其中检索解析模块的任务是根据用户提供网页的检索规则(一个或多个URL)抓取并下载网页到本地，然后实现对网页的解析；规则生成模块的任务是定义和生成用户感兴趣信息的抽取规则；数据抽取存储模块利用抽取规则从下载的网页上提取数据并以结构化的形式存储；趋势分析模块的主要功能是对数据库中的主题数据进行统计分析，生成直观的图形(如柱状图、折线图等)显示统计结果。

如图2所示为本实施例的系统结构示意图，以上四个模块构成该系统，但是要实现各个功能，需对以上各模块作进一步划分。其中检索解析模块包括网络爬虫单元和HTML解析器，网络爬虫单元用于以设定的时间间隔动态地检索下载同检索规则匹配的Web页面，HTML解析器用于对网络爬虫单元下载的HTML网页中的字符逐个扫描，解析HTML文档的结构层次关系，并为相同的HTML标签从零开始依次添加编号，最终形成HTML文件对应的DOM树和脚本网页；规则生成模块包括单槽抽取规则生成单元和多槽抽取规则生成单元：

其中单槽抽取规则生成单元，用于生成一个孤立的信息点的抽取规则，即生成一个对网页中的局部信息点进行抽取的规则包括：脚本网页信息节点获取单元和DOM树信息节点获取单元：脚本网页信息获取单元用于启动浏览器打开脚本网页，选择网页信息点后，并自动生成根节点到目标信息节点的DOM路径；DOM树信息节点获取单元内部设有查找单元，用于用户提供网页中感兴趣的信息点的部分或全部内容，通过查找单元把DOM树中所有的相关节点展开，选中信息点对应的叶子节点，然后获得到信息点在DOM树中的路径。

多槽抽取规则生成单元，用于生成多个相互联系的信息点的抽取规则，即生成一个对网页中多个结构相似的信息块中所有相关联的信息点进行抽取的规则包括：查找单元、选择单元、预处理单元、语义字典单元和学习算法单元；

查找单元，用于获得感兴趣信息块在DOM树中的位置；

选择单元，用于获得所述查找单元查找到的信息块在DOM树中的节点的路径，即得到包含HTML标签的信息块集合和信息块在DOM树中的路径；

预处理单元，用于对所述选择单元获得的信息块经过例子去噪和例子标注处理后作为训练例子作为学习算法单元的输入；

语义字典单元，用于对相关领域中基本术语作解释，其中语义部分采用正则表达式或采用单词和单词缩写的组合来表示，作为学习算法单元的输入；

学习算法单元对预处理单元和语义字典单元提供的训练例子和语义字典，经过学习算法处理后，获得信息块中所有相关联的信息点的正则表达式规则集。

选择单元得到信息块在DOM树中的路径和学习算法单元得到的正则表达式集结合起来构成完整的多槽抽取规则集。

数据抽取存储模块，根据所述规则生成模块生成的抽取规则，从检索解析模块下载的网页上提取数据并以结构化的形式存储。

系统的具体执行过程如图3所示，首先根据检索规则下载网页并解析网页，得到相应的脚本网页和DOM树，利用系统中的网络爬虫部件以设定的时间间隔动态地检索下载同检索规则匹配的Web页面。然后使用系统中的HTML解析器解析已下载的静态网页。HTML解析器的工作原理是通过逐个扫描已下载的HTML网页中的字符，解析HTML文档的结构层次关系，并为相同的HTML标签从零开始依次添加编号，这样保证HTML文件中的每个标签是唯一的，即用标签名和编号唯一标识。此模块的处理结果是得到HTML文件对应的DOM树(图6所示)和脚本网页，它们将作为规则生成模块的输入条件。

接着在人的参与下，由脚本网页和DOM树生成信息的抽取规则，抽取规则是为了识别用户感兴趣的信息，它定义了感兴趣的信息在HTML文档中的位置以及匹配模式。

抽取规则的定义及分类：

抽取规则的格式定义为“DOM树路径，match(正则表达式规则):名称”的形式。根据单个抽取规则能抽取槽的个数，可将抽取规则分为单槽抽取规则和多槽抽取规则两种。单槽抽取规则通过用户参与来生成抽取规则，多槽抽取规则则是通过机器学习算法生成。

1、单槽抽取规则

单槽抽取规则：指一条规则只能抽取一个孤立的信息点的抽取规则，形如“信息点的DOM树路径，match(.*):名称”。

适用于抽取网页中的孤立的信息点，即网页中的局部信息点。这样的信息点可以通过用户操作图形用户界面获得。单槽抽取规则的实现过程如图4所示，系统提供两种定义单槽抽取规则的方法：一是根据脚本网页，另一种是根据网页文件对应的DOM树。

脚本网页是指为网页每个标签添加了Javascript脚本触发事件的网页文件。脚本利用Javascript内置对象DOM(文档对象模型)访问文档的节点以及节点的层次关系。

操作过程：启动浏览器打开脚本网页，单击网页上感兴趣的信息点，就会自动生成根节点到目标信息节点的DOM路径；然后用户输入规则名称，即可获得相应的单槽抽取规则。

对于DOM树，用户提供网页中感兴趣的信息点的部分或全部内容，然后通过系统提供的DOM树右键查找功能，可以把树中所有的相关节点展开；用户选中信息点对应的叶子节点(如图5)，然后通过右键菜单提供生成规则命令，即可得到信息点在DOM树中的路径；用户输入相应的名称，即获得相应的单槽抽取规则。

2、多槽抽取规则

多槽抽取规则指一条规则能够抽取多个相互联系的信息点的抽取规则，其形式如“信息块的DOM树路径，match(信息块正则表达式规则):名称”。

适用于抽取网页中多个结构相似的信息块中所有相关联的信息点。

实现过程：多槽抽取规则的实现过程如图5所示，通过DOM树右键的查找功能，可以获得感兴趣信息块在DOM树中的位置(如图6)；然后选择包含所有信息块的节点，即可得到包含HTML标签的信息块集合和信息块在DOM树中的路径；信息块经过预处理作为训练例子，结合对应的语义字典一起作为学习算法的输入，经过学习算法处理，输出正则表达式规则集。信息块的DOM树路径和正则表达式规则集一起构成完整的多槽抽取规则。

下面用一个例子详细解释抽取规则的含义，如“html[0].body[0]->td[1].table[*]，match(.*(#Week#).* (.*)，\s*):TEL”，其中“html[0].body[0]->td[1].table[*]”足指信息块的所在DOM树的路径信息，路径中的点(.)表示点左边的节点是点右边节点的直接后继节点，即两节点具有直接父子关系；箭头(->)表示箭头左边的节点是箭头右边节点的间接后继节点，即两节点具有祖先后代关系，但非父子关系；星(*)指通配符，匹配此路径下相同标签的任意序号。一条路径信息可以是多个点、箭头的任意组合。“.*(#Week#).* (.*)，\s*”是含有两个槽的正则表达式规则，捕获组中的内容即待抽取的槽的内容。“TEL”是此抽取规则的名称。其中语义字典以“名字＝语义”的形式对相关领域中基本术语作了解释，其中“语义”部分采用正则表达式或者采用单词和单词缩写的组合来表示。举例如下：Postalcode＝^\d{5}(-\d{4})？$是一个美国邮编的正则表达式表示的语义字典，而Week＝Monday|Tuesday|Wednesday|Thursday|Friday|Saturday|Sunday是一个星期的单词组合表示的语义字典。信息块预处理过程包含两个阶段：例子去噪和例子标注。例子去噪是指系统采用正则表达式，把超链接、图片、脚本等噪音信息自动从训练例子集中删除。例子标注是指对训练例子中用户感兴趣的信息点作语义标记，每个信息点作为一个槽。系统提供图形用户界面帮助用户进行标注：用户选择标注的语义名称和例子中对应的信息点，自动完成例子的标注。系统提供两种学习算法生成正则表达式规则集，算法主体流程如图9，其中一个算法是采用WHISK系统中的学习算法，另一个算法是利用遗传算法改进原算法。图9中，项的转化是指使用语义字典把训练例子转化为项的序列，例如：“Monday”转化的项为“”，“Monday”，“”。Base1和Base2是槽的两种表示方法，Base1用槽的内容项表示，Base2用槽的左右边界项表示。对于上例，Base1表示为“.*(Monday).*”，Base2表示为“(.*)”。Rule表示标注例子生成的正则表达式规则。两种算法主要区别有三点：1、项的定义和转化方式，2、扩展规则的方式，3、生成正则表达式规则集方式。系统把已标注的训练例子集和语义字典作为学习算法输入，用户通过界面配置相关参数，自动生成正则表达式规则集。

然后根据检索规则和对应的抽取规则提取网页DOM树中相应的数据并存到数据库中，通过上面模块可以得到检索规则对应的抽取规则，抽取过程就是根据抽取规则定位到同检索规则相匹配的网页的DOM树中具体位置，抽取出相应的数据；抽取的结果是“名称-数据”对。存储过程把数据名称、数据、类型、主题、抽取时间、检索规则等信息存入数据库，方便进一步查询分析。

系统支持两种方式配置批量任务参数，实现自动抽取存储：一是通过系统配置界面配置的启动参数，如图8中通过方式一配置五个任务(如图中B所示)的批量任务的DOM树界面；二是通过命令行方式配置启动参数；启动参数包括：批量任务名、描述信息、批量检索规则、对应的抽取规则、存储方式等。

命令行的格式规定如下：-tn是指一个批量任务的名称；-td是指此批量任务的描述信息(可缺省)；-url是指待抽取的文件的url地址即检索规则；-rn是指对应上个url的抽取规则文件存放的路径和名称，规则文件后缀是rl；-sd是指是否把抽取的数据存到数据库(可缺省)，用y或n表示，y表示存储，n表示不存储，缺省状态是y；参数之间用空格分开。例如存在两个抽取任务的命令行格式如下：“-tn task-url http://weather.news.sina.com.cn/-rnd:\rule\163.rl -url http://www.dlmu.edu.com/xxgk/xrld.html -rnd:\rule\dlmu.rl-sd y”。

当参数配置好以后，系统利用状态机解析命令行得到相应的配置参数，并对错误的命令行输入进行警告处理，根据配置参数自动执行抓取网页、下载解析网页、抽取数据、存储数据。

最后对抽取存储在数据库中的数据进行趋势分析，系统引入jfreechart开源的java工具包，对于抽取并存储在数据库中的大量的历史数据，通过用户配置统计的参数、数据和图表类型，可以得到相应的数据统计图表，从图表中可以分析发现数据潜在的规律和趋势。

衡量信息抽取系统的性能主要根据两个评价指标：召回率和准确率。召回率(R)等于系统正确抽取的结果占所有可能正确结果的比例；准确率(P)等于系统正确抽取的结果占所有抽取结果的比例。公式如：

R = \frac{A}{A + C} * 100 %,

P = \frac{A}{A + B} * 100 %,

其中A指抽取正确信息的个数，B指抽取错误信息的个数，C指未抽取出信息的个数。R和P越高，抽取效果越好。

下面以几个实例说明本系统的实施方式：

一、单槽抽取规则网页

以“新浪-天气-大连”这个网页为例，介绍单槽抽取规则的定义方法。假设对本网页感兴趣的信息是当天的天气情况，包括以下信息点：城市名、星期、温度、风力。定义规则过程如下：

(1)首先户输入检查规则(对应URL)，并选择定义抽取规则方式(脚本网页和DOM树)；根据提示界面选择规则存储路径，并输入规则文件名称(扩展名为rul)。

(2)若选择脚本网页方式，则系统自动下载URL对应的网页并解析得到脚本网页。系统自动启动浏览器打开脚本网页，用户可以在网页中感兴趣的天气信息点上逐个点击并设置规则名称，这样对于每个信息点定义一条单槽抽取规则。

(3)若选择DOM树方式，则系统也会自动下载URL对应的网页并解析得到相应的DOM树(如图6所示其中A为标签+编号)。系统为DOM树右键提供查找和定义规则的功能，首先根据查找展开DOM树到待查找的信息点所在树中的节点，选中此节点点击右键定义规则并设置规则名称，得到此节点也就是此信息点的单槽抽取规则。对每个感兴趣的信息点都采用此方法定义规则。

由此，可以得到此网页的规则文件如下：(为了方便说明，为抽取规则添加行号)

1、html[0].body[0].div[0].div[5].div[6].div[7].div[8].div[9].h3[0]，match(.*):Cityname

2、html[0]->p[1]，match(.*):Week

3、html[0].body[0].div[0]->div[11]，match(.*):Temperature

4、html[0].body[0].div[0].div[5].div[6].div[7].div[8].div[*]，match(.*):Wind

用户生成单槽抽取规则时可以赋予相应的语义名称并选择表示方式，如第一条用表示城市，第四条表示风力，路径全用点(.)表示；第二条表示星期，路径用箭头(->)表示；第三条表示温度，路径用点和箭头混合表示。对于结构固定的网页，用此抽取规则文件可以准确的抽取信息。通过一个月抽取验证，抽取结果的准确率和召回率都为100％。

二、多槽抽取规则的例子

对于多槽抽取规则，通过学习算法获得。系统中实现的项的转化算法是针对英文字符串处理的，所以现在只能针对英文网页采用学习算法，也只能抽取英文网页。根据信息块结构的不同，我们分为两种情况：1、结构化数据，2、半结构化数据。

结构化数据从ebay英文网站中选择book(http://books.half.ebay.com/)选择任意一个种类，页面显示从后台数据库中读取的图书条目信息，每个网页上含有很多个结构相似的图书信息的信息块。我们想获取每个图书信息块中的书名、作者、价格、样式、年份，但却无法获取该网站的数据库，只能从页面上获得这些信息。网页中，每个图书信息块都包含这四个所需信息，不存在信息缺失或增多的情况。图书的样式仪有固定的几种形式(如Hardcover、Paperback、Boxset、Other等)，因此对样式定义相应的此领域的语义字典，即#Format＝Paperback|Hardcover|Boxset|Other，将其添加到语义字典中。

首先解析相应网页得到相应的DOM树，如图7所示，所有信息块都对应着选中的节点(table[28])内的“tr”标签内。然后用户仅需选择少量的信息块经过预处理作为训练例子，并选择相应的语义字典文件，启动规则学习算法。通过学习生成正则表达式规则集，其中一条如下：“<tr>.*(.*):(.*) (#Format#)，#Space#(#Num4#) (.*).*</tr>”。其中以“#”开头并结尾的项是指用语义字典中的语义表示的项。结合信息块的路径信息，即“html[0].body[0].table[15].tr[19].td[91].br[3].table[28]”得到完整的多槽抽取规则。

用户选取10个标注例子作为训练例子，生成多槽抽取规则集，对五个同源网页(每个网页有20个图书信息块)进行抽取测试，通过验证表明两种学习算法抽取的召同率和准确率都达到了100％。

半结构化数据选取来自BigBook网站的数据，输入IBM后查询网页中的数据。信息块的结构都不是完全相同的，存在较大的差异性。假设用户要抽取的是每个信息块中的公司名字、地址、所在城市、所在州、邮政编码、电话号码6个槽的信息，但是有些记录中槽的信息有缺失(例如缺少州这个槽)，有些记录中有信息的增加(例如多个电话槽)。训练例子中的结构不完全相同，存在较大的差异性，因此抽取的准确率和召回率也不可能达到100％。通过实验统计，在一定范围内，选取的训练例子越多，生成规则抽取的结果越好。当训练例子达到200个时，选取700个标注例子作为测试例子，测试召回率都达到98％以上，准确率也能达到96％以上。

三、趋势分析

本例以新浪天气抽取并存储在数据库中的历史数据为例，对抽取数据进行统统计并趋势分析。系统通过用户配置统计的参数、数据和图类型，可以得到相应的统计图。如图10上图显示统计一周内两个城市最高和最低温度折线图；而如图10下图则统计了1、7、10月份3个城市晴天的天数的柱状图。从这些统计图中可以分析天气情况和气温趋势。

运用本发明所提供的系统，普通用户仅需要根据系统界面提示，一次生成抽取规则文件，多次自动抽取并存储，这样重复利用抽取规则文件可以显著降低用户操作，提高系统自动化程度。通过验证，系统抽取能到得到较好召回率和准确率。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1、一种Web信息抽取系统，其特征在于包括：检索解析模块、规则生成模块和数据抽取存储模块：

所述检索解析模块包括网络爬虫单元和HTML解析器，

2、根据权利要求1所述的一种Web信息抽取系统，其特征在于所述单槽抽取规则生成单元包括：脚本网页信息节点获取单元和DOM树信息节点获取单元；

3、根据权利要求1所述的一种Web信息抽取系统，其特征在于所述多槽抽取规则生成单元包括：查找单元、选择单元、预处理单元、语义字典单元和学习算法单元；

所述查找单元，用于获得感兴趣信息块在DOM树中的位置；

所述学习算法单元对预处理单元和语义字典单元提供的训练例子和语义字典，经过学习算法处理后，获得信息块中所有相关联的信息点的正则表达式规则集；

4、根据权利要求1、2或3所述的一种Web信息抽取系统，其特征在于该系统还包括：趋势分析模块，用于对所述数据抽取存储模块抽取出相应的数据中的主题数据进行统计分析，生成直观的图形显示统计结果。

5、一种Web信息抽取方法，其特征在于包括如下步骤：

(3)根据步骤(2)获取的DOM树和脚本网页生成信息的抽取规则，包括孤立的信息点的单槽抽取规则和多个相互联系的信息点的多槽抽取规则，具体生成步骤如下：

6、根据权利要求5所述的一种Web信息抽取系统，其特征在于所述步骤(3)中的步骤a具体包括：

7、根据权利要求5所述的一种Web信息抽取系统，其特征在于所述步骤(3)中的步骤b具体包括如下步骤：

1)获得感兴趣信息块在DOM树中的位置；

5)对步骤3)和步骤4)提供的训练例子和语义字典，经过学习算法处理后，获得信息块中所有相关联的信息点的正则表达式规则集；

8、根据权利要求5、6或7所述的一种Web信息抽取系统，其特征在于该方法还包括：趋势分析的步骤，对所述步骤(4)抽取出相应的数据中的主题数据进行统计分析，生成直观的图形显示统计结果。