CN104881488A

CN104881488A - 基于关系表的可配置信息抽取方法

Info

Publication number: CN104881488A
Application number: CN201510306130.2A
Authority: CN
Inventors: 滕晓程; 陈茂榕; 邵明路; 周晔; 孟凡军
Original assignee: Southeast University; Focus Technology Co Ltd
Current assignee: Southeast University; Focus Technology Co Ltd
Priority date: 2015-06-05
Filing date: 2015-06-05
Publication date: 2015-09-02
Anticipated expiration: 2035-06-05
Also published as: CN104881488B

Abstract

一种基于关系表的可配置信息抽取方法，首先用结构化的形式对信息抽取任务进行定义，然后采取人工方式和机器学习相结合的方法，构建抽取规则，从而对目标页面进行抽取；1)信息抽取用户接口：所述用户接口让用户以表格化的形式表达信息抽取需求，包括对信息抽取的主体；2)信息抽取规则集生成，所需信息的抽取规则集合分成两部分：人工构建的抽取规则和通过机器学习自动生成的规则；3)数据抽取：对网页上信息的抽取和结果的持久化的工作：根据用户配置的信息抽取表对某一网页抽取信息时，分别对每个属性的内容进行抽取，再使用训练好的模型对其进行分类。

Description

基于关系表的可配置信息抽取方法

一、技术领域

本发明属于计算机领域互联网数据抽取，具体涉及一种基于关系表的可配置信息抽取框架技术。

二、背景技术

随着互联网的迅速发展，人们的生活越来越离不开网络，互联网上的信息量也呈

现爆炸性的增长，这使得互联网成为了一个巨大的信息源，能够提供海量有价值的信息。对于用户来说，如何有效地获取和利用这些信息变得尤为迫切和重要。目前互联网上的数据大部分都是以HTML形式出现的，HTML文档中的信息主要是面向显示的，缺乏对数据本身的描述，也不包含语义信息，大多是非结构化或半结构化的数据。这使得应用程序无法直接解析并利用这些信息。

为了增加互联网上数据的可用性，让应用程序能够直接利用互联网上的信息资源，让用户能够在海量信息中方便地获取所需要的信息，需要自动将网页上的非结构化或半结构化数据转化为结构化数据。Web信息抽取技术正是在这种背景下产生的。

Web信息抽取指的是从网页所包含的无结构或半结构化数据中抽取出用户感兴趣的数据，并将其转化为更具语义，更结构化的形式保存下来以供用户查询或其他程序应用。因此传统的信息抽取通常使用自然语言理解技术，如词典、语法分析等，而Web信息抽取常常使用机器学习、模式挖掘等技术。Web信息抽取在Web数据挖掘的很多应用中有很重要的作用，如超链接分析，日志挖掘，网页内容挖掘等。

一个信息抽取任务通常是与某个领域密切相关的，如抽取课程类网站主页上的课程名称、内容和老师等信息，或从旅游论坛上抽取联系信息和联系信息对应的功能类别等。生活中也有很有Web信息抽取的应用，如购物网站商品比较系统抽取不同购物网站的商品价格等信息反馈给用户；个性化自动信息推送服务自动在目标网站抽取用户感兴趣的信息定期推送给用户等。不同的抽取任务涉及不同领域，缺乏一定的规范，而同一个抽取任务在抽取不同网站上的信息时，由于不同网站页面组织和数据结构存在差异，也给信息抽取带来很大困难。

Web信息抽取系统的研究可以追溯到二十世纪九十年代。早期的Web信息抽取系统需要人为定义规则，用户人工为每个抽取任务编写包装器。之后的框架逐渐引入了机器学习等方法以自动生成抽取规则，用户不需要人工(手工)编写抽取规则而只要对数据样本进行标注，大大降低了对用户的要求和包装器的生成成本。近年来的研究重点主要在于进一步提高Web信息抽取自动化程度，降低标注代价，但是自动化程度的提高往往以一些其他性能为代价，如系统对不同领域任务适应性的降低或对作为输入的Web页面有一些特殊的限制。

目前主流的Web信息抽取技术主要有：基于包装器开发专用语言的抽取技术、基于数据模型的抽取技术、基于HTML结构的抽取技术和基于自然语言处理的抽取技术等。如CN103309954A公开的基于html网页的数据抽取方法，其由xml解析器，html引擎以及数据管理器三个模块组成；其中：所述xml解析器模块负责解析sysconfig.xml文件，得到系统初始化参数、页面的url地址和目标节点的描述信息；所述html引擎模块首先验证sysconfig.xml文件配置信息的有效性，如果有效则继续执行，否则提示用户检查xml文件配置信息；xml文件配置通过验证之后，根据配置信息中的页面链接地址，获取该页面的html文档，然后再调用html解析器来解析html文档，根据sysconfig.xml中配置的目标节点选择器描述信息，获得html中目标元素，从而获得该元素的数据；所述数据管理模块主要是负责数据的持久化工作，根据用户在sysconfig.xml中配置的数据保存方式，选择相应的数据管理器来完成数据的持久化工作；所述系统进行数据抽取的工作流程如下：首先，html引擎模块根据xml解析器模块获得的html页面url地址，通过http get请求获取目标网页文档；接着xml解析器模块根据xml文件中的配置目标节点选择器，描述具有相同html页面结构的目标节点；再经过我们的html引擎模块解析，得到我们想要的目标节点的结构化数据；最后由数据管理器模块根据配置文件中配置的数据保存方式将其保存在相应的介质中。

使用基于包装器开发专用语言的抽取技术需要采用人工构建包装器的方法，这就要求用户既要有编程经验又要拥有丰富的领域背景知识和对系统可能的应用场景与任务的预见能力。基于模型的抽取技术主要考虑数据对象的结构以及周围数据特征，受文件形式的影响较小，有较好地灵活性，并且具有一定的自动化程度。但是没有考虑不同网页信息之间的异构性，只能在相似网页中进行抽取。而基于HTML结构的抽取技术依赖HTML页面的结构对信息进行定位，产生的规则只适用于结构相同或相似的一类网页，对于结构不同的网页要重新产生规则。基于自然语言处理的技术只有在含有大量自由文本且句子完整、适合语法分析的网页中能够取得较好的效果，不适用于一般的Web页面，也没有利用Web页面的层次特性。

现有的不同的信息抽取框架有各自的特点，也有很多不足。主要有：

1.在通用性方面，有些只能从网页的纯文本内容中进行信息抽取；有些只适合半结构数据的抽取；有些依赖网页固有结构，只能在相似网页中进行抽取等。

2.现有的抽取技术主要针对网页上明确出现的信息进行抽取，没有考虑网页中隐含

信息的抽取。

提出了基于关系表的可配置信息抽取框架，

三、发明内容

本发明目的是，在吸取现有技术的基础上，提出一种基于关系表的可配置信息抽取框架方法，不仅具有良好的通用性，抽取所适用的规则可适用于结构相同或相异的网页，而且可以抽取网页中没有明确出现的隐含信息。

本发明的技术方案，一种基于关系表的可配置信息抽取框架或方法，即Web信息抽取方法或框架；首先用结构化的形式对信息抽取任务进行定义，然后采取人工方式和机器学习相结合的方法，构建抽取规则，从而对目标页面进行抽取；本发明提出的方法主要由三个部分组成，分别是信息抽取用户接口，抽取规则集生成和数据抽取。

1)信息抽取用户接口：所述用户接口让用户以表格化的形式表达信息抽取需求，包括对信息抽取的主体，即信息抽取表的主键的定义和对信息抽取表中各种属性的定义；

主键和属性的定义的方式采用人工直接构建抽取规则，或者通过样例描述的方法自动学习生成抽取规则；

所述的抽取方法中，用户使用类SQL语言创建信息抽取表，通过信息抽取表的形式定义所要抽取的信息，为信息抽取表定义主键和属性；信息抽取表的主键即所要抽取的信息的主体，是网页中的任何信息或网站本身；属性是网页中明确出现的信息或网页中隐含的信息、特征值或关键词；

2)信息抽取规则集生成，所需信息的抽取规则集合分成两部分：人工构建的抽取规则和通过机器学习自动生成的规则；

人工构建的抽取规则直接通过正则表达式和CSS选择器编写，在信息抽取表创建时用户直接对于这类属性定义其抽取规则自动生成的规则需要根据信息抽取表中定义的某属性的特征，先从一部分网页中抽取其对应特征的一组特征值样本，然后对样本进行人工标注；再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律，即为对应信息的抽取规则；人工标注样本的过程就是构建样本中属性的特征到属性值的映射的过程；

3)数据抽取：主要内容是对网页上信息的抽取和结果的持久化的工作。

根据用户配置的信息抽取表对某一网页抽取信息时，分别对每个属性的内容进行抽取，根据不同属性抽取规则的不同，抽取过程可以分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值，再使用训练好的模型对其进行分类。抽取的结果以结构化的形式存储到数据库中，与用户定义的信息抽取表对应。

对于需要通过特征来定义的属性而言，不同特征值的组合蕴含了不同的属性值，而不同特征值的组合到属性值之间的映射规则即为该属性对应的抽取规则；

而对于部分属性的抽取，使用机器学习的方法自动生成抽取规则，则通过关键词特征来定义：通过网页上的一些关键词特征来综合判别网站是否为某类网站，是否有某类主营业务，某个电话或邮箱是否为客服联系信息等，这些关键词特征定义了属性的内涵；

通过对抽取的特征样本进行人工标注，使用机器学习的方法自动生成对应的抽取规则；

信息抽取用户接口中预定义一些常用的抽取函数，包括直接抽取规则的函数和抽取特征的函数，用户或根据特定需求自定义规则进行抽取。

进一步，根据特定的情况灵活地使用两种方法：在对于提供旅游销售的网站，从描述旅游线路的网页上抽取旅游线路信息时，线路作为表的主体，在同一网站或类似网站中，线路价格，描述属性的位置、格式往往是固定的，所以能够从网页中直接获取，通过正则表达式和CSS选择器进行人工构建抽取规则的方法，CSS选择器是对HTML页面中的元素实现一对一，一对多或者多对一的控制。

HTML页面中的元素就是通过CSS选择器进行控制，CSS选择器对HTML页面中的元素实现一对一，一对多或者多对一的控制。

进一步，规则集生成过程中人工方式和机器学习的方式相结合。自动生成的规则需要先利用事先定义的特征抽取特征样本，并对其进行人工标注，再使用支持向量机SVM训练分类模型从样本中归纳出特征到属性值的映射的一般规律，即为对应信息的抽取规则。

进一步，对不同属性采用不同的抽取规则，抽取的信息以结构化的形式保存，与用户定义的模式相一致。

有益效果：本发明提出了一种新型的Web信息抽取方法或框架。在此框架中，首先用结构化的形式对抽取任务进行定义(信息抽取)，然后采取人工方式和机器学习相结合的方法，构建抽取规则，从而对目标页面进行抽取。相比已有的Web信息抽取框架，该框架的优点在于：

(1)提供一种友好的用户接口，允许用户使用结构化的形式定义信息抽取需求。

(2)不单一地依赖数据或网页的结构特点，而是综合所要抽取信息的各种特征，因而能够适应更复杂的抽取需求。

(3)不仅能抽取网页上明确出现的信息，还能抽取网页上各种特征中隐含的信息。

四、附图说明

图1是本发明用户配置抽取信息表和生成抽取规则集流程图。

图2是根据生成的规则对网页进行信息抽取的流程图。

五、具体实施方式

本发明提出的信息抽取方法，从功能上主要分为信息抽取用户接口，抽取规则集生成和

数据抽取三个部分。

1、信息抽取用户接口

用户通过此接口使用类SQL语言，以关系表的形式配置所要抽取的信息，并定义抽取内

容的各属性及其抽取方式，对于人工构建抽取规则的属性，使用CSS选择器直接定义其抽取规则，对于采用机器学习方法自动构建规则的属性，给出对其特征的定义。

以下是定义信息抽取表的一个示例：使用信息抽取用户接口：Create table旅游网站业务(是本发明方法的典型应用)：

创建表的过程中给出了各个字段及其抽取规则或特征定义，FIELDNAME是关系表中该

字段的名称，EXTENSIVE表示该字段为人工直接定义抽取规则，INTENSIVE表示该字段的抽取规则需要通过机器自动生成。PRIMARY key表示该字段是表的主键。DEFINED BY后面括号中的内容是抽取规则的定义，其中各变量与之前字段定义中的变量相对应。CSS_SELECTOR是一个CSS选择器表达式，即一个直接抽取规则，直接定位页面中需要抽取的内容的位置信息。如”p.title”表示选择所有class为tile的p元素，”p#param”[0]表示选择id为param的第一个p元素。PageNumofFeas是一个预定义的函数，其功能是分别统计某一页面中每个指定的特征对应的特征词出现的总频率，Featurefolder是所有特征对应的特征词所在的磁盘位置。如在抽取一个网站是否为旅游网站这一属性时，特征可以是“国家”、“城市”、“景点”，而国家可以对应很多特征词如阿根廷”、“埃及”、“爱尔兰”等。用户也可以自定义函数用以抽取对应的特征。

2、抽取规则集生成

抽取规则集合分成人工构建的抽取规则和通过机器学习自动生成的规则。在信息抽取表的中人工构建的抽取规则由用户直接定义。对于自动生成的规则，先根据用户定义的特征抽取规则在样本网页上抽取特征样本，并对其进行人工标注，再使用支持向量机训练分类模型，即为对应信息的抽取规则。

3、数据抽取

对于不同规则的属性，做不同的处理。具体地，对于人工构建抽取规则的属性，根据对应的规则直接对网页上的内容进行抽取；对于自动生成规则的属性，先从页面中抽取对应的特征值，再使用训练好的模型对其进行分类。最后将抽取的结果以结构化的形式存储到数据库中。

综上所述，本发明提出的新型的Web信息抽取框架以结构化的形式定义抽取需求，综合了人工抽取规则和机器学习这两种方式，除了具有比较好的灵活性和通用性，还具有良好的扩展性，能够适应不同领域的抽取任务，并且能在具体实践中取得比较好的效果。

Claims

1.一种基于关系表的可配置信息抽取方法，其特征是步骤如下：首先用结构化的形式对信息抽取任务进行定义，然后采取人工方式和机器学习相结合的方法，构建抽取规则，从而对目标页面进行抽取；

3)数据抽取：对网页上信息的抽取和结果的持久化的工作：根据用户配置的信息抽取表对某一网页抽取信息时，分别对每个属性的内容进行抽取，根据不同属性抽取规则的不同，抽取过程可以分别直接按规则对网页上的内容进行抽取和先从页面中抽取对应的特征值，再使用训练好的模型对其进行分类。抽取的结果以结构化的形式存储到数据库中，与用户定义的信息抽取表对应。

2.根据权利要求1所述的基于关系表的可配置信息抽取方法，其特征是对于需要通过特征来定义的属性而言，不同特征值的组合蕴含了不同的属性值，而不同特征值的组合到属性值之间的映射规则即为该属性对应的抽取规则；

而对于部分属性的抽取，使用机器学习的方法自动生成抽取规则，则通过关键词特征来定义：通过网页上的一些关键词特征来综合判别网站是否为某类网站，这些关键词特征定义了属性的内涵；

3.根据权利要求1所述的基于关系表的可配置信息抽取方法，其特征是根据特定的情况灵活地使用两种方法：在对于提供旅游销售的网站，从描述旅游线路的网页上抽取旅游线路信息时，线路作为表的主体，在同一网站或类似网站中，线路价格，描述属性的位置、格式往往是固定的，所以能够从网页中直接获取，通过正则表达式和CSS选择器进行人工构建抽取规则的方法，CSS选择器是对HTML页面中的元素实现一对一，一对多或者多对一的控制。

4.根据权利要求1所述的基于关系表的可配置信息抽取方法，其特征是使用信息抽取用户接口，创建旅游网站业务表：

创建表的过程中给出了各个字段及其抽取规则或特征定义，FIELDNAME是关系表中该字段的名称，EXTENSIVE表示该字段为人工直接定义抽取规则，INTENSIVE表示该字段的抽取规则需要通过机器自动生成；PRIMARY key表示该字段是表的主键；DEFINED BY后面括号中的内容是抽取规则的定义，其中各变量与之前字段定义中的变量相对应；CSS_SELECTOR是一个CSS选择器表达式，即一个直接抽取规则，直接定位页面中需要抽取的内容的位置信息；PageNumofFeas是一个预定义的函数，其功能是统计某一页面中每个指定的特征对应的特征词出现的频率，Featurefolder是所有特征对应的特征词所在的磁盘位置；或用户也自定义函数以抽取特征。

5.根据权利要求1所述的基于关系表的可配置信息抽取方法，其特征是规则集生成过程中人工方式和机器学习的方式相结合。

6.根据权利要求1所述的基于关系表的可配置信息抽取方法，其特征是对不同属性采用不同的抽取规则，抽取的信息以结构化的形式保存，与用户定义的模式相一致。

7.根据权利要求1所述的基于关系表的可配置信息抽取方法，其特征是HTML页面中的元素就是通过CSS选择器进行控制，CSS选择器对HTML页面中的元素实现一对一，一对多或者多对一的控制。