CN105574016A

CN105574016A - 一种半结构化Web信息抽取技术的方法

Info

Publication number: CN105574016A
Application number: CN201410540602.6A
Authority: CN
Inventors: 不公告发明人
Original assignee: ZHENJIANG DINGTUO TECHNOLOGY INFORMATION Co Ltd
Current assignee: ZHENJIANG DINGTUO TECHNOLOGY INFORMATION Co Ltd
Priority date: 2014-10-14
Filing date: 2014-10-14
Publication date: 2016-05-11

Abstract

一种半结构化Web信息抽取技术的方法提出了抽取规则执行算法，该算法首先获取抽取规则指定的Web页面，并且利用HTMLTidy将其转换为格式良好的XML文档，然后利用XMLParser将该xML文档转化为DOM树，根据XPath表达式获取感兴趣数据，并将其映射到目的模式，这一过程的执行是根据己定义的映射规则来完成的；研究了ETL脚本语言的实现技术，完成了ETL的核心执行模块，即抽取器和转换器，这两个模块接收ETL脚本，对脚本进行解析、执行，完成脚本定义的抽取转换任务。论文工作实现了Web信息抽取技术和ETL技术的集成，利用E]rL的抽取转换功能，使得从Web上抽取的信息更加符合用户需求，为充分利爿jWeb上的海量数据提供了一种有价值的工具。

Description

一种半结构化Web信息抽取技术的方法

技术领域

一种半结构化Web信息抽取技术的方法主要涉及计算机应用开发领域。

背景技术

随着Intemet的飞速发展，Web已经发展成为一个巨大的、分布和共享的信息资源，但目前Web数据犬都阻HTML形式出现，缺乏对数据本身的描述，不含清晰的语义信息，模式也不明确，结构上也不良好。

这使得应用程序无法直接解析并利用web上的海量信息，为了增强Web数据的可用性，出现了Web信息抽取技术，它通过包装现有Web信息源，将网页上的信息以更为结构化的方式抽取出米，为虑用程序利用Web中的数据提供了可能。现有的Web的信息抽取技术不但可以直接定位到用户所需的信息，而且采用。定的方式增加了语义和模式信息，为web查询提供了更为精确的方法，使Web信息的再利用成为可能，冈此有着明显的优势和广阔的前景，是当今多个领域的研究热点。

在信息获取的方面，Web信息抽取和浏览器上的信息检索和奇询有着本质上的差异，并且处理信息的粒度也不相同。现有的搜索引擎只能根据用户提交的关键词返回一一组URLs，用户必须逐一浏览URL对应的Web页，采用人工的方式定位最终信息，现有的搜索引擎本身不能直接定位到所需的数据，更谈不上为数据增加语义。另外目前很多网站提供对自身所提供的信息的查询功能，允许用户直接提交查询条件或关键词，然后系统在后台根据查询条件或关键词的“OR，AND”范式形式在后台数据库执行查询，最后可以直接返回给用户所需的信息，但是为了显示仍以HTML形式出现，缺乏模式信息，应崩程序仍旧无法直接利用这些信息，于是HTML语言的局限性就表现出来。另9l-I*t户没有直接访问网站后台数据库的权限，如果网站根本不提供查询功能或者查询的信息不是用户需要的信息，崩户对此无能为力。于是对于Web信息的抽取成为一件迫切需要研究的一个热点课题。

随着需求的增加，进米涌现出了多种信息抽取工具，采用的技术也各不相同，涉及多个研究领域，如：数据库、人工智能、信息检索等。

发明内容

通过国家专利检索没有发现关于此系统方面的申请资料。

本方法主要是如何将基于HTML文档的半结构化Web信息抽取出来，将它们转换为结构化数据，并且保存到关系数据库。

一、半结构化Web信息抽取方法主要包括数据获取、抽取规则定义和规则执行三个方面，这里所指的半结构化数据指半结构化的HTML页面。

1.数据获取：下载指定的URL页而数据，为接来的网负数据抽取作好准备。其中涉及到网站的登录问题。有些网站必须登录(注册厉获得用户名／密码对)后才有访问其某一网页的权限，这样就要求用户指定登录URL(该URL包括用户名和密码)，以成功访问目的网页。本原型系统采用GET方式代替POST方式解决网站的登录和参数传递问题。

2.抽取规则定义：抽取规则定义由用户根据自己的需求来进行。在这一阶段，要求崩户能够根据样例Web页面完成抽取规则的定义任务，即：完成目的表模式设计和数据源到目的表结构的模式映射设计两部分。完成的思路如下：系统首先根据用户指定的URL获取样例网页数据并且将该网页利用HTMLTidy转换为XML(实际为XHTML)，并且利用XMLParser将该XML文档解析为DOM(DocumentObjectModel)树，这样DOM树就成为Web网页在系统内部的表示方式。而对于用户而言，只将该样例网页直观的展示给用户。当进行模式定义时，只需对所看到的感兴趣数据进行拖放即可生成模式定义文件，该文件即为待抽取网页的抽取规则，其中主要虑用了XML的相关技术。而抽取规则如何生成是原型系统的核心问题。

3.规则执行：利用上一步产生的抽取规则，系统可以对用户指定的URL集合进行真止的数据抽取。过程如F：对于某一URL，首先获取该网页数据，将已经定义好的规则对该网页数据进行抽取过滤，输出结果数据，放入已经定义好的目的表模式中，至此完成Web数据的信息抽取T作。值得强调指出，抽取得到的结果数据集是完全结构化的，这样就大大增强了Web数据的可用性。

4.已有基础：该ETL工具实现了结构化数据和半结构化的文本数据的抽取转换和加载工作。半结构化的Web信息抽取可以看作对ETL上具的功能扩充。在本文的末尾介绍了Web信息抽取技术和ETL系统的关系。

二、XML数据模型与半结构化数据之间的对应是非常明显的，许多半结构化数据模型的研究可以容易地应用到XML数据上。将OEM模型稍加改动，就可以用来表示XML数。

XML的模式是对XML文档中的结构和形式的约束机制，类似于数据库中数据模式的概念。目前由两种主要的xML模式定义方法：DTD和SCHEMA。

XML文档传统的定义方式使用DTD。不过，有些相当常见的约束是DTD无法实现的。DTD的主要限制在于它缺乏数据类型的表达，以及它无法简化子元素基数性的规范(如，只可以指定“一个或多个”+f元素，但要指定“七到十二之间”的约束很难)。为了解珧DTD的各种限制提出了Schema，并进行了如下的改进：

1.丰富的类型Schema真正出色的地方在属性值和元素内容的类型约束上。

2.出现约束除了强大的类型声明以外，Schema还在声明子元素模式的基数性能力的基础上进行了改进，可以精确的指定个数，而在DTD语法中并没有这样精确的约束。

3.枚举无论是DTD还是Schema都允许在属性中使用枚举类型，但Schema还可以在元素内容中使用了枚举类型。而且，Schema的枚举方法非常全面而优秀。

三、信息抽取;信息抽取实际上是从无结构或、r结构的信息中识别出用户感兴趣的数据，并将其转化为更为结构化、语义更为清晰的数据的过程，该过程定义如下：

信息抽取过程I=S---^W---->S_D。

其中映射w为包装器，完成从无结构或二r结构的信息到结构化信息的转换功能，S为包含一组隐含并待抽取对象的无结构或半结构的信息源(比如，web页面)；S_D为一种更为结构化。语义更为清晰的数据结构(如：XML，关系数据库等)。

基于Web查询的信息抽取，将web信息抽取转化为使用标准的web查询语言对Web文档的查询，具有通崩性。采用该类技术的典型的系统有：Web．OQL[53，54]以及自主开发的原型系统PQAgent[55，56]

PQAgeat：系统采用了交互式的方式，系统通过样本学习生成基于xQuery的抽取规则，利用生成的抽取规则实现对相似结构页面的信息抽取。要求事先通过预处理使源文档符合XML语法规范，然后直接利利用XQuery引擎执行XQuery查询语句实现信息抽取。

浚系统采用先模式的方式，由用户附加语义并确定模式。抽取规则以XQuery的形式表示。应用抽取规则可直接定位到对象。相对于前面的系统，该系统的抽取规则相当健壮，有很强的表达能力，并统一了HTML和XML查询，不仅便于最终用户使用，也便于作为包装器(Wrapper)，由应用查询调用，这是其它方法无法比拟的优点。但是系统对于网页结构的依赖性仍比较强。

Web一0QL：Web-OQL是类似于SQL语句的Web查洵语言。系统利用Web-OQL语言提出了一种通用的HTML包装器框架。系统首先将输入的Web文档解析成抽象的HTML语法树Hypertree，然后用户在信息抽取之前根据页面的结构和标记写出合适的奁询语句实现信息抽取。

1)首先是样本学习阶段。用户指定待抽取网页的数据源信息，包括URL列表，连接代理，代理用户名，代理密码，系统根据这些信息获取该网页，作为样本页面展现给用户(类似于浏览器的功能)。用户以上交互给出的信息被保存到IEPDF文件中。而在系统内部，我们使用HTMLTidy将该网页从HTML格式转换为XML(实际为XHTML)格式，然后将该XML文档解析为DOM树形式，为接下米的模式定义做准备。

2)目的模式信息定义(目的模式信息定义模块)。系统将有关目的源的描述(服务器，连接字符串等)信息和目的表的模式信息保存到IEPDF文件中。

3)抽取规则定义阶段。我们需要用户在系统展现出来的源网页GUI中采用可视化的方式标记感兴趣数据项，同时把这些数据项映射到上一步定义好的目的表字段中，这一过程称为模式映射。它建立了半结构化Web数据到结构化数据的映射关系，这一映射关系最终以一条映射规则输出。而在系统内部作如F处理：首先生成Web数据项的XPath表达式，然后将该表达式与各自的目的表字段对应起来，完成一条映射规则的定义，其它字段类似处理。目的表各个字段映射规则的总称为

该表的映射规则定义，该定义被保存到IEPDF文件中。

4)系统实施Web信息抽取过程。首先解析IEPDF，根据提取出来的抽取规贝n执行相关的动作。本系统定义的抽取规则包括以下三个部分：

1)建立到Web信息源的连接并获得待抽取数据；

2)建立到目的库表结构的连接，准备接收抽取的结果数据；

3)根据映射规则里面的XPath从已经获得的网页数据中获得数据项，填入该条抽取规则指定的表结构字段中。逐条执行．知道昂后一条映射规则。

四、Web信息抽取步骤如下：

1.网页获取:根据指定的URL(可能为多个URL)，获取源网页数据。其中包括网页URL的指定问题、网站连接网页登录问题。

用户首先指定待抽取的网页的URL，系统将以该URL为基础获得目标列页。用户可以指定多个待抽取URL网页，该信息将被保存在web信息抽取过程临近描述文件中(IEPDF)。

利用POST方法可以转换为GET方法。所以我们系统中只采用GET方式获取网页是可行的，而所有的需要POST方法提交请求的网页均可以转换为GET方式。这样就将HTMLFCRM表单(FORM标签)的参数信息(参数名称和参数值)直接附加在URL末端作为参数提交给Web服务器，通过GET方法请求网页。

2.网站连接登录;系统在实现时，为访问目标网页，并且通过代理访问网络时，可以如下设定代理信息和用户登录信息到HTTPHEADER中，形成HEADER字符串。

3.数据获取;系统将有关的访问操作封装在一个类中，类名称为CRobotIntemet，由于我们将所以的POST提交方式都转换为GET方式，所以只利用该类的h仕pGet()方法获取数据。

4.HTML到XML的转换;采用了HTMLTiay更加将HTML文档转换为XHTML文档，而且XHTML文档为XML的子集，符合XML规范，时格式良好的(Well．formed)。我们接下来的实施过程就是在该XHTIVlL文档上进行数据抽取的过程。

HTMLTidy是一个可以出色的完成HTML代码的清理转换任务的工具，它由DaveRaggett开发，并且被免费维护。它可以被直接调用，所以我们可以直接以HTML文档名称为参数执行如下指令完成转换。

5.目的表结构创建；获取目的表的元数据定义信息，然后执行如r步骤：

a.根据Database_Server信息连接到目的数据库服务器;

b.根据目的表的定义信息(TaNe_lnformation)(在1EPDF中)，生成SQL建表语句(CREATETABLE)。

c.执行SQLCREATETABLE语句。

6.映射规则执行；在连接到Web删站，并且创建_『目的模式以后，我们可以将已经获得的XML(从HTML利用到Tidy工具转换得到)数据根据已经定义好的映射规则，分块抽取，插入到创建蚶的目的模式中。

由于映射规则使用XPath定义，而且它是属于XML相关技术的范畴，我们利用XMLParser，将XPath表达式作为输入获取该XPmh指定数据(实际上xQuery的查询语句也是使用XPath表达式)。然后将获得的数据插入到已创建的目的库表中。系统使用ADO数据库访问接口来完成有关数据库表的操作，这样II的库的可以选择多种DB。

Claims

1.一种半结构化Web信息抽取技术的方法其主要是基于HTML文档的半结构化Web信息抽取出来，将它们转换为结构化数据，并且保存到关系数据库。

2.根据权利要求1所述则进行数据获取;系统采用GET方式代替POST方式解决网站的登录和参数传递问题。

3.根据权利要求2所述系统首先根据用户指定的URL获取样例网页数据并且将该网页利用HTMLTidy转换为XML(实际为XHTML)，并且利用XMLParser将该XML文档解析为DOM(DocumentObjectModel)树，这样DOM树就成为Web网页在系统内部的表示方式。

4.根据权利要求3所述该ETL工具实现了结构化数据和半结构化的文本数据的抽取转换和加载工作。

5.根据权利要求4所述中采用了HTMLTiay更加将HTML文档转换为XHTML文档，而且XHTML文档为XML的子集，符合XML规范，时格式良好的(Well．formed)。

6.目的表结构创建；获取目的表的元数据定义信息，然后执行如下步骤：

a.根据Database_Server信息连接到目的数据库服务器;

b.根据目的表的定义信息(TaNe_lnformation)(在1EPDF中)，生成SQL建表语句(CREATETABLE);

c.执行SQLCREATETABLE语句。