CN103838796A

CN103838796A - 一种网页结构化信息抽取方法

Info

Publication number: CN103838796A
Application number: CN201210491471.8A
Authority: CN
Inventors: 侯辛酉; 夏铭泽
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-27
Filing date: 2012-11-27
Publication date: 2014-06-04

Abstract

本发明设计一种网页结构化信息抽取方法，网页信息抽取的主要任务就是对网页库中的非结构化信息进行提取，以结构化数据的方式存储在数据库中。主要包括网页分析、制定抽取规则、元数据抽取和信息整合四个方面。首先需要对目标网页进行分析，确定待抽取的元数据并分析其对应的HTML代码特点。然后，根据待抽取元数据在网页中对应的代码特点制定相应的抽取规则，抽取规则的制定要保证对待抽取数据匹配的唯一性。根据制定的抽取规则，所有待抽取的字段信息都会准确地从网页文本中抽取出来，并作为结构化数据存储到数据库中。最后对抽取后的结构化数据进行整合处理，确保数据库中信息的一致性和完整性。

Description

一种网页结构化信息抽取方法

技术领域

本发明涉及信息抽取方法，特别是一种网页结构化信息抽取方法。

背景技术

信息抽取(Information Extraction，IE)是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起，这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较，例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理，例如用数据挖掘方法发现和解释数据模型。信息抽取技术对于从大量的文档中抽取需要的特定信息来说是非常有用的，它并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，由系统设计时定下的领域范围而定。IE系统中的关键组成部分就是一系列的抽取规则或模式，其作用是确定需要抽取的信息。

因特网提供了一个巨大的信息源，这种信息源往往是半结构化的，虽然中间夹杂着结构化和自由文本。互联网上同一主题的信息通常分散存放在不同网站上，表现的形式也各不相同。若能将这些信息收集在一起，用结构化形式储存，那将是有益的。网上文本信息的大量增加导致这方面的研究得到高度重视。Web信息抽取(Web Information Extraction，WebIE)是将Web作为信息源的一类信息抽取，就是从半结构化的Web文档中提取数据，属于Web内容挖掘的范畴。目前Web上的网页大部分是以超文本标记语言描述的，主要目的是为了显示，让人通过浏览器浏览，但缺乏对数据本身的描述，不含清晰的语义信息，模式也不太明确。这使得应用程序无法直接解析并利用Web上海量的信息，造成资源极大的浪费。Web信息抽取正是研究如何将分散在Internet上的半结构化的HTML页面中的隐含的信息点提取出来，并以更为结构化、语义更为清晰的形式表示，为用户在Web中查询数据、应用程序直接利用Web中的数据提供便利。

发明内容

网页信息抽取的主要任务就是将分散在Internet上的半结构化的HTML页面中的隐含的信息点提取出来，并以更为结构化、语义更为清晰的形式表示。

为了实现上述目的，本发明的技术方案如下：一种网页结构化信息抽取方法，包括以下步骤：

A、网页分析

对目标网页进行分析，确定待抽取的元数据并分析其对应的HTML代码特点；

B、制定抽取规则：

该抽取规则包括采样、识别需要抽取的信息代码片段、建立匹配模式、构建信息抽取程序和匹配模式和抽取程序验证五个部分；

B1、采样：

针对一个站点，下载20个典型的输出页面的源代码作为分析和验证的样本；

B2、识别需要抽取的信息代码片段：

选取任意一个下载的源代码作为构建匹配模式的样本，通过可视化的HTML编辑器手工选择需要抽取的信息，然后切换到源代码编辑模式，这是就能够看到需要抽取的信息对应的HTML源代码片断，将这些代码片断标记下来；

B3、建立匹配模式：

对于每一个已标记的信息片断，采用正则表达式为它建立一个通用的匹配模式串；该模式匹配要求只能构匹配被标记的代码片段，同时要有一定的通用性，能够适应该代码片段内部的文本和细微布局的变化，同时对每一个匹配模式串加上标识符，便于后续对匹配的信息进行识别和抽取；

B4、构建信息抽取程序：

在匹配模式串的基础上，通过模式串的标记识别对应匹配成功的代码片断，识别特殊的属性字段，过滤掉HTML中无用的标记，获得纯文本信息；

B5、匹配模式和抽取程序验证：

使用其剩下的下载样本来验证匹配模式串和抽取程序的正确性；如果发现对于剩下的样本不正确，则回溯到B2，重新构建；

C、元数据抽取：

根据网页的HTML代码的特点对元数据进行抽取；根据制定的抽取规则，所有待抽取的字段信息都会准确地从网页文本中抽取出来，并作为结构化数据存储到数据库中；

D、信息整合

对抽取后的结构化数据进行整合处理，确保数据库中信息的一致性和完整性；选取标识属性，作为区分不同信息的依据。

与现有技术相比，本发明具有以下有益效果：

1、本发明提供了强大的信息抽取功能，通过对匹配模式串和模式串片断增加标记，可以十分方便地获得匹配成功的代码或者其中的一部分；

2、本发明制定的抽取规则能够将网页库中的非结构化信息进行正确的提取，以结构化数据的方式存储在数据库中，为索引模块和信息检索模块提供数据来源。

附图说明

本发明共有附图1张，其中：

图1是网页信息抽取流程图；

具体实施方式

网页信息抽取的主要任务就是对网页库中的非结构化信息进行提取，以结构化数据的方式存储在数据库中，其具体流程如图1所示。图1中每个部分的具体实施方式如下：

A、网页分析

对目标网页进行分析，确定待抽取的元数据并分析其对应的HTML代码特点。

B、制定抽取规则

B1、采样

针对一个站点，下载20个典型的输出页面的源代码作为分析和验证的样本。

B2、识别需要抽取的信息代码片段

选取任意一个下载的源代码作为构建匹配模式的样本，通过可视化的HTML编辑器手工选择需要抽取的信息，然后切换到源代码编辑模式，这是就能够看到需要抽取的信息对应的HTML源代码片断，将这些代码片断标记下来。

B3、建立匹配模式

对于每一个已标记的信息片断，采用正则表达式为它建立一个通用的匹配模式串。该模式匹配要求只能构匹配被标记的代码片段，同时要有一定的通用性，能够适应该代码片段内部的文本和细微布局的变化，同时对每一个匹配模式串加上标识符，便于后续对匹配的信息进行识别和抽取。

B4、构建信息抽取程序

在匹配模式串的基础上，通过模式串的标记识别对应匹配成功的代码片断，识别特殊的属性字段，过滤掉HTML中无用的标记，获得纯文本信息。

B5、匹配模式和抽取程序验证

使用其剩下的下载样本来验证匹配模式串和抽取程序的正确性。如果发现对于剩下的样本不正确，则回溯到B2，重新构建。

C、元数据抽取

根据网页的HTML代码的特点对元数据进行抽取。根据制定的抽取规则，所有待抽取的字段信息都会准确地从网页文本中抽取出来，并作为结构化数据存储到数据库中。

D、信息整合对抽取后的结构化数据进行整合处理，确保数据库中信息的一致性和完整性。选取标识属性，作为区分不同信息的依据。

Claims

1.一种网页结构化信息抽取方法，其特征在于：包括以下步骤：

A、网页分析

B、制定抽取规则：

B1、采样：

B2、识别需要抽取的信息代码片段：

B3、建立匹配模式：

B4、构建信息抽取程序：

B5、匹配模式和抽取程序验证：

C、元数据抽取：

D、信息整合