CN1952929A

CN1952929A - 面向领域基于样本的互联网结构化数据抽取方法及其系统

Info

Publication number: CN1952929A
Application number: CNA2005101092887A
Authority: CN
Inventors: 关涛
Original assignee: Individual
Current assignee: Individual
Priority date: 2005-10-20
Filing date: 2005-10-20
Publication date: 2007-04-25
Anticipated expiration: 2025-10-20
Also published as: CN100442283C; US20070198727A1

Abstract

本发明公开了一种面向领域基于样本的互联网结构化数据抽取方法及其系统，用于实现快速自动抽取互联网结构化数据，包括步骤：样本收集的步骤，用于通过自动记录用户访问数据的过程获得样本；样本分析的步骤，用于通过面向领域的语义知识库，自动分析所述样本，并抽取所述样本的特征信息；数据抽取的步骤，用于通过所述样本的特征信息，通过HTTP协议或驱动互联网浏览器自动读取多个网页，并从所述网页中抽取与所述样本的特征信息相似或相匹配的数据；数据集成的步骤，用于通过所述语义知识库，将与所述样本的特征信息相似或相匹配的数据转换成一统一格式的数据。本发明能自动从多个页面中抽取出具有类似特征的数据，大大提高了数据抽取的效率。

Description

面向领域基于样本的互联网结构化数据抽取方法及其系统

技术领域

本发明涉及计算机应用领域，特别是涉及一种面向领域基于样本的互联网结构化数据自动抽取方法及其系统。

背景技术

数据抽取技术是按照一定规则，利用计算机对自由、半自由文本中的有效数据进行提取，并加以组织，展现给用户的技术。特定领域的数据抽取以领域相关知识作为指导，利用人工标记的、规则的样本集进行训练，使数据抽取机制中的规则的抽象层次和覆盖面达到最合理的程度，然后再对样本集外的文本进行数据提取。

中国专利文件(公开/公告号CN1410918)公开了一种基于信息抽取技术的搜索引擎，主要是利用机器学习的方法，对含有同类信息且布局基本一致的HTML页面样本集进行学习，从而得出对此类HTML页面进行信息抽取的规则，应用这些规则，结合一个特定领域的搜索引擎，对网络上的相关信息进行大量地获取，并从半自由的HTML文本中获取结构化的信息。因为该专利是基于机器学习原理的，所以必须收集一定的学习页面，并对该页面进行预处理，例如：删除图片，再由一“学习模块”进行规则抽取，这样就会降低处理速度；同时以“词法分析、语法分析、语义解释”等步骤的自然语言理解技术来实现页面分析，这种方法又增大了实现的复杂程度；另外，通过一个搜索引擎的方式来实现本发明方法也限制其应用范围。

中国专利文件(公开/公告号CN1255680)公开了一种联机商店产品信息自动检索方法和系统，其通过机器人获取联机商店的HTML文件，并从HTML文件中搜寻价格信息，且只保留所需要的信息，去除不需要的信息，读入处理的结果并判断网页的类型，应用一与所述类型符合的算法提取产品信息的阶段及应用与所述类型符合的算法通过盲探索提取产品信息，实现自动提取联机商店的产品信息，从而按现有的直接服务对网上的连接商店进行比较购物。该种方法适用的范围较小，它是一种面向特定领域“商店产品信息”的检索方法和系统，另外，其利用硬件装置读取HTML文件，并从该HTML文件中搜寻价格信息，因而对非价格信息，本方法就无能为力了。

总之，所述的抽取方法较为复杂，不能有效提高数据抽取的效率，仅对特定领域或较小范围内的特定信息抽取有效。如何高效率地进行数据抽取成为当前业界的一大热点问题。

发明内容

本发明所要解决的技术问题在于提供一种面向领域基于样本的互联网结构化数据抽取方法及其系统，用于实现快速、高效自动抽取互联网结构化数据。

为了实现上述目的，本发明提供了一种面向领域基于样本的互联网结构化数据抽取方法，包括如下步骤：

一样本收集的步骤，用于通过自动收集用户访问数据的过程获得样本；

一样本分析的步骤，用于通过面向一领域的语义知识库，自动分析所述样本，抽取所述样本的特征信息；

一数据抽取的步骤，用于通过所述样本的特征信息，通过HTTP协议或驱动互联网浏览器自动读取网页，并从所述网页中抽取与所述样本的特征信息相似或匹配的数据；及

一数据集成的步骤，用于通过所述语义知识库，将与所述样本的特征信息相似或相匹配的数据转换成一统一格式的数据。

所述的互联网结构化数据抽取方法，其中，所述样本收集的步骤中，通过用户输入网址方式或系统学习方式获得样本。

所述的互联网结构化数据抽取方法，其中，所述通过系统学习方式获得样本时，系统根据用户输入的网站起点自动搜索网页；且当所述自动搜索到的网页不含有所需数据时，用户返回至所述网页的上一页或网站首页，由用户点击一链接引导系统至含有所需数据的网页，并在该含有所需数据的网页中系统自动寻找样本，并将自动记录的网页寻找过程作为样本的一部分。

所述的互联网结构化数据抽取方法，其中，所述数据抽取的步骤具体为：

41)、读入所述样本，并取得所述样本的特征信息；

42)、根据所述样本中记录的路径下载对应的网页；

43)、根据所述样本在所述网页中的特征，从该网页中找到与所述样本的特征信息相似或匹配的数据；及

44)、根据所述网页中的链接，识别该链接并浏览至下一网页，重复所述步骤43，直至处理完所有网页。

所述的互联网结构化数据抽取方法，其中，所述样本的特征信息包括：从互联网的网站入口至所述页面的用户操作、所述样本在所述网页中的特征；所述样本在所述网页中的特征又包括：字体、颜色、在动态超文本标记语言树中的位置、所用的超文本标记语言标识中的一个或多个。

所述的互联网结构化数据抽取方法，其中，所述数据集成的步骤具体为：对与所述样本的特征信息相似或匹配的数据，删除错误和/或重复的信息，和/或补充缺少的信息，使其具有相同的结构，并转化成可扩展标记语言或关系数据库格式的数据。

为了更好地实现上述目的，本发明还提供了一种面向领域基于样本的互联网结构化数据抽取系统，包括：

一样本收集模块，用于通过自动收集用户访问数据的过程获得样本；

一样本分析模块，用于通过面向一领域的语义知识库，自动分析所述样本，抽取所述样本的特征信息；

一数据抽取模块，用于通过所述样本的特征信息，通过HTTP协议或驱动互联网浏览器自动读取网页，并从所述网页中抽取与所述样本的特征信息相似或相匹配的数据；及

一数据集成模块，用于通过所述语义知识库，将与所述样本的特征信息相似或相匹配的数据转换成一统一格式的数据。

所述的互联网结构化数据抽取系统，其中，所述样本收集模块具体通过用户输入网址方式或系统学习方式获得样本。

所述的互联网结构化数据抽取系统，其中，所述样本的特征信息包括：从互联网的网站入口至所述页面的用户操作、所述样本在所述网页中的特征；所述样本在所述网页中的特征又包括：字体、颜色、在动态超文本标记语言树中的位置、所用的超文本标记语言标识中的一个或多个。

本发明所述的面向领域基于样本的互联网结构化数据抽取方法使用了面向某个领域的语义知识库，能自动识别该领域中的许多数据项，从而极大地提高了数据抽取的效率，利用本发明方法，用户仅需给出一个所需数据的样本或实例，就能自动从多个页面中抽取出具有类似特征的一组数据，不需人工编程或干预，本发明方法还能通过调用语义知识库自动集成来自多个页面的数据，删除错误或不完整的信息，并补充缺少的信息。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1为本发明的系统的一显示界面；

图2为本发明的系统结构示意图；

图3为本发明面向领域基于样本的互联网结构化数据自动抽取流程图；

图4为本发明的样本获取流程图；

图5为本发明的数据抽取流程图；

图6为本发明的一实施例示意图。

具体实施方式

图1所示为本发明的系统的一显示界面。该显示界面10包括：网址输入栏100、标题栏200、信息显示部300、类型输入窗口400及功能按键部500；功能按键部500又包括“收集”键51、“分析”键52、“抽取”键53、“区域”键54、“户型”键55、“面积”键56、“价格”键57。

其中，“收集”键51、“分析”键52、“抽取”键53是本发明系统的基本按键，在所有领域都使用；“收集”键51，用于启动样本收集的过程，也即，开始收集用户取得样本的过程；“分析”键52，用于启动样本分析的过程，也即，从信息显示部300所显示的网页中抽取样本特征；“抽取”键53，用于启动数据抽取和集成的过程，也即，根据所获得的样本，从所有网页中抽取数据，并转化为统一格式。

而“区域”键54、“户型”键55、“面积”键56与“价格”键57仅适用于“二手房信息”实施例中，是本发明系统的可选择按键，其功能是方便用户标识样本。

图2所示为本发明的系统结构示意图，该系统结构20包括：样本收集模块201、样本分析模块202、数据抽取模块203、数据集成模块204、面向领域的语义知识库205。

样本收集模块201，用于通过自动记录用户访问某种数据的过程，获得一个样本；

样本分析模块202，用于通过面向领域的语义知识库205，自动对样本进行分析，抽取其特征或模板；

数据抽取模块203，其作用是：利用所获得的样本特征，通过HTTP协议或驱动互联网浏览器自动读取多个网页，并从多个网页中抽取具有类似特征的数据；及

数据集成模块204，其作用是：利用面向领域的语义知识库205，对从多个页面抽取的数据进行集成，删除错误或重复的信息，使不同页面中获得的数据具有相同结构，并转化成XML或关系数据库格式。

所述自动抽取的样本特征包括：

从网站入口走到当前页面的用户操作；及

样本在当前网页中的特征，例如：字体、颜色或DHTML树中的位置或所用的HTML标识等。

图3所示为本发明面向领域基于样本的互联网结构化数据自动抽取流程图，结合图2所示，该流程包括如下步骤：

步骤301，系统通过自动收集用户访问某种数据的过程，获得一个样本；

步骤302，通过一面向领域的语义知识库205，自动对样本进行分析，抽取其特征或模板；

步骤303，利用所获得的样本特征，通过HTTP协议或驱动互联网浏览器自动读取多个网页，从多个网页中抽取具有类似特征的数据；及

步骤304，利用面向领域的语义知识库205，对从多个页面抽取的数据进行集成，删除错误或重复的信息，使不同页面中获得的数据具有相同结构，并转化成XML或关系数据库格式。

面向领域的知识库是一种公知技术，很多计算机都采用各种不同的知识库，例如：wordnet( http://wordnet.Princeton.edu)，就是由普林斯顿大学开发的语义知识库，目前被许多系统广泛采用。本发明的语义知识库205，是一种简化的语义知识库，举例说明，以二手房交易信息为例：

(朝阳区-区域)

(东城区-区域)

(东单大街[0-9]号-地址)

(二室一厅-户型)

. . . . . .

其中，(区域，户型，面积，价格，地址，时间)→二手房信息记录；

上述的该行信息就是记录二手房信息的一条知识，所述的语义知识库205就是由很多条与此条知识相类似的知识组成的。

用户获取样本采用以下两种方式：用户填写网址方式、通过系统学习方式。并参阅图1所示。

(一)、系统提供如下界面让用户填写网址。

1、用户需要在网址输入栏100中给出样本所在网页的URL(UniformResource Locator，统一资源定位器/网址)，例如：

http://secondhouse.soufun.com

2、当网页显示在显示界面10后，用户用鼠标点击一个域，如在图1中的信息显示部300第二行的“2室1厅”，然后用户在右边的类型输入窗口400中输入“户型”或选择点击“户型”键55，告知系统“2室1厅”是一个“户型”的样本；

(二)、通过系统学习的方式获取样本，参阅图4所示，为本发明的样本获取流程图；具体步骤如下：

步骤401、用户首先在网址输入栏100中输入一网页网址作为网站起点，如输入 http://www.soufun.com作为网站起点；

步骤402、系统自动下载网页到系统的显示界面10的窗口中；

步骤403、分析网页中所有的链接，找到最有可能包含所需数据的网页并自动下载，这里，就是找到最有可能包含“二手房信息”的页面，并自动下载该页面；

步骤404、判断找到的网页是否为正确网页，并自动记录该过程，如果自动找到的页面不正确，用户可以退出该页面，回到上一页面或网站首页，并手动点击网页中的一链接，如“二手房”，该系统将自动记录用户所点击的链接，作为样本的一部分；

步骤405、当含有所需数据的网页显示在显示界面10窗口后，系统分析数据。即当含有二手房信息的网页出现在显示界面10的窗口后，系统可以自动分析该网页中的数据，或点击“分析”键52。

下面介绍本发明的触发系统分析过程。结合图1所示，该触发分析过程包括如下步骤：

首先，取信息显示部300中的一行数据，如：

(中关村南大街甲new 3室2厅 180 9-29)

然后，查找语义知识库205，得到下列匹配：

中关村南大街甲-地址

3室2厅-户型

180-不确定(价格或面积)

9-29-时间

由语义知识库可知；(户型、地址、价格/面积、时间)很可能为一条关于“二手房信息”的记录，所以此行数据可能就是要收集的样本，继续取该信息显示部300中的其它行数据，如果每一行都和“二手房信息”记录匹配，则可确定信息显示部300中所显示的信息是一个有效样本。

对于图1中信息显示部300中第二行的户型为“2室1厅”的售价28(万元)，系统如果不能自动获取，可由用户从系统提供的界面中输入，用户首先用鼠标点击“28”，然后在类型输入部400中输入“价格”或选择点击“价格”键57来实现。

再者，在上述分析中，如果能够找到样本，就需要进一步分析样本在网页中的位置和特征，包括：

中关村南大街甲是信息显示部300中显示的网页对应的HTML代码中顺次出现的第3个表中的第1列，它前面的TAG是<A heof＝....target＝“_blank”>，它后面的TAG是</FONT>，它的颜色是：#fff000；

“3室2厅”是信息显示部300中显示的网页对应的HTML代码中顺次出现的第3个表中的第2列，它前面的TAG是<td class＝“style14”>，后面的TAG是</td>，颜色是#fff000；

最后，继续取其他行数据，重复上面的分析，并将所有得到的“地址|户型|时间”等特征和位置进行比较，如果它们都一致，就可得到下面的样本：

<URL>http://www.soufun.com</URL>

<URL>http://secondhouse.soufun.com</URL>

<ITEM><NAME>地址</NAME><POSITION>是信息显示部300中显示的网页对应的HTML代码中顺次出现的第3个表1列</POSITION><COLOR>#fff000</COLOR><PREVTAG>.........</PREVTAG>。

图5所示为本发明的数据抽取流程图。参阅图1所示，当用户点击系统显示界面10的功能按键部500中的“抽取”键53，或从命令行DOS窗口启动系统，系统开始抽取数据，包括如下步骤：

步骤501，首先读入样本，取得样本的特征信息；

步骤502，根据样本中记录的路径，走到并下载该路径对应的网页；

步骤503，根据样本在网页中的位置和其他特征信息，如：颜色，前、后TAG等，从网页中找到匹配的数据；及

步骤504，根据当前网页中的链接，识别并走到下一页，继续重复上述步骤503，直至处理完所有网页。

上述从命令行DOS窗口启动系统的抽取功能：从Windows中打开一个DOS窗口，并在该窗口中输入命令“EXTRACT”站点名，再输入“回车”键。

参阅图1所示，数据集成过程主要包括如下内容：

A1)、过滤错误的数据，在抽取过程中，很可能得到一些行数据，并不是所需要的行数据，例如标题行200，其内容如下：

(物业地址户型售价(万元) 发布时间)

这一行满足样本中的所有特征，如：颜色，位置，前、后TAG等，但该行并不是真正的数据，当调用语义知识库时，就可知道“户型”应为“×室×厅”，而字符串“户型”显然不能匹配“×室×厅”，所以应删除；

A2)、补充缺失的信息，例如信息显示部300发布时间“9-29”，应为“2005-9-29”，另外，所有的时间都应转成标准格式：“×年×月×日”，否则，当与其他站点中的数据相比较时，就会产生问题。

以下结合具体实施例对本发明的内容进一步说明，图6所示为本发明的一实施例示意图，结合图1、2所示。

以“公司联系信息”为例进行介绍如何从 http://www.chinainc.cn网址中抽取公司的信息。

(一)、样本收集

B1)、如果采用人工输入方式，用户在网址输入栏100中需输入页面的URL：

http://www.chinainc.cn/company-contact.php？/userid＝12291；

在信息显示部300中显示的为上述网页地址对应的页面。

并在该页面中，点击“北京”作为“城市”；

点击“海淀区上地信息路15号”作为“地址”；

点击“聂放”作为“联系人”；

点击“010-62973717”作为电话号码。

B2)、如果采用系统学习方式，用户只需在网址输入栏100中给出起点。

http://www.chinainc.cn

B3)、然后，由系统自动搜索含有公司联系信息的页面，主要是寻找“联系方式”、“联系人”、“电话”、“传真”等关键字的页面。

如果自动搜索失败，则用户要回到首页，点击一个链接进入下一页面，例如：北京，引导系统找到所需要的页面在这个过程中，系统自动记录用户寻找的过程，并作为样本的一部分保存起来。

如图6所示，当系统走到一个含有所需数据的页面，可自动寻找数据样本，这主要是由语义知识库205的知识来确定，例如：

“海淀区上地信息路15号”->地址

“北京”->城市

“010-62973717”->电话或传真

“100085”->邮政编码

“http://www.a-volt.com”->公司网址

其中，(城市、地址、电话/传真、邮政编码、公司网址)就构成了一个公司的联系信息。

上述实施例中，系统很难区分信息显示部300中“010-62973717”、“010-62965253”中哪个是电话号码，哪个是传真号码，这时需要人工干预，用户可以点击“010-62973717”，并在类型输入部400中输入“电话”或点击“电话”键511，这样系统就知道这一行是电话，下面一行就是传真了。

“城市”键58、“地址”键59、“联系人”键510、“电话”键511皆为本发明系统的可选择按键。点击“城市”键58，系统可以获取有关城市的样本数据，同样点击“地址”键59、“联系人”键510可以相应地获取有关地址、联系人方面的信息。

(二)、样本分析

当系统获得样本后，就要对它的特征进行分析，首先看它在页面中的位置，可知所有样本都在信息显示部300中所显示网页对应的HTML代码中顺次出现的第7个表中，“城市”是第一行，“地址”是第二行，“联系人”是第三行等，另外，其颜色是#FFFFF，“城市”所在的TAG是<TD></TD>，“地址”所在的TAG是<TD align＝“bottom”>等等。

另外，还需要分析样本所在网页的位置，如果是系统自动学习生成的样本，可能会经过下述过程：

<URL>http://www.chinainc.cn</URL>

<LINK>北京安伏电子有限公司</LINK><LOOP>YES</LOOP>

此处<LINK>YES</LOOP>指出不仅走“北京”这一链接，还有与“北京”并列的链接，例如：“上海”，“天津”，“重庆”等。

(三)、数据抽取

首先读取样本，然后根据样本提供的路径下载对应的网页，并根据样本特征，如：位置、颜色与所在TAG等抽取数据，这里重要的一点是：凡经过带有<LOOP>YES</LOOP>的路径，例如：“北京”，不仅要访问北京下面的所有公司，还要访问与“北京”并列在一起的所有链接，如“上海”，“天津”等，这样就可以找到所有公司的联系信息。

(四)、数据集成

a)、过滤错误的信息

若没有错误信息，则可跳过该步骤。本实施例中没有错误信息，所以这步可省略。

b)、补充缺失的信息

在前面的页面中，没有“企业行业分类”，然而，该信息可在其他页面中获得，目前系统不能直接自动找到该信息。

本发明方法使用了面向某个领域的语义知识库，不需要对页面进行预处理，同时智能化程度较高，对人工的依赖程度大大降低了，使得处理速度大大提高；该方法是直接访问站点，不依靠任何搜索引擎，并可自动访问站点中的所有网页；本发明自动识别该领域中的许多数据项，从而极大地提高了数据抽取的效率，本发明方法还能通过调用语义知识库自动集成来自多个页面中的很多数据，删除错误或不完整的信息，并补充缺少的信息；本发明的应用范围较广，能够应用于很多领域。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1、一种面向领域基于样本的互联网结构化数据抽取方法，其特征在于，包括步骤：

2、根据权利要求1所述的互联网结构化数据抽取方法，其特征在于，所述样本收集的步骤中，通过用户输入网址方式或系统学习方式获得样本。

3、根据权利要求2所述的互联网结构化数据抽取方法，其特征在于，所述通过系统学习方式获得样本时，系统根据用户输入的网站起点自动搜索网页；且当所述自动搜索到的网页不含有所需数据时，用户返回至所述网页的上一页或网站首页，由用户点击一链接引导系统至含有所需数据的网页，并在该含有所需数据的网页中系统自动寻找样本，并将自动记录的网页寻找过程作为样本的一部分。

4、根据权利要求1所述的互联网结构化数据抽取方法，其特征在于，所述数据抽取的步骤具体为：

41)、读入所述样本，并取得所述样本的特征信息；

42)、根据所述样本中记录的路径下载对应的网页；

5、根据权利要求1所述的互联网结构化数据抽取方法，其特征在于，所述样本的特征信息包括：从互联网的网站入口至所述页面的用户操作、所述样本在所述网页中的特征；所述样本在所述网页中的特征又包括：字体、颜色、在动态超文本标记语言树中的位置、所用的超文本标记语言标识中的一个或多个。

6、根据权利要求1所述的互联网结构化数据抽取方法，其特征在于，所述数据集成的步骤具体为：对与所述样本的特征信息相似或匹配的数据，删除错误和/或重复的信息，和/或补充缺少的信息，使其具有相同的结构，并转化成可扩展标记语言或关系数据库格式的数据。

7、一种面向领域基于样本的互联网结构化数据抽取系统，其特征在于，包括：

一数据抽取模块，用于通过所述样本的特征信息，通过HTTP协议或驱动互联网浏览器自动读取网页，并从所述网页中抽取与所述样本的特征信息相似或相匹配的数据；

8、根据权利要求7所述的互联网结构化数据抽取系统，其特征在于，所述样本收集模块具体通过用户输入网址方式或系统学习方式获得样本。

9、根据权利要求7所述的互联网结构化数据抽取系统，其特征在于，所述样本的特征信息包括：从互联网的网站入口至所述页面的用户操作、所述样本在所述网页中的特征；所述样本在所述网页中的特征又包括：字体、颜色、在动态超文本标记语言树中的位置、所用的超文本标记语言标识中的一个或多个。