CN101727498A

CN101727498A - 一种基于web结构的网页信息自动提取方法

Info

Publication number: CN101727498A
Application number: CN201010013731A
Authority: CN
Inventors: 管晓宏; 高峰; 周亚东; 赵俊舟; 薛峰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2010-01-15
Filing date: 2010-01-15
Publication date: 2010-06-09

Abstract

本发明公开一种WEB结构化信息自动提取方法，属于互联网技术领域，该方法采用数据记录集自动抽取、信息块内容自动识别的提取方法：首先通过URL获取页面的HTML代码；然后对HTML代码进行预处理，去除错误和无关标记，生成页面的DOMTree；接下来提取页面中相似信息块；最后提取文本模板，对提取到的信息块中信息项目进行内容分类。本发明旨在提供一种在一定范围可以通用、自动化的WEB信息提取方法，能够显著提高提取的精度和自动化程度。

Description

一种基于WEB结构的网页信息自动提取方法

技术领域：

本发明涉及互联网技术领域，特别涉及一种WEB结构化信息通用、自动提取方法。

背景技术：

随着Internet不断发展，Web页面数量大幅度增加，网络已经成为巨大的、分布式的和共享的信息资源。许多信息包含在浩如烟海的Web中，如何帮助人们迅速提取有效信息，成为一个非常重要的问题。

目前数据大都以HTML的形式出现。由于缺乏对数据本身的描述，各种HTML标签只是告诉浏览器如何显示它所描述的信息，而并不包含清晰的语义信息，是一种半结构化的数据，这使得由HTML描述的页面只适合人类的浏览，而应用程序无法直接解析并利用WEB上的海量信息。为了增强数据的可用性，出现了WEB信息提取技术，它通过包装现有信息源，将HTML网页上的信息以更为结构化的方式提取出来，为应用程序利用其中的数据提供了可能。现有的信息提取技术不但可以直接定位到用户所需的信息，而且采用一定的方式增加了语义和模式信息，为查询提供了更为精确的方法，使信息的再利用成为可能，因此有着明显的优势和广阔的前景，是当今数据库领域的研究热点。目前关于数据提取的工作方法可以大致分为以下几个类别：

(1)基于语言的WEB数据提取，通过提供一种专门的模式说明语言(specification language)，定义提取模式。此类代表有WICCAP，Lixto等。

(2)基于本体论(ontology)的数据提取，通过引入领域类的本体知识以及一些启发式规则，辅助提取过程。

(3)基于包装器(wrapper)学习的数据提取，通过有监督的机器学习等方法，生成转换规则，需要人工提供学习的正例和反例。此类代表有Stalker，WIEN等。

由于Web页面的种类繁多，且信息抽取目的也不尽相同，不存在一种信息提取系统能够适应千变万化的应用环境。通常情况下，基于页面结构特征把网页大致分为首页式、列表式、正文式、评论式等几大类：

(1)首页式：网站的首页，一般含有多个栏目、图片、动画，以及若干文章标题链接。如：网易首页。

(2)列表式：信息以列表的方式给出，一般以表格的形式列出若干个条目，经常含有分页功能。例如：某论坛版面的帖子列表、搜索引擎搜索结果。

(3)正文式：指含有正文内容的底层网页，一般只含有不超过一篇的文章内容，无评论或评论较少。如：各类网站的含有具体某篇文章的底层网页。

本发明主要研究“列表式”类网页的有效信息自动提取方法。

发明内容：

本发明的目的在于提供一种基于WEB结构化的信息自动提取方法，提出一种数据记录集的自动提取、信息块内容自动识别的提取方法，此方法仅针对“列表式”的网页，如电子商务网站的产品列表、搜索引擎的结果、论坛的帖子等网页，利用这类网页的一些特征，显著提高了提取的精度和自动化程度。

本发明的目的是通过如下技术方案实现的：

一种基于WEB结构的网页信息自动提取方法，其特征在于，包括以下步骤：

1)源代码获取：通过网页URL获取HTML源代码；

2)DOMTree生成：利用DOMTree生成模块对HTML源代码中的错误标记进行修正，同时对噪声标记进行过滤，之后生成预处理过的页面DOMTree；

3)数据记录集提取：根据所述页面DOMTree的特性提取出页面中的数据记录集，进行分析获取详细信息，并过滤噪声记录；

4)信息提取模板生成：处理步骤3)提取到的数据记录集，对数据记录集中固定位置范围内的相同信息进行提取，并生成信息提取模板；

5)分类：将信息提取模板传递给智能分类模块进行详细信息条目的分类和保存处理；

所述步骤3)中数据记录集提取包括以下步骤：

3-1、从所述页面DOMTree中随机取出两个未比较过的子树；

3-2、以树的高度、树中节点数目作为两个子树是否为相似子树的第一判断条件，满足第一判断条件的两个子树转到步骤3-3执行，不满足第一判断条件的两个子树放回该页面DOMTree中，重新执行步骤3-1；

3-3、以两个子树的相似度是否达到设定的阈值作为第二判断条件，将满足第一判断条件的两个子树进行第二判断条件的判断，同时满足第一、第二判断条件的两个子树为相似子树，不满足第二判断条件的两个子树放回该页面DOMTree中，重新执行步骤3-1；

3-4、将两个相似子树放入一个相似子树集合中，并定义这种集合为相似组，如果其中一个子树已经存在于其他相似组中，则将两个相似组合并；

3-5、从相似组中选取相似度最大的一组子树作为该页面的数据记录集，将数据记录集中的子树定义为网页信息块。

所述步骤4)中信息提取模板生成包括以下步骤：

4-1、将步骤3)提取的数据记录集放入等待提取队列A；

4-2、选取队列A中数据记录集中的任意两个未比较过的信息块，提取两个信息块中的相同内容部分，将提取到的相同内容加入另外一个等待提取队列B，重复步骤4-2直到队列A中的所有信息块均已遍历完毕；

4-3、判断队列B长度是否大于1，如果大于1，转入4-4执行，否则队列B中此条记录即为生成的信息提取模板，信息提取模板中包括信息的位置以及信息前后的内容标识；

4-4、将队列A清空，同时将长度大于1的队列B中元素复制到队列A，转到步骤4-2。

所述步骤5)中分类包括以下步骤：

5-1、将待处理网页与步骤4)生成的信息提取模板中的内容标识进行比较，如果网页中存在与内容标识一致的部分，则将处于该内容标识中的信息归类至相应的类别中，转至5-3，否则进入5-2；

5-2、根据待处理网页的DOMTree叶子节点所在位置，与信息提取模板中信息的相应位置进行比对，如果一致，则将该节点的内容归类至相应的类别中，否则该网页中不包含需要提取的信息，处理完毕；

5-3、将经过归类的信息进行保存。

步骤2)中对HTML源代码中的错误标记进行修正是指修复不闭合的HTML标记。

本发明基于WEB结构化的信息自动提取方法具有以下优点及效果：

1)本发明从Web数据源中自动提取，在无用户干预时，该方法能保持较好的抽取效果，适应性强。

2)本发明运用信息提取模板，进而减少了噪声信息，同时结合对信息提取模板的使用对信息进行自动的分类。

3)从数据源的页面结构看，对于绝大部分的“列表式”页面通用，因此本方法具有广泛的通用性。

4)从数据源的差异看，数据项的缺失和顺序变化对本方法的影响较小，因此本方法具有较好的健壮性。

附图说明：

图1为本发明基于WEB结构化的信息自动提取方法的结构框图；

图2为数据记录提取算法示意图；

图3为树匹配算法示意图；

图4为本发明基于WEB结构化的信息自动提取方法的流程图。

具体实施方式：

参见图1，本发明包括以下几个模块：HTML源代码获取模块、DOMTree生成模块、数据记录集提取模块、信息提取模板生成模块与智能分类模块，首先HTML源代码获取模块通过网页URL来获取HTML源代码；然后DOMTree生成模块对HTML中的错误标记进行修正，同时对噪声标记进行过滤，之后生成预处理过的页面DOMTree；然后根据页面的DOMTree特性提取出页面中的数据记录集，并根据一定的规则将噪声记录集过滤掉，对获取到的记录集进行分析，获取包含在里边的详细信息；同时将提取到的数据记录集交予信息提取模板生成模块处理，生成信息提取模板；最后将信息提取模板传递给智能分类模块进行详细信息条目的分类和保存处理。

参见图2，在HTML DOM Tree中提取相似子树，并根据相似子树提取网页信息块。

数据记录的查找是基于以下两个条件：

1.一组数据记录集包含了一系列相似的内容，并且其对应的HTML标记也是相似的。

2.一组相似的数据记录集是由同一根节点下的一些子节点构成的。

定义1：一个在HTML DOM Tree中包含r(r＞1)个节点的子树有以下两个属性：

1)节点均拥有相同的父节点。

2)节点都是相邻的。

定义2：一组数据记录集，即两个或多个的相似子树有以下几个属性：

1)这些相似子树有相同的父节点。

2)这些相似子树的层数差距小于3。

3)这些相似子树的节点数量差距小于节点总数的30％。

4)这些相似子树的相似度在阈值范围内，该阈值范围为0.7至1.0。

以下详细解释相似子树的查找方法：

●从节点2开始，比较以下7对子树相似度，其中子树相似度由其具有相同HTML标识的节点数除以两个子树的平均节点数得到：

(2，3)，(2，4)，(2，5)，(2，6)，(2，7)，(2，8)，(2，9)

●从节点3开始，比较以下子树相似度

(3，4)，(3，5)，(3，6)，(3，7)，(3，8)，(3，9)

●从节点4开始，比较以下子树相似度

(4，5)，(4，6)，(4，7)，(4，8)，(4，9)

●从节点5开始，比较以下子树相似度

(5，6)，(5，7)，(5，8)，(5，9)

●从节点6开始，比较以下子树相似度

(6，7)，(6，8)，(6，9)

●从节点7开始，比较以下子树相似度

(7，8)，(7，9)

●从节点8开始，比较以下子树相似度

(8，9)

如果(2，3)相似度在设定的阈值范围内，则将此二元组放入相似1组中。同时，如果(3，5)也相似，则相似1组扩充为：(2，3，5)。若(6，7)相似，在相似1组中无法找到子树6和7，那么新建相似2组(6，7)，继续扩充。

最终可能会找到多个相似组，再结合每个相似组在页面中所处的位置、大小等信息判定作为本页面数据记录集的相似组。

参见图3，图中P为DOMTree根节点，其他小写单字母为DOMTree各层节点，Ni，i＞0，表示DOMTree第i个节点。本发明的目的是在WEB页面中挖掘和提取数据信息，而所有的信息是存储在HTML DOM Tree中，所以在查找相似子树的过程中，确定两棵树的相似度即为树匹配方法。

在本发明中，树TA和TB的相似度为：SimSTM(TA，TB)＝Simpl eTreeMat ching(TA，TB)/AVG(|TA|，|TB|)，其中AVG(|TA|，|TB|)表示两棵树所有节点数的平均值。

如图3所示的树A与树B的相似度为7/11＝0.63，则树A与树B不是相似子树。

在数据记录集中提取信息提取模板，包括下面几个步骤

步骤1、将提取到的数据记录集放入等待提取队列A；

步骤2、选取队列A中数据记录集中的任意两个未比较过的信息块，提取两个信息块中的相同内容部分，将提取到的相同内容加入另外一个等待提取队列B，重复步骤2直到队列A中的所有信息块均已遍历完毕；

步骤3、判断队列B长度是否大于1，如果大于1，转入步骤4执行，否则B中此条记录即为生成的信息提取模板，信息提取模板中包括信息的位置以及信息前后的内容标识，处理完毕；

步骤4、将队列A清空，同时将长度大于1的队列B中元素复制到队列A，转到步骤2。

上述智能分类模块包含以下步骤：

步骤1、将待处理网页与生成的信息提取模板中的内容标识进行比较，如果网页中存在与内容标识一致的部分，则将处于该内容标识中的信息归类至相应的类别中，转至步骤3，否则进入步骤2；

步骤2、根据待处理网页的DOMTree叶子节点所在位置，与信息提取模板中信息的相应位置进行比对，如果一致，则将该节点的内容归类至相应的类别中，否则该网页中不包含需要提取的信息，处理完毕；

步骤3、将经过归类的信息进行保存。

参照图4，本发明包括下面几个步骤

步骤1：HTML页面源代码获取。通过网页URL来获取HTML页面源代码，并将源代码中HTML标记全部转换为大写(如：<td>转换为<TD>)，并为每个标记添加一个ID值(如：<TD>添加后为<TDID＝″****″>)，方便后续使用。

步骤2：HTML代码预处理。原始的HTML代码包含很多无用信息，为了提高效率，要对HTML代码进行预处理，处理错误标记和无用标记；HTML文档中，每个元素由一个开始标记(opening tag)，结束标签(closing tag)来标识。由于WEB浏览器(Internet Explorer等)的容错性，对于某些错误标记的HTML文件，例如缺少匹配的结束标签等等，仍然能够正常显示在界面上，而这将影响正确区分HTML节点层次性，从而影响后续的数据提取。同时，HTML文档中，有相当一部分的内容，对于信息的提取没有意义，如一些脚本语言、标签属性，以及部分类型的标签等等。因此，在构造HTML DOMTree之前，有必要对其进行清理精简。

根据以下方法，对页面标签元素进行简化：

方法1：标记属性可以删除。(这个感觉从节点类型上说更好点)

方法2：注释、脚本语言、命名空间、&nbps等内容可以删除。

方法3：标记是可删除的，当且仅当其内容为空。这条规则是递归的，用于消除冗余的嵌套标签。

方法4：纯噪声信息，如广告、版权等可以删除

方法5：辅助浏览元素，如导航栏、搜索引擎等可以删除。

方法6：友情超链可以删除。

步骤3：构建页面DOMTree，并标识DOM Tree中每个节点下边包含子节点的个数和层数。

步骤4：数据记录集的提取，即为DOM Tree中相似组的确定，如果未找到相似组则终止后续处理。

步骤5：根据相似组的各种特证如在页面中的位置、大小等信息选取一组作为本页面的数据记录集。

步骤6：信息提取模板的生成，在提取到的数据记录集中生成信息提取模板。

步骤7：信息分类，将待处理网页与信息提取模板中的内容标识进行比较，如果比对一致则转到步骤11。

步骤8：根据待处理网页的DOMTree叶子节点所在位置，与信息提取模板中信息的相应位置进行比对，如果比对一致则转到步骤11。

步骤9：进行无分类保存。

步骤10：将信息条目按分类信息保存。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定专利保护范围。

Claims

1.一种基于WEB结构的网页信息自动提取方法，其特征在于，包括以下步骤：

1)源代码获取：通过网页URL获取HTML源代码；

2.根据权利要求1所述的一种基于WEB结构的网页信息自动提取方法，其特征在于，所述步骤3)中数据记录集提取包括以下步骤：

3-1、从所述页面DOMTree中随机取出两个未比较过的子树；

3-3、以两个子树的相似度是否在设定的归一化后阈值范围内作为第二判断条件，该阈值的范围为0.7至1.0，将满足第一判断条件的两个子树进行第二判断条件的判断，同时满足第一、第二判断条件的两个子树为相似子树，不满足第二判断条件的两个子树放回该页面DOMTree中，重新执行步骤3-1；

3.根据权利要求1所述的一种基于WEB结构的网页信息自动提取方法，其特征在于，所述步骤4)中生成信息提取模板包括以下步骤：

4-1、将步骤3)提取的数据记录集放入等待提取队列A；

4.根据权利要求1所述的一种基于WEB结构的网页信息自动提取方法，其特征在于，所述步骤5)中分类包括以下步骤：

5-3、将经过归类的信息进行保存。

5.如权利要求1所述一种WEB页面信息自动提取的方法，其特征在于，所述步骤2)中对HTML源代码中的错误标记进行修正是指修复不闭合的HTML标记。