CN100562872C

CN100562872C - 针对结构化网页的自动模板信息定位方法

Info

Publication number: CN100562872C
Application number: CNB2006101378554A
Authority: CN
Inventors: 陈华
Original assignee: Beijing Kuxun Technology Co Ltd
Current assignee: Beijing Kuxun Technology Co Ltd
Priority date: 2006-11-07
Filing date: 2006-11-07
Publication date: 2009-11-25
Anticipated expiration: 2026-11-07
Also published as: CN101178708A

Abstract

本发明公开了一种针对结构化网页的自动模板信息定位方法。现有的定位方法匹配不够准确，对合理内容的判断也非常困难。为解决上述问题，本发明通过正则表达式定位属性关键字，确定属性关键字到属性值的距离，最终通过属性关键字以及属性关键字到属性值的距离定位全部属性值。本发明能准确高效的定位出想要搜索的信息，适用于各种网上信息搜索引擎。

Description

针对结构化网页的自动模板信息定位方法

技术领域

本发明涉及一种针对结构化网页的自动模板信息定位方法。

背景技术

网页信息提取技术是互联网信息挖掘领域中一项重要的内容。网页信息提取技术要解决的问题是怎样从网页中抽取出指定的信息。比如说，从一个招聘信息发布网站中的所有招聘信息网页抽取出公司和职位等信息。以往的技术是利用正则表达式去匹配网页中的指定信息，然后从匹配的信息中抽取出最合理的内容。这种方法存在着很多的缺陷。最大的问题在于正则表达式只能匹配事先列举的信息，比如，我们可以通过正则表达式搜索事先列举的搜索信息，如“招聘职位”为“教师”“文秘”的信息，但是对于我们未列举的如“销售经理”“网络工程师”等信息则不会搜索，事实上我们不可能对招聘职位进行穷举；另外，我们搜索职位信息，但实际信息可能没有职位名称而只是以一段话对职位进行了描述，对于这样的信息正则表达式无法搜索，这样就会因为匹配不够准确和对合理内容的无法判断而出现搜索遗漏。

正则表达式：正则表达式通过一套特定的语法描述了一种字符串匹配的模式，可以用来检查一个字符串是否含有某种子串、将匹配的子串做替换或者从某个字符串中取出符合某个条件的子串等。

分隔符：用户定义的某些特定的HTML标签的集合。这些HTML标签跟网页的结构有很大关系，在相同结构的网页中出现次数和出现的顺序都比较稳定。例如，<table>、</table>、<td>、</td>、<tr>、</tr>等等。

距离：在相同结构的网页中，关键字区域到属性值区域所间隔的分隔符的个数。如图2所示：

假如我们把<td>、</td>、<span>、</span>定义为分隔符，那么“招聘职位：”和“销售主管”之间相隔了4个分隔符，也就是说距离为4。

区域：网页中两个分隔符之间的内容。例如图1中分隔符<span id＝″lb_office″style＝″font-size:12px；″>和</span>之间的“销售主管”。

发明内容

针对现有技术存在的缺陷和不足，本发明提供一种针对结构化网页的自动模板信息定位抽取出特定信息。

为了达到上述发明目的，本发明针对结构化网页的自动模板信息定位方法，具体包括以下步骤：

(1B)通过正则表达式定位一个属性的属性关键字位置，并搜索多个结构化网页中与所述一个属性的属性关键字位置距离最近的出现内容变化的区域；

(2B)确定属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离；

(3B)通过属性关键字以及属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离，确定与该属性关键字对应的全部属性值的位置。

或者，为了达到上述发明目的，本发明针对结构化网页的自动模板信息定位方法，具体包括以下步骤：

(1C)通过正则表达式定位一个属性的部分属性值的位置，以及与该部分属性值位置距离最近的另一个属性的属性关键字位置；

(2C)确定所述部分属性值和与该部分属性值位置距离最近的另一个属性的属性关键字位置之间的距离；

(3C)通过所述与该部分属性值位置距离最近的另一个属性的属性关键字，以及所述部分属性值和与该部分属性值位置距离最近的另一个属性的属性关键字位置之间的距离，确定所述一个属性的全部属性值的位置。

上述的针对结构化网页的自动模板信息定位方法中，所述距离为分隔符的个数。

本发明能准确高效的定位出想要搜索的信息。

附图说明

图1为第一种模板学习和定位策略的网页前台示意图；

图2为第一种模板学习和定位策略的网页后台示意图；

图3为第二种模板学习和定位策略的网页前台示意图；

图4为第二种模板学习和定位策略的网页后台示意图；

图5为第三种模板学习和定位策略的网页前台示意图；

图6为第三种模板学习和定位策略的网页后台示意图；

图7为关键字区分标志示意图。

具体实施方式

下面结合附图对本发明作进一步的详细说明：

现在，大多数的信息发布网站都采用程序自动的把相关信息发布到网页上。这种网页的形式一般比较固定，从而将有可能将网页的固定结构提取出来，识别出感兴趣的属性所在的位置，然后准确抽取出网页中感兴趣的内容。

一般来说，需要抽取的属性都会有其相应的关键字。比如说，招聘信息网页中，“工作地点”这个属性有其对应的关键字——“工作地点”、“工作城市”等等。对于某一特定的属性，其对应关键字的数量是不多的，这是由自然语言的特点决定的。而属性的值则可以是“北京”、“广州”、“上海”等等，种类可能会比较多。通常，对于同一个发布网站，某个属性所使用的关键字是固定的，而属性值则是变化的。另外，关键字和属性值之间的“距离”通常是固定的。除此之外，在同一个网站的信息发布页面中，各属性的关键字的出现的顺序通常都是固定的。

根据上述的特点，我们发明了一种基于统计信息的自动模板信息定位技术。对于某个特定的属性，我们制定了三种模板学习和定位的策略。在定位信息之前，我们首先需要对准备定位的属性的关键字和属性值进行定义。定义的方法采用正则表达式。由于属性关键字的数量是比较少的，所以基本上可以全部用正则表达式定义出来。而属性值的变化比较多，用正则表达式可能难以将所有的属性值全部定义出来。因此，定义属性关键字是必要的，定义属性值是可选的。属性关键字和部分属性值用正则表达式定义好之后，我们就可以采用我们指定的策略来进行包括全部属性值的特定信息的定位。以下为三种模板学习和定位策略的描述：

第一，对于定义了属性关键字和对应的部分属性值的情况，如果两者都匹配上了，那么按照匹配上的关键字的字符串作为索引记录下匹配的属性值和关键字所在“区域”和属性值所在“区域”的“距离”。扫描多个网页之后，如果某个属性关键字的匹配字符串所对应的相同“距离”的属性值的集合的元素大于一定数量，那么往后对所有网页中凡是遇到该属性关键字的匹配字符串，我们就可以用同样的“距离”直接抽取该属性的属性值而不管该属性值是否能够被我们实现定义的属性值所匹配。

如图1、图2所示，关键字“招聘职位：”和属性值“销售主管”均可以通过正则表达式描述出来。当扫描多个网页之后，属性值的集合可能就包含有“软件工程师”、“项目经理”、“机械工程师”等元素。而关键字和属性值之间的“距离”始终没有改变。那么当一个新的网页出现一个不能匹配的属性值时，就可以按照这个固定的距离来算出属性值所在的“区域”，从而抽取出属性值。

第二，对于定义了属性关键字，没有定义属性值的情况，如果属性关键字匹配上了，那么以匹配出来的字符串作为索引，记录多个网页该字符串附件“距离”为0到n的位置的区域的内容。扫描多个网页之后，如果从前往后查看发现某个“距离”上的区域的内容集合元素个数大于某个数值，那么将该“距离”确定为属性关键字和属性值的距离。

如图3、图4所示，关键字“招聘内容：”可以用正则表达式描述出来，但是属性值是一段话，难以用正则表达式描述出来。扫描多个网页之后，我们可以从网页的源码中发现“距离”为4的“区域”首先产生了变化，那么我们就把这个变化的“区域”当作是该关键字的属性值。

第三，对于定义了属性值，没有定义属性关键字的情况。如果属性值匹配上了，那么寻找前后“距离”最近的其他匹配上的属性关键字，并计算这两个距离。分别以其前后匹配上的其他属性关键字的匹配字符串作为索引，记录下“距离”和属性值两个信息。扫描多个网页之后，如果发现属性值和某个其他属性关键字的“距离”比较固定，那么就可以按照这个固定的“距离”，通过其他的属性关键字来确定该属性值的位置。

如图5、图6所示，公司名称的关键字没有在网页中出现，只出现属性值“北京华泰点石信息咨询有限公司”。通过扫描多个网页之后，发现该属性值和其他属性的关键字“截止日期：”的“距离”比较固定。那么当属性值不能匹配时，直接根据关键字“截止日期：”以及这个固定的“距离”来求出属性值所在“区域”，从而定位出这个“区域”的内容作为公司名称的属性值。

最后，为了区分不同结构的网页，同一个属性关键字记录了不同分组的属性值的历史信息，每个分组以扫描网页时该关键字前后出现的其他关键字作为索引。

如图7所示，记录关键字为“职位类型：”的属性值记录集合有多个，不同的属性值记录集合用其前后的其他关键字“招聘职位：”和“最低学历：”作为区分的标志。

Claims

1、一种针对结构化网页的自动模板信息定位方法，其特征在于：具体包括以下步骤：

2、一种针对结构化网页的自动模板信息定位方法，其特征在于：具体包括以下步骤：

3、根据权利要求1或2所述的针对结构化网页的自动模板信息定位方法，其特征在于：所述距离为分隔符的个数。