CN100562872C - 针对结构化网页的自动模板信息定位方法 - Google Patents
针对结构化网页的自动模板信息定位方法 Download PDFInfo
- Publication number
- CN100562872C CN100562872C CNB2006101378554A CN200610137855A CN100562872C CN 100562872 C CN100562872 C CN 100562872C CN B2006101378554 A CNB2006101378554 A CN B2006101378554A CN 200610137855 A CN200610137855 A CN 200610137855A CN 100562872 C CN100562872 C CN 100562872C
- Authority
- CN
- China
- Prior art keywords
- attribute
- property value
- key word
- distance
- attribute key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 238000000465 moulding Methods 0.000 title claims abstract description 12
- 230000008878 coupling Effects 0.000 abstract description 8
- 238000010168 coupling process Methods 0.000 abstract description 8
- 238000005859 coupling reaction Methods 0.000 abstract description 8
- 230000004807 localization Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000007115 recruitment Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 210000000459 calcaneus Anatomy 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Images
Abstract
本发明公开了一种针对结构化网页的自动模板信息定位方法。现有的定位方法匹配不够准确,对合理内容的判断也非常困难。为解决上述问题,本发明通过正则表达式定位属性关键字,确定属性关键字到属性值的距离,最终通过属性关键字以及属性关键字到属性值的距离定位全部属性值。本发明能准确高效的定位出想要搜索的信息,适用于各种网上信息搜索引擎。
Description
技术领域
本发明涉及一种针对结构化网页的自动模板信息定位方法。
背景技术
网页信息提取技术是互联网信息挖掘领域中一项重要的内容。网页信息提取技术要解决的问题是怎样从网页中抽取出指定的信息。比如说,从一个招聘信息发布网站中的所有招聘信息网页抽取出公司和职位等信息。以往的技术是利用正则表达式去匹配网页中的指定信息,然后从匹配的信息中抽取出最合理的内容。这种方法存在着很多的缺陷。最大的问题在于正则表达式只能匹配事先列举的信息,比如,我们可以通过正则表达式搜索事先列举的搜索信息,如“招聘职位”为“教师”“文秘”的信息,但是对于我们未列举的如“销售经理”“网络工程师”等信息则不会搜索,事实上我们不可能对招聘职位进行穷举;另外,我们搜索职位信息,但实际信息可能没有职位名称而只是以一段话对职位进行了描述,对于这样的信息正则表达式无法搜索,这样就会因为匹配不够准确和对合理内容的无法判断而出现搜索遗漏。
正则表达式:正则表达式通过一套特定的语法描述了一种字符串匹配的模式,可以用来检查一个字符串是否含有某种子串、将匹配的子串做替换或者从某个字符串中取出符合某个条件的子串等。
分隔符:用户定义的某些特定的HTML标签的集合。这些HTML标签跟网页的结构有很大关系,在相同结构的网页中出现次数和出现的顺序都比较稳定。例如,<table>、</table>、<td>、</td>、<tr>、</tr>等等。
距离:在相同结构的网页中,关键字区域到属性值区域所间隔的分隔符的个数。如图2所示:
假如我们把<td>、</td>、<span>、</span>定义为分隔符,那么“招聘职位:”和“销售主管”之间相隔了4个分隔符,也就是说距离为4。
区域:网页中两个分隔符之间的内容。例如图1中分隔符<span id=″lb_office″style=″font-size:12px;″>和</span>之间的“销售主管”。
发明内容
针对现有技术存在的缺陷和不足,本发明提供一种针对结构化网页的自动模板信息定位抽取出特定信息。
为了达到上述发明目的,本发明针对结构化网页的自动模板信息定位方法,具体包括以下步骤:
(1B)通过正则表达式定位一个属性的属性关键字位置,并搜索多个结构化网页中与所述一个属性的属性关键字位置距离最近的出现内容变化的区域;
(2B)确定属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离;
(3B)通过属性关键字以及属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离,确定与该属性关键字对应的全部属性值的位置。
或者,为了达到上述发明目的,本发明针对结构化网页的自动模板信息定位方法,具体包括以下步骤:
(1C)通过正则表达式定位一个属性的部分属性值的位置,以及与该部分属性值位置距离最近的另一个属性的属性关键字位置;
(2C)确定所述部分属性值和与该部分属性值位置距离最近的另一个属性的属性关键字位置之间的距离;
(3C)通过所述与该部分属性值位置距离最近的另一个属性的属性关键字,以及所述部分属性值和与该部分属性值位置距离最近的另一个属性的属性关键字位置之间的距离,确定所述一个属性的全部属性值的位置。
上述的针对结构化网页的自动模板信息定位方法中,所述距离为分隔符的个数。
本发明能准确高效的定位出想要搜索的信息。
附图说明
图1为第一种模板学习和定位策略的网页前台示意图;
图2为第一种模板学习和定位策略的网页后台示意图;
图3为第二种模板学习和定位策略的网页前台示意图;
图4为第二种模板学习和定位策略的网页后台示意图;
图5为第三种模板学习和定位策略的网页前台示意图;
图6为第三种模板学习和定位策略的网页后台示意图;
图7为关键字区分标志示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明:
现在,大多数的信息发布网站都采用程序自动的把相关信息发布到网页上。这种网页的形式一般比较固定,从而将有可能将网页的固定结构提取出来,识别出感兴趣的属性所在的位置,然后准确抽取出网页中感兴趣的内容。
一般来说,需要抽取的属性都会有其相应的关键字。比如说,招聘信息网页中,“工作地点”这个属性有其对应的关键字——“工作地点”、“工作城市”等等。对于某一特定的属性,其对应关键字的数量是不多的,这是由自然语言的特点决定的。而属性的值则可以是“北京”、“广州”、“上海”等等,种类可能会比较多。通常,对于同一个发布网站,某个属性所使用的关键字是固定的,而属性值则是变化的。另外,关键字和属性值之间的“距离”通常是固定的。除此之外,在同一个网站的信息发布页面中,各属性的关键字的出现的顺序通常都是固定的。
根据上述的特点,我们发明了一种基于统计信息的自动模板信息定位技术。对于某个特定的属性,我们制定了三种模板学习和定位的策略。在定位信息之前,我们首先需要对准备定位的属性的关键字和属性值进行定义。定义的方法采用正则表达式。由于属性关键字的数量是比较少的,所以基本上可以全部用正则表达式定义出来。而属性值的变化比较多,用正则表达式可能难以将所有的属性值全部定义出来。因此,定义属性关键字是必要的,定义属性值是可选的。属性关键字和部分属性值用正则表达式定义好之后,我们就可以采用我们指定的策略来进行包括全部属性值的特定信息的定位。以下为三种模板学习和定位策略的描述:
第一,对于定义了属性关键字和对应的部分属性值的情况,如果两者都匹配上了,那么按照匹配上的关键字的字符串作为索引记录下匹配的属性值和关键字所在“区域”和属性值所在“区域”的“距离”。扫描多个网页之后,如果某个属性关键字的匹配字符串所对应的相同“距离”的属性值的集合的元素大于一定数量,那么往后对所有网页中凡是遇到该属性关键字的匹配字符串,我们就可以用同样的“距离”直接抽取该属性的属性值而不管该属性值是否能够被我们实现定义的属性值所匹配。
如图1、图2所示,关键字“招聘职位:”和属性值“销售主管”均可以通过正则表达式描述出来。当扫描多个网页之后,属性值的集合可能就包含有“软件工程师”、“项目经理”、“机械工程师”等元素。而关键字和属性值之间的“距离”始终没有改变。那么当一个新的网页出现一个不能匹配的属性值时,就可以按照这个固定的距离来算出属性值所在的“区域”,从而抽取出属性值。
第二,对于定义了属性关键字,没有定义属性值的情况,如果属性关键字匹配上了,那么以匹配出来的字符串作为索引,记录多个网页该字符串附件“距离”为0到n的位置的区域的内容。扫描多个网页之后,如果从前往后查看发现某个“距离”上的区域的内容集合元素个数大于某个数值,那么将该“距离”确定为属性关键字和属性值的距离。
如图3、图4所示,关键字“招聘内容:”可以用正则表达式描述出来,但是属性值是一段话,难以用正则表达式描述出来。扫描多个网页之后,我们可以从网页的源码中发现“距离”为4的“区域”首先产生了变化,那么我们就把这个变化的“区域”当作是该关键字的属性值。
第三,对于定义了属性值,没有定义属性关键字的情况。如果属性值匹配上了,那么寻找前后“距离”最近的其他匹配上的属性关键字,并计算这两个距离。分别以其前后匹配上的其他属性关键字的匹配字符串作为索引,记录下“距离”和属性值两个信息。扫描多个网页之后,如果发现属性值和某个其他属性关键字的“距离”比较固定,那么就可以按照这个固定的“距离”,通过其他的属性关键字来确定该属性值的位置。
如图5、图6所示,公司名称的关键字没有在网页中出现,只出现属性值“北京华泰点石信息咨询有限公司”。通过扫描多个网页之后,发现该属性值和其他属性的关键字“截止日期:”的“距离”比较固定。那么当属性值不能匹配时,直接根据关键字“截止日期:”以及这个固定的“距离”来求出属性值所在“区域”,从而定位出这个“区域”的内容作为公司名称的属性值。
最后,为了区分不同结构的网页,同一个属性关键字记录了不同分组的属性值的历史信息,每个分组以扫描网页时该关键字前后出现的其他关键字作为索引。
如图7所示,记录关键字为“职位类型:”的属性值记录集合有多个,不同的属性值记录集合用其前后的其他关键字“招聘职位:”和“最低学历:”作为区分的标志。
Claims (3)
1、一种针对结构化网页的自动模板信息定位方法,其特征在于:具体包括以下步骤:
(1B)通过正则表达式定位一个属性的属性关键字位置,并搜索多个结构化网页中与所述一个属性的属性关键字位置距离最近的出现内容变化的区域;
(2B)确定属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离;
(3B)通过属性关键字以及属性关键字和与所述一个属性的属性关键字位置距离最近的出现内容变化的区域之间的距离,确定与该属性关键字对应的全部属性值的位置。
2、一种针对结构化网页的自动模板信息定位方法,其特征在于:具体包括以下步骤:
(1C)通过正则表达式定位一个属性的部分属性值的位置,以及与该部分属性值位置距离最近的另一个属性的属性关键字位置;
(2C)确定所述部分属性值和与该部分属性值位置距离最近的另一个属性的属性关键字位置之间的距离;
(3C)通过所述与该部分属性值位置距离最近的另一个属性的属性关键字,以及所述部分属性值和与该部分属性值位置距离最近的另一个属性的属性关键字位置之间的距离,确定所述一个属性的全部属性值的位置。
3、根据权利要求1或2所述的针对结构化网页的自动模板信息定位方法,其特征在于:所述距离为分隔符的个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006101378554A CN100562872C (zh) | 2006-11-07 | 2006-11-07 | 针对结构化网页的自动模板信息定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006101378554A CN100562872C (zh) | 2006-11-07 | 2006-11-07 | 针对结构化网页的自动模板信息定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101178708A CN101178708A (zh) | 2008-05-14 |
CN100562872C true CN100562872C (zh) | 2009-11-25 |
Family
ID=39404966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006101378554A Expired - Fee Related CN100562872C (zh) | 2006-11-07 | 2006-11-07 | 针对结构化网页的自动模板信息定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100562872C (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218372B (zh) * | 2012-01-20 | 2017-04-26 | 华为终端有限公司 | 一种聚合信息的方法和装置 |
CN105760290B (zh) * | 2014-12-17 | 2018-11-13 | 阿里巴巴集团控股有限公司 | 基于网页前端测试的问题定位方法及相关装置、系统 |
CN105574084A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 网页中案件信息的抽取方法 |
CN108664535B (zh) * | 2017-04-01 | 2022-08-12 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN110019084B (zh) * | 2017-10-12 | 2022-01-14 | 航天信息股份有限公司 | 面向HDFS的split层索引方法和装置 |
CN109344355B (zh) * | 2018-09-26 | 2022-03-15 | 北京因特睿软件有限公司 | 针对网页变化的自动回归检测与块匹配自适应方法和装置 |
-
2006
- 2006-11-07 CN CNB2006101378554A patent/CN100562872C/zh not_active Expired - Fee Related
Non-Patent Citations (4)
Title |
---|
基于包装器模型的文本信息抽取. 王敬普,林亚平,周顺先,岳文.计算机应用,第26卷第3期. 2006 |
基于包装器模型的文本信息抽取. 王敬普,林亚平,周顺先,岳文.计算机应用,第26卷第3期. 2006 * |
基于正则式的CNKI网页全自动包装器. 胡立辉,张健,陈曦.长沙理工大学学报(自然科学版),第3卷第2期. 2006 |
基于正则式的CNKI网页全自动包装器. 胡立辉,张健,陈曦.长沙理工大学学报(自然科学版),第3卷第2期. 2006 * |
Also Published As
Publication number | Publication date |
---|---|
CN101178708A (zh) | 2008-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1955963B (zh) | 用于搜索电子文档中的日期的系统和方法 | |
CN104731941B (zh) | 一种基于xbrl技术从非结构化财务报告抓取数据的方法 | |
CN102279894B (zh) | 基于语义的查找、集成和提供评论信息的方法及搜索系统 | |
CN100573520C (zh) | 为检索对多个文档进行预处理的方法和装置 | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
CN100444591C (zh) | 获取网页关键字的方法及其应用系统 | |
CN100562872C (zh) | 针对结构化网页的自动模板信息定位方法 | |
CN105468605A (zh) | 一种实体信息图谱生成方法及装置 | |
CN104375992A (zh) | 一种地址匹配的方法和装置 | |
CN101641674A (zh) | 时间序列搜索引擎 | |
CN101192234A (zh) | 一种基于网页抽取的搜索系统及搜索方法 | |
US20070088743A1 (en) | Information processing device and information processing method | |
CN102567494B (zh) | 网站分类方法及装置 | |
CN103324622A (zh) | 一种自动生成首页摘要的方法及装置 | |
CN103617174A (zh) | 一种基于云计算的分布式搜索方法 | |
CN102004775A (zh) | 一种基于智能搜索的福富企业搜索引擎技术 | |
CN101882135B (zh) | 一种兴趣点数据处理方法和装置 | |
Fu et al. | Web content extraction based on webpage layout analysis | |
CN102073641A (zh) | 对消费者生成媒体信息进行处理的方法、装置和程序 | |
CN102681994A (zh) | 一种网页信息抽取方法及系统 | |
Richards et al. | The Archaeology Data Service and the Archaeotools project: faceted classification and natural language processing | |
CN107330111A (zh) | 基于通用形式化本体的领域本体的检索方法及装置 | |
CN108170671A (zh) | 一种提取新闻事件发生时间的方法 | |
CN109710710A (zh) | 兴趣点的事件挖掘方法及其装置 | |
CN101887417A (zh) | 一种搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091125 |
|
CF01 | Termination of patent right due to non-payment of annual fee |