CN100392658C - 基于本体的主题式网络爬虫系统构建方法 - Google Patents
基于本体的主题式网络爬虫系统构建方法 Download PDFInfo
- Publication number
- CN100392658C CN100392658C CNB2006100407422A CN200610040742A CN100392658C CN 100392658 C CN100392658 C CN 100392658C CN B2006100407422 A CNB2006100407422 A CN B2006100407422A CN 200610040742 A CN200610040742 A CN 200610040742A CN 100392658 C CN100392658 C CN 100392658C
- Authority
- CN
- China
- Prior art keywords
- url
- page
- ontology
- class
- link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 241000270322 Lepidosauria Species 0.000 title claims description 9
- 239000000284 extract Substances 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于本体的主题式网络爬虫系统构建方法,该方法包括以下步骤:(1)解析Web页面;(2)预处理当前页面的文本信息得到单词层信息;(3)把单词层信息转化为本体信息;(4)计算页面的主题相关度;(5)主题相关度大于设定值则提取当前所有出链接所指向的URL,否则转至步骤(7);(6)如果所指向URL已被访问过,则提取下一链接;否则按照该链接所在页面的主题相关度大小插入优先等待访问队列;(7)从优先等待访问队列中选取第一个URL,也就是优先级最高的进行访问;(8)重复执行步骤(1)至(7),直到出现没有满足条件的新URL。本发明的优点是结果准确率高且计算以及存储开销较小。
Description
一、技术领域
本发明涉及一种爬虫系统构建方法,尤其涉及一种主题式网络爬虫系统构建方法。
二、背景技术
Web爬虫是搜索引擎的核心部分之一,如何使网络爬虫系统能更高效的工作已受到越来越多研究者的重视。其中,针对特定主题的web爬虫系统更成为当今研究的热点。主题式Web爬虫的目标是使爬虫系统尽量避免访问到非主题相关的Web页面,而集中访问那些和主题相关的Web页面。这种Web爬虫系统主要被应用在那些特定领域的搜索引擎和Web信息检索系统中。
目前的主题式爬虫系统主要是基于Web页面的文本关键词统计信息来评价其主题相关度。但是Web页面的内容千差万别,其对应的关键词库通常都十分巨大,所以系统的计算开销很大且需要进行大量的高维数据维护。此外,由于自然语言本身存在的一词多义以及多词一义现象,仅仅通过关键词来刻画主题或者页面的内容往往相当困难,从而使得主题相关性评价出现偏差。本发明通过引入本体技术来解决这一问题。
三、发明内容
1、发明目的:本发明的目的是针对现有技术的不足,提供一种基于本体技术的高效、准确的主题式网络爬虫系统构建方法。
2、技术方案:本发明基于一个以主题概念为核心概念的本体库管理系统,通过把Web页面中单词层上的文本信息转化为概念层上的本体类信息,结合本体结构图计算页面的主题相关性,进而指导爬虫系统的运行。本方法包括以下步骤:
(1)对当前Web页面进行解析;
(2)将当前页面的文本信息进行预处理得到单词层信息;
(3)通过本体管理系统把单词层信息转化为本体信息;
(4)把得到的本体信息结合本体库计算页面的主题相关度;
(5)如果当前页面主题相关度大于设定值则顺序提取当前Web页面中的所有出链接所指向的URL,否则转而执行步骤(7);
(6)如果该链接所指向URL已被访问过则提取下一链接,如果该URL未被访问则按照该链接所在页面的主题相关度大小插入优先等待访问队列;
(7)从优先等待访问队列中选取第一个URL,也就是优先级最高的进行访问;
(8)重复执行步骤(1)至(7),直到出现没有满足条件的新URL。
其中,上述步骤(4)中的本体库通过采集现有的公用本体库,并对这些本体库进行处理,得到本方法的本体库,其步骤包括:
(4.1)提取现有本体库中的类;
(4.2)提取现有本体库中类的层次关系和函数关系;
(4.3)把类作为节点,层次关系和函数关系作为连接节点的有向边,组成本体库本体层的基本结构;
(4.4)针对每个本体库中的每个类,构建与该类对应的关键词集合,组成本体库的词汇层。
3、有益效果:按照本发明的方法所构建的网络爬虫系统与现有的爬虫系统相比,其显著优点是:在语义理解的基础上,赋予爬虫系统更高的智能性,使得系统的准确性以及工作效率获得提高。
四、附图说明
图1是本发明的系统组成结构图;
图2是本发明的工作流程图;
图3本体库结构示意图。
五、具体实施方式
如图1所示,本发明方法所构建的网络爬虫系统包含基本爬虫工作模块,主题相关度评价模块以及本体管理系统模块。其中,主题相关度评价模块中又包含预处理以及相关度计算子模块。
本发明方法流程如图2所示,下面详细说明:
步骤(1):通过对当前Web页面的HTML文件进行解析,分离出其中的主体内容文本信息。
步骤(2):对分离出来的文本信息进行预处理。这里我们通常根据系统预设的关键词列表统计每个关键词在当前文档中出现的次数N(wi)。
步骤(3):根据本体库中各个本体类所对应的关键词集,计算本体类在当前文档中的类频。
本体结构示意图如图3,图中所示为一个以音乐(music)为核心概念的本体库结构图的一部分。该本体结构图包括一系列对现实事物的概念抽象,比如:“music”,“person”,这些概念构成了本体管理系统中的类(class)。此外,图中还包括了比如“to play”等连接类与类之间的逻辑关系以及比如“music”和“jazz”之间的层次关系,这些逻辑关系和层次关系构成了本体管理系统中的关系集(relation)。除了在图中现实的类和关系,本体管理系统还管理着一个低于本体层的词汇层。本体层中的每个类或关系都对应在词汇层中的一个文本词汇集,比如对于类“music”,它所对应的文本词汇集就包括了“song,melody,music”。
步骤(4):由本体类频,结合主题本体库计算当前页面的主题相关度rD。
在对本体库中的类在文档中的出现次数进行计算之后,就可以得到从一个给定的Web文档到其对应的主题相关性的映射。在实现这一映射的过程中,需要利用本体图中各个要素之间的结构关系,并结合前面计算得到的类频来对本体中的每个类对该文本的主题相关度进行打分,最后对每个类进行综合,最后得到整个页面对主题的相关度。
页面D的主题相关度rD计算公式如下:
其中n表示折扣因子,d(ck,T)表示从该类到该本体库核心类,即该主题式网络爬虫系统的主题类T之间的距离。
步骤(5):把当前页面的主题相关度,与基准值做比较。如果大于基准值,则说明当前页面满足主题相关度要求,需要分离出该页面中的出链接;如果小于基准值,则说明该页面不满足主题相关度的要求,系统转而执行步骤7。
步骤(6):处理当前页面中的链接信息。
顺序处理当前页面中的所有链接,如果该链接所指向URL已被访问过,则提取下一链接,如果该URL未被访问,则按照该链接所在页面的主题相关度大小插入优先等待访问队列。
步骤(7):从优先等待访问队列中选取排在队列第一个的URL,也就是优先级最高的进行访问。
步骤(8):重复执行步骤(1)至(7),直到出现没有满足条件的新URL或到达一定的限度为止。
Claims (2)
1.一种基于本体的主题式网络爬虫系统构建方法,包括下列步骤:(1)对当前Web页面进行解析,其特征在于该方法还包括下列步骤:
(2)将当前页面的文本信息进行预处理得到单词层信息;
(3)通过本体管理系统把单词层信息转化为本体信息;
(4)把得到的本体信息结合本体库计算页面的主题相关度;
(5)如果当前页面主题相关度大于设定值则顺序提取当前Web页面中的所有出链接所指向的URL,否则转而执行步骤(7);
(6)如果该链接所指向URL已被访问过,则提取下一链接;如果该URL未被访问,则按照该链接所在页面的主题相关度大小插入优先等待访问队列;
(7)从优先等待访问队列中选取第一个URL,也就是优先级最高的进行访问;
(8)重复执行步骤(1)至(7),直到出现没有满足条件的新URL。
2.如权利要求1所述的基于本体的主题式网络爬虫系统构建方法,其特征在于,步骤(4)中的本体库通过采集现有的公用本体库,并对这些本体库进行处理,得到本方法的本体库,其步骤包括:
(4.1)提取现有本体库中的类;
(4.2)提取现有本体库中类的层次关系和函数关系;
(4.3)把类作为节点,层次关系和函数关系作为连接节点的有向边,组成本体库本体层的基本结构;
(4.4)针对每个本体库中的每个类,构建与该类对应的关键词集合,组成本体库的词汇层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100407422A CN100392658C (zh) | 2006-05-30 | 2006-05-30 | 基于本体的主题式网络爬虫系统构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2006100407422A CN100392658C (zh) | 2006-05-30 | 2006-05-30 | 基于本体的主题式网络爬虫系统构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1851705A CN1851705A (zh) | 2006-10-25 |
CN100392658C true CN100392658C (zh) | 2008-06-04 |
Family
ID=37133184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2006100407422A Expired - Fee Related CN100392658C (zh) | 2006-05-30 | 2006-05-30 | 基于本体的主题式网络爬虫系统构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100392658C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101917413A (zh) * | 2010-07-29 | 2010-12-15 | 清华大学 | 基于服务质量优化和语义信息集成的服务组装系统及方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100449547C (zh) * | 2006-12-06 | 2009-01-07 | 华为技术有限公司 | 一种媒体内容管理系统及方法 |
CN100452054C (zh) * | 2007-05-09 | 2009-01-14 | 崔志明 | 用于深层网页数据源集成的数据源发现方法 |
CN101355587B (zh) * | 2008-09-17 | 2012-05-23 | 杭州华三通信技术有限公司 | Url信息获取方法和装置及搜索引擎实现方法及系统 |
CN101561814B (zh) * | 2009-05-08 | 2012-05-09 | 华中科技大学 | 基于社会标注的主题爬虫系统 |
CN102129472B (zh) * | 2011-04-14 | 2012-12-19 | 上海红神信息技术有限公司 | 面向语义搜索引擎的高效混合存储结构的构建方法 |
CN103034732A (zh) * | 2012-12-26 | 2013-04-10 | 福建师范大学 | 用于链接精确抓取的网络机器人算法 |
CN103714140A (zh) * | 2013-12-23 | 2014-04-09 | 北京锐安科技有限公司 | 一种基于主题网络爬虫的搜索方法及装置 |
CN106339378A (zh) * | 2015-07-07 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词导向的主题网络爬虫的数据搜集方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5838964A (en) * | 1995-06-26 | 1998-11-17 | Gubser; David R. | Dynamic numeric compression methods |
US6006232A (en) * | 1997-10-21 | 1999-12-21 | At&T Corp. | System and method for multirecord compression in a relational database |
CN1316707A (zh) * | 2000-01-25 | 2001-10-10 | 索尼株式会社 | 数据压缩与检索方法和数据检索设备及记录媒体 |
-
2006
- 2006-05-30 CN CNB2006100407422A patent/CN100392658C/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5838964A (en) * | 1995-06-26 | 1998-11-17 | Gubser; David R. | Dynamic numeric compression methods |
US6006232A (en) * | 1997-10-21 | 1999-12-21 | At&T Corp. | System and method for multirecord compression in a relational database |
CN1316707A (zh) * | 2000-01-25 | 2001-10-10 | 索尼株式会社 | 数据压缩与检索方法和数据检索设备及记录媒体 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101917413A (zh) * | 2010-07-29 | 2010-12-15 | 清华大学 | 基于服务质量优化和语义信息集成的服务组装系统及方法 |
CN101917413B (zh) * | 2010-07-29 | 2013-07-17 | 清华大学 | 基于服务质量优化和语义信息集成的服务组装系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1851705A (zh) | 2006-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100392658C (zh) | 基于本体的主题式网络爬虫系统构建方法 | |
CN105488024B (zh) | 网页主题句的抽取方法及装置 | |
CN101398814B (zh) | 一种同时抽取文档摘要和关键词的方法及系统 | |
CN101685455B (zh) | 数据检索的方法和系统 | |
CN101630314B (zh) | 一种基于领域知识的语义查询扩展方法 | |
CN102253982B (zh) | 一种基于查询语义和点击流数据的查询建议方法 | |
CN102207945B (zh) | 基于知识网络的文本标引系统及其方法 | |
CN103268348B (zh) | 一种用户查询意图识别方法 | |
CN100401301C (zh) | 基于本体学习的智能主题式网络爬虫系统构建方法 | |
CN102298642B (zh) | 文本信息抽取方法和系统 | |
CN107122413A (zh) | 一种基于图模型的关键词提取方法及装置 | |
CN101650729B (zh) | 一种Web服务构件库动态构造方法及其服务检索方法 | |
KR20060048779A (ko) | 정보 검색 시스템에서의 문구 식별 | |
CN101901249A (zh) | 一种图像检索中基于文本的查询扩展与排序方法 | |
CN103886099B (zh) | 一种模糊概念的语义检索系统及方法 | |
CN103970729A (zh) | 一种基于语义类的多主题提取方法 | |
Haque et al. | Literature review of automatic multiple documents text summarization | |
CN101256573B (zh) | 基于内容相关性的反馈式搜索方法及内容相关方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
Wang et al. | Document clustering with semantic analysis | |
CN102156711A (zh) | 一种基于云存储的电力全文检索方法及系统 | |
CN101251847A (zh) | 一种适用于移动设备的电子词典词库结构 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN103823847A (zh) | 一种关键词的扩充方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080604 Termination date: 20100530 |