CN101807213A - 一种网页的垂直搜索方法 - Google Patents
一种网页的垂直搜索方法 Download PDFInfo
- Publication number
- CN101807213A CN101807213A CN 201010168867 CN201010168867A CN101807213A CN 101807213 A CN101807213 A CN 101807213A CN 201010168867 CN201010168867 CN 201010168867 CN 201010168867 A CN201010168867 A CN 201010168867A CN 101807213 A CN101807213 A CN 101807213A
- Authority
- CN
- China
- Prior art keywords
- weight
- webpage
- page
- chain
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明公开了一种网页的垂直搜索方法,涉及垂直搜索领域,所述方法包括:获取root集和base集;初始化所述base集的入链权重和出链权重;获取所述base集中所有页面链接的入链网页权重和出链网页权重;获取所述base集中页面的主题相似性和页面的站点权重;根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。本发明实施例通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数,使得可以获取到更符合实际需要的网页,提高了搜索网页的准确性和精度,满足了实际应用中的需要。
Description
技术领域
本发明涉及垂直搜索领域,特别涉及一种网页的垂直搜索方法。
背景技术
随着经济技术的发展,网络已成为人们日常生活中必不可缺的,人们通常在网络中搜索自己所需的网页,为了提高搜索结果的质量,现有技术中提出了基于HITS(Hyperlink-Induced Topic Search,超链接诱导主题搜索)的检索方法,该方法通过对网络中链接的分析,利用页面的被引用次数及其链接数目来决定不同网页的价值。这种信息检索的方法可以获得比较好的查全率,但没有考虑页面的内容,仅仅是考虑了页面的链接信息,因此往往会出现主题偏移。
为了解决上述问题,现有技术中又提出了基于垂直搜索的HITS的检索方法。其中,垂直搜索是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务,其特点是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。微软研究院一名技术专家曾经说过:“75%的内容使用搜索引擎搜索不出来”。而垂直搜索引擎的诞生则是为了更大程度地提高搜索的“查全率”和“查准率”。垂直搜索引擎通过对行业领域内的信息模型和用户模型结构化的搜集或再组织,提供更多、更专业、个性化的行业相关服务。基于垂直搜索的HITS的检索方法添加了一个新的权重信息,这个信息就是页面相似性,也就是通过VSM(Vector Space Model,向量空间模型)计算页面与特定主题的相似程度来作为权重,由于垂直搜索的是某一个特定领域的信息,因此添加一个这样的权重后,必然使与此领域相关的页面的排名提前,从而搜索出更符合需求的页面,经过试验验证,通过该方法,可以大幅度的提高搜索页面的准确性。
发明人在实现本发明的过程中,发现上述现有技术至少存在以下缺点和不足:
基于垂直搜索的HITS的检索方法是通过关键字匹配的方式来获取初始页面,该搜索结果是一个优化的结果,而不是随机的结果,这使搜索到的页面的准确性不是很高,不能满足实际应用中的需要。
发明内容
为了提高搜索页面的准确性、提高搜索精度,本发明实施例提供了一种网页的垂直搜索方法,所述技术方案如下:
一种网页的垂直搜索方法,所述方法包括以下步骤:
1:获取root集和base集;
2:初始化所述base集的入链权重和出链权重;
3:获取所述base集中所有页面链接的入链网页权重和出链网页权重;
4:获取所述base集中页面的主题相似性和页面的站点权重;
5:根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。
步骤1-5中所述base集具体为:
从所述root集中的网页出发,由所述网页的出度网页及入度网页组成的文档集合。
步骤4-5中所述站点权重,包括:第一站点权重和第二站点权重;
所述第一站点权重具体为:
wsvi1=1+w1*(N1vi-1),其中,w1为常量,N1vi为vi页面在前k个页面中属于本站点的页面数目,且vi∈root;
所述第二站点权重具体为:
wsvi2=wsvi+w2*N2vi,其中,w2为常量,N2vi为vi页面在后k个页面中属于本站点的页面数目,且vi∈root;
所述w1的取值大于所述w2的取值。
步骤2和步骤5中所述入链权重具体为:
权重,wvj为主题相似性,wsvj为站点权重;
步骤2和步骤5中所述出链权重具体为:
本发明实施例提供的技术方案的有益效果是:
本发明实施例提供的方法通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数,使得网页的权重提高,可以获取到更符合实际需要的网页,并通过将root集扩展为base集,增加了权重计算中的网页数量,提高了搜索网页的准确性和精度,满足了实际应用中的需要。
附图说明
图1是本发明实施例提供的网页的垂直搜索方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
为了提高搜索页面的准确性、提高搜索精度,本发明实施例提供了一种网页的垂直搜索方法,参见图1,该方法内容如下:
101:获取root集和base集;
其中,root集是指对于某一个主题通过搜索引擎所查找到的初始文档集合,通过搜索引擎获取关于某一个主题的页面,取前k个页面作为root集,通过root集中的页面,获取每个页面的正向链接页面或反向链接页面,将正向链接页面或反向链接页面的数量控制在m个之内,正向链接页面可以通过分析网页得到,反向链接页面可以通过搜索引擎的反向查询功能查到。例如:当k为30、m为50,这时获取到3000个页面(即30*(50+50))。以百度为例,百度通过domain:网页进行查询,如domain:www.baidu.com,就可以获得所有指向baidu的站点数目为6530,000。
base集是指从root集中的网页出发,由这些网页的出度网页及入度网页所组成的文档集合,为了对网站权重进行更精确的计算,减少误差,本发明实施例使得有更多的页面参与到网站权重的计算中。获取和每一个页面链接的页面,该获取到的页面作为第二页面,将第二页面也参与到网站权重计算中。例如:root集中有30个页面,则获取到了30个第二页面,即,base集中有60个页面(即,30个页面+30个第二页面)。还是以百度为例,可以通过domain:www.baidu.com获取指向www.baidu.com的前n个页面,通过分析www.baidu.com这个页面中的链接信息也提取前n个链接,这样就可以得到www.baidu.com这个页面的所有链入和链出的页面集合了,即2n个页面。其中,其他的root集中的页面也是采用同样的扩展方式,在此不再赘述。
102:初始化base集的入链权重和出链权重;
其中,入链权重表示一个权威网页被其他网页所引用的数量,即该权威网页的入度值;出链权重表示一个Web页面指向其他网页的数量,即该Web页面的出度值。具体地,本发明实施例将入链权重和出链权重初始化为1。
103:获取base集中所有页面链接的入链网页权重和出链网页权重;
具体地,获取页面链接的入链网页权重和出链网页权重的公式参见公式1和公式2,其中,Pi in为网页vi的入链信息确定的网页权重、Pi out为网页vi的出链信息确定的网页权重、Pi in和Pi out的初始值为1、Nj in和Nj out分别为网页vj的入链数目和出链数目、B(i)和F(i)分别为vi链源页面集合和链宿页面集合。
通过上述公式可以获取到所有链接页面的入链网页权重和出链网页权重,为了减少计算的复杂度,缩短计算的时间,本发明实施例优选地当前k个页面中的每一个页面的入链权重和出链权重都收敛时,停止计算。具体实现时,根据实际应用情况还可以计算到root集中的所有页面都收敛为止,本发明实施例对此不做限制。
104:获取base集中页面的主题相似性和页面的站点权重;
1、获取某一行业的特征向量R(w1,w2,...,wn);
通过VSM来获取某一行业的特征向量R(w1,w2,...,wn),n的取值和实际应用中的行业类型有关,具体实现时,本发明实施例对此不做限制。
2、获取某一网页vi的特征向量C(wi1,wi2,...,win);
具体地,通过采用TF-IDF(Term Frequency-Inverse DocumentFrequency,词频-反问档频率)方法来获取某一网页vi的特征向量C,具体实现时,也可以采用其他的方法来获取特征向量C,本发明实施例对此不做限制。
3、获取页面的主题相似性和页面的站点权重;
具体地,通过公式3来获取页面的主题相似性,用公式4代表页面的主题相似性。
wvi=Sim(R,Ci) (4)
这样就可以计算出每一个网页的主题相似性,用wvi=Sim(R,Ci)代表vi页面的主题相似性。
统计root集中的前k个页面的各个网站的数目,通过公式5来获取root集中的前k个页面的第一站点权重wsvi1,初始化所有页面的站点权重为1,即wsvi1为1,w1的取值和实际应用中的root集中的页面数量有关,具体实现时,本发明实施例对此不做限制,本发明实施例中以w1取0.1为例对其进行说明,N1vi代表vi页面在前k个页面中属于本站点的页面数目,且vi∈root。
wsvi1=1+w1*(N1vi-1) (5)
统计root集中的后k个页面的各个网站的数目,通过公式6来获取root集中的后k个页面的第二站点权重wsvi2,初始化所有页面的站点权重为1,即wsvi2为1,w2的取值和实际应用中的root集中的页面数量有关,具体实现时,本发明实施例对此不做限制,本发明实施例中以w2取0.05为例对其进行说明,N2vi代表vi页面在后k个页面中属于本站点的页面数目,且vi∈root。
wsvi2=wsvi2+w2*N2vi (6)
这样通过公式5和公式6就获取到了root集中的2k个页面的站点权重信息,其中,w1和w2的取值应满足w1的取值大于w2的取值(w1>w2)。
105:根据入链网页权重、出链网页权重、主题相似性和站点权重获取base集中所有页面的入链权重和出链权重。
具体为,B(i)和F(i)分别为vi链源页面集合和链宿页面集合,通过公式7和公式8获取到ai和hi,直到前k个收敛;并对ai和hi进行归一化处理,获取到所有页面的入链权重和出链权重。其中,Pj in为入链网页权重,Pj out为出链网页权重,wvj为主题相似性,wsvj为站点权重。
为了表示方便,可以将ai表示为pa=(a1,a2,......an),hi表示为ph=(h1,h2,......hn),具体实现时,也可采用其他的表现形式,本发明实施例对此不做限制。
综上所述,本发明实施例提供了一种网页的垂直搜索方法,该方法通过在垂直搜索的HITS方法的基础上添加了站点权重这一参数,使得网页的权重提高,可以获取到更符合实际需要的网页,并通过将root集扩展为base集,增加了权重计算中的网页数量,提高了搜索网页的准确性和精度,满足了实际应用中的需要。
本发明实施例以3个简单的试验来验证本发明实施例提供的方法的有效性。
1、百度搜索“天津二手房”,通过查看结果可以获知,在前20个页面中soufun.com整个站点共有3个结果,其中,前10个页面1个,后10个页面2个,尽管前几个结果不是soufun.com对应的页面,但通过本发明实施例提供的方法,就可以将二手房信息网站所对应页面的权重提高,进而会让这些页面比采用以往的方法得到的排名更靠前,提高搜索结果的准确性,使其完全符合搜索意图。
2、通过百度搜索“汽车报价”,其中前17个页面中有3个来自pcauto.com.cn(太平洋汽车网)网站,通过查看结果可以获知,前几个页面中并没有pcauto.com.cn所对应的页面,但该网站确实是一个较好的搜索结果,因此通过本发明实施例提供的方法,就可以对权重进行调整,使得太平洋汽车网对应的网页权重的排名上升,使其满足了实际应用中的需要,因此提高了搜索精度。
3、通过百度搜索“笔记本电脑报价”,其中前20个页面中共有2个来自zol.com.cn(中关村网站),在实际应用中得知该网站是一个绝对具有影响力的电脑网站,而其只排在第7位,通过采用本发明实施例提供的方法,可以对权重进行调整,经过调整后,其最后的页面排名会比传统的基于垂直搜索的HITS方法的排名靠前,提高了搜索的准确性,满足了实际应用中的需要。
通过上述3个实验验证,可以看出本发明实施例提供的方法的可行性,可以获取到更符合实际需要的网页,提高了搜索的准确性和精度,满足了实际应用中的需要。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种网页的垂直搜索方法,其特征在于,所述方法包括以下步骤:
1:获取root集和base集;
2:初始化所述base集的入链权重和出链权重;
3:获取所述base集中所有页面链接的入链网页权重和出链网页权重;
4:获取所述base集中页面的主题相似性和页面的站点权重;
5:根据所述入链网页权重、所述出链网页权重、所述主题相似性和所述站点权重获取所述base集中所有页面的入链权重和出链权重。
2.根据权利要求1所述的方法,其特征在于,步骤1-5中所述base集具体为:
从所述root集中的网页出发,由所述网页的出度网页及入度网页组成的文档集合。
3.根据权利要求1所述的方法,其特征在于,步骤4-5中所述站点权重,包括:第一站点权重和第二站点权重;
所述第一站点权重具体为:
wsvi1=1+w1*(N1vi-1),其中,w1为常量,N1vi为vi页面在前k个页面中属于本站点的页面数目,且vi∈root;
所述第二站点权重具体为:
wsvi2=wsvi+w2*N2vi,其中,w2为常量,N2vi为vi页面在后k个页面中属于本站点的页面数目,且vi∈root;
所述w1的取值大于所述w2的取值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010168867XA CN101807213B (zh) | 2010-05-11 | 2010-05-11 | 一种网页的垂直搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010168867XA CN101807213B (zh) | 2010-05-11 | 2010-05-11 | 一种网页的垂直搜索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101807213A true CN101807213A (zh) | 2010-08-18 |
CN101807213B CN101807213B (zh) | 2011-08-31 |
Family
ID=42609005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010168867XA Expired - Fee Related CN101807213B (zh) | 2010-05-11 | 2010-05-11 | 一种网页的垂直搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101807213B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456054A (zh) * | 2010-10-28 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种搜索方法及系统 |
CN111223533A (zh) * | 2019-12-24 | 2020-06-02 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN115525730A (zh) * | 2022-02-27 | 2022-12-27 | 博才汇(宁波)信息科技有限公司 | 基于页面赋权的网页内容提取方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005062204A1 (en) * | 2003-12-22 | 2005-07-07 | International Business Machines Corporation | Enhancing a search index based on the relevance of results to a user query |
CN101408897A (zh) * | 2008-10-10 | 2009-04-15 | 清华大学 | 一种基于协作过滤的个性化查询扩展方法 |
US20090171907A1 (en) * | 2007-12-26 | 2009-07-02 | Radovanovic Nash R | Method and system for searching text-containing documents |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
-
2010
- 2010-05-11 CN CN201010168867XA patent/CN101807213B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005062204A1 (en) * | 2003-12-22 | 2005-07-07 | International Business Machines Corporation | Enhancing a search index based on the relevance of results to a user query |
US20090171907A1 (en) * | 2007-12-26 | 2009-07-02 | Radovanovic Nash R | Method and system for searching text-containing documents |
CN101408897A (zh) * | 2008-10-10 | 2009-04-15 | 清华大学 | 一种基于协作过滤的个性化查询扩展方法 |
CN101630327A (zh) * | 2009-08-14 | 2010-01-20 | 昆明理工大学 | 一种主题网络爬虫系统的设计方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102456054A (zh) * | 2010-10-28 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 一种搜索方法及系统 |
CN102456054B (zh) * | 2010-10-28 | 2016-05-18 | 深圳市世纪光速信息技术有限公司 | 一种搜索方法及系统 |
CN111223533A (zh) * | 2019-12-24 | 2020-06-02 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN111223533B (zh) * | 2019-12-24 | 2024-02-13 | 深圳市联影医疗数据服务有限公司 | 一种医疗数据检索方法及系统 |
CN115525730A (zh) * | 2022-02-27 | 2022-12-27 | 博才汇(宁波)信息科技有限公司 | 基于页面赋权的网页内容提取方法、装置及电子设备 |
CN115525730B (zh) * | 2022-02-27 | 2024-04-19 | 山东视角数字技术有限公司 | 基于页面赋权的网页内容提取方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101807213B (zh) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1702654B (zh) | 计算显示页面中块的重要度的方法和系统 | |
Maki | Fact and fiction in economics: models, realism and social construction | |
Gorman et al. | Ethical and environmental challenges to engineering | |
CN102456058B (zh) | 类目信息提供方法及装置 | |
Bacevich | The imperial tense: Prospects and problems of American empire | |
CN101390096A (zh) | 使用传播的文档相关性来训练排名功能 | |
CN103186574A (zh) | 一种搜索结果的生成方法和装置 | |
CN103268348A (zh) | 一种用户查询意图识别方法 | |
CN105677857B (zh) | 一种关键词与营销落地页的精准匹配方法和装置 | |
CN103294781A (zh) | 一种用于处理页面数据的方法与设备 | |
CN105243149A (zh) | 一种基于语义的查询推荐方法和系统 | |
Erler | Epicureanism in the Roman Empire | |
CN101807213B (zh) | 一种网页的垂直搜索方法 | |
Dillon | The golden chain: studies in the development of Platonism and Christianity | |
CN103177126B (zh) | 用于搜索引擎的色情用户查询识别方法及设备 | |
GHORBANI et al. | Comparison of Bayesian neural networks and artificial neural network to estimate suspended sediments in the rivers (case study: Simineh rood) | |
CN113010771A (zh) | 搜索引擎中的个性化语义向量模型的训练方法及装置 | |
Ozsoy | Utilizing fasttext for venue recommendation | |
Iliescu | Are imports and remittances cointegrated for the Central and Eastern European countries? | |
Swezey et al. | Intelligent page recommender agents: real-time content delivery for articles and pages related to similar topics | |
Zhang et al. | Using Web clustering for Web communities mining and analysis | |
Fallon | The metaphysics of media: Toward an end of postmodern cynicism and the construction of a virtuous reality | |
CN104750836B (zh) | 基于本体的数字出版物语义标注优化方法 | |
Sethi et al. | An efficient personalized query suggestion technique for providing relevant results | |
Dolati Kordestani et al. | Assessment of some Artificial Intelligence (AI)-based models for groundwater quality prediction (case study: Garoo plain) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110831 Termination date: 20120511 |