CN102521313A - 基于网页质量的静态索引剪枝方法 - Google Patents
基于网页质量的静态索引剪枝方法 Download PDFInfo
- Publication number
- CN102521313A CN102521313A CN2011103939427A CN201110393942A CN102521313A CN 102521313 A CN102521313 A CN 102521313A CN 2011103939427 A CN2011103939427 A CN 2011103939427A CN 201110393942 A CN201110393942 A CN 201110393942A CN 102521313 A CN102521313 A CN 102521313A
- Authority
- CN
- China
- Prior art keywords
- webpage
- beta pruning
- fragment
- web page
- importance degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于网页质量的静态索引剪枝方法,涉及互联网搜索引擎技术领域,包括:S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度;S2:根据所述重要度计算所述待剪枝网页的信息保留比例;S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。本发明大大减少了倒排索引文件的大小,提升了网页检索的速度。
Description
技术领域
本发明涉及互联网搜索引擎技术领域,特别涉及一种基于网页质量的静态索引剪枝方法。
背景技术
索引剪枝,是指合理的从这个倒排索引结构中去掉一些内容(信息),在牺牲较少检索效果的前提下,缩小其存储规模,加快检索速度。现有对网页的剪枝方法主要包括以下两种:
1、基于倒排链的剪枝(Term-centric Pruning,TCP)方法[1]。对于每个索引词对应的倒排链,其首先对每个倒排项P(t),按照某种方法(例如TF×IDF,TF指词项频率Term Frequency,IDF指反转网页频率Inverted Document Frequency,下同)打分,然后按得到的分数对P(t)进行排序,最后保留若干分数较高的倒排项。
2、基于网页的剪枝(Document-centric Pruning,DCP)方法[2]。对于每个网页中的词D(t)按一定的打分方式(例如TF×IDF)打分,然后按分类对D(t)进行排序,最后为每个网页保留一定比例或一定数量的D(t)。
上述的方法都假设索引词之间是独立的,所以其对一些查询(例如:短语查询)不能很好的处理。一种已有的改进方法是利用P(t)计算网页中各个句子的重要度[3],然后按重要度对句子进行排序,最后保留重要度较高的句子。这种方法有一定程度上解决了索引词之间的依赖关系,但其及存在其它两方面的问题。
1、没有考虑网页自身的重要度对保留信息量的影响。上述方法通过是对网页保留固定比例的信息。直观上越重要的网页需要保留越重要的信息,而垃圾网页的内容可以直接从索引中去除。所以保留固定比例的信息这个比例的固定可能对重要的网页偏少,对于垃圾网页则偏多。
2、没有考虑网页结构对剪枝的影响,例如:网页的锚文本,标题和对应的查询日志所包含的信息往往都比较重要。利用网页的结构,可以更加准确地计算中网页中哪些词或片段是重要的,以前的方法只考虑了网页文本之间的相似度。
这两方面问题导致了剪枝完的索引中网页的整体质量差,不利于检索。
背景技术中引用的参考文献如下:
[1]Carmel,D.,Cohen,D.,Fagin,R.,Farchi,E.,Herscovici,M.,Maarek,Y.S.,& Soffer,A.(2001).Static index pruning for informationretrieval systems.Proceedings of the 24th annual international ACMSIGIR conference on Research and development in information retrieval(pp.43-50).New York,NY,USA:ACM.
[2]Büttcher,S.,& Clarke,C.L.A.(2006).A document-centricapproach to static index pruning in text retrieval systems.Proceedings ofthe 15th ACM international conference on Information and knowledgemanagement(pp.182-189).New York,NY,USA:ACM.
[3]de Moura,E.S.,dos Santos,C.F.,Fernandes,D.R.,Silva,A.S.,Calado,P.,& Nascimento,M.A.(2005).Improving Web searchefficiency via a locality based static pruning method.WWW(p.235).New York,New York,USA:ACM Press.
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何提升剪枝完的索引中网页的整体质量以及查询的处理速度。
(二)技术方案
为解决上述技术问题,本发明提供了一种基于网页质量的静态索引剪枝方法,包括以下步骤:
S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度,被越多网页链向的待剪枝网页的权威性越高;网页内容有用性指待剪枝网页的内容与网页集合内容的相似性,相似性越高的待剪枝网页的有用性越高;用户关注度指用户浏览网页或在搜索结果点击网页的次数的多少,浏览次数多或点击率高的待剪枝网页的用户关注度越高;
S2:根据所述重要度计算所述待剪枝网页的信息保留比例;
S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;
S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。
其中,所述网页权威性采用PageRank函数实现,PageRank函数如下:
其中,pi表示第i个待剪枝网页;In(pi)是所有链向待剪枝网页pi的网页的集合;pj是In(pi)中的一篇网页;Out(pj)是网页pj链出网页的集合;C是网页集合中网页的总数;λ是随机游走因子。
其中,所述网页内容有用性采用KL距离函数来实现,KL距离函数如下:
其中:T是整个网页集合中的词集合;P是待剪枝网页d对应的一元语言模型;Q是网页集合D对应的一元语言模型。
其中,所述用户关注度采用以下函数实现:
其中,C0是网页在搜索结果中平均被点击的次数,Cd是待剪枝网页d在搜索结果中被点击的次数,D0是网页在搜索结果中平均被展示的次数,Dd是待剪枝网页d在搜索结果中的展示次数。
其中,步骤S2中计算所述待剪枝网页的信息保留比例采用Sigmoid函数:
其中,v对应待剪枝网页的一个重要度;Z(v)的值为重要度为v的内容的保留比例,m是函数Z(v)中心点相对于原点的水平坐标的偏离值;k用于控制保留最大的比例;s用于控制函数的平滑性,若函数结果大于1,则将其置为1。
其中,所述步骤S2中计算多个不同类型的重要度的保留比例Z(v),并按如下公式计算待剪枝网页的信息保留比例
其中,V是重要度指标的集合,是重要度v对应的权重,其符合如下公式:
其中,所述步骤S3中抽取待剪枝网页中的重要片段,
计算待剪枝网页文本片段的重要度的步骤为:对每篇网页与整个网页集合分别建立一元语言模型P与Q;
利用以下KL距离函数计算网页与网页集合的相似度:
其中,T是整个网页集合中的词集合;P是待剪枝网页d对应的一元语言模型;Q是网页集合D对应的一元语言模型;
计算待剪枝网页中每个词t对KL值的贡献度,公式如下:
式中各符号含义同KL距离函数的计算公式,利用每个词t对KL值的贡献度以及待剪枝网页的结构信息计算出每个片段的重要度,所述结构信息包含以下域:标题、锚文本、查询串、描述域、关键词域及正文,片段重要度的计算公式如下:
其中,p是一个文本片段,是文本片段的域的权重,t是片段中包含的词,|p|是片段p的长度。
(三)有益效果
本发明基于网页质量的静态索引剪枝方法,其利用网页的结构信息,根据网页自身的质量,对每个网页保留不同比例的信息。因而对同等大小的索引文件,本方法可以索引更多的网页,检索到更多高质量的网页。在索引网页数量相同的索引文件中,本方法可以大大提升网页检索的速度。
附图说明
图1是本发明实施例的一种基于网页质量的静态索引剪枝方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明的基于网页质量的静态索引剪枝方法流程包括:
步骤S101,计算待剪枝网页的重要度,对于一个网页的重要度估算,可以从网页之间的链接关系、网页内容以及用户使用网页的方式这三个角度来衡量,可分别称之为网页的权威性、内容的有用性和用户的关注度。
1、用户倾向于相信权威性高的网页包含的信息。网页权威性可以从网络链接结构中计算得到,通常认为一个被较多重要网页链向的网页具有较高权威性,可用PageRank、HITS、SpamRank等算法来计算。本实施例中采用PageRank实现,每一网页(pi)的PageRank(PR)值由式(1)得到:
其中:pi表示第i个待剪枝网页;In(pi)是所有链向页面pi的网页的集合;pj是In(pi)中的一篇网页;Out(pj)是页面pj链出网页的集合;C是网页集合中网页的总数;λ是随机游走因子。然后利用PageRank,即PR(Pi)的大小来衡量网页Pi的重要度。
2、对于网页内容的有用性,可以两方面进行衡量:1)网页自身的组织结构;2)网页内容与整个网页集合的内容的相似度。对于网页自身的结构好坏,可以从视角的角度进行衡量,例如如果网页包含太多的广告,则可认为其对网页的质量是有害的。对于网页与网页集的相似度,一种观点认为一个网页与整个数据集越相似,其就越能代表整个数据集。因此,那些相似度高的网页在数据集中的重要性就较高。鉴于此,认为一篇网页与数据集的相似度是它在整个数据集中重要度的体现(当然也有相反的观点,认为一篇网页越是与集合中其他的不一样,其价值(新颖性)对于集合就越大)。相似度的计算方法有很多,例如TF×IDF、语言模型,最大熵等。本实施例中采用KL距离(Kullback-Leibler divergence)函数来计算。KL距离函数是衡量两个分布之间差异的一个指标,差异越大,其值也越大。为每篇网页和整个网页集合分别建立一元语言模型P和Q,那么网页与网页集合的KL值可以通过式(2)计算:
其中,T是整个网页集合中的词集合;P是待剪枝网页d对应的一元语言模型;Q是网页集合D对应的一元语言模型。
3、使用用户对网页的关注衡量网页重要度。一个网页被越多用户关注,其重要性往往要高于一个几乎无人访问的网页。在计算用户关注度时,可以利用搜索引擎中的查询点击日志,一个被经常点击的网页得到的关注往往比很少被点击的网页要高。另外,还可以从网站自身的访问日志中获取用户访问网页的信息。所以,可以定义用户的点击频率或访问次数为网页被关注的程度。用户关注度可以通过式(3)实现:
其中,C0是网页在搜索结果中平均被点击的次数,Cd是待剪枝网页d在搜索结果中被点击的次数,D0是网页在搜索结果中平均被展示的次数,Dd是待剪枝网页d在搜索结果中的展示次数。
步骤S102,根据所述重要度计算所述待剪枝网页的信息保留比例。一般认为重要的网页需要保留相对完整的信息,对于不重要或者垃圾网页,则可以保留少量的重要信息或直接删除网页。由于网页不同方面(权威性,有用性,关注度等)的重要度值的分布是不一样的,因此,本实施例中使用Sigmoid函数公式来将这些值转换成网页信息的保留比例,Sigmoid函数公式如公式(4):
其中,v对应待剪枝网页的某一方面的重要度(网页权威性、网页内容的有用性或用户关注度);Z(v)的值为重要度为v的内容的保留比例,m是函数Z(v)中心点相对于原点的水平坐标的偏离值;k用于控制保留最大的比例;s用于控制函数的平滑性,为预设参数。若函数结果大于1,则将其置为1。本实施例中可以以单独某个重要度(如:权威性)为标准来计算网页信息的保留比例,也可以综合考虑所有的重要度指标,即按每个重要度对应的保留比例加权计算最终的保留比例公式如下:
由于网页保留比例与网页重要度相关,这样使得重要度高的网页可以保留更加完整的信息,而重要度低的网页(如垃圾网页)其只能保留极小部分有用信息。
步骤S103,抽取所述待剪枝网页中的片段,并按重要度排序得到片段的排序列表。网页中出现的词往往有一定的联系,即其不是相互独立的,这种联系往往只集中在一小段文本片段中。网页文本片段定义可以是多种多样的。一种具体的实现是把网页的信息看作由不同的域组成。这些域包含标题域、锚文本域,查询日志域,网页描述域,关键词域,正文域。在这里,整个标题域、锚文本域中的每个锚文本、查询日志域中的每个查询串、网页描述域中的每个描述、关键词中的每个关键词和正文域中命名实体,短语及剩余的词都是一个独立片段。
对这些文本片段的打分方式有很多,一种具体的实现的步骤为:
1、对每篇网页与整个网页集分别建立一元语言模型P与Q。
2、利用式(2)计算网页与网页集的相似度(KL值)。
3、利用式(5)计算每个词t对KL的贡献度(即对片段进行打分,贡献度作为分数),式中各项所代表的含义与式(2)中的含义相同:
利用每个词对KL值的贡献度以及待剪枝网页的结构信息计算出每个片段的重要度,网页的结构信息包含以下域:标题、锚文本、查询串、描述域、关键词域及正文,片段重要度的计算公式如下:
其中,p是一个文本片段,是文本片段的域的权重,该权重可以实现设定,t是片段中包含的词,|p|是片段p的长度。文本片段一方面在长度上与用户提交查询长度非常匹配,另一方面,它比网页的单个词能更好的表述网页的内容。所以按文本重要度排序使得那些更能代表网页的片段能被优先选中,作为所述剪枝后网页的内容。
步骤S104,按所述排序列表中片段的重要度由高到低将片段放入剪枝完的网页中,直到放入的片段达到上述保留比例。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (7)
1.一种基于网页质量的静态索引剪枝方法,其特征在于,包括以下步骤:
S1:计算待剪枝网页的重要度,所述重要度包括:网页权威性、网页内容的有用性或用户关注度,被越多网页链向的待剪枝网页的权威性越高;网页内容有用性指待剪枝网页的内容与网页集合内容的相似性,相似性越高的待剪枝网页的有用性越高;用户关注度指用户浏览网页或在搜索结果点击网页的次数的多少,浏览次数多或点击率高的待剪枝网页的用户关注度越高;
S2:根据所述重要度计算所述待剪枝网页的信息保留比例;
S3:抽取所述待剪枝网页中的片段,根据文本相似度计算各个片段的重要度指标;
S4:按所述片段的重要度指标由高到低将片段放入剪枝完的网页中,直到放入的片段达到所述保留比例。
2.如权利要求1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述网页权威性采用PageRank函数实现,PageRank函数如下:
其中,pi表示第i个待剪枝网页;In(pi)是所有链向待剪枝网页pi的网页的集合;pj是In(pi)中的一篇网页;Out(pj)是网页pj链出网页的集合;C是网页集合中网页的总数;λ是随机游走因子。
3.如权利要示1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述网页内容有用性采用KL距离函数来实现,KL距离函数如下:
其中:T是整个网页集合中的词集合;P是待剪枝网页d对应的一元语言模型;Q是网页集合D对应的一元语言模型。
4.如权利要示1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述用户关注度采用以下函数实现:
其中,C0是网页在搜索结果中平均被点击的次数,Cd是待剪枝网页d在搜索结果中被点击的次数,D0是网页在搜索结果中平均被展示的次数,Dd是待剪枝网页d在搜索结果中的展示次数。
5.如权利要求1所述的基于网页质量的静态索引剪枝方法,其特征在于,步骤S2中计算所述待剪枝网页的信息保留比例采用Sigmoid函数:
其中,v对应待剪枝网页的一个重要度;Z(v)的值为重要度为v的内容的保留比例,m是函数Z(v)中心点相对于原点的水平坐标的偏离值;k用于控制保留最大的比例;s用于控制函数的平滑性,若函数结果大于1,则将其置为1。
7.如权利要求1所述的基于网页质量的静态索引剪枝方法,其特征在于,所述步骤S3中抽取待剪枝网页中的重要片段,
计算待剪枝网页文本片段的重要度的步骤为:对每篇网页与整个网页集合分别建立一元语言模型P与Q;
利用以下KL距离函数计算网页与网页集合的相似度:
其中,T是整个网页集合中的词集合;P是待剪枝网页d对应的一元语言模型;Q是网页集合D对应的一元语言模型;
计算待剪枝网页中每个词t对KL值的贡献度,公式如下:
式中各符号含义同KL距离函数的计算公式,利用每个词t对KL值的贡献度以及待剪枝网页的结构信息计算出每个片段的重要度,所述结构信息包含以下域:标题、锚文本、查询串、描述域、关键词域及正文,片段重要度的计算公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103939427A CN102521313A (zh) | 2011-12-01 | 2011-12-01 | 基于网页质量的静态索引剪枝方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103939427A CN102521313A (zh) | 2011-12-01 | 2011-12-01 | 基于网页质量的静态索引剪枝方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102521313A true CN102521313A (zh) | 2012-06-27 |
Family
ID=46292232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103939427A Pending CN102521313A (zh) | 2011-12-01 | 2011-12-01 | 基于网页质量的静态索引剪枝方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102521313A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069076A (zh) * | 2015-07-31 | 2015-11-18 | 北京奇虎科技有限公司 | 确定官网首页中的地址信息的方法及装置 |
CN109086361A (zh) * | 2018-07-20 | 2018-12-25 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN114154589A (zh) * | 2021-12-13 | 2022-03-08 | 成都索贝数码科技股份有限公司 | 一种基于相似性的模块减枝方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
-
2011
- 2011-12-01 CN CN2011103939427A patent/CN102521313A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536483A (zh) * | 2003-04-04 | 2004-10-13 | 陈文中 | 网络信息抽取及处理的方法及系统 |
Non-Patent Citations (2)
Title |
---|
DE MOURA E S,DOS SANTOS C F,FERNANDES D R,ET AL: "Improvingweb search efficiency via a locality based static", 《PROCEEDINGS OF THE 14TH INTERNATIONAL》 * |
李晓明等: "基于文档重要度的静态索引剪枝方法", 《华南理工大学学报(自然科学版)》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069076A (zh) * | 2015-07-31 | 2015-11-18 | 北京奇虎科技有限公司 | 确定官网首页中的地址信息的方法及装置 |
CN109086361A (zh) * | 2018-07-20 | 2018-12-25 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN109086361B (zh) * | 2018-07-20 | 2019-06-21 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN114154589A (zh) * | 2021-12-13 | 2022-03-08 | 成都索贝数码科技股份有限公司 | 一种基于相似性的模块减枝方法 |
CN114154589B (zh) * | 2021-12-13 | 2023-09-29 | 成都索贝数码科技股份有限公司 | 一种基于相似性的模块减枝方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Anagnostopoulos et al. | Just-in-time contextual advertising | |
US20140280234A1 (en) | Ranking of native application content | |
CN102509233A (zh) | 一种基于用户网上动作信息的推荐方法 | |
CN103294681A (zh) | 一种搜索结果的生成方法和装置 | |
CN102693304A (zh) | 一种搜索引擎的反馈信息处理方法及搜索引擎 | |
CN105260899A (zh) | 一种电商主体可信度评价方法及系统 | |
Jin et al. | CT-Rank: A Time-aware Ranking Algorithm for Web Search. | |
US8949254B1 (en) | Enhancing the content and structure of a corpus of content | |
CN102063474A (zh) | 基于语义相关的XML关键字top-k查询方法 | |
Xu et al. | HLTCOE at TREC 2014: Microblog and Clinical Decision Support. | |
CN102521313A (zh) | 基于网页质量的静态索引剪枝方法 | |
Anagnostopoulos et al. | Web page summarization for just-in-time contextual advertising | |
Wu et al. | Using anchor text for homepage and topic distillation search tasks | |
Berendsen et al. | The University of Amsterdam at TREC 2012. | |
CN102289502A (zh) | 一种基于高频字图模型的Deep Web数据爬取方法 | |
Zhao et al. | A search result ranking algorithm based on web pages and tags clustering | |
Batra et al. | Content based hidden web ranking algorithm (CHWRA) | |
Blanco et al. | Supporting the automatic construction of entity aware search engines | |
Chang et al. | Learning-based time-sensitive re-ranking for web search | |
Lee et al. | Incorporating social anchors for ad hoc retrieval | |
Eto | Document retrieval method using random walk with restart on weighted co‐citation network | |
Veningston et al. | Semantic association ranking schemes for information retrieval applications using term association graph representation | |
Zubi | Ranking webpages using web structure mining concepts | |
Kaptein et al. | Linking wikipedia to the web | |
Uemura et al. | An effectively focused crawling system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120627 |