CN108460158A - 基于PageRank的差异化网页排序方法 - Google Patents

基于PageRank的差异化网页排序方法 Download PDF

Info

Publication number
CN108460158A
CN108460158A CN201810267122.5A CN201810267122A CN108460158A CN 108460158 A CN108460158 A CN 108460158A CN 201810267122 A CN201810267122 A CN 201810267122A CN 108460158 A CN108460158 A CN 108460158A
Authority
CN
China
Prior art keywords
webpage
page
pagerank
links
calculation formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810267122.5A
Other languages
English (en)
Inventor
刘春凤
刘莹
王建荣
喻梅
应翔
滕玉宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201810267122.5A priority Critical patent/CN108460158A/zh
Publication of CN108460158A publication Critical patent/CN108460158A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于PageRank的差异化网页排序方法,包括以下步骤:利用PageRank算法计算每个网页的初始网页排名值;根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式;根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式;通过上述排序值计算公式对每个网页的网页排名值进行迭代计算,直至每个页面的网页排名值趋于稳定;利用所检测到的垃圾网页数目、召回率、精确度和F‑Measure值进行实验对比分析,衡量差异化网页排序方法解决PageRank排序问题的有效性。本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题。

Description

基于PageRank的差异化网页排序方法
技术领域
本发明涉及数据挖掘和互联网中搜索引擎领域,涉及搜索引擎优化技术,尤其是一种对PageRank平均分配链接权重所存在弊端进行改进的网页排序方法。
背景技术
目前在搜索引擎网页排序算法的相关技术中,搜索引擎技术的相关算法主要有:一种是超文本诱导的主题搜索算法(Hypertext Induced Topic Selection,HITS)。HITS算法针对搜索关键词对返回的匹配页面计算枢纽值和权威值。枢纽值指页面上所有出链的权威值之和,权威值指所有入链的枢纽值之和。相应的网页将会被划分为枢纽网页和权威网页。HITS算法的基本思想为:好的枢纽页指向好的权威页,好的权威页被较多好的枢纽页所指向,考虑了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性。
HITS算法的缺陷在于:首先,由于页面通常兼具枢纽页和权威页两者性能,故对其严格无误地划分存在困难;其次,主题漂移现象的存在,即查询出的网页与用户输入的主题无关,导致HITS算法对大多数与用户查询相关的文献在同等权重的情况下无法查询;且HITS是查询独立的算法。
另一种是网页排名算法(PageRank)。PageRank算法利用网络结构中的反向链接信息为网页赋予PR值,并按照PR值高低顺序为网页排序。PageRank算法基于“从许多优质网页链接过来的网页,必定还是优质网页”的思想来判定所有网页的重要性,且平均分配链接权重,即假设网页T所指向的页面内有n个,则每一个被指向的网页所获得的权重均为1/n。
PageRank算法的缺陷在于:首先,偏重旧网页。旧网页往往具有更多PR值。而很多包含更有热度更加及时性信息的新网页由于存在时间尚短,被引用量较低,故往往具有较低PR值,排序结果可能恰好与用户的需求相反;其次,PageRank算法无法区分网页中的链接和用户查询的主题是否相关,这样就容易出现用户搜索到的不是其想要浏览的网页内容;再者,PageRank算法根据网页之间的链接关系对PR值进行平均分配,降低了高质量网页的相对得分,提高了垃圾网页的得分,使排序结果不可靠;且PageRank算法没有充分考虑用户的浏览兴趣。
发明内容
本发明提供了一种基于PageRank的差异化网页排序方法,本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题,详见下文描述:
一种基于PageRank的差异化网页排序方法,所述方法包括以下步骤:
利用PageRank算法计算每个网页的初始网页排名值;
根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式;
根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式;
通过上述排序值计算公式对每个网页的网页排名值进行迭代计算,直至每个页面的网页排名值趋于稳定;
利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析,衡量差异化网页排序方法解决PageRank排序问题的有效性。
其中,所述根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式具体为:
其中,d为阻尼系数,取值范围为(0,1],表示任意时刻用户到达p页面后并能够继续向后浏览的概率,Inlinks(p)表示网页p被指向的次数,首先∑x∈A(q)Inlinks(x)统计网页q向外链接多少个页面,再将每个页面的所有链入页面相加,Inlinks(p)/∑x∈A(q)Inlinks(x)表示节点p的链入数在所有q指向节点的链入数所占的比重,网页p根据这个比重分得网页q的PR值。
进一步地,所述根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式具体为:
其中,B(p)表示网页p的入链集合,Links(p)表示网页p的链接数量,A(q)表示网页q的出链集合,∑x∈A(q)Links(x)首先统计网页q所链出的所有页面,然后再将每个页面的链接数量加起来,Links(p)/∑x∈A(q)Links(x)表示网页p的链接数量在所有网页q,所指向的网页的链接数量总和中所占的比重,根据这个比重,网页p分得网页q的PR值。
本发明提供的技术方案的有益效果是:
1、本发明将网页的权威性差别考虑在内,以入链数量评估网页权威性的算法DPR-A和以链接数量评估网页权威性的算法DPR-B,进而改进在垃圾网页检测方面的性能;
2、本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题;
3、在图3中,取定5个不同的垃圾网页PR阈值,利用PageRank、DPR-A和DPR-B算法对垃圾网页进行检测,统计检测到的垃圾网页数量,从实验结果可以看出,DPR-A能够检测到的垃圾网页数量最多,其次为DPR-B算法,最后为PageRank算法。
4、在图4中,取定5个不同的垃圾网页PR阈值,利用PageRank、DPR-A和DPR-B算法计算垃圾网页F-Measure值,从实验结果可以看出,DPR-B算法具有较高F-Measure值,其次为PageRank算法,最后为DPR-A算法。
附图说明
图1为一种基于PageRank的差异化网页排序方法的流程图;
图2为DRP算法基本思想的示意图;
图3为垃圾网页的检测数量图;
图4为垃圾网页的F-Measure值图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
为了实现上述目的,本发明实施例提出了一种基于PageRank的差异化网页排序算法(The Improved PageRank Algorithm Based on Web Page Differentiation,DPR)。根据评估网页权威性标准的不同,又可分为两类:以入链数量评估网页权威性的算法DPR-A和以链接总数量评估网页权威性的算法DPR-B,参见图1,该DPR方法包含以下步骤:
101:利用PageRank算法计算每个节点的初始PR值;
其中,本发明实施例将每个网页看作是网络中的一个节点。
102:基于网页的权威性差别,为其分配相应权重,计算得到新的排序值计算公式;
103:依据新的排序值计算公式计算网页排序值;
104:利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析,衡量本发明提出的网页排序算法解决PageRank排序算法的技术性问题的有效性。
在一个实施例中,步骤101中的利用PageRank算法计算每个节点的初始PR值的具体步骤如下:
首先给每个网页初始化一个相同的PR值,之后进行迭代运算,直至每个网页的PR值稳定(即稳定在某一阈值范围内即可,该阈值范围以及迭代的次数,根据实际应用中的需要进行设定,本发明实施例对此不做限制),由此得到每个节点的初始PR值。
在每一轮迭代过程中,网页q的PR值被平均的传递给q引用的页面。
在一个实施例中,步骤102在步骤101的基础上进行新的排序值计算公式的计算,具体步骤如下:
由于PageRank采用平均分配链接权重的方式传递PR值,没有将网页的权威性差别考虑入PR值的计算过程中,导致排序结果不可靠,所以本发明实施例使用基于网页权威性差别的排序算法,将网页质量对PR值的不同影响程度考虑在内,得到新的排序值计算公式。其中DPR-A和DPR-B基于不同的网页权威性标准得出不同的排序值计算公式。
综上所述,本发明实施例通过上述步骤101-步骤104有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题,满足了实际应用中的多种需要。
实施例2
下面结合图1、图2、以及具体的计算公式,对实施例1中的方案进行可行性验证,详见下文描述:
201:为每个节点计算初始PR值的过程中,首先为每个网页初始化一个相同的PR值,之后进行迭代运算,直至每个网页的PR值稳定,在每一轮迭代过程中,网页q的PR值被平均的传递给网页q引用的页面,如公式(1)所示:
其中,PR(p)表示网页p的PR值,OutDeg(q)表示网页q的出度,PR(q)表示网页q的PR值,N为网页总数,α为阻尼因子,通常设为0.85,为解决网页集合存在链接环(即网络链接中存在重复网页节点的现象,为本领域技术人员所公知的技术术语,本发明实施例对此不做赘述)的现象而设置,B(p)表示引用p的网页集合,如公式(2)所示:
B(p)={q|(q,p)∈E} (2)
其中,E为图2中边的集合。
与公式(1)等价的矩阵公式(3)如下所示:
其中,PR是一个矩阵,矩阵元素为PR值,T表示转移矩阵,α表示阻尼因子,IN表示矩阵,此矩阵只有单元列向量。
具体实现时,转移矩阵T中记录了每次迭代过程中,各网页(即节点)的出度变化情况,以便在接下来的迭代中使用这些值计算新的PR值。
202:DPR-A依据节点入链数量分配权重;
例如,对于图2所示结构,网页A的入链数量为2,网页D的入链数量为1,则网页A得到网页B的2/(1+2)权威值,网页D得到网页B的1/(1+2)权威值。DPR-A的计算公式如公式(4)所示。
其中,d为阻尼系数,取值范围为(0,1],表示任意时刻用户到达p页面后并能够继续向后浏览的概率,Inlinks(p)表示p被指向的次数,首先∑x∈A(q)Inlinks(x)统计网页q向外链接多少个页面,再将每个页面的所有链入页面相加,Inlinks(p)/∑x∈A(q)Inlinks(x),表示节点p的链入数在所有q指向节点的链入数所占的比重,节点p根据这个比重分得网页q的PR值。
其中,上述网页A-D,也为节点A-D。
203:DPR-B在步骤202改进的基础上,将网页的出链数量也考虑到评价网页权威性的标准中,即以网页的总链接数量来评价网页的权威性;
例如,对于图2所示结构,对于网页A和网页D,网页A的链接总数为4,其中包括2个入链和2个出链。D的链接数为3,其中包括1个入链和2个出链。
根据DPR-B的算法思想,网页获得权威值的大小由其链接数量的多少表示,网页A获得网页B的4/(4+3)权威值,网页D获得网页B的3/(4+3)权威值。DPR-B的计算公式如公式(5)所示。
其中,B(p)表示网页p的入链集合,Links(p)表示网页p的链接数量,A(q)表示网页q的出链集合。∑x∈A(q)Links(x)首先统计网页q所链出的所有页面,然后再将每个页面的链接数量加起来。Links(p)/∑x∈A(q)Links(x)表示网页p的链接数量在所有网页q所指向的网页的链接数量总和中所占的比重,根据这个比重,网页p分得网页q的PR值。
204:利用公式(4)和公式(5)对每个节点的PR值进行迭代计算,直至每个页面的DPR值趋于稳定;
205:通过与PageRank的实验对比分析,利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值作为评估标准,衡量本发明实施例提出的排序方法的有效性。
综上所述,本发明实施例通过上述步骤201-步骤204为搜索引擎的技术改进提供了一种新思路,提出并定义一种基于PageRank的差异化网页排序的计算方式,将网页的权威性差别考虑在内,进一步分化出两种算法:以入链数量评估网页权威性的算法DPR-A和以链接数量评估网页权威性的算法DPR-B,进而改进在垃圾网页检测方面的性能。
实施例3
下面结合图3、图4对实施例1和2中的方案进行试验对比分析,衡量本方法的有效性,具体步骤如下:
通过互联网中搜索引擎等经常涉及的概念和指标,对本发明的改进程度进行试验对比分析。
实验使用WEBSPAM-UK2007数据集。该数据集由三部分组成:垃圾/非垃圾网页标签(训练集,测试集);网址和超链接;HTML页面内容。对主机采用PageRank算法,DPR算法进行排序,将检测到的垃圾网页与人工标记网页进行对比统计。之后使用所检测到的垃圾网页数目、召回率、精确度和F-Measure值作为评估标准,与PageRank算法进行实验对比分析。
实验结果表明,在垃圾网页检测方面,DPR-A所检测到的垃圾网页数目远高于PageRank算法所检测到的垃圾网页数目,如图3所示。但同时可观察到DPR-A精确率较低,综合所得DPR-A的F-Measure值较PageRank算法低,如图4所示。
由此,在DPR-A的基础上,进行了第二步改进,将网页的出链数也统计在内,将网页的总链接数作为评价网页权威性的标准,得出DPR-B算法。
经实验验证,DPR-B算法所检测到的垃圾网页数量较高,如图3所示,召回率较高。DPR-B算法的精确率比PageRank算法稍低,但在两者的调和平均数F-Measure值方面,DPR-B比PageRank算法高,如图4所示。
这说明,经两步改进后所得到DPR-B算法在垃圾网页检测方面的综合性能比PageRank算法好。
综上所述,当追求垃圾网页的检测数目,想尽可能多的检测到所有垃圾网页时,可以使用第一步改进后所得到的DPR-A算法;当希望在召回率、精确率及F-Measure值等多方面综合考虑取得较好表现时,应使用经过两步改进后所得到的DPR-B算法。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于PageRank的差异化网页排序方法,其特征在于,所述方法包括以下步骤:
利用PageRank算法计算每个网页的初始网页排名值;
根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式;
根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式;
通过上述排序值计算公式对每个网页的网页排名值进行迭代计算,直至每个页面的网页排名值趋于稳定;
利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析,衡量差异化网页排序方法解决PageRank排序问题的有效性。
2.根据权利要求1所述的一种基于PageRank的差异化网页排序方法,其特征在于,所述根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式具体为:
其中,d为阻尼系数,取值范围为(0,1],表示任意时刻用户到达p页面后并能够继续向后浏览的概率,Inlinks(p)表示网页p被指向的次数,首先∑x∈A(q)Inlinks(x)统计网页q向外链接多少个页面,再将每个页面的所有链入页面相加,Inlinks(p)/∑x∈A(q)Inlinks(x)表示节点p的链入数在所有q指向节点的链入数所占的比重,网页p根据这个比重分得网页q的PR值。
3.根据权利要求1所述的一种基于PageRank的差异化网页排序方法,其特征在于,所述根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式具体为:
其中,B(p)表示网页p的入链集合,Links(p)表示网页p的链接数量,A(q)表示网页q的出链集合,∑x∈A(q)Links(x)首先统计网页q所链出的所有页面,然后再将每个页面的链接数量加起来,Links(p)/∑x∈A(q)Links(x)表示网页p的链接数量,在所有网页q所指向的网页的链接数量总和中所占的比重,根据这个比重,网页p分得网页q的PR值。
CN201810267122.5A 2018-03-28 2018-03-28 基于PageRank的差异化网页排序方法 Pending CN108460158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810267122.5A CN108460158A (zh) 2018-03-28 2018-03-28 基于PageRank的差异化网页排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810267122.5A CN108460158A (zh) 2018-03-28 2018-03-28 基于PageRank的差异化网页排序方法

Publications (1)

Publication Number Publication Date
CN108460158A true CN108460158A (zh) 2018-08-28

Family

ID=63237792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810267122.5A Pending CN108460158A (zh) 2018-03-28 2018-03-28 基于PageRank的差异化网页排序方法

Country Status (1)

Country Link
CN (1) CN108460158A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902236A (zh) * 2019-03-07 2019-06-18 成都数之联科技有限公司 一种基于非概率模型的垃圾网页降级方法
CN110990509A (zh) * 2019-11-28 2020-04-10 航天精一(广东)信息科技有限公司 基于PageRank算法的嫌疑人追逃分析方法
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质
CN111984832A (zh) * 2020-08-21 2020-11-24 中国人民大学 一种基于个性化佩奇排名的好友推荐方法
CN112118138A (zh) * 2020-09-18 2020-12-22 上海计算机软件技术开发中心 区块链共识机制实现系统和方法
CN112116473A (zh) * 2020-09-18 2020-12-22 上海计算机软件技术开发中心 跨链公证人机制评价系统和平台
CN113810338A (zh) * 2020-06-12 2021-12-17 中国电信股份有限公司 异常服务地址检测方法和装置、计算机可读存储介质
CN115525731A (zh) * 2022-02-27 2022-12-27 博才汇(宁波)信息科技有限公司 基于改进pagerank算法的网页权重计算方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN105930365A (zh) * 2016-04-11 2016-09-07 天津大学 基于内容的网络链接拓扑重构方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN105930365A (zh) * 2016-04-11 2016-09-07 天津大学 基于内容的网络链接拓扑重构方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MEI YU等: ""A WEB SPAM DETECTION ALGORITHM BASED ON PAGERANK"", 《ICIC EXPRESS LETTERS》 *
NEELAM TYAGI等: ""Weighted Page Rank Algorithm Based on Number of Visits of Links of Web Page"", 《INTERNATIONAL JOURNAL OF SOFT COMPUTING AND ENGINEERING》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902236B (zh) * 2019-03-07 2021-06-11 成都数之联科技有限公司 一种基于非概率模型的垃圾网页降级方法
CN109902236A (zh) * 2019-03-07 2019-06-18 成都数之联科技有限公司 一种基于非概率模型的垃圾网页降级方法
CN110990509B (zh) * 2019-11-28 2023-02-28 航天精一(广东)信息科技有限公司 基于PageRank算法的嫌疑人追逃分析方法
CN110990509A (zh) * 2019-11-28 2020-04-10 航天精一(广东)信息科技有限公司 基于PageRank算法的嫌疑人追逃分析方法
CN113810338A (zh) * 2020-06-12 2021-12-17 中国电信股份有限公司 异常服务地址检测方法和装置、计算机可读存储介质
CN113810338B (zh) * 2020-06-12 2023-11-03 中国电信股份有限公司 异常服务地址检测方法和装置、计算机可读存储介质
CN111984832A (zh) * 2020-08-21 2020-11-24 中国人民大学 一种基于个性化佩奇排名的好友推荐方法
CN111984832B (zh) * 2020-08-21 2023-07-07 中国人民大学 一种基于个性化佩奇排名的好友推荐方法
CN111966946A (zh) * 2020-09-10 2020-11-20 北京百度网讯科技有限公司 一种页面权威值的识别方法、装置、设备和存储介质
CN112118138A (zh) * 2020-09-18 2020-12-22 上海计算机软件技术开发中心 区块链共识机制实现系统和方法
CN112116473A (zh) * 2020-09-18 2020-12-22 上海计算机软件技术开发中心 跨链公证人机制评价系统和平台
CN112118138B (zh) * 2020-09-18 2023-06-23 上海计算机软件技术开发中心 区块链共识机制实现系统和方法
CN115525731A (zh) * 2022-02-27 2022-12-27 博才汇(宁波)信息科技有限公司 基于改进pagerank算法的网页权重计算方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN108460158A (zh) 基于PageRank的差异化网页排序方法
Dhyani et al. A survey of web metrics
US7206780B2 (en) Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values
US9020936B2 (en) Using categorical metadata to rank search results
CN1716259B (zh) 基于内部-类型关联和交互-类型关联来排列对象的方法和系统
US7668812B1 (en) Filtering search results using annotations
Zhou et al. Userrec: A user recommendation framework in social tagging systems
CN102122295B (zh) 用于执行文档搜索的方法、服务器设备和系统
US7716216B1 (en) Document ranking based on semantic distance between terms in a document
TWI437452B (zh) 使用查詢相關性資料的垃圾網頁分類
US20080313137A1 (en) Behavioral WEB Graph
CN104050197A (zh) 一种信息检索系统评测方法和装置
CN106203165B (zh) 基于可信云计算的信息大数据分析支撑方法
CN108073667A (zh) 产生用户浏览属性的方法、以及非暂存计算机可读介质
US7689536B1 (en) Methods and systems for detecting and extracting information
CN104615723A (zh) 查询词权重值的确定方法和装置
CN102541946B (zh) 基于超链接的推荐属性确定超链推荐度的方法与设备
CN103544257A (zh) 网页质量检测方法和装置
Shaffi et al. Weighted PageRank algorithm search engine ranking model for web pages
CN101639856B (zh) 检测互联网信息传播的网页关联评价装置
CN108153857A (zh) 一种用于对网络访问数据进行关联处理的方法和系统
Nettleton et al. Analysis of web search engine query session and clicked documents
CN103607322B (zh) 网站流量数据分析方法及装置
JP5890413B2 (ja) 多数のデータレコードをサーチする方法及びサーチエンジン
Siciliano et al. Analysis of web visit histories, part I: Distance-based visualization of sequence rules

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828