CN108460158A - 基于PageRank的差异化网页排序方法 - Google Patents
基于PageRank的差异化网页排序方法 Download PDFInfo
- Publication number
- CN108460158A CN108460158A CN201810267122.5A CN201810267122A CN108460158A CN 108460158 A CN108460158 A CN 108460158A CN 201810267122 A CN201810267122 A CN 201810267122A CN 108460158 A CN108460158 A CN 108460158A
- Authority
- CN
- China
- Prior art keywords
- webpage
- page
- pagerank
- links
- calculation formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种基于PageRank的差异化网页排序方法,包括以下步骤:利用PageRank算法计算每个网页的初始网页排名值;根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式;根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式;通过上述排序值计算公式对每个网页的网页排名值进行迭代计算,直至每个页面的网页排名值趋于稳定;利用所检测到的垃圾网页数目、召回率、精确度和F‑Measure值进行实验对比分析,衡量差异化网页排序方法解决PageRank排序问题的有效性。本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题。
Description
技术领域
本发明涉及数据挖掘和互联网中搜索引擎领域,涉及搜索引擎优化技术,尤其是一种对PageRank平均分配链接权重所存在弊端进行改进的网页排序方法。
背景技术
目前在搜索引擎网页排序算法的相关技术中,搜索引擎技术的相关算法主要有:一种是超文本诱导的主题搜索算法(Hypertext Induced Topic Selection,HITS)。HITS算法针对搜索关键词对返回的匹配页面计算枢纽值和权威值。枢纽值指页面上所有出链的权威值之和,权威值指所有入链的枢纽值之和。相应的网页将会被划分为枢纽网页和权威网页。HITS算法的基本思想为:好的枢纽页指向好的权威页,好的权威页被较多好的枢纽页所指向,考虑了绝大多数用户访问时带有目的性,即网页和链接与查询主题的相关性。
HITS算法的缺陷在于:首先,由于页面通常兼具枢纽页和权威页两者性能,故对其严格无误地划分存在困难;其次,主题漂移现象的存在,即查询出的网页与用户输入的主题无关,导致HITS算法对大多数与用户查询相关的文献在同等权重的情况下无法查询;且HITS是查询独立的算法。
另一种是网页排名算法(PageRank)。PageRank算法利用网络结构中的反向链接信息为网页赋予PR值,并按照PR值高低顺序为网页排序。PageRank算法基于“从许多优质网页链接过来的网页,必定还是优质网页”的思想来判定所有网页的重要性,且平均分配链接权重,即假设网页T所指向的页面内有n个,则每一个被指向的网页所获得的权重均为1/n。
PageRank算法的缺陷在于:首先,偏重旧网页。旧网页往往具有更多PR值。而很多包含更有热度更加及时性信息的新网页由于存在时间尚短,被引用量较低,故往往具有较低PR值,排序结果可能恰好与用户的需求相反;其次,PageRank算法无法区分网页中的链接和用户查询的主题是否相关,这样就容易出现用户搜索到的不是其想要浏览的网页内容;再者,PageRank算法根据网页之间的链接关系对PR值进行平均分配,降低了高质量网页的相对得分,提高了垃圾网页的得分,使排序结果不可靠;且PageRank算法没有充分考虑用户的浏览兴趣。
发明内容
本发明提供了一种基于PageRank的差异化网页排序方法,本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题,详见下文描述:
一种基于PageRank的差异化网页排序方法,所述方法包括以下步骤:
利用PageRank算法计算每个网页的初始网页排名值;
根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式;
根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式;
通过上述排序值计算公式对每个网页的网页排名值进行迭代计算,直至每个页面的网页排名值趋于稳定;
利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析,衡量差异化网页排序方法解决PageRank排序问题的有效性。
其中,所述根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式具体为:
其中,d为阻尼系数,取值范围为(0,1],表示任意时刻用户到达p页面后并能够继续向后浏览的概率,Inlinks(p)表示网页p被指向的次数,首先∑x∈A(q)Inlinks(x)统计网页q向外链接多少个页面,再将每个页面的所有链入页面相加,Inlinks(p)/∑x∈A(q)Inlinks(x)表示节点p的链入数在所有q指向节点的链入数所占的比重,网页p根据这个比重分得网页q的PR值。
进一步地,所述根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式具体为:
其中,B(p)表示网页p的入链集合,Links(p)表示网页p的链接数量,A(q)表示网页q的出链集合,∑x∈A(q)Links(x)首先统计网页q所链出的所有页面,然后再将每个页面的链接数量加起来,Links(p)/∑x∈A(q)Links(x)表示网页p的链接数量在所有网页q,所指向的网页的链接数量总和中所占的比重,根据这个比重,网页p分得网页q的PR值。
本发明提供的技术方案的有益效果是:
1、本发明将网页的权威性差别考虑在内,以入链数量评估网页权威性的算法DPR-A和以链接数量评估网页权威性的算法DPR-B,进而改进在垃圾网页检测方面的性能;
2、本发明有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题;
3、在图3中,取定5个不同的垃圾网页PR阈值,利用PageRank、DPR-A和DPR-B算法对垃圾网页进行检测,统计检测到的垃圾网页数量,从实验结果可以看出,DPR-A能够检测到的垃圾网页数量最多,其次为DPR-B算法,最后为PageRank算法。
4、在图4中,取定5个不同的垃圾网页PR阈值,利用PageRank、DPR-A和DPR-B算法计算垃圾网页F-Measure值,从实验结果可以看出,DPR-B算法具有较高F-Measure值,其次为PageRank算法,最后为DPR-A算法。
附图说明
图1为一种基于PageRank的差异化网页排序方法的流程图;
图2为DRP算法基本思想的示意图;
图3为垃圾网页的检测数量图;
图4为垃圾网页的F-Measure值图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
为了实现上述目的,本发明实施例提出了一种基于PageRank的差异化网页排序算法(The Improved PageRank Algorithm Based on Web Page Differentiation,DPR)。根据评估网页权威性标准的不同,又可分为两类:以入链数量评估网页权威性的算法DPR-A和以链接总数量评估网页权威性的算法DPR-B,参见图1,该DPR方法包含以下步骤:
101:利用PageRank算法计算每个节点的初始PR值;
其中,本发明实施例将每个网页看作是网络中的一个节点。
102:基于网页的权威性差别,为其分配相应权重,计算得到新的排序值计算公式;
103:依据新的排序值计算公式计算网页排序值;
104:利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析,衡量本发明提出的网页排序算法解决PageRank排序算法的技术性问题的有效性。
在一个实施例中,步骤101中的利用PageRank算法计算每个节点的初始PR值的具体步骤如下:
首先给每个网页初始化一个相同的PR值,之后进行迭代运算,直至每个网页的PR值稳定(即稳定在某一阈值范围内即可,该阈值范围以及迭代的次数,根据实际应用中的需要进行设定,本发明实施例对此不做限制),由此得到每个节点的初始PR值。
在每一轮迭代过程中,网页q的PR值被平均的传递给q引用的页面。
在一个实施例中,步骤102在步骤101的基础上进行新的排序值计算公式的计算,具体步骤如下:
由于PageRank采用平均分配链接权重的方式传递PR值,没有将网页的权威性差别考虑入PR值的计算过程中,导致排序结果不可靠,所以本发明实施例使用基于网页权威性差别的排序算法,将网页质量对PR值的不同影响程度考虑在内,得到新的排序值计算公式。其中DPR-A和DPR-B基于不同的网页权威性标准得出不同的排序值计算公式。
综上所述,本发明实施例通过上述步骤101-步骤104有效解决了PageRank算法由于平均分配链接权重所导致的排序结果不可靠的问题,满足了实际应用中的多种需要。
实施例2
下面结合图1、图2、以及具体的计算公式,对实施例1中的方案进行可行性验证,详见下文描述:
201:为每个节点计算初始PR值的过程中,首先为每个网页初始化一个相同的PR值,之后进行迭代运算,直至每个网页的PR值稳定,在每一轮迭代过程中,网页q的PR值被平均的传递给网页q引用的页面,如公式(1)所示:
其中,PR(p)表示网页p的PR值,OutDeg(q)表示网页q的出度,PR(q)表示网页q的PR值,N为网页总数,α为阻尼因子,通常设为0.85,为解决网页集合存在链接环(即网络链接中存在重复网页节点的现象,为本领域技术人员所公知的技术术语,本发明实施例对此不做赘述)的现象而设置,B(p)表示引用p的网页集合,如公式(2)所示:
B(p)={q|(q,p)∈E} (2)
其中,E为图2中边的集合。
与公式(1)等价的矩阵公式(3)如下所示:
其中,PR是一个矩阵,矩阵元素为PR值,T表示转移矩阵,α表示阻尼因子,IN表示矩阵,此矩阵只有单元列向量。
具体实现时,转移矩阵T中记录了每次迭代过程中,各网页(即节点)的出度变化情况,以便在接下来的迭代中使用这些值计算新的PR值。
202:DPR-A依据节点入链数量分配权重;
例如,对于图2所示结构,网页A的入链数量为2,网页D的入链数量为1,则网页A得到网页B的2/(1+2)权威值,网页D得到网页B的1/(1+2)权威值。DPR-A的计算公式如公式(4)所示。
其中,d为阻尼系数,取值范围为(0,1],表示任意时刻用户到达p页面后并能够继续向后浏览的概率,Inlinks(p)表示p被指向的次数,首先∑x∈A(q)Inlinks(x)统计网页q向外链接多少个页面,再将每个页面的所有链入页面相加,Inlinks(p)/∑x∈A(q)Inlinks(x),表示节点p的链入数在所有q指向节点的链入数所占的比重,节点p根据这个比重分得网页q的PR值。
其中,上述网页A-D,也为节点A-D。
203:DPR-B在步骤202改进的基础上,将网页的出链数量也考虑到评价网页权威性的标准中,即以网页的总链接数量来评价网页的权威性;
例如,对于图2所示结构,对于网页A和网页D,网页A的链接总数为4,其中包括2个入链和2个出链。D的链接数为3,其中包括1个入链和2个出链。
根据DPR-B的算法思想,网页获得权威值的大小由其链接数量的多少表示,网页A获得网页B的4/(4+3)权威值,网页D获得网页B的3/(4+3)权威值。DPR-B的计算公式如公式(5)所示。
其中,B(p)表示网页p的入链集合,Links(p)表示网页p的链接数量,A(q)表示网页q的出链集合。∑x∈A(q)Links(x)首先统计网页q所链出的所有页面,然后再将每个页面的链接数量加起来。Links(p)/∑x∈A(q)Links(x)表示网页p的链接数量在所有网页q所指向的网页的链接数量总和中所占的比重,根据这个比重,网页p分得网页q的PR值。
204:利用公式(4)和公式(5)对每个节点的PR值进行迭代计算,直至每个页面的DPR值趋于稳定;
205:通过与PageRank的实验对比分析,利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值作为评估标准,衡量本发明实施例提出的排序方法的有效性。
综上所述,本发明实施例通过上述步骤201-步骤204为搜索引擎的技术改进提供了一种新思路,提出并定义一种基于PageRank的差异化网页排序的计算方式,将网页的权威性差别考虑在内,进一步分化出两种算法:以入链数量评估网页权威性的算法DPR-A和以链接数量评估网页权威性的算法DPR-B,进而改进在垃圾网页检测方面的性能。
实施例3
下面结合图3、图4对实施例1和2中的方案进行试验对比分析,衡量本方法的有效性,具体步骤如下:
通过互联网中搜索引擎等经常涉及的概念和指标,对本发明的改进程度进行试验对比分析。
实验使用WEBSPAM-UK2007数据集。该数据集由三部分组成:垃圾/非垃圾网页标签(训练集,测试集);网址和超链接;HTML页面内容。对主机采用PageRank算法,DPR算法进行排序,将检测到的垃圾网页与人工标记网页进行对比统计。之后使用所检测到的垃圾网页数目、召回率、精确度和F-Measure值作为评估标准,与PageRank算法进行实验对比分析。
实验结果表明,在垃圾网页检测方面,DPR-A所检测到的垃圾网页数目远高于PageRank算法所检测到的垃圾网页数目,如图3所示。但同时可观察到DPR-A精确率较低,综合所得DPR-A的F-Measure值较PageRank算法低,如图4所示。
由此,在DPR-A的基础上,进行了第二步改进,将网页的出链数也统计在内,将网页的总链接数作为评价网页权威性的标准,得出DPR-B算法。
经实验验证,DPR-B算法所检测到的垃圾网页数量较高,如图3所示,召回率较高。DPR-B算法的精确率比PageRank算法稍低,但在两者的调和平均数F-Measure值方面,DPR-B比PageRank算法高,如图4所示。
这说明,经两步改进后所得到DPR-B算法在垃圾网页检测方面的综合性能比PageRank算法好。
综上所述,当追求垃圾网页的检测数目,想尽可能多的检测到所有垃圾网页时,可以使用第一步改进后所得到的DPR-A算法;当希望在召回率、精确率及F-Measure值等多方面综合考虑取得较好表现时,应使用经过两步改进后所得到的DPR-B算法。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于PageRank的差异化网页排序方法,其特征在于,所述方法包括以下步骤:
利用PageRank算法计算每个网页的初始网页排名值;
根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式;
根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式;
通过上述排序值计算公式对每个网页的网页排名值进行迭代计算,直至每个页面的网页排名值趋于稳定;
利用所检测到的垃圾网页数目、召回率、精确度和F-Measure值进行实验对比分析,衡量差异化网页排序方法解决PageRank排序问题的有效性。
2.根据权利要求1所述的一种基于PageRank的差异化网页排序方法,其特征在于,所述根据网页的入链数量评价网页的权威性分配权重,获取网页排序值计算公式具体为:
其中,d为阻尼系数,取值范围为(0,1],表示任意时刻用户到达p页面后并能够继续向后浏览的概率,Inlinks(p)表示网页p被指向的次数,首先∑x∈A(q)Inlinks(x)统计网页q向外链接多少个页面,再将每个页面的所有链入页面相加,Inlinks(p)/∑x∈A(q)Inlinks(x)表示节点p的链入数在所有q指向节点的链入数所占的比重,网页p根据这个比重分得网页q的PR值。
3.根据权利要求1所述的一种基于PageRank的差异化网页排序方法,其特征在于,所述根据网页的总链接数量评价网页的权威性分配权重,获取另一网页排序值计算公式具体为:
其中,B(p)表示网页p的入链集合,Links(p)表示网页p的链接数量,A(q)表示网页q的出链集合,∑x∈A(q)Links(x)首先统计网页q所链出的所有页面,然后再将每个页面的链接数量加起来,Links(p)/∑x∈A(q)Links(x)表示网页p的链接数量,在所有网页q所指向的网页的链接数量总和中所占的比重,根据这个比重,网页p分得网页q的PR值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810267122.5A CN108460158A (zh) | 2018-03-28 | 2018-03-28 | 基于PageRank的差异化网页排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810267122.5A CN108460158A (zh) | 2018-03-28 | 2018-03-28 | 基于PageRank的差异化网页排序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108460158A true CN108460158A (zh) | 2018-08-28 |
Family
ID=63237792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810267122.5A Pending CN108460158A (zh) | 2018-03-28 | 2018-03-28 | 基于PageRank的差异化网页排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108460158A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902236A (zh) * | 2019-03-07 | 2019-06-18 | 成都数之联科技有限公司 | 一种基于非概率模型的垃圾网页降级方法 |
CN110990509A (zh) * | 2019-11-28 | 2020-04-10 | 航天精一(广东)信息科技有限公司 | 基于PageRank算法的嫌疑人追逃分析方法 |
CN111966946A (zh) * | 2020-09-10 | 2020-11-20 | 北京百度网讯科技有限公司 | 一种页面权威值的识别方法、装置、设备和存储介质 |
CN111984832A (zh) * | 2020-08-21 | 2020-11-24 | 中国人民大学 | 一种基于个性化佩奇排名的好友推荐方法 |
CN112118138A (zh) * | 2020-09-18 | 2020-12-22 | 上海计算机软件技术开发中心 | 区块链共识机制实现系统和方法 |
CN112116473A (zh) * | 2020-09-18 | 2020-12-22 | 上海计算机软件技术开发中心 | 跨链公证人机制评价系统和平台 |
CN113810338A (zh) * | 2020-06-12 | 2021-12-17 | 中国电信股份有限公司 | 异常服务地址检测方法和装置、计算机可读存储介质 |
CN115525731A (zh) * | 2022-02-27 | 2022-12-27 | 博才汇(宁波)信息科技有限公司 | 基于改进pagerank算法的网页权重计算方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
CN105930365A (zh) * | 2016-04-11 | 2016-09-07 | 天津大学 | 基于内容的网络链接拓扑重构方法 |
-
2018
- 2018-03-28 CN CN201810267122.5A patent/CN108460158A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
CN105930365A (zh) * | 2016-04-11 | 2016-09-07 | 天津大学 | 基于内容的网络链接拓扑重构方法 |
Non-Patent Citations (2)
Title |
---|
MEI YU等: ""A WEB SPAM DETECTION ALGORITHM BASED ON PAGERANK"", 《ICIC EXPRESS LETTERS》 * |
NEELAM TYAGI等: ""Weighted Page Rank Algorithm Based on Number of Visits of Links of Web Page"", 《INTERNATIONAL JOURNAL OF SOFT COMPUTING AND ENGINEERING》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902236B (zh) * | 2019-03-07 | 2021-06-11 | 成都数之联科技有限公司 | 一种基于非概率模型的垃圾网页降级方法 |
CN109902236A (zh) * | 2019-03-07 | 2019-06-18 | 成都数之联科技有限公司 | 一种基于非概率模型的垃圾网页降级方法 |
CN110990509B (zh) * | 2019-11-28 | 2023-02-28 | 航天精一(广东)信息科技有限公司 | 基于PageRank算法的嫌疑人追逃分析方法 |
CN110990509A (zh) * | 2019-11-28 | 2020-04-10 | 航天精一(广东)信息科技有限公司 | 基于PageRank算法的嫌疑人追逃分析方法 |
CN113810338A (zh) * | 2020-06-12 | 2021-12-17 | 中国电信股份有限公司 | 异常服务地址检测方法和装置、计算机可读存储介质 |
CN113810338B (zh) * | 2020-06-12 | 2023-11-03 | 中国电信股份有限公司 | 异常服务地址检测方法和装置、计算机可读存储介质 |
CN111984832A (zh) * | 2020-08-21 | 2020-11-24 | 中国人民大学 | 一种基于个性化佩奇排名的好友推荐方法 |
CN111984832B (zh) * | 2020-08-21 | 2023-07-07 | 中国人民大学 | 一种基于个性化佩奇排名的好友推荐方法 |
CN111966946A (zh) * | 2020-09-10 | 2020-11-20 | 北京百度网讯科技有限公司 | 一种页面权威值的识别方法、装置、设备和存储介质 |
CN112118138A (zh) * | 2020-09-18 | 2020-12-22 | 上海计算机软件技术开发中心 | 区块链共识机制实现系统和方法 |
CN112116473A (zh) * | 2020-09-18 | 2020-12-22 | 上海计算机软件技术开发中心 | 跨链公证人机制评价系统和平台 |
CN112118138B (zh) * | 2020-09-18 | 2023-06-23 | 上海计算机软件技术开发中心 | 区块链共识机制实现系统和方法 |
CN115525731A (zh) * | 2022-02-27 | 2022-12-27 | 博才汇(宁波)信息科技有限公司 | 基于改进pagerank算法的网页权重计算方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460158A (zh) | 基于PageRank的差异化网页排序方法 | |
Dhyani et al. | A survey of web metrics | |
US7206780B2 (en) | Relevance value for each category of a particular search result in the ranked list is estimated based on its rank and actual relevance values | |
US9020936B2 (en) | Using categorical metadata to rank search results | |
CN1716259B (zh) | 基于内部-类型关联和交互-类型关联来排列对象的方法和系统 | |
US7668812B1 (en) | Filtering search results using annotations | |
Zhou et al. | Userrec: A user recommendation framework in social tagging systems | |
CN102122295B (zh) | 用于执行文档搜索的方法、服务器设备和系统 | |
US7716216B1 (en) | Document ranking based on semantic distance between terms in a document | |
TWI437452B (zh) | 使用查詢相關性資料的垃圾網頁分類 | |
US20080313137A1 (en) | Behavioral WEB Graph | |
CN104050197A (zh) | 一种信息检索系统评测方法和装置 | |
CN106203165B (zh) | 基于可信云计算的信息大数据分析支撑方法 | |
CN108073667A (zh) | 产生用户浏览属性的方法、以及非暂存计算机可读介质 | |
US7689536B1 (en) | Methods and systems for detecting and extracting information | |
CN104615723A (zh) | 查询词权重值的确定方法和装置 | |
CN102541946B (zh) | 基于超链接的推荐属性确定超链推荐度的方法与设备 | |
CN103544257A (zh) | 网页质量检测方法和装置 | |
Shaffi et al. | Weighted PageRank algorithm search engine ranking model for web pages | |
CN101639856B (zh) | 检测互联网信息传播的网页关联评价装置 | |
CN108153857A (zh) | 一种用于对网络访问数据进行关联处理的方法和系统 | |
Nettleton et al. | Analysis of web search engine query session and clicked documents | |
CN103607322B (zh) | 网站流量数据分析方法及装置 | |
JP5890413B2 (ja) | 多数のデータレコードをサーチする方法及びサーチエンジン | |
Siciliano et al. | Analysis of web visit histories, part I: Distance-based visualization of sequence rules |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180828 |