CN110825950B - 一种基于元搜索的隐藏服务发现方法 - Google Patents

一种基于元搜索的隐藏服务发现方法 Download PDF

Info

Publication number
CN110825950B
CN110825950B CN201910911334.7A CN201910911334A CN110825950B CN 110825950 B CN110825950 B CN 110825950B CN 201910911334 A CN201910911334 A CN 201910911334A CN 110825950 B CN110825950 B CN 110825950B
Authority
CN
China
Prior art keywords
address
hidden service
hidden
addresses
service address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910911334.7A
Other languages
English (en)
Other versions
CN110825950A (zh
Inventor
王学宾
时金桥
李全刚
尹泽林
赵璨
高悦
陈牧谦
王美琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910911334.7A priority Critical patent/CN110825950B/zh
Publication of CN110825950A publication Critical patent/CN110825950A/zh
Application granted granted Critical
Publication of CN110825950B publication Critical patent/CN110825950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/51Discovery or management thereof, e.g. service location protocol [SLP] or web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元搜索的隐藏服务发现方法,其步骤包括:1)根据设定的初始关键词进行搜索,并将搜索结果页面中的链接加入集合U中;2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中;3)访问集合V中的每一地址,提取各地址对应网页中的链接并加入到一集合L中;4)访问集合L的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中;5)将该集合H中的地址作为隐藏服务地址输出。本发明摆脱了匿名网络协议的限制,并且体现出了良好的效果,提高了隐藏服务发现。

Description

一种基于元搜索的隐藏服务发现方法
技术领域
本发明涉及一种基于元搜索的隐藏服务发现方法,属于网络通信技术领域。
背景技术
匿名通信技术最早起源于1981年David Chaum提出的Mix网络的概念。随后从Mix网络的设计理念而衍生出来的Tor、I2p等匿名通信系统在匿名通信领域大放异彩,成为了保障用户互联网隐私的有效技术手段。用户作为客户端访问互联网,匿名通信系统能够保证客户端的匿名性,使得服务端无法对客户端进行溯源,从而达到对用户的隐私保护目的。
随着匿名通信技术近年来的快速发展,现有的匿名通信系统不仅保证客户端的匿名访问,也已经能够保证服务端的匿名性,即服务端位置如同客户端位置一样不可溯源。这种服务被称作隐藏服务,具有代表性的隐藏服务有Tor网络中的Hidden Service和I2p网络中的Eepsite等,隐藏服务中的web服务在信息安全领域通常被称作暗网(Dark web)。暗网本身是一把双刃剑,作为服务的提供者,暗网隐藏服务在保障了自身的隐私安全的同时,这些在暗网中的非法内容甚至构成了比隐私安全还要严重的安全威胁。据2013年卡巴斯基实验室报告,Tor网络中的暗网隐藏服务已经成了僵尸网络、恶意软件指令服务器和网络黑市的庇护所。
随着暗网中非法活动的日益猖獗,针对隐藏服务的发现显得越来越有必要,是匿名网络领域中一个越来越重要的研究方向。本发明针对匿名网络之上的隐藏服务,提出了一种基于元搜索引擎的隐藏服务发现方法,并对该方法进行了相应的理论分析,最后通过实验论证了该方法的可行性与高效性。
当前对隐藏服务地址的发现都需要遵循相关匿名网络的协议来进行发现。以TorHidden Service为例,当前Hidden Service地址发现的一般过程为在Tor网络中部署具有日志记录功能的HSDir节点,当节点获得的HSDir记录标签之后,通过日志的方式将发布在该节点之上的隐藏服务地址记录下来,从而达到地址发现的目的。这样的方式往往具有较大的资源消耗,必须遵循匿名网络的相关协议,并且发现地址的数量受限于节点部署的数量。
发明内容
针对现有技术中存在的技术问题,为了发现匿名网络中的隐藏服务地址,本发明提出一种基于元搜索引擎的隐藏服务发现方法。本发明适用的对象包括Tor HiddenService、I2P EepSite、Zeronet Zsite三种暗网服务地址的发现本发明采用了匿名网络协议之外的方法,摆脱了匿名网络协议的限制,并且体现出了良好的效果,大大提高了隐藏服务发现能力。
本发明提出了关键词搜索算法,并设计了针对于不同匿名网络的搜索关键词。
本发明的技术方案为:
一种基于元搜索的隐藏服务发现方法,其步骤包括:
1)根据设定的初始关键词进行搜索,并将搜索结果页面中的链接加入集合U中;
2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中;
3)访问集合V中的每一地址,提取各地址对应网页中的链接并加入到一集合L中;
4)访问集合L的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中;
5)将该集合H中的地址作为隐藏服务地址输出。
进一步的,Tor网络的隐藏服务地址的匹配规则为:^[A-Za-z0-9]{16}.onion$。
进一步的,I2P网络的隐藏服务地址的匹配规则为:^([A-Za-z0-9]{52}.b32)|([A-Za-z0-9]+).i2p$。
进一步的,Zeronet网络中的隐藏服务地址的匹配规则为:^([a-km-zA-HJ-NP-Z1-9]{34})|([A-Za-z0-9]+.bit)$。
进一步的,用于获取Tor网络隐藏服务地址的初始关键词为site:tor2web.org、site:tor2web.fi、site:torstorm.org、site:onion.city、site:onion.to、site:onion.cab、site:onion.direct、site:onion.lt、site:onion.nu、site:tor2web.blutmagie.de。
进一步的,用于获取I2P网络隐藏服务地址的初始关键词为:site:i2p、site:i2p.xyz。
进一步的,用于获取Zeronet网络隐藏服务地址的初始关键词为:site:bit.no。
进一步的,对于集合U、集合L和集合V中的地址进行在线验证,根据在线状态筛选出有效的、可访问的隐藏服务地址。
进一步的,对于集合H中的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i)中;对于集合H(i)中的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i+1)中,迭代执行,直至集合H(i+1)中地址数量相对集合H(i)中地址数量变化小于设定比例,或者集合H(i+1)中地址数量与一固定值N之差小于设定阈值。
附图说明
图1为本发明的方法流程图;
图2为算法执行次数与收集地址总数在不同f值下的关系图;
图3为算法执行次数与地址收集总数的理论与实际关系图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
首先指出基于元搜索引擎能够发现匿名网络隐藏服务的基础。以Tor HiddenService为例,由于2008年A.Swartz等人发起的Tor2web项目的开展,使得部分Tor暗网站点能够以代理服务的形式通过表层网络入口进行访问,这样促使了商业搜索引擎对部分Tor暗网站点信息索引的构建。同时,一些个人维护的Tor暗网黄页类型的表层网页同样记录有Tor暗网的地址,也能够被商业搜索引擎所索引。这样就提供给了利用商业搜索引擎提供的信息检索服务来发现隐藏服务地址的突破口。同时其他匿名网络也拥有类似于Tor2Web的相关项目,如I2P EepSite的I2P.XYZ,Zeronet的bit.no。
本发明的方法流程如图1所示,在具体实施中,本发明选取了一些特殊的关键词作为查询入口并进行搜索,提取搜索结果页面中的隐藏服务地址并作为关键词再进行迭代搜索。具体的算法描述如算法1所示。
算法1关键词搜索算法
输入:关键词集合S
输出:隐藏服务地址集合H
1.S表示搜索关键词集合
2.U表示第一次检索返回的网址集合
3.V表示U中的隐藏服务地址集合
4.while i<|S|
5.在搜索引擎中搜索关键词集合S中的第i个关键词,将搜索结果中的链接加入U
6.利用正则式匹配onion提取集合U中符合设定规则的地址作为隐藏服务的地址加入到V;隐藏服务的地址特征较为明显,可以通过正则表达式提取,如Tor中的隐藏服务地址,由16个随机的数字或字母组成,使用.onion域名。
7.end while
8.L表示第二次检索返回的地址集合
9.while i<|V|
10.在搜索引擎中搜索集合V中的第i个关键词(即提取的地址),将搜索结果中第i个地址对应网页中的链接加入L
11.end while
12.H表示隐藏服务地址集合
13.while i<|L|
14.访问第i个链接,利用正则表达式匹配提取链接对应的页面中与设定特征匹配的地址作为隐藏服务地址,加入H
15.end while
16.返回H。
针对不同的匿名网络,根据其隐藏服务地址不同的特征进行正则匹配,以提取匿名网络中的隐藏服务地址。
其中,Tor网络的隐藏服务地址的匹配规则为:^[A-Za-z0-9]{16}.onion$。
I2P网络的I2P EepSite的匹配规则为:^([A-Za-z0-9]{52}.b32)|([A-Za-z0-9]+).i2p$。
Zeronet网络中zsite的匹配规则为:^([a-km-zA-HJ-NP-Z1-9]{34})|([A-Za-z0-9]+.bit)$。
搜索引擎的关键词选取方面,一方面,一些项目(如Tor2web项目)支持一些暗网站点能够以代理服务的形式通过表层网络入口进行访问,另一方面,暗网黄页类型的表层网页也记录有匿名网络隐藏服务的地址,这样的网页能够被商业搜索引擎所索引,因此,本发明选取这样的项目站点或匿名网络服务的黄页网页作为初始的关键词集合。
基于上述原则,对满足上述要求的站点进行搜集,得到不同匿名网络的关键词分别如下:
Tor Hidden Service的关键词为site:tor2web.org、site:tor2web.fi、site:torstorm.org、site:onion.city、site:onion.to、site:onion.cab、site:onion.direct、site:onion.lt、site:onion.nu、site:tor2web.blutmagie.de。
I2P EepSite的关键词为:site:i2p、site:i2p.xyz。
Zeronet的关键词为:site:bit.no。
下面将对关键词搜索算法的理论效果进行分析。由于搜索引擎每时每刻都在更新索引内容,所以每次搜索结果不一定完全一致。关键词算法的目的是尽可能的收集隐藏服务地址,每次通过关键词搜索算法获得的隐藏服务地址都将持久化到本地。本发明需要估算的是隐藏服务地址随着关键词搜索算法多次执行的累积总数,为了估算本发明使用中间场理论构建模型进行计算。两个重要的假设前提如下:
假设1:被搜索引擎索引的隐藏服务地址都有相同的概率被关键词搜索算法收集。
假设2:隐藏服务地址总数是一个固定的常数。
令隐藏服务地址总数为N,算法的每次执行收集到的隐藏服务地址数量为k,在算法执行t-1次时得到的隐藏服务地址累积总数为n(t),第t次算法执行搜集到的隐藏服务地址中有m(t)个是旧地址,则:
Figure GDA0002296101420000051
那么本发明有k-m(t)个新地址,则关于n(t)的一个递推表达式为:
Figure GDA0002296101420000052
根据定义可知n(1)=0,求解递推方程可得:
Figure GDA0002296101420000053
为了简化上述表达式,令f=k/N,f表示每次算法执行获得的隐藏服务地址数量占隐藏服务总量的百分比,上述表达式变为:
n(t)=N(1-(1-f)t-1)
图2表示了展示了算法执行次数与收集地址总数在不同f值下的关系,当f越趋近于1,即每次收集过程收集的地址越全,收集的速度越快,算法执行的次数越少。
需要指出的是上述两个假设是对原问题的一个很大的简化。首先隐藏服务地址不应具有相同的概率被算法所收集,一些地址会相对其他地址更频繁的出现;其次本发明假设所有的隐藏服务地址总量是固定的常量,这个假设的基础在于隐藏服务历史地址数据很多而每日增量很少。如果隐藏服务地址呈现出大规模增长,那么上述的理论分析就不再有效。在接下来将通过实验来验证本发明的理论分析。
在实验中本发明选取了Tor Hidden Services的发现,采用了单机运行关键词搜索算法,采用了Google、Bing、Baidu三种搜索引擎。算法自2016年11月21日起,每周执行3次,共执行5周,总计收集到173667个不同的HS地址,平均每次收集170581个HS地址。根据f=k/N可知,f=170581/173667=0.9822。图3展示了在f=0.9822的条件下理论值与实际值的关系。可以看出理论值与实际值相符,由此证明了本发明方法本身的正确性。
在实际应用中,由于一些隐藏服务稳定性差,时效性强,因此有些地址虽然可以被搜索引擎搜索到,但是已经过时无法访问。为解决这一问题,本发明在收集到隐藏服务地址之后,需要模拟http访问,对这些地址进行在线验证。根据在线状态筛选出有效的、可访问的隐藏服务地址。这样可以保证收集到的地址的有效性。
另外,由于搜索引擎的特性,被关键词搜索算法发现的前提是被搜索引擎收录,隐藏服务地址被搜索引擎收录的前提是有人在表层网络的页面上发布了这个地址。另一方面,稳定的隐藏服务地址更容易被个人用户或组织在表层网络的页面上进行记录或推荐,这样就能够被搜索引擎所记录。因此,关键词搜索算法适用于对稳定的隐藏服务地址进行收集,越稳定的暗网服务效果越好。
尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (6)

1.一种基于元搜索的隐藏服务发现方法,其步骤包括:
1)根据设定的初始关键词进行搜索,并将搜索结果页面中的链接加入集合U中;
2)根据设定的隐藏服务地址匹配规则从该集合U中提取匹配的隐藏服务地址并加入到集合V中;其中,Tor网络的隐藏服务地址的匹配规则为:^[A-Za-z0-9]{16}.onion$;I2P网络的隐藏服务地址的匹配规则为:^([A-Za-z0-9]{52}.b32)|([A-Za-z0-9]+).i2p$;Zeronet网络中的隐藏服务地址的匹配规则为:^([a-km-zA-HJ-NP-Z1-9]{34})|([A-Za-z0-9]+.bit)$;
3)访问集合V中的每一地址,提取各地址对应网页中的链接并加入到一集合L中;
4)访问集合L的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H中;
5)将该集合H中的地址作为隐藏服务地址输出。
2.如权利要求1所述的方法,其特征在于,用于获取Tor网络隐藏服务地址的初始关键词为site:tor2web.org、site:tor2web.fi、site:torstorm.org、site:onion.city、site:onion.to、site:onion.cab、site:onion.direct、site:onion.lt、site:onion.nu、site:tor2web.blutmagie.de。
3.如权利要求1所述的方法,其特征在于,用于获取I2P网络隐藏服务地址的初始关键词为:site:i2p、site:i2p.xyz。
4.如权利要求1所述的方法,其特征在于,用于获取Zeronet网络隐藏服务地址的初始关键词为:site:bit.no。
5.如权利要求1所述的方法,其特征在于,对于集合U、集合L和集合V中的地址进行在线验证,根据在线状态筛选出有效的、可访问的隐藏服务地址。
6.如权利要求1所述的方法,其特征在于,对于集合H中的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i)中;对于集合H(i)中的每一地址,根据设定的隐藏服务地址匹配规则提取各地址对应网页中匹配的链接作为隐藏服务地址并加入到一集合H(i+1)中,迭代执行,直至集合H(i+1)中地址数量相对集合H(i)中地址数量变化小于设定比例,或者集合H(i+1)中地址数量与一固定值N之差小于设定阈值。
CN201910911334.7A 2019-09-25 2019-09-25 一种基于元搜索的隐藏服务发现方法 Active CN110825950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910911334.7A CN110825950B (zh) 2019-09-25 2019-09-25 一种基于元搜索的隐藏服务发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910911334.7A CN110825950B (zh) 2019-09-25 2019-09-25 一种基于元搜索的隐藏服务发现方法

Publications (2)

Publication Number Publication Date
CN110825950A CN110825950A (zh) 2020-02-21
CN110825950B true CN110825950B (zh) 2022-05-17

Family

ID=69548303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910911334.7A Active CN110825950B (zh) 2019-09-25 2019-09-25 一种基于元搜索的隐藏服务发现方法

Country Status (1)

Country Link
CN (1) CN110825950B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112764882B (zh) * 2021-01-22 2022-09-23 西安电子科技大学 基于Docker的洋葱地址和隐藏服务内容搜集方法
CN114070631B (zh) * 2021-11-18 2024-01-19 东南大学 一种基于Tor隐藏服务描述符的存储型隐蔽信道方案
CN115001987B (zh) * 2022-07-19 2022-12-09 中国电子科技集团公司第三十研究所 一种Tor网络的域名规模评估方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN105808738A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于元搜索引擎搜索结果的去重方法
CN107276978A (zh) * 2017-04-25 2017-10-20 中国科学院信息工程研究所 一种基于主机指纹的匿名网络隐藏服务溯源方法
US9864619B2 (en) * 2013-07-23 2018-01-09 Dell Products L.P. Systems and methods for a data center architecture facilitating layer 2 over layer 3 communication
CN107707557A (zh) * 2017-10-26 2018-02-16 北京知道创宇信息技术有限公司 匿名访问方法、装置、网络设备及可读存储介质
CN109948015A (zh) * 2017-09-26 2019-06-28 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9864619B2 (en) * 2013-07-23 2018-01-09 Dell Products L.P. Systems and methods for a data center architecture facilitating layer 2 over layer 3 communication
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
CN105808738A (zh) * 2016-03-10 2016-07-27 哈尔滨工程大学 基于元搜索引擎搜索结果的去重方法
CN107276978A (zh) * 2017-04-25 2017-10-20 中国科学院信息工程研究所 一种基于主机指纹的匿名网络隐藏服务溯源方法
CN109948015A (zh) * 2017-09-26 2019-06-28 中国科学院信息工程研究所 一种元搜索列表结果抽取方法及系统
CN107707557A (zh) * 2017-10-26 2018-02-16 北京知道创宇信息技术有限公司 匿名访问方法、装置、网络设备及可读存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A closer look at Eclipse attacks against Tor hidden services;Qingfeng Tan;《IEEE ICC 2017 Communication and Information Systems Security Symposium》;20170525;全文 *
Toward a Comprehensive Insight Into the Eclipse Attacks of Tor Hidden Services;Qingfeng Tan;《IEEE Internet of Things Journal》;20190430;全文 *
隐私保护集合交集计算技术研究综述;申立艳,陈小军,时金桥;《计算机研究与发展》;20171020;全文 *
面向诱捕网络安全事件流的可视分析技术;王学宾;《中国优秀硕士学位论文全文数据库》;20150415;全文 *

Also Published As

Publication number Publication date
CN110825950A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110825950B (zh) 一种基于元搜索的隐藏服务发现方法
CN105069087B (zh) 基于Web日志数据挖掘的网站优化方法
Baumgarten et al. User-driven navigation pattern discovery from internet data
US20090083266A1 (en) Techniques for tokenizing urls
Kalavri et al. Like a pack of wolves: Community structure of web trackers
CN102968591B (zh) 基于行为片段共享的恶意软件特征聚类分析方法及系统
Dao et al. CNAME cloaking-based tracking on the web: Characterization, detection, and protection
Lagraa et al. Deep mining port scans from darknet
Li et al. A Review: How to detect malicious domains
Zeng et al. Semantic IoT data description and discovery in the IoT-edge-fog-cloud infrastructure
Munk et al. Influence of ratio of auxiliary pages on the pre-processing phase of Web Usage Mining
Nguyen et al. Analyzing and visualizing web server access log file
Eltahir et al. Extracting knowledge from web server logs using web usage mining
Dixit et al. Automatic recommendation for online users using web usage mining
Dua et al. Discovery of Web frequent patterns and user characteristics from Web access logs: a framework for dynamic Web personalization
CN112511513A (zh) 基于Tor网络业务的威胁情报接入工具箱
Wang et al. A comprehensive and long-term evaluation of tor v3 onion services
Arumugam et al. Optimal algorithms for generation of user session sequences using server side web user logs
Yang et al. Incorporating site-level knowledge for incremental crawling of web forums: A list-wise strategy
Liu et al. WRT: Constructing Users' Web Request Trees from HTTP Header Logs
Kumar et al. A New Web Usage Mining Approach for Website Recommendations Using Concept Hierarchy and Website Graph
Pande et al. A study of web traffic analysis
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining
Mahanti et al. Workload characterization of a large systems conference web server
Musale et al. Web usage mining tool by integrating sequential pattern mining with graph theory

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant