CN111611508A - 一种用户实际访问网址的识别方法及装置 - Google Patents
一种用户实际访问网址的识别方法及装置 Download PDFInfo
- Publication number
- CN111611508A CN111611508A CN202010467463.4A CN202010467463A CN111611508A CN 111611508 A CN111611508 A CN 111611508A CN 202010467463 A CN202010467463 A CN 202010467463A CN 111611508 A CN111611508 A CN 111611508A
- Authority
- CN
- China
- Prior art keywords
- user
- logs
- identifying
- access
- merging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004891 communication Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 241000221931 Hypomyces rosellus Species 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 239000011435 rock Substances 0.000 claims description 2
- 238000012550 audit Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Abstract
本发明提供了一种用户实际访问网址的识别方法,包括如下步骤:S01、收集服务器上产生的用户日志;S02、按第一特征进行分组;S03、将每一组的用户日志按第二特征进行排序;S04、将已经排好序的每一组用户日志,按第一合并规则合并为若干小组,每一小组内的用户日志归并为该用户一次访问所产生的请求日志;S05、对于已经分好的一次访问产生的若干条请求日志,按第二规则构建多叉树,遍历这些请求日志,构建出一棵或者多棵多叉树;S06、统计上述一棵或者多棵多叉树的叶子节点的数量,选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址;S07、重复上述步骤,即可识别出用户实际访问的网址。该发明具有准确性高、实时性高的优点。
Description
技术领域
本发明涉及了一种用户实际访问网址的识别方法及装置。
背景技术
随着互联网技术的飞速发展,使用终端接入运营商服务器并访问互联网网站的用户数量快速增长。通常情况下运营商都需要对所接入用户的上网行为进行审计,而该审计需要准确的识别出用户实际的访问网址。通常情况下记录用户访问的网址最准确的设备是用户使用的终端设备的浏览器,但运营商是无法通过简单方法拿到用户使用的终端设备上的数据的,所以最实际可行的方法是通过用户接入运营商服务器后,通过服务器所产生的用户访问日志来进行分析,如图1所示。
但实际中,对于用户使用终端设备上的浏览器访问某个互联网网站的某个页面时,浏览器向网站发出的请求的数量远大于用户在浏览器中输入的或者点击某个链接产生的那一条请求。通常情况下用户访问一个网站页面,浏览器会发出几十乃至上百条数量不等的请求给网站服务器,比如用户实际只打开某个新闻页面,而浏览器实际会额外请求若干张网页上的图片,若干段广告文本,甚至音乐,动画等。对于用户接入的运营商的服务器(网关代理等),服务器会把每一条请求都记录成一条日志,服务器只是处理记录这些请求,其本身是无法区分出用户实际访问的那个链接请求的。
基于上述情况,运营商在每时每刻产生的海量访问记录面前,对用户上网行为的审计将会产生较大偏差,例如某个用户在一小时内只访问了不到10个页面,但被运营商的网关服务器记录了近1000条请求日志,其中包含了大部分的图片,广告等信息,而这些信息对审计来说并没有什么价值,用户实际访问的网址被掩埋在大多数没有价值的数据中。所以相对准确的识别出用户实际访问的网址将对运营商的用户行为审计产生关键的作用。
从海量访问日志中识别出用户实际访问的网址有一些方法,最常见的是过滤合并方法,例如将访问日志中的URL字段中包含jpeg、mp3、js、css等关键字的日志过滤掉,将剩下的日志中相邻的且URL字段相同的多条日志合并为一条,将这些日志识别为用户实际访问的网址。但是,因为非用户实际访问的网址,也就是浏览器根据网页情况自动发送的请求,这些请求中除了一些可以被简单通过关键字过滤掉的以外,还有很大一部分是和用户实际访问的网址从结构来看没有区别,无法区分。这种情况下通过简单合并的结果会多出大量的误报日志,严重影响后续审计的准确性。
还有一种通过大量数据统计的方法,例如,不断的记录访问网站用户的用户名列表,以及所有被访问的URL的清单,同时也记录两者的对应关系,该方法认为,真正被用户访问的URL的访问频率会相对较低,当数量足够大时,通过计算URL清单中每个URL被访问的频率(一段时间内该URL被访问的次数/所有访问过该URL的用户总数),通过人工设定一个经验阈值,低于该阈值的URL则判定为用户实际访问的网址。这种方法识别的准确性完全依赖预先统计的数据的数量以及覆盖面,当数据量不够或者覆盖面较小的时候,识别的准确性依然会大幅下降。同时因为需要预先统计数据,识别的实时性也不能保证。
发明内容
为了解决背景技术中所存在的问题,本发明提出了一种用户实际访问网址的识别方法及方法。
一种用户实际访问网址的识别方法,包括如下步骤:
S01、按预设频率/周期收集服务器上产生的用户日志;
S02、将所收集的用户日志按第一特征进行分组;
S03、将每一组的用户日志按第二特征进行排序;
S04、将已经排好序的每一组用户日志,按第一合并规则合并为若干小组,每一小组内的用户日志归并为该用户一次访问所产生的请求日志;
S05、对于已经分好的一次访问产生的若干条请求日志,按第二规则构建多叉树,遍历这些请求日志,构建出一棵或者多棵多叉树;
S06、统计上述一棵或者多棵多叉树的叶子节点的数量,选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址;
S07、重复上述步骤,即可识别出用户实际访问的网址。
基于上述,所述第一特征为用户日志的用户标识字段。
基于上述,所述第二特征为用户日志的访问时间字段;并按访问时间字段的时间先后顺序排序。
基于上述,步骤S04中,所述第一合并规则为,按相邻两条用户日志的访问时间的时间间隔的长短进行合并,即当一定时间间隔内存在大于等于预设阈值的日志条数时,则将这些日志归并为该用户一次访问所产生的请求日志。
基于上述,所述第二规则为,按URL和Referer字段构建多叉树,其中将URL字段的内容作为子节点,Referer字段的内容作为父节点。
基于上述,步骤S04中,所采用的归并方法为无监督聚类方法中的基于层次聚类的ROCK,基于密度聚类的Dbscan,基于神经网络聚类的SOM,或基于统计学聚类的COBWeb。
一种用户实际访问网址的识别装置,包括通信接口、处理器、存储设备及存储在所述存储设备上并可在处理器上运行的计算机程序,通信接口用于通信连接服务器,所述处理器执行所述计算机程序时实现权利要求1至6中任一项用户实际访问网址的识别方法。
本发明相对现有技术具有突出的实质性特点和显著的进步,具体的说,本发明通过对访问日志中的访问时间以无监督聚类的方法划分出用户每一次访问网址时产生的一批请求,通过URL和Referer构建多叉树的方式从划分出的一批请求中识别出用户实际访问的网址,采用了从时间和内容两个维度组合识别的方式,相比于简单的通过关键字过滤的方法,以及准确性完全依赖于预先分析好的数据的数量以及覆盖面的方法相比,本方法识别的准确性有大幅提高。同时,本发明所描述的方法只需要采集一小段时间的访问日志即可立即做出判断,并不需要预先采集分析大量日志作为样本,识别的实时性也有大幅提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明现有审计方式的结构示意框图。
图2是本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当一个用户使用浏览器访问某个互联网网站时,该用户每一次访问操作(例如在浏览器地址栏输入网站地址,或者点击了某个网站上的某个链接)都会被为其服务的网络服务运营商(例如中国电信)的网关服务器处理并记录下来,通常情况下每一次访问操作都会包含数量不等的若干条请求,每一个请求都会被至少包含如下字段的日志所记录下来,一个典型的请求日志至少包含如下字段:
上表中举例的请求表示为:该请求是在北京时间2020/3/30 18:00:54.963(对应的时间戳为1585562454.963)由一个用户所使用的客户端设备(该设备当前所对应的IP地址为192.168.101.245)发往百度(域名:https://www.ba idu.com/),该请求具体的URL地址为https://www.baidu.com/img/bd_logo1.png,并且该请求是该用户访问了百度主页(Referer:https://www.baidu.com/)后由浏览器根据页面情况自动发出的。
通常情况下,网关服务器每时每刻都会收到从不同用户设备发往不同互联网网站的海量请求,网关服务器将这些请求生成的日志通过通信接口发往本发明所述的装置,本装置收到这些日志后,并按图2所示的流程进行处理。
步骤①,首先定期收集由运营商服务器所产生的上述用户访问日志。本实施例中将收集周期定为1分钟。
步骤②,将收到的日志按用户标识字段进行分组,即每一组内的日志都包含相同的用户标识。
步骤③,将每一组的日志按访问时间字段的先后顺序重新排序。
步骤④,将已经排好序的每一组日志按相邻两条日志的访问时间的时间间隔的长短进行合并,当一小段时间间隔内存在大于等于设定阈值的日志条数时,则将这些日志归并为该用户一次访问所产生的请求日志,所采用的归并方法可以有多种,例如可以采用无监督聚类方法中的基于层次聚类的ROCK,基于密度聚类的Dbscan,基于神经网络聚类的SOM,基于统计学聚类的COBWeb等。实际中,时间间隔和阈值的设置,根据网络实际情况进行设置。本实施例中,时间间隔为0.5秒,阈值为10条。也就是说在0.5秒内有至少10条日志,并且这至少10条日志最早的那条和最晚的那条的时间间隔不超过0.5秒,则分为一组。如果在这0.5秒内,最早和最晚的日志时间间隔在满足小于0.5秒的情况下达不到10条,比如只有8条,则将这8条日志作为噪声,不属于任何一组;或者,将噪声归并到后一组。
步骤⑤,对于已经分好的一次访问产生的若干条日志按URL和Referer字段构建多叉树,其中将URL字段的内容作为子节点,Referer字段的内容作为父节点,如此遍历这些日志,将构建出1棵或者多棵多叉树。
步骤⑥,统计上述1棵或者多棵多叉树的叶子节点的数量,选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址。
如此重复上述步骤,即可识别出用户实际访问的网址。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (7)
1.一种用户实际访问网址的识别方法,其特征在于,包括如下步骤:
S01、按预设频率/周期收集服务器上产生的用户日志;
S02、将所收集的用户日志按第一特征进行分组;
S03、将每一组的用户日志按第二特征进行排序;
S04、将已经排好序的每一组用户日志,按第一合并规则合并为若干小组,每一小组内的用户日志归并为该用户一次访问所产生的请求日志;
S05、对于已经分好的一次访问产生的若干条请求日志,按第二规则构建多叉树,遍历这些请求日志,构建出一棵或者多棵多叉树;
S06、统计上述一棵或者多棵多叉树的叶子节点的数量,选出其中叶子节点最多的树的根节点作为该用户当时实际访问的网站地址;
S07、重复上述步骤,即可识别出用户实际访问的网址。
2.根据权利要求1所述的用户实际访问网址的识别方法,其特征在于:所述第一特征为用户日志的用户标识字段。
3.根据权利要求1所述的用户实际访问网址的识别方法,其特征在于:所述第二特征为用户日志的访问时间字段;并按访问时间字段的时间先后顺序排序。
4.根据权利要求1所述的用户实际访问网址的识别方法,其特征在于:步骤S04中,所述第一合并规则为,按相邻两条用户日志的访问时间的时间间隔的长短进行合并,即当一定时间间隔内存在大于等于预设阈值的日志条数时,则将这些日志归并为该用户一次访问所产生的请求日志。
5.根据权利要求1所述的用户实际访问网址的识别方法,其特征在于:所述第二规则为,按URL和Referer字段构建多叉树,其中将URL字段的内容作为子节点,Referer字段的内容作为父节点。
6.根据权利要求1所述的用户实际访问网址的识别方法,其特征在于:步骤S04中,所采用的归并方法为无监督聚类方法中的基于层次聚类的ROCK,基于密度聚类的Dbscan,基于神经网络聚类的SOM,或基于统计学聚类的COBWeb。
7.一种用户实际访问网址的识别装置,包括通信接口、处理器、存储设备及存储在所述存储设备上并可在处理器上运行的计算机程序,通信接口用于通信连接服务器,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至6中任一项用户实际访问网址的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467463.4A CN111611508B (zh) | 2020-05-28 | 2020-05-28 | 一种用户实际访问网址的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010467463.4A CN111611508B (zh) | 2020-05-28 | 2020-05-28 | 一种用户实际访问网址的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611508A true CN111611508A (zh) | 2020-09-01 |
CN111611508B CN111611508B (zh) | 2020-12-15 |
Family
ID=72205603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010467463.4A Active CN111611508B (zh) | 2020-05-28 | 2020-05-28 | 一种用户实际访问网址的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611508B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112152873A (zh) * | 2020-09-02 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 用户识别方法、装置、计算机设备和存储介质 |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5781531A (en) * | 1995-12-27 | 1998-07-14 | Digital Equipment Corporation | Method and apparatus for hierarchical relative error scheduling |
US6144962A (en) * | 1996-10-15 | 2000-11-07 | Mercury Interactive Corporation | Visualization of web sites and hierarchical data structures |
CN101119321A (zh) * | 2007-09-29 | 2008-02-06 | 杭州华三通信技术有限公司 | 网络流量分类处理方法及网络流量分类处理装置 |
CN103425661A (zh) * | 2012-05-15 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种网站数据分析方法及分析系统 |
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及系统、网页预测方法及系统 |
CN104899269A (zh) * | 2015-05-26 | 2015-09-09 | 北京金山安全软件有限公司 | 一种访问网址链接的方法及装置 |
CN105808698A (zh) * | 2016-03-03 | 2016-07-27 | 江苏大学 | 一种面向物联网用户查询请求的TOP-k位置兴趣点推荐方法 |
CN106156230A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种生成内链的方法及装置 |
CN106210044A (zh) * | 2016-07-11 | 2016-12-07 | 焦点科技股份有限公司 | 一种基于访问行为的活跃用户识别方法 |
US20160380875A1 (en) * | 2012-10-05 | 2016-12-29 | Google Inc. | Identifying referral pages based on recorded url requests |
CN106960040A (zh) * | 2017-03-27 | 2017-07-18 | 北京神州绿盟信息安全科技股份有限公司 | 一种url的类别确定方法及装置 |
CN107291956A (zh) * | 2017-07-28 | 2017-10-24 | 南京焦点领动云计算技术有限公司 | 一种快速查询网站搜录信息的系统及方法 |
US20180113578A1 (en) * | 2016-10-24 | 2018-04-26 | Oracle International Corporation | Systems and methods for identifying process flows from log files and visualizing the flow |
CN108153870A (zh) * | 2017-12-25 | 2018-06-12 | 四川长虹电器股份有限公司 | 一种用户访问路径预测方法 |
CN108197255A (zh) * | 2017-12-29 | 2018-06-22 | 上海瑞家信息技术有限公司 | 一种设置查询树的方法、设备及计算机可读存储介质 |
CN109040069A (zh) * | 2018-08-06 | 2018-12-18 | 江苏易安联网络技术有限公司 | 一种云应用程序的发布方法、发布系统及访问方法 |
CN109117420A (zh) * | 2017-06-23 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 操作日志记录方法和装置 |
CN110135590A (zh) * | 2019-04-15 | 2019-08-16 | 平安科技(深圳)有限公司 | 信息处理方法、装置、介质及电子设备 |
CN110166302A (zh) * | 2019-05-29 | 2019-08-23 | 哈尔滨安天科技集团股份有限公司 | 一种基于决策树的日志分析方法、装置及存储设备 |
CN110689368A (zh) * | 2019-08-22 | 2020-01-14 | 北京大学(天津滨海)新一代信息技术研究院 | 一种移动应用内广告点击率预测系统设计方法 |
-
2020
- 2020-05-28 CN CN202010467463.4A patent/CN111611508B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5781531A (en) * | 1995-12-27 | 1998-07-14 | Digital Equipment Corporation | Method and apparatus for hierarchical relative error scheduling |
US6144962A (en) * | 1996-10-15 | 2000-11-07 | Mercury Interactive Corporation | Visualization of web sites and hierarchical data structures |
CN101119321A (zh) * | 2007-09-29 | 2008-02-06 | 杭州华三通信技术有限公司 | 网络流量分类处理方法及网络流量分类处理装置 |
CN103425661A (zh) * | 2012-05-15 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种网站数据分析方法及分析系统 |
US20160380875A1 (en) * | 2012-10-05 | 2016-12-29 | Google Inc. | Identifying referral pages based on recorded url requests |
CN103914478A (zh) * | 2013-01-06 | 2014-07-09 | 阿里巴巴集团控股有限公司 | 网页训练方法及系统、网页预测方法及系统 |
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
CN106156230A (zh) * | 2015-04-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种生成内链的方法及装置 |
CN104899269A (zh) * | 2015-05-26 | 2015-09-09 | 北京金山安全软件有限公司 | 一种访问网址链接的方法及装置 |
CN105808698A (zh) * | 2016-03-03 | 2016-07-27 | 江苏大学 | 一种面向物联网用户查询请求的TOP-k位置兴趣点推荐方法 |
CN106210044A (zh) * | 2016-07-11 | 2016-12-07 | 焦点科技股份有限公司 | 一种基于访问行为的活跃用户识别方法 |
US20180113578A1 (en) * | 2016-10-24 | 2018-04-26 | Oracle International Corporation | Systems and methods for identifying process flows from log files and visualizing the flow |
CN106960040A (zh) * | 2017-03-27 | 2017-07-18 | 北京神州绿盟信息安全科技股份有限公司 | 一种url的类别确定方法及装置 |
CN109117420A (zh) * | 2017-06-23 | 2019-01-01 | 百度在线网络技术(北京)有限公司 | 操作日志记录方法和装置 |
CN107291956A (zh) * | 2017-07-28 | 2017-10-24 | 南京焦点领动云计算技术有限公司 | 一种快速查询网站搜录信息的系统及方法 |
CN108153870A (zh) * | 2017-12-25 | 2018-06-12 | 四川长虹电器股份有限公司 | 一种用户访问路径预测方法 |
CN108197255A (zh) * | 2017-12-29 | 2018-06-22 | 上海瑞家信息技术有限公司 | 一种设置查询树的方法、设备及计算机可读存储介质 |
CN109040069A (zh) * | 2018-08-06 | 2018-12-18 | 江苏易安联网络技术有限公司 | 一种云应用程序的发布方法、发布系统及访问方法 |
CN110135590A (zh) * | 2019-04-15 | 2019-08-16 | 平安科技(深圳)有限公司 | 信息处理方法、装置、介质及电子设备 |
CN110166302A (zh) * | 2019-05-29 | 2019-08-23 | 哈尔滨安天科技集团股份有限公司 | 一种基于决策树的日志分析方法、装置及存储设备 |
CN110689368A (zh) * | 2019-08-22 | 2020-01-14 | 北京大学(天津滨海)新一代信息技术研究院 | 一种移动应用内广告点击率预测系统设计方法 |
Non-Patent Citations (1)
Title |
---|
沙泓州 等: "恶意网页识别研究综述", 《计算机学报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112152873A (zh) * | 2020-09-02 | 2020-12-29 | 杭州安恒信息技术股份有限公司 | 用户识别方法、装置、计算机设备和存储介质 |
CN112152873B (zh) * | 2020-09-02 | 2022-10-21 | 杭州安恒信息技术股份有限公司 | 用户识别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111611508B (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593301B2 (en) | Session-based processing method and system | |
US11134094B2 (en) | Detection of potential security threats in machine data based on pattern detection | |
US8671097B2 (en) | Method and system for log file analysis based on distributed computing network | |
CN100390786C (zh) | 信息解析方法以及装置 | |
US6741990B2 (en) | System and method for efficient and adaptive web accesses filtering | |
CN103218431B (zh) | 一种能识别网页信息自动采集的系统 | |
CN100394727C (zh) | 一种日志分析方法和系统 | |
Abd Wahab et al. | Data pre-processing on web server logs for generalized association rules mining algorithm | |
CN108304410B (zh) | 一种异常访问页面的检测方法、装置及数据分析方法 | |
US7073132B1 (en) | Method, system, and computer readable medium for managing resource links | |
CN103237094B (zh) | 一种识别用户的方法及装置 | |
Dwivedi et al. | A review paper on data preprocessing: A critical phase in web usage mining process | |
CN105224691B (zh) | 一种信息处理方法及装置 | |
CN112486708B (zh) | 页面操作数据的处理方法和处理系统 | |
CN111611508B (zh) | 一种用户实际访问网址的识别方法及装置 | |
CN103605742A (zh) | 识别网络资源实体目录页的方法及装置 | |
CN115051863B (zh) | 异常流量检测的方法、装置、电子设备及可读存储介质 | |
CN115757963A (zh) | 一种基于分布式日志分析的用户行为画像方法 | |
JP2003173351A (ja) | 情報解析、収集、検索方法、装置、プログラム、および記録媒体 | |
Rathi et al. | Approach for processing of Web Usage Data | |
KR20110012545A (ko) | 온라인 버즈 분석 시스템 및 방법 | |
JPH11306160A (ja) | サービス利用履歴からのサービス単位の抽出方法、抽出装置及び抽出プログラムを記録した記録媒体 | |
Ran et al. | Research on Data Acquisition Strategy and Its Application in Web Usage Mining | |
Bakariya et al. | User behavior analysis from web log using log analyzer tool | |
CN116775732A (zh) | 一种基于标签库和多叉树的http数据接口识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A method and device for identifying actual website visits by users Effective date of registration: 20231215 Granted publication date: 20201215 Pledgee: Zheshang Bank Co.,Ltd. Nanjing Branch Pledgor: JIANGSU YIANLIAN NETWORK TECHNOLOGY Co.,Ltd. Registration number: Y2023980071528 |