CN105610616A - 基于icp活跃度的接入网单个ip平均流量统计方法及系统 - Google Patents

基于icp活跃度的接入网单个ip平均流量统计方法及系统 Download PDF

Info

Publication number
CN105610616A
CN105610616A CN201511009844.3A CN201511009844A CN105610616A CN 105610616 A CN105610616 A CN 105610616A CN 201511009844 A CN201511009844 A CN 201511009844A CN 105610616 A CN105610616 A CN 105610616A
Authority
CN
China
Prior art keywords
access
user
flow
record
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511009844.3A
Other languages
English (en)
Other versions
CN105610616B (zh
Inventor
黄友俊
李星
吴建平
段晓磊
邓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CERNET Corp
Original Assignee
CERNET Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CERNET Corp filed Critical CERNET Corp
Priority to CN201511009844.3A priority Critical patent/CN105610616B/zh
Publication of CN105610616A publication Critical patent/CN105610616A/zh
Application granted granted Critical
Publication of CN105610616B publication Critical patent/CN105610616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开提出了一种基于ICP活跃度的接入网单个IP平均流量统计方法及系统。本发明基于ICP访问日志文件,对日志中的异常IP访问流量记录进行识别,发明了一种异常访问流量去重的方法,在日志中去除异常点击,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击进行识别去重,对去重后的流量提取源和目标IP以及产生的流量,来统计出每天网内活跃的IP以及其流量,再根据IP归属标示出IP对应单位,根据每个IP的活动次数以及产生的流量综合分析出IP的平均流量,可以得到单位下活跃IP的综合排名。最终还可以以单位为中心,统计出单位的活跃IP数量以及IP的平均流量,按照IP平均流量等对单位进行排名。

Description

基于ICP活跃度的接入网单个IP平均流量统计方法及系统
技术领域
本发明涉及互联网技术领域。更具体的,本发明涉及一种利用访问日志来统计用户活跃IP的方法。
背景技术
近年来,随着光纤普及以及互联网带宽的迅猛发展,各种ICP接入的带宽也越来越高,随之产生的网络流量也越来越大,尔后产生的问题就是面对大量的上网流量,如何能快速发现哪些IP是活跃的,IP活跃的分布情况,以及出现流量异常时如何快速准确的确定出问题的IP,上述都是接入单位和网络接入商共同关注的焦点问题。
对于教育网这个特定的环境,原来都是按照单位对其下所有的流量进行汇总,或者针对单个IP查看其流量情况,没有从时间角度看下面IP活跃情况以及对整体IP活跃和平均流量的变化情况做趋势分析和统计,这个从宏观角度更能对未来IP和流量趋势做出预估和判断,进而为业务的开展提供更明确的数据支持。
发明内容
为此,本发明提出了一种基于流量日志来统计用户IP活跃度的方法,以解决上述技术问题。
根据本发明一方面,提供了一种基于流量日志统计用户IP活跃度的方法,包括:
步骤1、基于教育网骨干主节点采集IP访问日志记录;
步骤2、从所获取的IP访问日志记录中过滤异常访问IP记录;
步骤3、对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度的排名。
根据本发明另一方面,提供了一种基于流量日志统计用户IP活跃度的系统,包括:
采集模块,用于基于教育网骨干主节点采集IP访问日志记录;
过滤模块,用于从所获取的IP访问日志记录中过滤异常访问IP记录;
统计模块,用于对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度的排名。
本发明提出的上述方案基于ICP访问日志文件,对日志中的异常IP访问流量记录进行识别,发明了一种异常访问流量去重的方法,在日志中去除异常点击,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击进行识别去重,对去重后的流量提取源和目标IP以及产生的流量,来统计出每天网内活跃的IP以及其流量,再根据IP归属标示出IP对应单位,根据每个IP的活动次数以及产生的流量综合分析出IP的平均流量,可以得到单位下活跃IP的综合排名。最终还可以以单位为中心,统计出单位的活跃IP数量以及IP的平均流量,按照IP平均流量等对单位进行排名。
附图说明
图1是本发明中基于流量日志来统计用户IP活跃度的方法流程图;
图2是本发明中并行算法设计架构框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
本发明提出了一种基于流量日志来统计用户IP活跃度的方法,如图1所示,其包括:
步骤1、基于教育网骨干主节点采集IP访问样本数据;
本发明优选实施例中基于的ICP访问日志是教育网38个骨干网主节点每个小时采集一次,每次5分钟的IP访问采集抽样数据,然后汇总起来,这样就是整个网络每天24个样本文件,其包含每小时中5分钟的所有用户访问轨迹信息。样本格式举例如下:
每条访问IP记录包括:源IP地址、目的IP地址、源IP地址连接目的IP地址产生的流量数据和服务器信息即采集点;
上述举例样本数据可拆解为以下4个变量
源IP:记录发起访问端的IP信息,如223.252.209.144
目标IP:记录被访问端的IP信息,如210.46.102.44
流量:源IP连接目标IP产生的流量,如552字节.
服务器信息:采集点,如nbos38
步骤2、从所获取的IP访问信息中过滤异常访问IP记录;具体包括:
教育网骨干38节点访问日志记录了教育网的院校用户上网浏览行为。日志记录的内容有:用户IP,序列号,正常情况下,用户一天内在一台机器上访问互联网,所留下的点击记录里用户ID是一致的;点击时间,点击发生的时间;目的地址,用户此次点击要访问页面的URL;源地址,用户从该URL点击目的地址。
下面以2015年10月21日的数据,共234786722条记录为例说明。
在日志分析中,存在一些用户点击频率过高的现象,表现为一秒钟连续点击多次,这种情况的异常性很明显。作为自然人的用户只有在刷新页面时才可能一秒钟点击两次以上,但是用户刷新页面的行为不能够完全解释一秒连续点击多次的现象,通过以下的步骤21中的两种方法对重复访问IP及异常IP记录进行去重。
步骤21、计算用户访问集中度和用户平均访问量
正常的用户点击日志,在点击记录数和访问过的站点数之间满足一定的关系,但是异常点击行为的这两个数据却可能呈现出不一样的关系。可能出现用户访问站点过于集中或过于分散的状况。访问集中度即是用来衡量用户访问过的站点数偏离正常情况的程度。正常情况下,点击记录数和访问站点数之间的关系,不是一个简单的数学关系,还和当时互联网上有多少站点有关。因此本发明利用这样的方法来定义访问集中度,如果待研究的目标记录有N条,我们从一天的日志中随机提取与N相当的记录数rand(N)(可采用的随机提取算法,不能保证精确提取N条,但是是与N相当的记录数,即两者的差值在预定阈值范围内),N条记录访问的站点集合为site(N),站点数为#site(N),随机提取记录访问的站点集合为site(rand(N)),访问站点数为#site(rand(N))。访问集中度的公式如下:
访问集中度=【N/#site(N)】/【rand(N)/#site(rand(N))】
正常浏览互联网的用户群体,一天的访问量满足一个比较稳定的分布,有一个比较稳定的平均值,如果是有某种异常行为的用户群体,他们的平均访问量可能会有一些不同。假设目标用户数为U,他们一天的点击数为click(U),用户平均访问量的公式如下:
用户平均访问量=click(U)/U
步骤22、根据访问集中度和用户平均访问量对异常访问IP记录做去重过滤;
首先,连续点击不同次数的点击分布如表1所示,可以看出连续点击两次的点击数,相对于连续点击三次及三次以上的点击数异常的高,分别分析这些连续点击的特征得到表1的结果。
表1重复连续点击特征统计
从表1看到,在连续点击中完全重复的比例很高,尤其是两次连续点击,比例高达26.29%。对于这些连续点击,我们认为产生的原因如下:
1)用户偶然的刷新造成的记录重复,在重复点击次数过多时,这种情况发生的可能性不大。
2)有一些站点本身设计有问题,用户在点击这些站点时,会产生等同于双击或多次点击的效果致使日志上留下了几次完全一样的记录,这种情况的可能性也不大。
3)最后一种,就是与其他连续点击一样,是程序点击而非人为点击的结果。
对第三中情况不进行分析,以下是针对上述1)和2)两种情况进行统计和去重,具体见下面的进一步分析统计。
由上一节可知,连续点击两次的情况相对于连续点击三次、四次、五次以上的情况,出现的频率高很多,所以我们分连续点击两次和三次以上来讨论,利用访问集中度对它们的特征进行统计,得出表2数据。
表2非重复连续点击特征统计
在用户一天的点击记录中,未发生连续点击的用户数为193528,除了访问集中度分析,我们再加入平均访问量方法,最后发生连续点击的用户分布数据如表3所示。
表3多次连续点击的用户点击特征
从表3可以看出,随着用户连续点击出现次数的增多,平均访问量和访问集中度数据逐渐偏离一天日志的相应数据,但是无源地址比例和目的地址非根目录比例却没有太明显的变化,因为上一节统计已经说明,对于连续点击本身这两项数据都会偏离,但是因为这里我们统计的是用户的所有访问记录,所以可能用户其他的点击记录冲淡了连续点击记录的效果。对于这些用户访问过的站点进行统计分析,发现他们访问频率高的站点,与所有用户一天访问的情况相比有一定出入。对于出现1~3次连续点击的用户,这种差别很小,可以忽略,但是对于出现26次以上连续点击的用户,在其访问频率最高的前十位站点中,几乎没有太热门的网站。综上所述,我们认为对于出现1~3次连续点击的用户应该是偶然的结果,并非用户的本意,可以不用处理;出现4~25次连续点击的用户,应该并非偶然,但基本还可以相信其除去连续点击外的其他点击;但对于出现26次以上连续点击的用户,可以视情况滤去其所有点击。
最终通过以上分析,我们对访问日志的IP记录进行访问集中度和平均访问量计算后,对于与正常值如一天的日志或联系点击1-3次的访问集中度和平均次数的偏离差值在预定阈值范围外的进行过滤去重;通过上述分析,可以看出需要将连续点击次数大于26次以上的用户的IP记录进行清除,确保留下有效记录进行下一步IP地址次数汇总的操作。
步骤3、独立IP的访问量统计
针对上面步骤2去重后的访问日志记录,以下利用hadoop云计算深入挖掘网站ICP的IP流量情况。
统计指标:1.独立IP的访问量统计;2.该IP产生流量总和;3.该IP对应的ICP标识。
对访问日志的处理:以天为单位,按照IP地址进行归类,访问日志包含进入教育网和出教育网的流量采集信息,所以其中目标IP和源IP都有可能是教育网地址,对目前IP和源IP一块汇总,然后对比教育网IPv4地址库,找寻到教育网的IP,按照IP地址进行归并,形成每天每个活跃IP以及其活跃次数和产生的流量总合。
当流量很小时候,如100M至1G,可以用传统方法进行分析,把数据导入数据库进行IP归并,计算出各个IP的活跃次数以及产生的流量大小,进一步计算出每个单位的IP活跃总数以及产生的平均流量.
当节点带宽很大时候,如1G至100G,每小时采集到的访问日志文件在50G左右,单机处理能力已经不能满足需求。我们就需要增加系统的复杂性,用hadoop以计算机集群,存储阵列来解决。
教育网有接近3000个大专高校等接入单位,分配的IPv4地址有1695万,在骨干网的38个节点每天的页面访问量有100W,活跃的独立IP数接近300万左右。
当日志文件上传给hadoop的HDFS以后,编写MapReduce程序并向Jobtracker提交作业,对数据进行预处理。MapReduce函数的输入格式采用TextInputFormat格式,它将日志文件以行偏量值作为Key,行的内容为value提供给map函数。
在reduce中处理数据:Reduce方法的输入是map方法的输出,在map阶段将访问日志解析成record后以sessionID方式输出,在reduce中将获得session的所有日志记录,保存了这个IP一次完整的信息,对其中以下几个方面的信息进行提取:
单个记录中信息提取和转换:IP信息转换,由IP转换成其ICP信息.IP活跃次数的统计以及流量汇总统计。
Session信息的提取转换:按照访问日志的记录信息对IP进行排序,并计算出IP访问的时间间隔,为后期测定IP访问是否异常作为判断的依据。将访问日志数据在Reduce端连接以后就可以输出结果。
利用hadoop处理IP地址流量归并的方法与步骤:
算法模型:Hadoop并行算法,如图2所示,
并行算法的设计:
IP:独立IP的访问量统计
Map:{key:$request,value:$remote_addr}
Reduce:{key:$request,value:去重再求和(sum(unique))}
每个小时把38个节点合并出的ICP访问日志文件传输给hadoop服务器。日志是由业务系统产生的,我们可以设置web服务器每天产生一个新的目录,目录下面会产生多个日志文件,每个日志文件64M。设置系统每小时0点,向HDFS导入上一小时的日志文件。
完成导入后,设置系统定时器,启动MapReduce程序,提取并计算出独立IP的访问量统计/该IP产生流量总和/该IP对应的ICP标识三个统计指标。完成计算后,设置系统定时器,从HDFS导出统计指标数据到数据库,方便以后的即使查询。
经过hadoop处理后的IP访问日志进入数据库中后,格式如下
上述表说明:
Flow_date计算日期
IP教育网活跃IP地址
Heart_num当天该IP出现次数
Flow_btye当天该IP产生的总流量
Node_id该IP归属的ICP节点号码
Name_c该IP归属的ICP节点名称
1.独立IP的访问量统计;2.该IP产生流量总和;3.该IP对应的ICP标识。
当天采集到的活跃IP都存储到数据库中,每个活跃IP还包含对应的时间信息,该IP当天的活跃次数以及总流量。以及该IP所属的ICP单位编号.
按照ICP标识,其下的IP按照活跃次数排序可以得到IP活跃度排名,该统计能体现出每个ICP下的IP活跃情况。
按照ICP标识,其下的IP按照流量/IP活跃次数可以得到IP平均流量的排名,该统计能体现出每个ICP下有流量价值贡献的IP排名。
针对每个ICP每天活跃IP总数进行排名,可以体现出每个单位的用户活跃情况
针对每个ICP,其IP活跃次数总和/IP总数可以得出IP平均流量综合活跃度,可以从更合理角度看每个单位的用户活跃情况。
针对每个ICP,{总流量/(IP活跃总和×活跃IP)}可以从综合角度看ICP的既活跃用户多有形成有价值的流量的综合排名。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于流量日志统计用户IP活跃度的方法,其特征在于,包括:
步骤1、基于教育网骨干主节点采集IP访问日志记录;
步骤2、从所获取的IP访问日志记录中过滤异常访问IP记录;
步骤3、对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度的排名。
2.如权利要求1所述的方法,其特征在于,步骤1中所采集的IP访问日志记录为从教育网38个骨干网主节点每小时采集一次,每次5分钟得到的IP访问采样数据。
3.如权利要求1所述的方法,其特征在于,步骤2中所述异常访问IP记录包括点击频率高于正常用户点击频率的访问记录。
4.如权利要求3所述的方法,其特征在于,步骤2包括:
步骤21、计算用户访问集中度和用户平均访问量;
步骤22、根据所述用户访问集中度和用户平均访问量对异常访问IP记录做去重过滤。
5.如权利要求4所述的方法,其特征在于,步骤21中用户访问集中度如下计算:
访问集中度=【N/#site(N)】/【rand(N)/#site(rand(N))】
其中,N为当前处理的IP访问记录数目,site(N)为N条IP访问记录所访问的站点数目,rand(N)为从一天的IP访问日志记录中随机提取的与N数目相当的随机访问记录的数目,#site(rand(N)为所述rand(N)条随机访问记录所访问的站点数目。
6.如权利要求4所述的方法,其特征在于,步骤21中用户平均访问量如下计算:
用户平均访问量=click(U)/U
其中,U为目标用户数目,click(U)为U个目标用户一天的访问点击数目。
7.如权利要求4所述的方法,其特征在于,步骤22中利用所述访问集中度和用户平均访问量对于连续点击次数不同的用户进行统计分析,找出所述访问集中度和用户平均访问量与正常值偏差大于预定阈值的目标用户,将这些目标用户过滤。
8.如权利要求7所述的方法,其特征在于,步骤22中的所述目标用户为连续点击次数大于26次以上的用户。
9.如权利要求1所述的方法,其特征在于,步骤3包括对独立IP的访问量进行统计,对该独立Ip产生流量的总和进行统计,对该独立IP对应的ICP进行标识。
10.一种基于流量日志统计用户IP活跃度的系统,其特征在于,包括:
采集模块,用于基于教育网骨干主节点采集IP访问日志记录;
过滤模块,用于从所获取的IP访问日志记录中过滤异常访问IP记录;
统计模块,用于对过滤后的IP访问日志记录中的独立IP的访问量进行统计,得到用户IP活跃度的排名。
CN201511009844.3A 2015-12-29 2015-12-29 基于icp活跃度的接入网单个ip平均流量统计方法及系统 Active CN105610616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511009844.3A CN105610616B (zh) 2015-12-29 2015-12-29 基于icp活跃度的接入网单个ip平均流量统计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511009844.3A CN105610616B (zh) 2015-12-29 2015-12-29 基于icp活跃度的接入网单个ip平均流量统计方法及系统

Publications (2)

Publication Number Publication Date
CN105610616A true CN105610616A (zh) 2016-05-25
CN105610616B CN105610616B (zh) 2019-04-26

Family

ID=55990162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511009844.3A Active CN105610616B (zh) 2015-12-29 2015-12-29 基于icp活跃度的接入网单个ip平均流量统计方法及系统

Country Status (1)

Country Link
CN (1) CN105610616B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526748A (zh) * 2016-06-22 2017-12-29 华为技术有限公司 一种识别用户点击行为的方法和设备
CN107707516A (zh) * 2017-04-01 2018-02-16 贵州白山云科技有限公司 一种ip地址分析方法及系统
CN107742261A (zh) * 2017-11-01 2018-02-27 赛尔网络有限公司 获取集团用户接入覆盖率提升权重的方法
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN108923941A (zh) * 2018-08-17 2018-11-30 广州乐尚网络科技有限公司 一种应用于网络的多用户流量统计系统
CN109063158A (zh) * 2018-08-10 2018-12-21 赛尔网络有限公司 一种网站访问排名信息查询的方法、设备、系统及介质
CN109376325A (zh) * 2018-09-26 2019-02-22 中国平安财产保险股份有限公司 用户所属机构统计方法、装置、计算机设备及存储介质
CN110471962A (zh) * 2019-07-05 2019-11-19 中国平安人寿保险股份有限公司 活跃数据报表的生成方法和系统
CN110493085A (zh) * 2019-09-03 2019-11-22 赛尔网络有限公司 IPv6活跃用户数的统计方法、系统、电子设备及介质
CN112543199A (zh) * 2020-12-07 2021-03-23 北京明略昭辉科技有限公司 Ip异常流量检测方法、系统、计算机设备及存储介质
CN112800142A (zh) * 2020-12-15 2021-05-14 赛尔网络有限公司 Mr作业处理方法、装置、电子设备及存储介质
CN114285664A (zh) * 2021-12-29 2022-04-05 赛尔网络有限公司 异常用户识别方法、系统、设备及介质
CN115580543A (zh) * 2022-10-10 2023-01-06 国网江苏省电力有限公司南通供电分公司 一种基于哈希计数的网络系统活跃度评估方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN103580955A (zh) * 2013-10-31 2014-02-12 赛尔网络有限公司 一种基于多节点流量数据去重的大流量ip分析系统及方法
CN103595576A (zh) * 2013-10-31 2014-02-19 赛尔网络有限公司 一种基于内容提供商标识的互联口icp流量统计系统及方法
CN103647676A (zh) * 2013-12-30 2014-03-19 中国科学院计算机网络信息中心 域名系统数据处理方法
CN104394211A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种基于Hadoop用户行为分析系统设计与实现方法
CN104915455A (zh) * 2015-07-02 2015-09-16 焦点科技股份有限公司 一种基于用户行为的网站异常访问识别方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101990003A (zh) * 2010-10-22 2011-03-23 西安交通大学 一种基于ip地址属性的用户行为监控系统与方法
CN102724059A (zh) * 2012-03-31 2012-10-10 常熟市支塘镇新盛技术咨询服务有限公司 基于MapReduce的网站运行状态监控与异常检测
CN103580955A (zh) * 2013-10-31 2014-02-12 赛尔网络有限公司 一种基于多节点流量数据去重的大流量ip分析系统及方法
CN103595576A (zh) * 2013-10-31 2014-02-19 赛尔网络有限公司 一种基于内容提供商标识的互联口icp流量统计系统及方法
CN103647676A (zh) * 2013-12-30 2014-03-19 中国科学院计算机网络信息中心 域名系统数据处理方法
CN104394211A (zh) * 2014-11-21 2015-03-04 浪潮电子信息产业股份有限公司 一种基于Hadoop用户行为分析系统设计与实现方法
CN104915455A (zh) * 2015-07-02 2015-09-16 焦点科技股份有限公司 一种基于用户行为的网站异常访问识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张萌.: "基于hadoop的网络安全日志审计系统关键技术研究.", 《中国优秀硕士学位论文全文数据库信息科技辑2014年》 *
王倩,刘奕群,马少平,茹立云.: "面向用户互联网访问日志的异常点击分析.", 《中文信息学报》 *
陈富汉.: "基于Hadoop的云平台在海量Web数据分析中的应用研究.", 《中国优秀硕士学位论文全文数据库信息科技辑2015年》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107526748A (zh) * 2016-06-22 2017-12-29 华为技术有限公司 一种识别用户点击行为的方法和设备
CN107707516A (zh) * 2017-04-01 2018-02-16 贵州白山云科技有限公司 一种ip地址分析方法及系统
CN107707516B (zh) * 2017-04-01 2018-11-13 贵州白山云科技有限公司 一种ip地址分析方法及系统
CN107809331B (zh) * 2017-10-25 2020-11-24 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN107809331A (zh) * 2017-10-25 2018-03-16 北京京东尚科信息技术有限公司 识别异常流量的方法和装置
CN107742261A (zh) * 2017-11-01 2018-02-27 赛尔网络有限公司 获取集团用户接入覆盖率提升权重的方法
CN109063158A (zh) * 2018-08-10 2018-12-21 赛尔网络有限公司 一种网站访问排名信息查询的方法、设备、系统及介质
CN108923941A (zh) * 2018-08-17 2018-11-30 广州乐尚网络科技有限公司 一种应用于网络的多用户流量统计系统
CN109376325A (zh) * 2018-09-26 2019-02-22 中国平安财产保险股份有限公司 用户所属机构统计方法、装置、计算机设备及存储介质
CN110471962A (zh) * 2019-07-05 2019-11-19 中国平安人寿保险股份有限公司 活跃数据报表的生成方法和系统
CN110471962B (zh) * 2019-07-05 2023-11-03 中国平安人寿保险股份有限公司 活跃数据报表的生成方法和系统
CN110493085A (zh) * 2019-09-03 2019-11-22 赛尔网络有限公司 IPv6活跃用户数的统计方法、系统、电子设备及介质
CN112543199A (zh) * 2020-12-07 2021-03-23 北京明略昭辉科技有限公司 Ip异常流量检测方法、系统、计算机设备及存储介质
CN112543199B (zh) * 2020-12-07 2022-12-23 北京明略昭辉科技有限公司 Ip异常流量检测方法、系统、计算机设备及存储介质
CN112800142A (zh) * 2020-12-15 2021-05-14 赛尔网络有限公司 Mr作业处理方法、装置、电子设备及存储介质
CN112800142B (zh) * 2020-12-15 2023-08-08 赛尔网络有限公司 Mr作业处理方法、装置、电子设备及存储介质
CN114285664A (zh) * 2021-12-29 2022-04-05 赛尔网络有限公司 异常用户识别方法、系统、设备及介质
CN115580543A (zh) * 2022-10-10 2023-01-06 国网江苏省电力有限公司南通供电分公司 一种基于哈希计数的网络系统活跃度评估方法

Also Published As

Publication number Publication date
CN105610616B (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN105610616A (zh) 基于icp活跃度的接入网单个ip平均流量统计方法及系统
CN105357054B (zh) 网站流量分析方法、装置和电子设备
US10389745B2 (en) System and methods for detecting bots real-time
Liu et al. Monitoring and analyzing big traffic data of a large-scale cellular network with Hadoop
Meiss et al. Ranking web sites with real user traffic
JP5160556B2 (ja) 分散型コンピュータネットワークに基づくログファイル分析方法およびシステム
Suneetha et al. Identifying user behavior by analyzing web server access log file
CN103178982A (zh) 日志分析方法和装置
CN106227832A (zh) 互联网大数据技术架构在企业内业务分析中的应用方法
CN106528693A (zh) 面向个性化学习的教育资源推荐方法及系统
CN104915455B (zh) 一种基于用户行为的网站异常访问识别方法及系统
CN104951529A (zh) 一种针对网站日志的交互式分析方法
CN105224691B (zh) 一种信息处理方法及装置
JP5264981B2 (ja) ユーザ行動分析方法及びユーザ行動分析システム
Bollen et al. An architecture for the aggregation and analysis of scholarly usage data
CN102902775A (zh) 互联网实时计算的方法和系统
CN107153702A (zh) 一种数据处理方法及装置
CN102637182B (zh) Web社会网络核心用户信息交互演化分析方法
CN105825399A (zh) 一种互联网采集b2b电商信息方法
CN103440328A (zh) 一种基于鼠标行为的用户分类方法
CN107659560A (zh) 一种用于海量网络数据流日志处理的异常审计方法
CN106897313B (zh) 一种海量用户业务偏好评估方法和装置
Canali et al. Characteristics and evolution of content popularity and user relations in social networks
Chen et al. Understanding how people consume low quality and extreme news using web traffic data
Xhafa et al. Using bi-clustering algorithm for analyzing online users activity in a virtual campus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant