CN106161091A - 一种统计互联网用户行为的方法和系统 - Google Patents

一种统计互联网用户行为的方法和系统 Download PDF

Info

Publication number
CN106161091A
CN106161091A CN201610548190.XA CN201610548190A CN106161091A CN 106161091 A CN106161091 A CN 106161091A CN 201610548190 A CN201610548190 A CN 201610548190A CN 106161091 A CN106161091 A CN 106161091A
Authority
CN
China
Prior art keywords
user
action
behavior
domain name
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610548190.XA
Other languages
English (en)
Other versions
CN106161091B (zh
Inventor
尹嘉路
白晟
张伟
丁文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Far Long (beijing) Technical Service Co Ltd
Original Assignee
Far Long (beijing) Technical Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Far Long (beijing) Technical Service Co Ltd filed Critical Far Long (beijing) Technical Service Co Ltd
Priority to CN201610548190.XA priority Critical patent/CN106161091B/zh
Publication of CN106161091A publication Critical patent/CN106161091A/zh
Application granted granted Critical
Publication of CN106161091B publication Critical patent/CN106161091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种统计互联网用户行为的方法和系统,其中,所述方法包括:步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。其能准确提炼出动作行为的顺序和数量。

Description

一种统计互联网用户行为的方法和系统
技术领域
本发明属于互联网领域,尤其涉及一种统计互联网用户行为的方法和系统。
背景技术
随着互联网技本的迅猛发展,越来越多的用户开始接入并频繁使用互联网。各种互联网平台介入到用户的生活中,在社交、娱乐、购买物品、日常服务等多个环节提供帮助。互联网用户的行为,积累了大量的数据,可以用来量化用户的具体行为模式,进而有助于提高商业效率,和比较各个互联网平台所创造的价值。在海量的流量数据中,如何挖掘数据价值,准确提炼出互联网用户的关键行为动作,是重要的一环。
现有技术中,用户的线上行为产生数据请求,不同的行为,请求的数据形式也不相同。通过对各个网站的DNS日志、URL日志的深度解析,描绘特定用户行为下DNS、URL请求规律,统计各种动作的数量。
其中,DNS、URL请求规律与网站或APP的架构相关联。当网站或APP进行改版后,当前算法中包含的具体域名和动作定义需要跟着更新,运营维护成本较高。
发明内容
本发明所要解决的技术问题是提供一种统计互联网用户行为的方法和装置,用于克服现有技术存在的以上问题。
本发明解决上述技术问题所采取的技术方案如下:
一种统计互联网用户行为的方法,包括:
步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;
步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;
步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。
优选的是,步骤1)中,具体包括:根据不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作;
对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
优选的是,步骤1)中,还包括:针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS日志、URL日志请求规律与各类用户动作做概率映射,由此提炼出动作行为的顺序和数量。
优选的是,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据,包括:
行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
优选的是,步骤1)中,如果用户通过各个访问类型产生的域名请求不相同,则将DNS日志和URL日志中某个互联网平台的用户动作串归类于上述各个访问类型中,由此更好地描述用户的行为。
优选的是,步骤1)中,具体还包括:
定义一个随机变量,用于描述一个请求序列对应于不同用户动作的概率分布,具体来说:假设存在N种需要追踪的用户动作,记表示第i种用户动作对应的域名序列占所有域名序列的比例,此比例即为先验概率;
假设DNS服务器端日志中可以检测到一共M组域名序列,记是客户端发生第i种用户动作时在DNS服务器端日志中检测出第j种域名序列的条件概率;根据贝叶斯理论,对于一条新检测出的,未知其真实用户行为的域名序列k,对应的客户端发生第1种用户动作的概率为
P ( B = l | S = k ) = P ( S = k | B = l ) P ( B = l ) Σ i = 1 N P ( S = k | B = i ) P ( B = i )
此概率即为后验概率;
给上述的概率多赋予一个时间参数,根据前一天的后验概率计算出后一天均先验概率,公式为
P ( B = i , t = 1 ) = Σ j = 1 M P ( B = i | S = j , t = 0 ) P ( S = j , t = 0 )
这里表示前一天第j种域名序列占所有域名序列的比例;
建立一个训练集合,训练集合记录的是在不同软硬件以及网络环境下,在定义好客户端用户动作前提下,服务器端DNS日志中记录的域名序列;
训练集合的数据结构遵从监督式学习中训练集的组织方式,以域名序列和用户动作的二元结构呈现;
其中,一个足够大的训练集合中,只需先计算第i种用户动作发生导致第j种域名序列的频次以及第i种用户动作发生的频次,则
P ( S = j | B = i ) = F ( i , j ) F ( i )
即为所需条件概率;此外,还包括:重复以上步骤,可得到不同时间段不同用户行为的概率分布。
一种统计互联网用户行为的系统,包括:
用户行为统计模块,使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;
用户行为分析模块,基于以上用户行为,分析互联网用户的动作规律或行为模式;
基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。
优选的是,所述用户行为统计模块,进一步根据不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作;
对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
优选的是,所述用户行为统计模块,进一步针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS日志、URL日志请求规律与各类用户动作做概率映射,由此提炼出动作行为的顺序和数量。
优选的是,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据,包括:
行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
本发明采取了上述方案以后,可以有效解决1)浏览器预加载设置和服务器缓存对DNS日志数据的影响,以及2)DNS或URL日志不是全集,而是随机提取的用户请求子集,对数据的影响,进而准确提炼出动作行为的顺序和数量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明统计互联网用户行为的方法的流程示意图;
图2是本发明统计互联网用户行为的系统的结构示意图;
图3是本发明统计互联网用户行为的方法的一个分析表格示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
具体来说,本发明依托于Hadoop大数据存储、分析平台,依赖原始DNS日志、原始URL日志,首先针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS、URL请求规律与各类用户动作做概率映射,该映射算法可以有效解决1)浏览器预加载设置和服务器缓存对DNS日志数据的影响,以及2)DNS或URL日志不是全集,而是随机提取的用户请求子集,对数据的影响。进而准确提炼出动作行为的顺序和数量。如下是相关说明。
其中,如图1所示,一种统计互联网用户行为的方法,其特征在于,包括:
步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;
步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;
步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。
具体来说,本发明涉及的DNS日志和URL日志说明:
当互联网用户通过域名(如www.baidu.com)访问网站时,由于以太网传输过程是根据IP地址来寻址的,所以DNS客户端首先会向电信运营商DNS服务器查询域名对应的IP地址,相应的,DNS服务器会生成一条请求日志。
在获得IP地址后,客户端从目标服务器的特定位置获得用户所期望浏览的网页的所有元素(包括框架、文字、图片等),相应的,会生成一系列的URL请求日志。
其中,可以基于以上数据实现用户动作和行为的分析,例如:
第一,针对不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作,每个动作都具有特定的实际意义。例如,对于电商网站,用户动作的定义旨在模拟完整的线上购物行为,具体关注的动作包括浏览商品类别、浏览具体商品、将某件商品加入购物车、提交订单、在线支付等,而不关注广告或图片的加载动作。
第二,对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据。行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征。例如,对于电商网站,加入购物车的动作必须在浏览商品之后发生、在线支付和提交订单这两个动作的时间间隔不能过长。
第三,将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。以下面四条连续的DNS日志为例,该日志片段的用户行为可以描述为:用户“19.141.159.146”以一定概率在PC端通过访问百度,进入百度外卖浏览,进行下单,并完成支付(概率数字的得出参见下面的算法说明)。
源IP|源端口|目的IP|目的端口|ID|域名|请求类型|解析结果|解析时间|状态码|请求
19.141.159.146|11764|219.141.159.146|53|17141|www.baidu.com|A||20151028010000.002|0|q
19.141.159.146|11764|219.141.159.146|53|11616|www.waimai.com|A||20151028080000.176|0|q
19.141.159.146|11764|219.141.159.146|53|11736|www.order.com|A||20151028090000.321|0|q
19.141.159.146|11764|219.141.159.146|53|13211|www.pay.com|A||20151028100000.390|0|q
其中,更具体地说,访问类型说明:
具体来说,每个互联网平台可能拥有多个访问类型,每个访问类型代表一种访问方式,包括通常遇到的PC端访问、移动端APP访问、移动端WAP访问,也包括特殊的访问方式(例如在微信APP中访问京东商城)。
若用户通过各个访问类型产生的域名请求不相同,则可以将某个互联网平台的用户动作串归类于上述各个访问类型中,更好地描述用户的行为(例如用户在PC端浏览页面,之后在APP端扫码支付)。
更具体地说,在具体的实现统计方面,主要基于朴素贝叶斯,从日志序列到用户动作的映射算法:
具体来说,基于上述说明,每一个用户动作对应了一列请求记录(DNS日志或URL日志)。如果能获得完整的请求记录,用户动作必然被精确描述。
但在实际操作中,数据往往是完整请求记录的子集,原因包括:1)为了用户体验,电脑的操作系统以及浏览器软件会设置自己不同的缓存机制,用来记录用户某段时间前已经访问过的域名地址,结果导致相当一部分的DNS请求并没有发送至DNS服务器;2)不同城市数据中心服务器的缓存设置,也可能导致该地区访问频繁网站的DNS请求未被记录;3)随着互联网用户数据的快速增加,存储空间有限制,随机存储部分DNS或URL日志。
为了能从我们的源数据中分析出用户行为,需要引入随机变量,描述一个请求序列对应于不同用户动作的概率分布。以下是数学描述和举例(以DNS域名为例)。
假设存在N种需要追踪的用户动作,记表示第i种用户动作对应的域名序列占所有域名序列的比例,此比例即为先验概率。
假设DNS服务器端日志中可以检测到一共M组域名序列,记是客户端发生第i种用户动作时在DNS服务器端日志中检测出第j种域名序列的条件概率。
根据贝叶斯理论,对于一条新检测出的,未知其真实用户行为的域名序列k,对应的客户端发生第1种用户动作的概率为
P ( B = l | S = k ) = P ( S = k | B = l ) P ( B = l ) Σ i = 1 N P ( S = k | B = i ) P ( B = i )
此概率即为后验概率。
实际操作中,服务器端的DNS记录是按日组织存储的。由此可以给上述的概率多赋予一个时间参数,根据前一天的后验概率计算出后一天的先验概率,公式为
P ( B = i , t = 1 ) = Σ j = 1 M P ( B = i | S = j , t = 0 ) P ( S = j , t = 0 )
这里表示前一天第j种域名序列占所有域名序列的比例。每天先验概率的变化是做用户动作分析的关键数据。
上述算法能成功运行,如何算出条件概率是一个关键因素。为此需要建立一个训练集合。训练集合记录的是在不同软硬件以及网络环境下,在定义好客户端用户动作前提下,服务器端DNS日志中记录的域名序列。训练集合的数据结构遵从监督式学习中训练集的组织方式,以(域名序列,用户动作)二元结构呈现。一个足够大的训练集合中,只需先计算(第i种用户动作发生导致第j种域名序列的频次)以及(第i种用户动作发生的频次),则
P ( S = j | B = i ) = F ( i , j ) F ( i )
即为所需条件概率。
最后以一个例子来表示整个计算过程。假设进行百度外卖网站的用户分析。在此将问题简化,只讨论用户在线下订单在线支付(动作1),和在线下订单货到付款(动作2)两种行为。分别对应的完整序列也简化为
1.www.baidu.com,www.waimai.com,www.order.com,www.pay.com
2.www.baidu.com,www.waimai.com,www.order.com,www.delivery.com
可以给定初始的先验概率(初始的先验概率如何给定不是关键问题。理论上随着时间推移,总会收敛到实际的概率分布)。
下面建立好训练集合。假设由训练集合发现DNS日志中一共可以监测出4种域名序列
1.www.baidu.com,www.waimai.com,www.order.com
2.www.waimai.com,www.order.com
3.www.waimai.com,www.order.com,www.delivery.com
4.www.waimai.com,www.order.com,www.pay.com
对应的条件概率表为
S=1 S=2 S=3 S=4
B=1 0.1 0.15 0.75 0
B=2 0.1 0.2 0 0.7
则对于源数据中的某条域名序列(www.waimai.com,wwworder.com),分别由两种用户行为带来的概率为
P ( B = 1 | S = 2 , t = 0 ) = 0.15 X 0.5 0.15 X 0.5 + 0.2 X 0.5 = 3 7 P ( B = 2 | S = 2 , t = 0 ) = 0.2 X 0.5 0.15 X 0.5 + 0.2 X 0.5 = 4 7
同样的计算方式可以给出时刻的后验概率表
B=1 B=2
S=1 1/2 1/2
S=2 3/7 4/7
S=3 1 0
S=4 0 1
最后假设时刻DNS日志中四种域名序列出现的比例分别为0.3,0.3,0.2,0.2,则时刻的先验概率可以计算出
P ( B = 1 , t = 1 ) = 67 140 P ( B = 2 , t = 1 ) = 73 140
按此过程重复下去,便可也得到不同时间段不同用户行为得概率分布。
计算结果示例:
以电商平台“京东商域”为例,选取北京市内特定区域4月共两周的日数据为例,参见如图3。附件中部分数据结果为0,表示该动作在该访问类型下无法用前述手段进行追踪描述。
通过上面的描述,本技术方案可以带来如下的好处:
1.利用DNS、URL日志实现互联网用户行为的分析、统计。
2.通过对域名请求记录使用基于朴素贝叶斯的动作映射算法,准确描述用户行为模式,总结用户浏览和交易的规律性。
3.通过大数据统计结果,量化分析不同地区用户利用互联网在社交、娱乐、购买物品、日常服务等各方面的行为,提升商业效率。
与以上方法实施例相对应,本发明公开了一种统计互联网用户行为的系统的结构示意图,具体来说,一种统计互联网用户行为的系统,包括:
用户行为统计模块,使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;
用户行为分析模块,基于以上用户行为,分析互联网用户的动作规律或行为模式;
基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。
优选的是,所述用户行为统计模块,进一步根据不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作;
对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
优选的是,所述用户行为统计模块,进一步针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS日志、URL日志请求规律与各类用户动作做概率映射,由此提炼出动作行为的顺序和数量。
优选的是,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据,包括:
行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种统计互联网用户行为的方法,其特征在于,包括:
步骤1)使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;
步骤2)基于以上用户行为,分析互联网用户的动作规律或行为模式;
步骤3)基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。
2.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,步骤1)中,具体包括:根据不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作;
对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
3.根据权利要求1或2所述的统计互联网用户行为的方法,其特征在于,步骤1)中,还包括:针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS日志、URL日志请求规律与各类用户动作做概率映射,由此提炼出动作行为的顺序和数量。
4.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据,包括:
行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
5.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,步骤1)中,如果用户通过各个访问类型产生的域名请求不相同,则将DNS日志和URL日志中某个互联网平台的用户动作串归类于上述各个访问类型中,由此更好地描述用户的行为。
6.根据权利要求1所述的统计互联网用户行为的方法,其特征在于,步骤1)中,具体还包括:
定义一个随机变量,用于描述一个请求序列对应于不同用户动作的概率分布,具体来说:假设存在N种需要追踪的用户动作,记表示第i种用户动作对应的域名序列占所有域名序列的比例,此比例即为先验概率;
假设DNS服务器端日志中可以检测到一共M组域名序列,记是客户端发生第i种用户动作时在DNS服务器端日志中检测出第j种域名序列的条件概率;根据贝叶斯理论,对于一条新检测出的,未知其真实用户行为的域名序列k,对应的客户端发生第1种用户动作的概率为
P ( B = l | S = k ) = P ( S = k | B = l ) P ( B | l ) Σ i = 1 N P ( S = k | B = i ) P ( B | i )
此概率即为后验概率;
给上述的概率多赋予一个时间参数,根据前一天的后验概率计算出后一天的先验概率,公式为
P ( B = i , t = 1 ) = Σ j = 1 M P ( B = i | S = j , t = 0 ) P ( S = j , t = 0 )
这里表示前一天第j种域名序列占所有域名序列的比例;
建立一个训练集合,训练集合记录的是在不同软硬件以及网络环境下,在定义好客户端用户动作前提下,服务器端DNS日志中记录的域名序列;
训练集合的数据结构遵从监督式学习中训练集的组织方式,以域名序列和用户动作的二元结构呈现;
其中,一个足够大的训练集合中,只需先计算第i种用户动作发生导致第j种域名序列的频次以及第i种用户动作发生的频次,则
P ( S = j | B = i ) = F ( i , j ) F ( i )
即为所需条件概率;此外,还包括:重复以上步骤,可得到不同时间段不同用户行为的概率分布。
7.一种统计互联网用户行为的系统,其特征在于,包括:
用户行为统计模块,使用DNS日志、URL日志分析计算出互联网用户通过PC、APP、WAP等其中任何方式的用户行为;
用户行为分析模块,基于以上用户行为,分析互联网用户的动作规律或行为模式;
基于以上用户动作或行为模式,针对某区域、某时段、或某互联网平台,追踪、分析特定的用户动作或行为。
8.根据权利要求7所述的统计互联网用户行为的系统,其特征在于,所述用户行为统计模块,进一步根据不同的互联网平台,按照用户在平台上的习惯和规律,定义不同的动作;
对上述各项动作组成的动作串,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
9.根据权利要求7或8所述的统计互联网用户行为的系统,其特征在于,所述用户行为统计模块,进一步针对特定网站定义各个具有实际意义的用户动作和行为逻辑,然后基于朴素贝叶斯算法将DNS日志、URL日志请求规律与各类用户动作做概率映射,由此提炼出动作行为的顺序和数量。
10.根据权利要求7所述的统计互联网用户行为的系统,其特征在于,利用行为逻辑进行筛选,剔除掉不符合要求的干扰数据,包括:
行为逻辑定义基于互联网用户习惯的常识,以动作的连贯、合理为标准,描述用户正常访问时的动作特征;
将DNS日志中的域名及URL日志中的域名与前述符合要求的动作进行匹配,统计出完整的用户行为。
CN201610548190.XA 2016-07-13 2016-07-13 一种统计互联网用户行为的方法和系统 Active CN106161091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610548190.XA CN106161091B (zh) 2016-07-13 2016-07-13 一种统计互联网用户行为的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610548190.XA CN106161091B (zh) 2016-07-13 2016-07-13 一种统计互联网用户行为的方法和系统

Publications (2)

Publication Number Publication Date
CN106161091A true CN106161091A (zh) 2016-11-23
CN106161091B CN106161091B (zh) 2019-05-07

Family

ID=58062623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610548190.XA Active CN106161091B (zh) 2016-07-13 2016-07-13 一种统计互联网用户行为的方法和系统

Country Status (1)

Country Link
CN (1) CN106161091B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657374A (zh) * 2017-01-04 2017-05-10 贵州力创科技发展有限公司 互联网流量流向大数据智能分析决策方法及系统
CN106878438A (zh) * 2017-03-03 2017-06-20 久远谦长(北京)技术服务有限公司 一种https环境下用户行为分析的方法和系统
CN107729222A (zh) * 2017-07-26 2018-02-23 上海壹账通金融科技有限公司 用户行为统计方法、系统、计算机设备和存储介质
CN109151088A (zh) * 2018-08-20 2019-01-04 下代互联网重大应用技术(北京)工程研究中心有限公司 基于Http日志的IPv6访问用户地理分布排名的统计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217392A (zh) * 2007-12-27 2008-07-09 华为技术有限公司 行为采集分析方法及系统
US7890581B2 (en) * 1996-12-16 2011-02-15 Ip Holdings, Inc. Matching network system for mobile devices
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104978406A (zh) * 2015-06-11 2015-10-14 中国科学院自动化研究所 互联网络平台的用户行为分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890581B2 (en) * 1996-12-16 2011-02-15 Ip Holdings, Inc. Matching network system for mobile devices
US20150271222A1 (en) * 1996-12-16 2015-09-24 Ip Holdings, Inc. Social networking system
CN101217392A (zh) * 2007-12-27 2008-07-09 华为技术有限公司 行为采集分析方法及系统
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104978406A (zh) * 2015-06-11 2015-10-14 中国科学院自动化研究所 互联网络平台的用户行为分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106657374A (zh) * 2017-01-04 2017-05-10 贵州力创科技发展有限公司 互联网流量流向大数据智能分析决策方法及系统
CN106878438A (zh) * 2017-03-03 2017-06-20 久远谦长(北京)技术服务有限公司 一种https环境下用户行为分析的方法和系统
CN107729222A (zh) * 2017-07-26 2018-02-23 上海壹账通金融科技有限公司 用户行为统计方法、系统、计算机设备和存储介质
CN109151088A (zh) * 2018-08-20 2019-01-04 下代互联网重大应用技术(北京)工程研究中心有限公司 基于Http日志的IPv6访问用户地理分布排名的统计方法

Also Published As

Publication number Publication date
CN106161091B (zh) 2019-05-07

Similar Documents

Publication Publication Date Title
Liu Analyzing the impact of user-generated content on B2B Firms' stock performance: Big data analysis with machine learning methods
JP5072160B2 (ja) ワールドワイドウェブのディジタルコンテントの普及を見積もるシステム及び方法
CN107665444A (zh) 一种基于用户在线行为的网络广告即时效应评价方法及系统
WO2021025926A1 (en) Digital content prioritization to accelerate hyper-targeting
CN105095267A (zh) 一种用于用户参与项目的推荐方法及装置
CN104035926B (zh) 一种互联网信息的投放和系统
CN104239385A (zh) 用于推断主题之间的关系的方法和系统
Prathapan et al. Effectiveness of digital marketing: Tourism websites comparative analytics based on AIDA model
Kumar et al. Web analytics and metrics: a survey
CN106161091A (zh) 一种统计互联网用户行为的方法和系统
US20150220971A1 (en) Optimization and attribution of marketing resources
WO2018232331A1 (en) Systems and methods for optimizing and simulating webpage ranking and traffic
US9858526B2 (en) Method and system using association rules to form custom lists of cookies
CN102668515A (zh) 将相对加权方案应用于在线使用数据
Yadagiri et al. A non-parametric approach to the multi-channel attribution problem
BANICA et al. ANALYZING SOCIAL NETWORKS FROM THE PERSPECTIVE OF MARKETING DECISIONS.
Cao et al. Distributed design and implementation of SVD++ algorithm for e-commerce personalized recommender system
US20140136280A1 (en) Predictive Tool Utilizing Correlations With Unmeasured Factors Influencing Observed Marketing Activities
Frhan Website clickstream data visualization using improved Markov chain modelling in apache flume
Zhao The review of web mining in e-commerce
Sunagar et al. Influence of big data in smart tourism
Matos et al. A deep learning-based decision support system for mobile performance marketing
Sangaralingam et al. Predicting age & gender of mobile users at scale-a distributed machine learning approach
Abdalla et al. Integrating extended UMEGA with unified access point as determinants of behavioural intention in the Palestinian E-government services context
Vedaprakash et al. Analyzing the user navigation pattern from weblogs using data pre-processing technique

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant