CN102364468A - 一种用户网络行为分析方法、装置和系统 - Google Patents
一种用户网络行为分析方法、装置和系统 Download PDFInfo
- Publication number
- CN102364468A CN102364468A CN2011103005215A CN201110300521A CN102364468A CN 102364468 A CN102364468 A CN 102364468A CN 2011103005215 A CN2011103005215 A CN 2011103005215A CN 201110300521 A CN201110300521 A CN 201110300521A CN 102364468 A CN102364468 A CN 102364468A
- Authority
- CN
- China
- Prior art keywords
- user
- network
- gateway
- access information
- network access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种用户网络行为分析方法和系统,该方法包括以下步骤:获取来自不同网络位置的一个以上网关的用户的网络访问信息;对来自各所述网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息;分别基于所得到各个用户各自的预处理后的网络访问信息,分析得到各用户的用户行为信息。本发明解决了现有技术中无法基于跨网通信的网络报文来分析用户网络行为的难题以及无法对用户访问除本网站外的其他网站的行为进行分析和/或无法对单个用户跨网访问不同的网站的行为进行分析的难题。
Description
技术领域
本发明涉及网络用户行为分析,尤其涉及网络用户行为的还原,具体地说,涉及一种用户网络行为分析方法和系统。
背景技术
随着因特网的广泛应用和日益普及,网络用户(以下简称用户)已经数以亿计。通常用户在浏览网站时,会与网站服务器之间发送和接收经由因特网的报文。图1为现有技术中用户与网站服务器进行交互的示意图,用户利用不同类型的用户终端,通过因特网与不同网站服务器进行连接,进行报文交互。对用户浏览网站的行为进行分析越来越受到关注,用户行为分析可定义为:根据用户的历史行为,对有关数据进行统计、分析,从而分析出用户的需求或用户可能即将要做的事情。相对应地,可将利用网络报文还原用户行为理解为:利用用户的网络报文记录,分析用户行为,并试图还原用户的上网意图。
通过用户行为分析,可发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据,也可以更有针对性地提供各种网络服务,例如,可以根据用户行为分析得出用户喜好,在用户浏览网站时弹出针对用户喜好的广告。用户行为分析应该包含以下重点分析数据:用户在网站的停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数;注册用户和非注册用户,分析两者之间的浏览习惯;用户所使用的搜索引擎、关键词、关联关键词和站内关键字;用户选择什么样的入口形式(广告或者网站入口链接)更为有效;用户访问网站流程,用来分析页面结构设计是否合理;用户在页面上的网页热点图分布数据和网页覆盖图数据;用户在不同时段的访问量情况等。
一般而言,网站服务器会对访问该网站的用户与该网站服务器之间的网络报文进行日志数据记录,并可以基于所记录的日志数据进行相应的用户行为分析。例如,某搜索引擎网站A会记录用户的查询记录,基于这些记录,网站A可以分析用户的兴趣并建立用户轮廓,当用户在网站A进行进一步的关键字查询时,网站A可以基于用户轮廓,进行结果筛选,将筛选的结果作为用户最想要的结果返回给用户。
网站服务器会记录用户对本服务器的网络报文,从而形成用户在本网站服务器的访问记录,称为用户的局部视图。基于局部视图,网站服务器可以进行相应的用户行为分析。这种用户行为分析是基于某个网站服务器,但显然用户实际并不限于访问这一个网站服务器,因此这种用户行为分析仅为用户的局部行为分析。例如前文所述的,搜索引擎网站可以基于局部视图建立用户轮廓,优化其查询结果。
传统的用户行为分析主要基于单个网站服务器的网络报文信息,而在当前情况下,网站数量数以百万计,通常不同的用户因为各自不同的喜好,浏览各种各样的网站,不同用户会访问不同的网站,单个用户的很多行为通过跨网访问多个网站服务器实现,从而导致传统的用户行为分析方式无法有效地适用于现今的复杂状况。因此,现有技术中存在无法有效地解决资源与需求矛盾的缺点。例如:
1)若各个网站以自身的局部视图进行用户行为分析,将导致用于进行数据分析的大量软硬件资源的重复配置和巨大的人力资源浪费;
2)若网站为节省支出,不进行相应的用户行为分析,则可能导致漏掉大多数用户行为分析,进而导致用户友好性降低。
此外,用户通常会在一段时间内访问多个网站,而在现有技术中无法获取用户的跨网访问信息,因此无法获取用户访问各个网站服务器的全部网络报文,称为用户的全局视图,进而无法基于全局跨网网络报文信息还原用户行为。
发明内容
本发明通过布置于各个网络位置的多个网关,可获取通过各个网关的所有用户的通信网络报文,从而能够基于全局用户信息来用户网络访问行为进行分析。
为了解决上述技术问题,本发明提供了一种用户网络行为分析方法,其特征在于,包括以下步骤:步骤A:获取来自不同网络位置的一个以上网关的用户的网络访问信息;步骤B:对来自各所述网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息;步骤C:分别基于步骤B所得到各个用户各自的预处理后的网络访问信息,分析得到各用户的用户行为信息。
进一步,该方法还包括,由与所述一个以上网关中的一个或多个相连接的收集器或者所述一个以上网关对所述网络访问信息进行过滤,以获得以数据元组为基本信息单位表示的网络访问信息。
进一步,该方法还包括,所述数据元组的元素至少包括:用户标识,时间点和网络报文。
进一步,该方法还包括,所述步骤B和步骤C均通过分布式计算集群实现。
进一步,该方法还包括,利用收集器从各所述网关获取所述网络访问信息;以及利用所述分布式计算集群从所述收集器获取来自各所述网关的网络访问信息。
进一步,该方法还包括,所述网关和/或所述收集器按照设定规则存储所述网络访问信息,以及所述分布式计算集群根据所述设定规则生成用于下载所述网络访问信息的网络地址。
进一步,该方法还包括,在所述步骤C中,将用户在第一预设时段内连续访问一个或多个网站的网络访问信息,作为与该用户的一个网络行为事件所对应的用户行为信息。
进一步,该方法还包括,在所述步骤C中,统计用户在第二预设时段内针对各种类型网站的访问频率,作为表征该用户访问各类网站的偏好的用户行为信息。
本发明还提供一种用户网络行为分析装置,其特征在于,包括以下各单元:信息获取单元:用于获取来自不同网络位置的一个以上网关的用户的网络访问信息;信息汇总单元:用于对来自各所述网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息;行为分析单元:用于分别基于信息汇总单元所得到各个用户各自的预处理后的网络访问信息,分析得到各用户的用户行为信息。
进一步,该装置还包括,所述用户网络行为分析装置为分布式计算集群,从所述网关或从与所述网关相连接的收集器获取压缩后的来自各所述网关的网络访问信息。
进一步,该装置还包括,所述用户网络行为分析装置将用户在第一预设时段内连续访问一个或多个网站的网络访问信息作为与该用户的一个网络行为事件所对应的用户行为信息。
本发明还提供一种用户网络行为分析系统,其特征在于,包括:处于不同网络位置的一个以上的网关;一个以上的收集器,各所述收集器与所述网关中的一个或多个连接,用于从各所述网关收集用户的网络访问信息,以及根据如前文所述的用户网络行为分析装置,所述用户网络行为分析装置与所述一个以上的收集器连接,基于所得到各个用户各自的网络访问信息,分析得到各用户的用户行为信息。进一步,该系统还包括,所述一个以上的网关根据用户身份标识信息或者用户主机标识信息为每个用户分配一个唯一标识符。
与现有技术相比,本发明至少具有以下优点:
现有技术从各自网站出发,只能获取本网站的用户访问信息。本发明引入配置在不同网络位置的多个网关设备,可以获取用户的通过多个网关的所有通信网络报文,从而解决了现有技术中无法基于跨网通信的网络报文来分析用户网络行为的难题;
本发明提出了基于通信网络报文信息来还原用户行为的方法,相比传统基于访问日志来还原用户行为的方法,本发明解决了传统的用户行为分析方法中无法对用户访问除本网站外的其他网站的行为进行分析和/或无法对单个用户跨网访问不同的网站的行为进行分析的难题。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的各实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为现有技术中用户与网站服务器进行交互的示意图;
图2为根据本发明实施例一的用户网络行为分析的流程图;
图3为本发明实施例一中用户与网站服务器进行数据交互的示意图;
图4为本发明实施例一中根据图3的数据交互方式的数据还原流程图;
图5为根据本发明实施例一的用户网络行为分析实例的流程图;
图6为根据本发明实施例二的用户网络行为分析系统的结构示意图;
图7为根据本发明实施例三的用户网络行为分析系统的结构框图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一
图2为根据本发明实施例一的用户网络行为分析方法的流程图,下面参照图2详细说明该方法的各步骤。
步骤S110,获取来自不同网络位置的一个以上网关的用户的网络访问信息。
图3为本发明实施例一中用户与网站服务器进行数据交互的示意图,图4为根据图3的数据交互方式的数据还原流程图。在本实施例中,在各服务器端与各用户之间进行信息交互的因特网中部署有多个(两个以上)网关。这些网关可位于不同的网络位置,服务于各自的网络,用于提供协议转换、路由选择、数据交换等,在本发明中主要用于获取用户的网络访问信息。更具体地,不同网络位置可以指不同的地理位置,也可以指处于同一地理位置但处于不同网络/子网络位置。此处的不同网络可以是不同的以太网子网、不同的城域网或甚至可以是不同的网络类型,例如3g网络或LTE网络等无线网络。此外,这些网关可以部署在与用户端或服务器端相同或不同的网络(子网)中,以及,网关也可以部署在与用户端或服务器端相同或不同的物理位置。
根据部署在不同网络位置的各网关,能够在用户进行跨网络访问时(对多个网站访问,涉及多个网站服务器时),获取相应的跨网络的网络访问信息。
各网关获取网络用户的网络访问信息,在本实施例中,网络访问信息可优选地包括用户端发送给服务器端的请求信息,以及服务器端针对该请求信息作出响应的数据通信报文信息(也称网络报文信息)。此外,网络访问信息也可包括来自各网站服务器的用户访问记录等。
优选的,在每一个网关中,除了可以获取网络用户的网络访问信息外,还能够用于对用户身份进行唯一标识。具体的,在网关中可以利用cookie相关信息等用户身份标识信息或者计算机MAC地址等用户主机标识信息,在用户访问时给每个用户分配一个唯一标识符UID,进而在每个用户每次访问网关时可以标识每个用户的唯一性。在此处对用户进行身份识别和标识,可以使后续处理中减轻负担,在后续处理中,仅将此处对用户进行的身份识别进行汇总和排序即可,无需增加额外的身份识别处理。
这些网关可对用户在某个时刻产生的网络访问信息进行过滤后存储为以数据元组表示的网络访问信息,例如,数据元组可表示为{用户标识,时间点,网址,网络报文},也可以在未进行过滤的情况下,将未过滤的网络访问信息直接传送至收集器(下文将详细说明)。
如图4所示,其中,将从一个网关所获取的一个用户访问一个网页的网络访问信息称为单点信息,通过特定网页或网站的选择确定单点信息。将从一个以上网关所获取的一个用户的所有网络访问信息称为多点信息。
其中,单点信息与多点信息均可以通过数据元组来表示,为用户在一个或多个时间点上产生的数据信息的集合。
需要强调的是,在本发明中,多点信息是用户访问多个网站服务器时产生的网络访问信息,既可以是从单一网络的两个网关获取的网络访问信息,也可以是从跨网的两个以上网关获取的网络访问信息。
各网关记录用户和网站服务器之间的通信细节,数据元组是各网关收集网络访问信息数据的基本信息单位。可以从网关数据中过滤相关字段后获取以一个数据元组表示的基本信息单位{用户标识,时间点,网址,网络报文},其中时间点表示用户发送/接收该网络报文的时间点。
需要说明的是,数据元组的格式不限于上述表示方式,数据元组中的元素也可以仅包括用户、时间点、网址这三个元素,以及也可以包括除上述三个元素之外的例如网络连接类型、访问内容类型、以及相关访问日志信息等元素。
根据本步骤,从各个网关获取用户的单点信息和/或多点信息。
S120,对来自各网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息。
更具体地,分布式计算集群获取来自各网关的网络访问信息,亦即可以在分布式计算集群中对来自各个网关中的网络访问信息进行汇总,然后并按照用户标识(用户ID)对所汇总的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息。其中,优选的,对先前步骤中对用户所分配的用户UID进行汇总和排序,以用于汇总用户对应的网络访问信息。换而言之,经过预处理后,可得到与每个用户在各个时间点访问各个网站相关的网络访问信息的集合。其中,所进行的预处理可包括依据用户ID进行重组以获得针对各个用户标识的网络访问信息,还可包括对同一用户标识的网络访问信息按照时间排序以获得针对各用户标识的按时间顺序排列的网络访问信息,还可包括合并处理,例如,可以得到某一时间段内,访问某个网站的用户的集合,并且,可以进一步根据用户所在地域、访问网站频道的不同,可以对这些用户进行细分,从而完成对于用户群的行为探索。例如,可以采用适用于大规模数据集的并行运算的编程模型例如MapReduce编程模型等来进行依据用户ID进行重组、合并和按照时间排序。具体的,在MapReduce编程模型中,指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,以及指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个键值共享相同的键组。以上方式仅作为优选,本实施例并不局限于此方式。
由此可得到,每一个用户在一个时间序列内与各个网站的各个服务器之间交互的详细网络访问信息。
优选地,考虑到存在多个网关,各个网关分别存储各自的网络访问信息数据可能导致一定的负载不平衡及资源浪费。为了整合(汇总)各个网关所存储的网络访问信息数据或者包含这些数据的日志数据,并将他们布置到分布式计算集群中,还可以设置一组收集器,将各个收集器与一个或多个网关设备连接。这样,各网关可以不将网络访问信息存储在本地存储器中或者不将数据直接传送至分布式计算集群,而是将网络访问信息传送至与网关连接的收集器之一中,而分布式计算集群从收集器中获取网络访问信息,更具体地,由分布式计算集群中负责数据网络访问信息下载及存取、汇总后数据写入等数据存取功能的节点从收集器中获取网络访问信息。增加设置一组收集器能够起到负载节点均衡的作用,并且减小了网关的负荷。图4示意性地示出了网关与收集器的数据传输关系,其中,收集器与网关不限于一对一的关系。
为了减小传输网络访问信息的带宽消耗,可以在将网络访问信息发送至分布式计算集群之前对其进行压缩,该压缩处理可由收集器或网关执行。换而言之,优选地,分布式计算集群获取压缩后的来自各网关的网络访问信息。优选地,处于网络中各个节点的收集器中提供基于http、ftp和/或其它网络协议的数据下载服务,分布式计算集群中的数据管理装置通过收集器提供的数据下载服务获取压缩或未压缩的网络访问信息数据。
优选地,可在收集器或网关中将网络访问信息按照设定的规则进行存储,这样,分布式计算集群可以通过程序根据所述预设的规则来生成用于下载各收集器或网关中的网络访问信息数据的网络地址,分布式计算集群根据所生成的网络地址来获取来自网关的网络访问信息。
更具体地,分布式计算机集群可包括一任务分发设备,该任务分发设备可以是一个物理实体或逻辑体,负责任务的分发。任务分发设备运行一个任务,这个任务的输入源为所生成的网络地址。在计算的分发阶段,任务分发设备可通过将网络地址分配给相应的计算机集群的各节点,由各节点根据由任务分发设备分发的网络地址将网络访问信息下载至节点各自的本地存储器。从而实现对来自各网关的用户网络访问信息(单点信息和/或多点信息)进行预处理,以获得预处理后的各个用户的网络访问信息。
例如,上述设定的规则可以为一定的时间规律。此时,一方面,收集器可对所收集的网络访问信息按时间进行排序,并以时间点来对一定时间段(例如10分钟或者20分钟等)内收集的数据以时间为文件名进行命名。另一方面,分布式计算集群按照同样的规则来生成文件名,并基于该文件名及各收集器的网络地址来生成用于下载以该文件名存储的网络访问信息数据文件的网络地址。
再如,上述设定的规则还可以为一定的文件大小规则。此时,一方面,收集器将网络访问信息存储为固定大小文件,并对文件顺序编号,另一方面,分布式计算集群按照同样的规则(即顺序编号)来生成文件名。
此外,在另一个实施例中,也可以将网关数据过滤相关字段后获取以一个数据元组表示的基本信息单位的操作设置在相应的收集器中。也就是说,此时收集器所收集的数据为未经过滤的网关数据。
步骤S130,分别基于步骤S120所得到的各个用户各自的预处理后网络访问信息,分析各用户的用户行为信息。
本步骤所获得的用户行为信息是指用户在通过网络所进行的例如搜索、广告点击、购物和/或其它网络行为的信息。其中,用户行为信息不限于一段时间内,也可以是用户长期的一些喜好。
通常情况下,单个用户的上网行为是在一个时间段内产生的,其所产生的通信网络报文通常对应于多点信息。因此,本发明的预处理后网络访问信息所体现的是用户的多点信息,亦即用户的多网站服务器甚至跨网络访问信息。相对于传统的基于单点信息的用户网络行为分析方法,本发明基于多点信息来分析用户的用户网络行为,更能够全面地体现用户真实的网络访问行为,能够为服务提供商提供更有价值的用户行为信息。
作为一个优选实施例,在本发明中,可将某一用户在第一预设时段(即第一预设时间)内(例如,10分钟至30分钟等)连续访问一个或多个网站的多点信息作为与该用户的一个事件流(网络行为事件)所对应的用户行为信息,并将所述一个或多个网站视为该用户行为的关联网站。例如,用户进行网上购物时,首先会在网上调研欲购买物品的价格、性能等,然后选择某购物平台(比如:淘宝网或京东商城)进行相应的物品浏览与购买,这个过程构成用户的一个网络行为事件。本实施例中利用用户的事件流特征,基于体现多点信息的汇总数据还原用户行为,得到用户行为信息。
再如,作为一个例子,还可以将一用户在一个第二预设时段内(即第二预设时间,例如,数天或数十天等)内针对各种类型网站的访问频率,作为表征用户访问各类网站的偏好等用户行为信息。
用户行为与很多因素相关联,比如用户需求、网站服务器提供的服务、网站服务器之间的关联度等,这导致了用户行为的多样性与复杂性。在本实施例中,通过以下描述,以搜索引擎查询行为、广告点击行为、购物行为为例,来分析出用户行为信息。
1)搜索引擎查询行为:
部署的网关可获取用户在搜索引擎的查询记录示例如下:
(用户A,时间点1,搜索引擎网址B,查询的关键词C)
(用户A,时间点2,点到的网址D)
基于如上信息,可以还原用户A的搜索引擎查询行为,即可以知晓用户A在时间点1到时间点2之间使用搜索引擎B,进行了关键词C的查询,并基于查询结果,点到相应的网址D。
2)广告点击行为:
与上例相似,部署的网关可获取用户的广告点击记录示例如下:
(用户A,时间点1,广告所在的网址B,广告C的网址)
(用户A,时间点2,点到的广告C网址)
基于如上信息,可以还原用户A的广告点击行为,即可以知晓用户A在时间点1到时间点2之间在广告所在的网址B,进行了广告C的点击。
3)购物行为
与以上各例相似,部署的网关可获取用户的购物记录示例如下:
(用户A,时间点1,购物网址B)
(用户A,时间点2,商品名C,购物车网址)
(用户A,时间点3,支付页面网址)
基于如上信息,可以还原用户A的购物行为,即可以知晓用户A在时间点1到时间点3之间在购物网址B购买了商品C。
此外,如果汇总数据中,仅包含单个用户的单点信息,则基于该单点信息对用户行为进行还原以得到用户行为信息,还原方法可类似于现有技术中的用户行为还原方法,但在本实施例中,由于获取了通过部署在不同地理位置的网关的所有用户的通信网络报文,具有可对绝大多数用户进行用户行为分析的优点,因此,即便仅对单点信息进行用户行为的还原,也可解决现有技术中资源与需求的矛盾。
下面将以搜索引擎查询行为为例,说明用户行为还原的一个实例。
部署的网关可获取用户在搜索引擎的查询记录,并且会为该用户分配一个唯一的可以标识的用户ID。例如,记录的形式为:
visit_time|user_id|user_ip|area|host|uri|refer_engine_id|refer_host|refer_uri|refer_keyword
各个字段的含义如下:
visit_time:访问时间
user_id:用户id
user_ip:用户ip
area:用户地域id
host:用户访问网站
uri:用户访问路径
refer_engine_id:refer搜索引擎id:(00000000表示refer不是搜索引擎)
refer_host:refer host
refer_uri|:refer全路径
refer_keyword:refer中的搜索明文
在某两个时刻,用户请求搜索引擎的日志如下:
2011-03-1011:00:01|600487742|115.196.255.224|21020000|video.A.com|/|00000000|||
2011-03-1011:00:05|1600487742|115.196.255.224|21020000|video.A.com|/d?m=uss&word=鲜花|00000000|||
在某个时刻,用户访问其他网站行为的日志如下所示:
2011-03-1011:00:03|1600487742|115.196.255.224|21020000|video.B.com|/wiki/blog/aaa.html|00000001|video.A.com|/d?m=uss&word=鲜花|鲜花
在分布式计算集群中运行程序完成一个Join操作,可以将即将用户的搜索行为和访问行为进行一个连接,得到1600487742|video.A.com|走西口|video.B.com|/wiki/blog/aaa.html。至此,可以还原用户的上网行为:uid为1600487742的网民,在A搜索引擎的首页上搜索“鲜花”,之后在A的搜索结果中点击了B网站的一条地址为http://video.B.com/wiki/blog/aaa.html的URL。
实施例二
图6为根据本发明实施例二的用户网络行为分析装置的结构框图。下面参照图6详细说明该装置的组成。该装置包括:
信息获取单元:用于获取来自不同网络位置的一个以上网关的用户的网络访问信息。
信息汇总单元:用于对来自各网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息。
行为分析单元:用于分别基于信息汇总单元所得到各个用户各自的预处理后的网络访问信息,分析得到各用户的用户行为信息。
优选的,该用户网络行为分析装置为一分布式计算集群,从网关或从与网关相连接的收集器获取压缩后的来自各网关的网络访问信息。该用户网络行为分析装置将一用户在第一预设时段内连续访问一个或多个网站的网络访问信息作为与该用户的一个网络行为事件所对应的用户行为信息。
实施例三
图7为根据本发明实施例三的用户网络行为分析系统的结构框图。下面参照图7详细说明该系统的组成。该系统包括:
处于不同网络位置的一个以上的网关。
一个以上的收集器,各收集器与网关中的一个或多个连接,用于从网关收集网络用户的网络访问信息。以及
根据实施例二中描述的用户网络行为分析装置,所述用户网络分析装置与所述一个以上的收集器连接。基于所得到各个用户的网络访问信息,分析得到各用户的用户行为信息。优选的,在每一个网关中,除了可以获取网络用户的网络访问信息外,还能够用于对用户身份进行唯一标识。具体的,在网关中可以利用cookie相关信息等用户身份标识信息或者计算机MAC地址等用户主机标识信息,在用户访问时给每个用户分配一个唯一标识符UID,进而在每个用户每次访问网关时可以标识每个用户的唯一性。
本领域的技术人员应该明白,上述的本发明的各模块(装置)或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (13)
1.一种用户网络行为分析方法,其特征在于,包括以下步骤:
步骤A:获取来自不同网络位置的一个以上网关的用户的网络访问信息;
步骤B:对来自各所述网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息;
步骤C:分别基于步骤B所得到各个用户各自的预处理后的网络访问信息,分析得到各用户的用户行为信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
由与所述一个以上网关中的一个或多个相连接的收集器或者所述一个以上网关对所述网络访问信息进行过滤,以获得以数据元组为基本信息单位表示的网络访问信息。
3.根据权利要求2所述的方法,其特征在于,
所述数据元组的元素至少包括:用户标识,时间点和网络报文。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述步骤B和步骤C均通过分布式计算集群实现。
5.根据权利要求4所述的方法,其特征在于,
利用收集器从各所述网关获取所述网络访问信息;以及
利用所述分布式计算集群从所述收集器获取来自各所述网关的网络访问信息。
6.根据权利要求5所述的方法,其特征在于,
所述网关和/或所述收集器按照设定规则存储所述网络访问信息,以及
所述分布式计算集群根据所述设定规则生成用于下载所述网络访问信息的网络地址。
7.根据权利要求5或6所述的方法,其特征在于,在所述步骤C中,
将用户在第一预设时段内连续访问一个或多个网站的网络访问信息,作为与该用户的一个网络行为事件所对应的用户行为信息。
8.根据权利要求5或6任一项所述的方法,其特征在于,在所述步骤C中,
统计用户在第二预设时段内针对各种类型网站的访问频率,作为表征该用户访问各类网站的偏好的用户行为信息。
9.一种用户网络行为分析装置,其特征在于,包括以下各单元:
信息获取单元:用于获取来自不同网络位置的一个以上网关的用户的网络访问信息;
信息汇总单元:用于对来自各所述网关的网络访问信息进行预处理,以获得各个用户各自的预处理后的网络访问信息;
行为分析单元:用于分别基于信息汇总单元所得到各个用户各自的预处理后的网络访问信息,分析得到各用户的用户行为信息。
10.根据权利要求9所述的用户网络行为分析装置,其特征在于,
所述用户网络行为分析装置为分布式计算集群,从所述网关或从与所述网关相连接的收集器获取压缩后的来自各所述网关的网络访问信息。
11.根据权利要求9所述的用户网络行为分析装置,其特征在于,
所述用户网络行为分析装置将用户在第一预设时段内连续访问一个或多个网站的网络访问信息作为与该用户的一个网络行为事件所对应的用户行为信息。
12.一种用户网络行为分析系统,其特征在于,包括:
处于不同网络位置的一个以上的网关;
一个以上的收集器,各所述收集器与所述网关中的一个或多个连接,用于从各所述网关收集用户的网络访问信息,以及
根据权利要求9至11中任一项所述的用户网络行为分析装置,所述用户网络行为分析装置与所述一个以上的收集器连接,基于所得到各个用户各自的网络访问信息,分析得到各用户的用户行为信息。
13.根据权利要求12所述的系统,其特征在于,
所述一个以上的网关根据用户身份标识信息或者用户主机标识信息为每个用户分配一个唯一标识符。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103005215A CN102364468A (zh) | 2011-09-29 | 2011-09-29 | 一种用户网络行为分析方法、装置和系统 |
PCT/CN2011/084922 WO2013044564A1 (zh) | 2011-09-29 | 2011-12-29 | 一种用户网络行为分析方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011103005215A CN102364468A (zh) | 2011-09-29 | 2011-09-29 | 一种用户网络行为分析方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102364468A true CN102364468A (zh) | 2012-02-29 |
Family
ID=45691034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011103005215A Pending CN102364468A (zh) | 2011-09-29 | 2011-09-29 | 一种用户网络行为分析方法、装置和系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN102364468A (zh) |
WO (1) | WO2013044564A1 (zh) |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102984234A (zh) * | 2012-11-19 | 2013-03-20 | 北京奇虎科技有限公司 | 一种通信系统和网络内容的访问控制方法 |
CN103020126A (zh) * | 2012-11-19 | 2013-04-03 | 北京奇虎科技有限公司 | 网络内容的访问控制方法和装置 |
CN103118111A (zh) * | 2013-01-31 | 2013-05-22 | 北京百分点信息科技有限公司 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
CN103227791A (zh) * | 2013-04-26 | 2013-07-31 | 亿赞普(北京)科技有限公司 | 一种无线数据采集的方法及装置 |
CN103248677A (zh) * | 2013-04-24 | 2013-08-14 | 深圳天源迪科信息技术股份有限公司 | 互联网行为分析系统及其工作方法 |
CN103546305A (zh) * | 2012-07-13 | 2014-01-29 | 中兴通讯股份有限公司 | 网络质量信息的统计方法及系统 |
CN103595692A (zh) * | 2012-08-13 | 2014-02-19 | 中兴通讯股份有限公司 | 一种通过家庭网关分析用户网络行为的方法和系统 |
CN103761296A (zh) * | 2014-01-20 | 2014-04-30 | 北京集奥聚合科技有限公司 | 移动终端用户网络行为分析方法及系统 |
CN103780690A (zh) * | 2014-01-20 | 2014-05-07 | 北京集奥聚合科技有限公司 | 用户数据的安全共享方法和系统 |
CN103916255A (zh) * | 2012-12-30 | 2014-07-09 | 航天信息股份有限公司 | 对多个服务应用系统进行统一管理的方法和系统 |
CN104486350A (zh) * | 2014-12-24 | 2015-04-01 | 电子科技大学 | 一种基于用户行为的网络内容加速方法 |
CN104639565A (zh) * | 2015-03-06 | 2015-05-20 | 成都维远艾珏信息技术有限公司 | 一种从服务器访问资源的方法 |
CN104657491A (zh) * | 2015-03-06 | 2015-05-27 | 成都维远艾珏信息技术有限公司 | 一种向客户端发送数据的方法 |
CN104679870A (zh) * | 2015-03-06 | 2015-06-03 | 成都维远艾珏信息技术有限公司 | 一种用于信息系统的数据获取的方法 |
CN104836707A (zh) * | 2015-06-04 | 2015-08-12 | 郑州悉知信息技术有限公司 | 一种用户在线情况检测方法、服务器、客户端及系统 |
CN105357054A (zh) * | 2015-11-26 | 2016-02-24 | 上海晶赞科技发展有限公司 | 网站流量分析方法、装置和电子设备 |
US9301126B2 (en) | 2014-06-20 | 2016-03-29 | Vodafone Ip Licensing Limited | Determining multiple users of a network enabled device |
CN105491158A (zh) * | 2016-01-15 | 2016-04-13 | 成都科来软件有限公司 | 一种基于网络数据流的http内容还原方法及系统 |
CN106295832A (zh) * | 2015-05-12 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 产品信息推送方法及装置 |
CN106656577A (zh) * | 2016-11-24 | 2017-05-10 | 中国通信建设集团设计院有限公司 | 一种app及浏览器的用户行为统计方法及智能路由器 |
CN107329992A (zh) * | 2017-06-07 | 2017-11-07 | 上海斐讯数据通信技术有限公司 | 一种网站分类排名的管理方法及管理系统 |
TWI611362B (zh) * | 2016-06-29 | 2018-01-11 | 個人化網路行銷推薦方法 | |
CN108093013A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 一种网页数据计算方法及服务器 |
TWI629652B (zh) * | 2015-04-30 | 2018-07-11 | 酷盈有限公司 | Intelligent network marketing analysis and judgment method |
CN108664552A (zh) * | 2018-04-02 | 2018-10-16 | 拉扎斯网络科技(上海)有限公司 | 一种用户偏好挖掘方法及装置 |
CN108846034A (zh) * | 2018-05-28 | 2018-11-20 | 贵州中科恒运软件科技有限公司 | 一种关于用户行为分析的方法 |
CN109063158A (zh) * | 2018-08-10 | 2018-12-21 | 赛尔网络有限公司 | 一种网站访问排名信息查询的方法、设备、系统及介质 |
CN109978595A (zh) * | 2017-12-28 | 2019-07-05 | 智媒科技股份有限公司 | 网络上识别用户的方法与系统 |
CN110011918A (zh) * | 2018-01-04 | 2019-07-12 | 中国科学院声学研究所 | 一种路由器协作的网址安全性检测方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103873583A (zh) * | 2014-03-24 | 2014-06-18 | 北京聚思信息咨询有限公司 | 基于云平台针对互联网用户行为进行分析的方法和系统 |
CN106651016B (zh) * | 2016-12-13 | 2020-08-04 | 重庆邮电大学 | 一种热点话题下动态预测用户行为的系统及方法 |
CN108270629B (zh) * | 2016-12-29 | 2020-07-31 | 北京国双科技有限公司 | 网站访客行为监测方法及装置 |
CN109377161B (zh) * | 2018-09-24 | 2022-08-12 | 宁波市轨道交通集团有限公司 | 一套用于城市轨道交通行业办公数据采集与用户行为分析的系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655868A (zh) * | 2009-09-03 | 2010-02-24 | 中国人民解放军信息工程大学 | 网络数据挖掘方法、网络数据推送方法及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070078725A1 (en) * | 2005-09-09 | 2007-04-05 | Marketsync, Inc. | Integrated customer fulfillment management |
CN102111453A (zh) * | 2011-03-04 | 2011-06-29 | 创博亚太科技(山东)有限公司 | 一种提取互联网用户网络行为的方法和系统 |
-
2011
- 2011-09-29 CN CN2011103005215A patent/CN102364468A/zh active Pending
- 2011-12-29 WO PCT/CN2011/084922 patent/WO2013044564A1/zh active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655868A (zh) * | 2009-09-03 | 2010-02-24 | 中国人民解放军信息工程大学 | 网络数据挖掘方法、网络数据推送方法及设备 |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103546305B (zh) * | 2012-07-13 | 2018-04-27 | 中兴通讯股份有限公司 | 网络质量信息的统计方法及系统 |
CN103546305A (zh) * | 2012-07-13 | 2014-01-29 | 中兴通讯股份有限公司 | 网络质量信息的统计方法及系统 |
CN103595692A (zh) * | 2012-08-13 | 2014-02-19 | 中兴通讯股份有限公司 | 一种通过家庭网关分析用户网络行为的方法和系统 |
CN103595692B (zh) * | 2012-08-13 | 2018-01-02 | 中兴通讯股份有限公司 | 一种通过家庭网关分析用户网络行为的方法和系统 |
CN103020126A (zh) * | 2012-11-19 | 2013-04-03 | 北京奇虎科技有限公司 | 网络内容的访问控制方法和装置 |
CN102984234B (zh) * | 2012-11-19 | 2016-06-01 | 北京奇虎科技有限公司 | 一种通信系统和网络内容的访问控制方法 |
CN103020126B (zh) * | 2012-11-19 | 2016-01-13 | 北京奇虎科技有限公司 | 网络内容的访问控制方法和装置 |
CN102984234A (zh) * | 2012-11-19 | 2013-03-20 | 北京奇虎科技有限公司 | 一种通信系统和网络内容的访问控制方法 |
CN103916255B (zh) * | 2012-12-30 | 2017-12-19 | 航天信息股份有限公司 | 对多个服务应用系统进行统一管理的方法和系统 |
CN103916255A (zh) * | 2012-12-30 | 2014-07-09 | 航天信息股份有限公司 | 对多个服务应用系统进行统一管理的方法和系统 |
CN103118111A (zh) * | 2013-01-31 | 2013-05-22 | 北京百分点信息科技有限公司 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
CN103118111B (zh) * | 2013-01-31 | 2017-02-08 | 北京百分点信息科技有限公司 | 一种基于多个数据交互中心的数据进行信息推送的方法 |
CN103248677A (zh) * | 2013-04-24 | 2013-08-14 | 深圳天源迪科信息技术股份有限公司 | 互联网行为分析系统及其工作方法 |
CN103248677B (zh) * | 2013-04-24 | 2016-01-27 | 深圳天源迪科信息技术股份有限公司 | 互联网行为分析系统及其工作方法 |
CN103227791B (zh) * | 2013-04-26 | 2016-04-13 | 亿赞普(北京)科技有限公司 | 一种无线数据采集的方法及装置 |
CN103227791A (zh) * | 2013-04-26 | 2013-07-31 | 亿赞普(北京)科技有限公司 | 一种无线数据采集的方法及装置 |
CN103780690B (zh) * | 2014-01-20 | 2015-09-30 | 北京集奥聚合科技有限公司 | 用户数据的安全共享方法和系统 |
CN103780690A (zh) * | 2014-01-20 | 2014-05-07 | 北京集奥聚合科技有限公司 | 用户数据的安全共享方法和系统 |
CN103761296A (zh) * | 2014-01-20 | 2014-04-30 | 北京集奥聚合科技有限公司 | 移动终端用户网络行为分析方法及系统 |
US9301126B2 (en) | 2014-06-20 | 2016-03-29 | Vodafone Ip Licensing Limited | Determining multiple users of a network enabled device |
CN104486350A (zh) * | 2014-12-24 | 2015-04-01 | 电子科技大学 | 一种基于用户行为的网络内容加速方法 |
CN104486350B (zh) * | 2014-12-24 | 2017-11-10 | 电子科技大学 | 一种基于用户行为的网络内容加速方法 |
CN104639565A (zh) * | 2015-03-06 | 2015-05-20 | 成都维远艾珏信息技术有限公司 | 一种从服务器访问资源的方法 |
CN104679870B (zh) * | 2015-03-06 | 2018-01-30 | 成都维远艾珏信息技术有限公司 | 一种用于信息系统的数据获取的方法 |
CN104657491A (zh) * | 2015-03-06 | 2015-05-27 | 成都维远艾珏信息技术有限公司 | 一种向客户端发送数据的方法 |
CN104679870A (zh) * | 2015-03-06 | 2015-06-03 | 成都维远艾珏信息技术有限公司 | 一种用于信息系统的数据获取的方法 |
CN104657491B (zh) * | 2015-03-06 | 2017-11-24 | 成都维远艾珏信息技术有限公司 | 一种向客户端发送数据的方法 |
CN104639565B (zh) * | 2015-03-06 | 2017-11-10 | 成都维远艾珏信息技术有限公司 | 一种从服务器访问资源的方法 |
TWI629652B (zh) * | 2015-04-30 | 2018-07-11 | 酷盈有限公司 | Intelligent network marketing analysis and judgment method |
CN106295832A (zh) * | 2015-05-12 | 2017-01-04 | 阿里巴巴集团控股有限公司 | 产品信息推送方法及装置 |
CN104836707A (zh) * | 2015-06-04 | 2015-08-12 | 郑州悉知信息技术有限公司 | 一种用户在线情况检测方法、服务器、客户端及系统 |
CN105357054A (zh) * | 2015-11-26 | 2016-02-24 | 上海晶赞科技发展有限公司 | 网站流量分析方法、装置和电子设备 |
CN105491158B (zh) * | 2016-01-15 | 2018-12-25 | 成都科来软件有限公司 | 一种基于网络数据流的http内容还原方法及系统 |
CN105491158A (zh) * | 2016-01-15 | 2016-04-13 | 成都科来软件有限公司 | 一种基于网络数据流的http内容还原方法及系统 |
TWI611362B (zh) * | 2016-06-29 | 2018-01-11 | 個人化網路行銷推薦方法 | |
CN108093013A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 一种网页数据计算方法及服务器 |
CN106656577A (zh) * | 2016-11-24 | 2017-05-10 | 中国通信建设集团设计院有限公司 | 一种app及浏览器的用户行为统计方法及智能路由器 |
CN106656577B (zh) * | 2016-11-24 | 2019-07-09 | 中国通信建设集团设计院有限公司 | 一种app及浏览器的用户行为统计方法及智能路由器 |
CN107329992A (zh) * | 2017-06-07 | 2017-11-07 | 上海斐讯数据通信技术有限公司 | 一种网站分类排名的管理方法及管理系统 |
CN109978595A (zh) * | 2017-12-28 | 2019-07-05 | 智媒科技股份有限公司 | 网络上识别用户的方法与系统 |
TWI680666B (zh) * | 2017-12-28 | 2019-12-21 | 智媒科技股份有限公司 | 網路使用者身份辨識方法與系統 |
CN110011918A (zh) * | 2018-01-04 | 2019-07-12 | 中国科学院声学研究所 | 一种路由器协作的网址安全性检测方法及系统 |
CN108664552A (zh) * | 2018-04-02 | 2018-10-16 | 拉扎斯网络科技(上海)有限公司 | 一种用户偏好挖掘方法及装置 |
CN108846034A (zh) * | 2018-05-28 | 2018-11-20 | 贵州中科恒运软件科技有限公司 | 一种关于用户行为分析的方法 |
CN109063158A (zh) * | 2018-08-10 | 2018-12-21 | 赛尔网络有限公司 | 一种网站访问排名信息查询的方法、设备、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2013044564A1 (zh) | 2013-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102364468A (zh) | 一种用户网络行为分析方法、装置和系统 | |
US8041806B2 (en) | Targeted electronic content delivery control systems and methods | |
CN101561825B (zh) | 媒体技术平台系统、数据采集系统和网络内容提供方法 | |
CN101018259B (zh) | 电信综合信息系统及方法 | |
CN103402177B (zh) | 一种WiFi终端信息推送系统及其实现方法 | |
CN101355587B (zh) | Url信息获取方法和装置及搜索引擎实现方法及系统 | |
US8671097B2 (en) | Method and system for log file analysis based on distributed computing network | |
CN104301436B (zh) | 待显示内容推送、订阅、更新方法及其相应的装置 | |
EP2830283B1 (en) | User behavior analysis method, and related equipment and system | |
CN101572629B (zh) | 一种ip数据的处理方法及装置 | |
US11461367B2 (en) | Multi-source data management mechanism and platform | |
CN105677842A (zh) | 基于Hadoop大数据处理技术的日志分析系统 | |
US20070136295A1 (en) | Computerized system and method for advanced advertising | |
JP2012520502A (ja) | 複数のアクセス統計サーバを統合して運営するシステム及びその方法 | |
TW201329890A (zh) | 店鋪訪問資料處理方法及系統 | |
CN103310087A (zh) | 业务数据统计分析方法和装置 | |
CN106067879B (zh) | 信息的检测方法及装置 | |
CN107580052A (zh) | 自演进的网络自适应爬虫方法及系统 | |
CN100571207C (zh) | 一种聚合rss信息的系统及方法 | |
CN110928681A (zh) | 数据的处理方法和装置、存储介质及电子装置 | |
Fijałkowski et al. | An architecture of a Web recommender system using social network user profiles for e-commerce | |
CN100366002C (zh) | 互联网共享接入检测系统 | |
CN100401676C (zh) | 一种对数据业务进行内容计费的方法 | |
CN201414134Y (zh) | 媒体技术平台系统和数据采集系统 | |
CN112699304A (zh) | 数据处理方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20120229 |