CN107526748A - 一种识别用户点击行为的方法和设备 - Google Patents

一种识别用户点击行为的方法和设备 Download PDF

Info

Publication number
CN107526748A
CN107526748A CN201610460602.4A CN201610460602A CN107526748A CN 107526748 A CN107526748 A CN 107526748A CN 201610460602 A CN201610460602 A CN 201610460602A CN 107526748 A CN107526748 A CN 107526748A
Authority
CN
China
Prior art keywords
user
url
internet log
url addresses
per family
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610460602.4A
Other languages
English (en)
Other versions
CN107526748B (zh
Inventor
张传武
梅峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610460602.4A priority Critical patent/CN107526748B/zh
Publication of CN107526748A publication Critical patent/CN107526748A/zh
Application granted granted Critical
Publication of CN107526748B publication Critical patent/CN107526748B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及大数据分析领域,提供一种识别用户点击行为的方法和装置,获取上网日志,其中,所述上网日志包括用户标识和URL地址;根据URL类型库,确定所述URL地址对应的户均访问次数;其中,所述URL类型库包括URL地址和户均访问次数的对应关系;若所述URL地址对应的户均访问次数小于预设的阈值,将所述上网日志识别为一次用户点击行为产生的日志。通过上述方案,解决了从海量上网日志中识别用户点击行为产生的URL。

Description

一种识别用户点击行为的方法和设备
技术领域
本发明涉及大数据分析领域,尤其涉及一种识别用户点击行为的方法和装置。
背景技术
随着移动互联网的发展,为了更好的服务于客户,运营商需要对用户的上网行为进行分析,但是运营商作为管道提供方,并没有用户访问互联网的点击行为数据,只能通过深度包检测(Deep Packet Inspection,DPI)技术对用户的上网日志进行识别。
DPI技术在分析IP包头的基础上,增加了对应用层的分析,是一种基于应用层的流量检测和控制技术。通过DPI设备输出的上网日志记录了用户在什么时间、什么地点、访问的目的地址(IP、URL)、产生了多少流量等信息。如下表所示:
序号 字段英文名称 字段中文含义
1 START_TIME 访问时间
2 MSISDN 手机号码
3 URL 访问URL
4 USER_AGENT 用户代理
5 Refer URL指向
6 ContentType HTTP请求内容类型
7 LAC 位置区码
8 CI 小区识别码
9 UP_FLUX 上行流量
10 DOWN_FLUX 下行流量
……
实际上,对于用户的每一次网页访问行为,浏览器都会发送HTTP请求给网站域名服务器,下载网页内容。但实际上网页的整个内容不是一个请求全部下载完成的,大致的顺序是:
1、对HTML的网页内容下载的顺序是从上到下,渲染的顺序也是从上到下,下载和渲染是同时进行的;
2、在渲染到页面的某一部分时,说明整个网页中,在这部分内容以上的部分都已经下载完成(并不是说该网页的所有相关联的元素都已经下载完,下面部分可能还没下载完成);
3、渲染页面时,如果遇到语义解释性的标签嵌入文件(JS脚本,CSS样式等),那么此时浏览器的下载过程会启用单独连接进行下载;
4、并且在下载后进行解析,解析过程中,停止页面所有往下元素的下载
5、样式表在下载完成后,将和以前下载的所有样式表一起进行解析,解析完成后,将对此前所有元素(含以前已经渲染的)重新进行渲染。
因此,用户的一次网页访问行为,在后台实际上是对应了很多个请求。例如,在使用浏览器访问腾讯公司网站www.qq.com过程中,浏览器发出的HTTP请求超过了120个,其中只有一个HTTP请求是由用户点击行为引起的,其他的HTTP请求是浏览器为了下载和显示该网站上的图片、广告等信息而自动发起的。而且,这些请求都会产生日志,并且在管道中记录下来。对于运营商来说,通过DPI识别的技术手段来分析上网日志,只能获知用户访问网站时,浏览器向服务器发送了哪些URL请求,而并不能真实的反映用户的兴趣点,即点击了哪些链接,对哪些内容感兴趣(因为有些日志不是用户点击行为产生的),因此,需要通过技术手段,在海量日志中,甄别出用户感兴趣的URL。
发明内容
本发明提供了一种用户点击行为识别的方法和装置,以实现从海量上网日志中识别用户点击行为产生的URL。
为达到上述目的,本发明的实施例采用如下技术方案:
第一方面,提供一种识别用户点击行为的方法,所述方法应用于用户点击行为识别装置,包括:获取上网日志,其中,所述上网日志包括用户标识和URL地址;根据URL类型库,确定所述URL地址对应的户均访问次数;其中,所述URL类型库包括URL地址和户均访问次数的对应关系;若所述URL地址对应的户均访问次数小于预设的阈值,将所述上网日志识别为一次用户点击行为产生的日志。从而,可以做到不依赖于现有互联网网站的实现方案和传输协议,完全通过大数据的算法进行识别,在基于运营商管道中海量的上网日志的情况下,通过对上网日志进行统计分析,大幅提升页面URL的识别率。
在一种可能的设计中,在所述获取用户的上网日志之前,所述方法还包括构建URL类型库,具体包括:获取预设数量的上网日志,并提取上网日志中的用户标识和URL地址;将提取到的用户标识和URL地址加入到用户上网日志表中;根据所述用户上网日志表,确定每个URL地址的户均访问次数;将用户上网日志表中的URL地址及对应的户均访问次数添加到URL类型库中。需要说明的是,获取上网日志的数量可以根据时间选取,例如,选择最近5分钟内的上网日志;也可以根据数量选取,例如选择最近的10000条上网日志。通过对运营商的上网日志进行分析,确定用户点击行为产生的页面URL和由系统自动触发产生的资源URL的户均访问量之间区别,便于了识别装置利用该区别进行URL类型的识别。
在一种可能的设计中,所述方法还包括:若所述URL地址对应的户均访问次数大于预设的阈值,将所述上网日志识别为一次非用户点击行为产生的日志。所述上网日志还包括访问所述URL地址的时间;所述方法还包括:根据访问所述URL地址的时间和所述用户标识,将所述上网日志与时间上最接近的一个用户点击行为产生的日志进行合并;其中,所述时间上最接近的一个用户点击行为产生的日志包含的用户标识与所述上网日志的用户标识相同。资源URL对应的上网日志都是由用户点击行为触发的,其本身并没有额外的附加价值,通过将其余对应的页面URL日志进行合并,可以简化运营商的上网日志,从而只保留由用户点击行为产生的上网日志,既节约了存储空间,也便于后期日志查找与管理。
第二方面,本发明实施例提供了一种用户点击行为识别装置,该用户点击行为识别装置具有实现上述第一方面中用户点击行为识别装置行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,用户点击行为识别装置的结构中包括处理器和存储器,所述存储器用于存储支持用户点击行为识别装置执行上述方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述数据库处理设备还可以包括通信接口,用于数据库处理设备与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机存储介质,用于储存为上述用户点击行为识别装置所用的计算机软件指令,其包含用于执行上述方面为用户点击行为识别装置所设计的程序。
可选的,上述方面所述的根据所述用户上网日志表,确定每个URL地址的户均访问次数,具体为:对于所述用户上网日志表中每个URL地址,统计所述每个URL地址在所述用户上网日志表中出现的次数以及对应的用户标识的数量;根据所述出现的数量以及对应的用户标识的数量,确定所述每个URL地址的户均访问次数。
相较于现有技术,本方案可以做到不依赖于现有互联网网站的实现方案和传输协议,完全通过大数据的算法进行识别,在基于运营商管道中海量的上网日志的情况下,通过算法可以大大提升页面URL的识别率。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
图1为本发明一实施例提供的用户点击行为识别装置的运行架构图;
图2为本发明一实施例提供的计算机设备示意图;
图3为本发明一实施例提供的一种用户点击行为识别的方法流程示意图;
图4为本发明一实施例提供的用户点击行为识别装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明具体实施例作进一步的详细描述。
图1描述了本发明一实施例涉及的用户点击行为识别装置的运行架构。该用户点击行为识别装置的运行架构100包括用户上网日志存储装置101、用户点击行为识别装置102。其中,用户上网日志存储装置101用于存储用户的上网日志,具体的该上网日志可以是由网络中的网关设备或流量控制设备等任意可以识别用户上网行为的设备采集并存储的。用户上网日志存储装置101可以是独立存在的存储设备,也可以是上述可以识别用户上网行为的设备的一个附属存储部件,本发明对用户上网日志存储装置101的具体形态不做限定。用户上网日志存储装置101存储的每一条上网日志包括用户标识和该上网日志对应的统一资源定位符(Uniform Resource Locator,URL),可选的,还包括该条上网日志对应的网络行为产生的流量,和/或该条上网日志对应的网络行为发生的时间。用户上网日志存储装置101中存储的上网日志中包括的URL主要包括两种类型:资源URL和页面URL,其中资源URL定义为在用户终端访问互联网页面的过程中,对应用户点击行为产生的URL,也是用户真实感兴趣的URL,例如用户在浏览器的地址栏中输入URL主动发起的URL、用户通过鼠标点击网页中的URL链接主动发起的URL等;而资源URL定义为在用户访问互联网页面的过程中,由用户终端自动发起的URL,例如用户终端根据服务器响应返回的网页,直接或者通过运算获得网页中的URL后,无需用户手动干预,自动发起的URL等。
用户点击行为识别装置102用于获取用户上网日志存储装置101上存储的上网日志,并提取上网日志中的URL,通过分析确定提取到的URL的类型。站在运营商管道日志的角度,资源URL请求量要远大于反映用户真实点击行为的页面URL。即对于页面URL,户均的URL日志访问次数接近1,对于资源URL,户均的URL日志访问次数大于1。因此,对于户均的URL日志访问次数,通过合理的阈值设置,可以判断出来URL的类型。
流量详单分析装置103用于根据用户点击行为识别装置102确定的URL的类型,对用户的上网日志进行合并,以便于确定用户的每一次点击行为产生的流量大小。当前运营商只能让用户查询流量的计费清单,无法告知用户的具体上网详单,因此,用户经常会因为资费问题投诉运营商。通过用户点击行为识别装置102确定的URL的类型后,流量详单分析装置103可以准确统计用户每一次点击行为产生的流量大小(包括访问页面URL和为了显示该页面URL而自动发起的资源URL的访问产生的流量),从而可以有效支撑客服系统查询用户的上网详单,解决用户投诉问题。
进一步的,上网行为偏好分析装置104用于根据用户点击行为识别装置102确定的URL的类型,提取由用户点击行为产生的上网日志,通过对该用户点击行为产生的上网日志中的URL进行分析,从而可以有效的了解用户的上网行为,通过对用户上网行为的偏好挖掘,对客户进行画像,支撑流量相关业务的精准推荐。
如图2所示,图1中的用户点击行为识别装置102可以以图2中的计算机设备(或系统)的方式来实现。
图2所示为本发明实施例提供的计算机设备示意图。计算机设备200包括至少一个处理器201,通信总线202,存储器203以及至少一个通信接口204。
处理器201可以是一个通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。
通信总线202可包括一通路,在上述组件之间传送信息。所述通信接口204,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(Wireless Local Area Networks,WLAN)等。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
其中,所述存储器203用于存储执行本发明方案的程序代码,并由处理器201来控制执行。所述处理器201用于执行所述存储器203中存储的程序代码。
在具体实现中,作为一种实施例,处理器201可以包括一个或多个CPU,例如图2中的CPU0和CPU1。
在具体实现中,作为一种实施例,计算机设备200可以包括多个处理器,例如图2中的处理器201和处理器208。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在具体实现中,作为一种实施例,计算机设备200还可以包括输出设备205和输入设备206。输出设备205和处理器201通信,可以以多种方式来显示信息。例如,输出设备205可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备206和处理器201通信,可以以多种方式接受用户的输入。例如,输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。
上述的计算机设备200可以是一个通用计算机设备或者是一个专用计算机设备。在具体实现中,计算机设备200可以是台式机、便携式电脑、网络服务器、掌上电脑(Personal Digital Assistant,PDA)、移动手机、平板电脑、无线终端设备、通信设备、嵌入式设备或有图2中类似结构的设备。本发明实施例不限定计算机设备200的类型。
如图1中的用户点击行为识别装置102可以为图2所示的设备,用户点击行为识别装置的存储器中存储了一个或多个软件模块(例如:交互模块、URL类型识别模块等)。用户点击行为识别装置可以通过处理器以及存储器中的程序代码来实现软件模块,实现上网日志中的URL类型的识别。
基于如图1所示的系统架构图,为更加清楚描述用户点击行为的识别过程,本发明实施例提供一种识别用户点击行为的方法的流程示意图,所述方法应用于用户点击行为识别装置,具体可以是网络中的网关或者服务器。如图3所示,本实施例的识别用户点击行为的方法可以包括:
S301、获取用户的上网日志,其中所示上网日志包括所述用户的用户标识和URL地址;
S302、根据URL类型库,确定所述URL地址对应的户均访问次数;其中,所述URL类型库包括URL地址和户均访问次数的对应关系;
S303、若所述URL地址对应的户均访问次数小于预设的阈值,将所述上网日志识别为一次用户点击行为产生的日志。
首先,步骤S301中的上网日志可以是由网络中的网关设备采用深度包检测技术(Deep Packet Inspection,DPI)对用户的上网行为进行分析,并将分析结果作为日志的形式存储在用户上网日志存储装置101中。
所述上网日志记录了什么用户访问了什么URL地址,包括用户标识和该上网日志对应的URL地址,可选的,还包括该条上网日志对应的网络行为产生的数据流量,和/或该条上网日志对应的网络行为发生的时间。所述用户标识用于标识用户的身份,例如可以是手机号码等。
其次,在步骤302中,用户点击行为识别装置提取获取到的上网日志中的URL地址,并查询URL类型库,确定所述URL地址对应的户均访问次数。
具体的,当一个用户访问某个网站的A新闻和B新闻的时候,除了产生A和B这两个页面URL对应的上网日志外,还会产生相关的资源URL对应的上网日志,并且相关资源URL会出现两次。这样,站在运营商管道的角度,每个用户访问一个页面新闻,相关的资源URL每次都会被请求。每天成千上万的用户通过运营商的管道访问互联网,则在上网日志的记录中,资源URL请求量要远大于反映用户真实点击行为的页面URL请求量。因此,正常情况下,在一段时间内:
1、每个用户对于同一个页面URL的访问只会一次,但是不排除访问2次或者多次,但是从全网的角度来看,每个页面URL的户均访问次数接近于1.
2、一个用户对于一个网站的访问,很少会出现只访问一个页面,就不再访问的情况。即从全网的角度,每个网站的户均访问次数肯定大于1。也就是资源URL的户均访问次数是肯定大于1的。
3、基于统计算法,计算一段时间内,用户访问的日志量,统计出所有用户对于每个URL的访问次数,然后计算每一个URL的户均访问次数。
所述URL类型库中记录有每一个URL地址和户均访问次数的对应关系。
其中,在一种可能的设计中,用户点击行为识别装置维护一个用户上网日志表,该用户上网日志表的数据结构为:用户标识:URL地址。URL类型库的构建包括offline阶段和online阶段。
在offline阶段,用户点击行为识别装置获取预设数量的上网日志,并提取上网日志中的用户标识和URL地址,将提取到的用户标识和URL地址加入到用户上网日志表中。具体的,获取的上网日志数量可以根据时间选取,例如,选择最近5分钟内的上网日志;也可以根据数量选取,例如选择最近的10000条上网日志。
用户点击行为识别装置根据用户上网日志表,确定每个URL的户均访问次数,并将用户上网日志表中去重后的每个URL及对应的户均访问次数添加到URL类型库中。可选的,清空所述用户上网日志表。
其中,所述根据所述用户上网日志表,确定每个URL地址的户均访问次数,具体为:对于所述用户上网日志表中每个URL地址,统计所述每个URL地址在所述用户上网日志表中出现的次数以及对应的用户标识的数量;根据所述出现的数量以及对应的用户标识的数量,确定所述每个URL地址的户均访问次数。
如表1所示,示例性的给出了一个可能的用户上网日志表,需要说明的是,该表中第三列URL标识是为了便于指代URL地址而设置的,在实际的用户上网日志表中不是必需的。
所述用户点击行为识别装置根据用户上网日志表,确定每个URL的户均访问次数,并将用户上网日志表中的URL及对应的户均访问次数添加到URL类型库中,具体为:
对于URL1而言,总共被访问的次数为2次,涉及13812345678、13987654321这两个用户标识,因此,URL1的户均访问次数=URL1总共被访问的次数/URL1对应的用户标识的数量=2/2=1;
对于URL2~URL7而言,分别被访问过4次,涉及13812345678、13987654321这两个用户标识,因此,URL2~URL7的户均访问次数=总共被访问的次数/对应的用户标识的数量=4/2=2;
同理,URL8、URL9的户均访问次数=1。
分别将(URL1,1)、(URL2,2)、(URL3,2)、(URL4,2)、(URL5,2)、(URL6,2)(URL7,2)、(URL8,1)和(URL9,1)添加进URL类型库。
在Online阶段,用户点击行为识别装置每次获取用户的上网日志,提取上网日志中的URL地址,并根据URL类型库,确定该URL地址对应的户均访问次数的时候,都将获取到的用户标识和URL地址添加到用户上网日志表中。每隔一定时间周期或者当用户上网日志表中的记录数量达到一定数量(如10000条)时,用户点击行为识别装置扫描用户上网日志表,确定用户上网日志表中的每个URL及对应的户均访问次数,并将确定的每个URL及对应的户均访问次数更新到URL类型库中。将确定的每个URL及对应的户均访问次数更新到URL类型库中,具体为:如果在URL类型库中已经存在该URL地址的记录,则将确定的户均访问次数与URL类型库中的户均访问次数取加权平均,并将加权平均后的值更新到URL类型库中;如果在URL类型库中不存在该URL地址的记录,则将该URL地址及确定的户均访问次数添加到URL类型库中。
最后,在步骤303中,确定上网日志中的URL地址对应的户均访问次数,将其与预设的阈值进行比较,若所述URL地址对应的户均访问次数小于预设的阈值,将所述上网日志识别为一次用户点击行为产生的日志;反之,若所述URL地址对应的户均访问次数大于预设的阈值,将所述上网日志识别为一次非用户点击行为产生的日志。其中,所述预设的阈值为接近于1的数值,其数值的具体大小,可以根据现网中的情况进行调整。
在一种可能的设计中,所述上网日志中还包括所述URL地址的时间;所述方法还包括:
根据访问所述URL地址的时间和所述用户标识,将所述上网日志与时间上最接近的一个用户点击行为产生的日志进行合并;其中,所述时间上最接近的一个用户点击行为产生的日志包含的用户标识与所述上网日志的用户标识相同。资源URL对应的上网日志都是由用户点击行为触发的,其本身并没有额外的附加价值,通过将其余对应的页面URL日志进行合并,可以简化运营商的上网日志,从而只保留由用户点击行为产生的上网日志,既节约了存储空间,也便于后期日志查找与管理。
进一步的,所述上网日志中还包括访问所述URL地址产生的数据流量,将所述上网日志与时间上最接近的一个用户点击行为产生的日志进行合并包括将所述上网日志中的数据流量与时间上最接近的一个用户点击行为产生的日志中的数据流量进行叠加。
本方案相对于现有的技术方案,可以做到不依赖于现有互联网网站的实现方案和传输协议,完全通过大数据的算法进行识别,在基于运营商管道中海量的上网日志的情况下,通过算法可以大大提升页面URL的识别率。
本发明实施例还描述了上述方法实施例属于同一发明构思下的一种用户点击行为识别装置结构示意图。如图4所示,该用户点击行为识别装置400用于执行图1和图3所述实施例中用户点击行为识别装置的功能,包括:获取单元401,确定单元403和识别单元405。
其中,获取单元401,用于获取上网日志,其中,所述上网日志包括用户的用户标识和URL地址;确定单元403,用于根据URL类型库,确定所述URL地址对应的户均访问次数;其中,所述URL类型库包括URL地址和户均访问次数的对应关系;识别单元,用于若所述URL地址对应的户均访问次数小于预设的阈值,将所述上网日志识别为一次用户点击行为产生的日志。
在一种可能的实现方式中,所述装置还包括构建URL类型库单元407,用于在所述获取单元401获取用户的上网日志之前,获取预设数量的上网日志,并提取上网日志中的用户标识和URL地址;将提取到的用户标识和URL地址加入到用户上网日志表中;根据所述用户上网日志表,确定每个URL地址的户均访问次数;将用户上网日志表中的URL地址及对应的户均访问次数添加到URL类型库中。
其中,所述根据所述用户上网日志表,确定每个URL地址的户均访问次数,具体为:对于所述用户上网日志表中每个URL地址,统计所述每个URL地址在所述用户上网日志表中出现的次数以及对应的用户标识的数量;根据所述出现的数量以及对应的用户标识的数量,确定所述每个URL地址的户均访问次数。
可选的,所述识别单元403还用于:若所述URL地址对应的户均访问次数大于预设的阈值,将所述上网日志识别为一次非用户点击行为产生的日志。
在一种可能的设计中,所述上网日志还包括访问所述URL地址的时间,所述装置还包括:合并单元409,用于根据访问所述URL地址的时间和所述用户标识,将所述上网日志与时间上最接近的一个用户点击行为产生的日志进行合并;其中,所述时间上最接近的一个用户点击行为产生的日志包含的用户标识与所述上网日志的用户标识相同。
资源URL对应的上网日志都是由用户点击行为触发的,其本身并没有额外的附加价值,通过将其余对应的页面URL日志进行合并,可以简化运营商的上网日志,从而只保留由用户点击行为产生的上网日志,既节约了存储空间,也便于后期日志查找与管理。
进一步的,所述上网日志中还包括访问所述URL地址产生的数据流量,将所述上网日志与时间上最接近的一个用户点击行为产生的日志进行合并包括将所述上网日志中的数据流量与时间上最接近的一个用户点击行为产生的日志中的数据流量进行叠加。
在本实施例中,户点击行为识别装置400是以功能单元的形式来呈现。这里的“单元”可以指特定应用集成电路(application-specific integrated circuit,ASIC),电路,执行一个或多个软件或固件程序的处理器和存储器,集成逻辑电路,和/或其他可以提供上述功能的器件。在一个简单的实施例中,本领域的技术人员可以想到户点击行为识别装置400可以采用图2所示的形式。获取单元401,确定单元403、识别单元405、构建URL类型库单元以及合并单元409可以通过图2的处理器和存储器来实现,具体的,获取单元401可以通过由处理器来执行交互模块来实现,确定单元403、识别单元405、构建URL类型库单元以及合并单元409可以通过由处理器来执行URL类型识别模块来实现。
本发明实施例还提供了一种计算机存储介质,用于储存实现上述图4所示的户点击行为识别装置的计算机软件指令,其包含用于执行上述方法实施例所设计的程序。通过执行存储的程序,可以实现通过用户上网日志识别用户点击行为产生的日志。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书,可理解并实现所述公开实施例的其他变化。在权利要求中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。单个处理器或其他单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机程序存储/分布在合适的介质中,与其它硬件一起提供或作为硬件的一部分,也可以采用其他分布形式,如通过Internet或其它有线或无线电信系统。
本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种识别用户点击行为的方法,所述方法应用于用户点击行为识别装置,其特征在于,
获取上网日志,其中,所述上网日志包括用户标识和URL地址;
根据URL类型库,确定所述URL地址对应的户均访问次数;其中,所述URL类型库包括URL地址和户均访问次数的对应关系;
若所述URL地址对应的户均访问次数小于预设的阈值,将所述上网日志识别为一次用户点击行为产生的日志。
2.根据权利要求1所述的方法,其特征在于,在所述获取用户的上网日志之前,所述方法还包括构建URL类型库,具体包括:
获取预设数量的上网日志,并提取上网日志中的用户标识和URL地址;
将提取到的用户标识和URL地址加入到用户上网日志表中;
根据所述用户上网日志表,确定每个URL地址的户均访问次数;
将用户上网日志表中的URL地址及对应的户均访问次数添加到URL类型库中。
3.根据权利要求2所述的方法,其特征在于,所述根据所述用户上网日志表,确定每个URL地址的户均访问次数,具体为:
对于所述用户上网日志表中每个URL地址,统计所述每个URL地址在所述用户上网日志表中出现的次数以及对应的用户标识的数量;
根据所述出现的数量以及对应的用户标识的数量,确定所述每个URL地址的户均访问次数。
4.根据权利要求1-3所述的方法,其特征在于,所述方法还包括:
若所述URL地址对应的户均访问次数大于预设的阈值,将所述上网日志识别为一次非用户点击行为产生的日志。
5.根据权利要求4所述的方法,其特征在于,所述上网日志还包括访问所述URL地址的时间;所述方法还包括:
根据访问所述URL地址的时间和所述用户标识,将所述上网日志与时间上最接近的一个用户点击行为产生的日志进行合并;其中,所述时间上最接近的一个用户点击行为产生的日志包含的用户标识与所述上网日志的用户标识相同。
6.一种用户点击行为识别装置,其特征在于,包括:
获取单元,用于获取上网日志,其中,所述上网日志包括用户的用户标识和URL地址;
确定单元,用于根据URL类型库,确定所述URL地址对应的户均访问次数;其中,所述URL类型库包括URL地址和户均访问次数的对应关系;
识别单元,用于若所述URL地址对应的户均访问次数小于预设的阈值,将所述上网日志识别为一次用户点击行为产生的日志。
7.如权利要求6所述装置,其特征在于,所述装置还包括构建URL类型库单元,用于在所述获取单元获取用户的上网日志之前,
获取预设数量的上网日志,并提取上网日志中的用户标识和URL地址;
将提取到的用户标识和URL地址加入到用户上网日志表中;
根据所述用户上网日志表,确定每个URL地址的户均访问次数;
将用户上网日志表中的URL地址及对应的户均访问次数添加到URL类型库中。
8.如权利要求7所述装置,其特征在于,所述根据所述用户上网日志表,确定每个URL地址的户均访问次数,具体为:
对于所述用户上网日志表中每个URL地址,统计所述每个URL地址在所述用户上网日志表中出现的次数以及对应的用户标识的数量;
根据所述出现的数量以及对应的用户标识的数量,确定所述每个URL地址的户均访问次数。
9.根据权利要求6-8所述的装置,其特征在于,所述识别单元还用于:
若所述URL地址对应的户均访问次数大于预设的阈值,将所述上网日志识别为一次非用户点击行为产生的日志。
10.根据权利要求9所述的装置,其特征在于,所述上网日志还包括访问所述URL地址的时间,所述装置还包括:
合并单元,用于根据访问所述URL地址的时间和所述用户标识,将所述上网日志与时间上最接近的一个用户点击行为产生的日志进行合并;其中,所述时间上最接近的一个用户点击行为产生的日志包含的用户标识与所述上网日志的用户标识相同。
CN201610460602.4A 2016-06-22 2016-06-22 一种识别用户点击行为的方法和设备 Active CN107526748B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610460602.4A CN107526748B (zh) 2016-06-22 2016-06-22 一种识别用户点击行为的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610460602.4A CN107526748B (zh) 2016-06-22 2016-06-22 一种识别用户点击行为的方法和设备

Publications (2)

Publication Number Publication Date
CN107526748A true CN107526748A (zh) 2017-12-29
CN107526748B CN107526748B (zh) 2021-08-03

Family

ID=60735555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610460602.4A Active CN107526748B (zh) 2016-06-22 2016-06-22 一种识别用户点击行为的方法和设备

Country Status (1)

Country Link
CN (1) CN107526748B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108512720A (zh) * 2018-03-02 2018-09-07 杭州迪普科技股份有限公司 一种网站流量的统计方法及装置
CN108632087A (zh) * 2018-04-26 2018-10-09 四川斐讯信息技术有限公司 一种基于路由器的上网管理方法及系统
CN110929207A (zh) * 2019-11-22 2020-03-27 北京沃东天骏信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN112152873A (zh) * 2020-09-02 2020-12-29 杭州安恒信息技术股份有限公司 用户识别方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761961A (zh) * 2003-03-19 2006-04-19 Nhn株式会社 在因特网搜索引擎上检测无效点击的方法和设备
US20100153539A1 (en) * 2008-12-15 2010-06-17 Gregory Thomas Zarroli Algorithm for classification of browser links
CN102629933A (zh) * 2012-02-28 2012-08-08 深信服网络科技(深圳)有限公司 一种识别用户实际点击访问网站行为的方法及系统
CN102870118A (zh) * 2012-06-30 2013-01-09 华为技术有限公司 用户行为的获取方法、设备及系统
CN103297435A (zh) * 2013-06-06 2013-09-11 中国科学院信息工程研究所 一种基于web日志的异常访问行为检测方法与系统
CN105610616A (zh) * 2015-12-29 2016-05-25 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及系统
CN105677657A (zh) * 2014-11-19 2016-06-15 杭州华三通信技术有限公司 一种统一资源定位符访问行为的记录方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1761961A (zh) * 2003-03-19 2006-04-19 Nhn株式会社 在因特网搜索引擎上检测无效点击的方法和设备
US20100153539A1 (en) * 2008-12-15 2010-06-17 Gregory Thomas Zarroli Algorithm for classification of browser links
CN102629933A (zh) * 2012-02-28 2012-08-08 深信服网络科技(深圳)有限公司 一种识别用户实际点击访问网站行为的方法及系统
CN102870118A (zh) * 2012-06-30 2013-01-09 华为技术有限公司 用户行为的获取方法、设备及系统
CN103297435A (zh) * 2013-06-06 2013-09-11 中国科学院信息工程研究所 一种基于web日志的异常访问行为检测方法与系统
CN105677657A (zh) * 2014-11-19 2016-06-15 杭州华三通信技术有限公司 一种统一资源定位符访问行为的记录方法和装置
CN105610616A (zh) * 2015-12-29 2016-05-25 赛尔网络有限公司 基于icp活跃度的接入网单个ip平均流量统计方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108512720A (zh) * 2018-03-02 2018-09-07 杭州迪普科技股份有限公司 一种网站流量的统计方法及装置
CN108632087A (zh) * 2018-04-26 2018-10-09 四川斐讯信息技术有限公司 一种基于路由器的上网管理方法及系统
CN108632087B (zh) * 2018-04-26 2021-12-28 深圳市华迅光通信有限公司 一种基于路由器的上网管理方法及系统
CN110929207A (zh) * 2019-11-22 2020-03-27 北京沃东天骏信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN110929207B (zh) * 2019-11-22 2023-01-31 北京沃东天骏信息技术有限公司 数据处理方法、装置和计算机可读存储介质
CN112152873A (zh) * 2020-09-02 2020-12-29 杭州安恒信息技术股份有限公司 用户识别方法、装置、计算机设备和存储介质
CN112152873B (zh) * 2020-09-02 2022-10-21 杭州安恒信息技术股份有限公司 用户识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN107526748B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN106503134B (zh) 浏览器跳转至应用程序的数据同步方法及装置
US10091313B2 (en) Method and system for tracking web link usage
US10079737B2 (en) Method and system for generating comparable visual maps for browsing activity analysis
RU2720952C2 (ru) Способ и система для создания рекомендации цифрового содержимого
CN1949259B (zh) 通过在网页中嵌入代码来采集网页的点击信息的方法
CN106682144A (zh) 页面展示方法和装置
RU2731335C2 (ru) Способ и система для формирования рекомендаций цифрового контента
US9230030B2 (en) Method and system for mining websites
CN102932206B (zh) 监测网站访问信息的方法和系统
US20120054440A1 (en) Systems and methods for providing a hierarchy of cache layers of different types for intext advertising
US10445753B1 (en) Determining popular and trending content characteristics
CN101373485A (zh) 提供网页访问入口的方法及装置
KR20140038432A (ko) 사용자 탐색 이벤트의 예측
CN107918575B (zh) 一种页面状态的监控方法及装置
CN105868290B (zh) 一种展现搜索结果的方法及装置
CN103617241B (zh) 搜索信息处理方法、浏览器终端与服务器
CN102663049B (zh) 一种更新搜索引擎网址库方法及装置
CN102521249B (zh) 一种基于同质资源的展现方法及设备
CN102932207A (zh) 监测网站访问信息的方法及服务器
CN107526748A (zh) 一种识别用户点击行为的方法和设备
RU2013144679A (ru) Способ и система ранжирования элементов сетевого ресурса для пользователя
KR20090016118A (ko) 웹 페이지의 하이퍼링크를 교체하기 위한 방법 및 시스템
CN104933069A (zh) 一种桌面终端上网浏览统计的分析方法和系统
CN107239970A (zh) 一种基于行为日志确定广告点击率的方法及系统
US9201960B2 (en) Virtual agent response to customer inquiries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant