CN105376311B - 一种基于终端访问的页面停留时长确定方法及装置 - Google Patents

一种基于终端访问的页面停留时长确定方法及装置 Download PDF

Info

Publication number
CN105376311B
CN105376311B CN201510767940.8A CN201510767940A CN105376311B CN 105376311 B CN105376311 B CN 105376311B CN 201510767940 A CN201510767940 A CN 201510767940A CN 105376311 B CN105376311 B CN 105376311B
Authority
CN
China
Prior art keywords
time
access
browser
target webpage
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510767940.8A
Other languages
English (en)
Other versions
CN105376311A (zh
Inventor
龚建新
朱斌
赵德滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing VRV Software Corp Ltd
Original Assignee
Beijing VRV Software Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing VRV Software Corp Ltd filed Critical Beijing VRV Software Corp Ltd
Priority to CN201510767940.8A priority Critical patent/CN105376311B/zh
Publication of CN105376311A publication Critical patent/CN105376311A/zh
Application granted granted Critical
Publication of CN105376311B publication Critical patent/CN105376311B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于终端访问的页面停留时长确定方法及装置,所述方法包括:采集终端的浏览器进程信息及非浏览器进程信息;基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间;基于所述访问开始时间及访问结束时间,确定所述终端在目标网页的页面停留时长。本发明的基于终端访问的页面停留时长确定方法及装置,通过采集终端的浏览器进程信息及非浏览器进程信息,求得用户终端的页面停留时长。克服现有的页面停留时长测量方法,无法解决针对海量数据的分析和挖掘问题。

Description

一种基于终端访问的页面停留时长确定方法及装置
技术领域
本发明涉及计算机网络技术领域,具体涉及一种基于终端访问的页面停留时长确定方法及装置。
背景技术
页面停留时长,简单来讲就是用户在某个网站页面上所花的时间,它在一定程度上反映了该网站页面对用户的粘性。准确的测量用户页面停留时长,可以帮助网站运营人员了解网站页面的内容质量,作为页面改进的依据,也可以帮助网站推广人员了解推广流量的质量,从而进一步优化推广策略。
目前,测量用户页面停留时长主要有2种数据获取方式:Web服务日志和JavaScript页面嵌码。这2种方法使用的数据来源不同,但是在测量页面停留时长时的基本思路是相同的,即通过计算2个相邻访问页面的请求时间戳之差,来作为第1个页面的停留时长。例如,某用户依次访问了某个网站的3个页面后离开,若用户在11点02分访问了Page1,11点04分访问了Page2,11点09分访问了Page3,那么该用户在Pagel上的停留时长为2分钟,在Page2上的停留时长为5分钟,而Page3由于是最后一个页面无法计算,因此停留时长被忽略。
显然,这种停留时长的测量方法存在明显缺陷:对于用户访问的最后一个页面,服务端无法获知用户是何时离开的,这样也就无法计算这个页面昀停留时长,因此只能选择忽略,这导致在后续计算页面平均停留时长时,测量结果与实际情况会有较大的偏差。对于一些视频网站页面来说,这个问题尤为严重。
此外,现有的页面停留时长测量方法还有一个问题,即测量结果无法真实反映用户的实际浏览行为。用户在使用浏览器浏览网页时,往往会打开多个窗口/标签页,而用户在同一时间内一般只会浏览一个网页。这就意味着一些网页虽然被打开了,但是它们都被隐藏在顶端窗口/标签页的背后,并没有真正被用户浏览。无论是通过Web服务日志还是JavaScript页面嵌码,服务端都无法获取这样的用户行为细节,因此在测量停留时长时也就无法将其考虑在内,这导致测量结果可能比用户实际浏览某个页面的停留时长要大一些。
可以看到,现有的页面停留时长测量方法存在一定的缺陷,使得测量结果与用户实际浏览行为之间存在一定的偏差。
并且随着互联网的飞速发展,网络终端数量迅猛增加,使得终端产生的数据量呈现指数级增长,现有的页面停留时长测量方法,无法解决针对海量数据的分析和挖掘问题。根据用户终端采集的海量数据,自动分析用户的上网行为信息,是当今智能决策支持系统的迫切需要。
大数据时代的到来,对数据挖掘和分析领域了严峻的挑战。云计算技术,为海量的、非结构化的多样数据提供了高效稳定的运算平台。结合人工智能的数据挖掘技术,如何有效地利用这些云计算平台,从大数据中发现知识、规律和趋势,为决策提供信息参考,成为了当今众多学者和企业研究的重点问题。
发明内容
本发明所要解决的技术问题是现有的页面停留时长测量方法,无法解决针对海量数据的分析和挖掘问题。
为此目的,第一方面,本发明提出一种基于终端访问的页面停留时长确定方法,包括:
采集终端的浏览器进程信息及非浏览器进程信息;
基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间;
基于所述访问开始时间及访问结束时间,确定所述终端在目标网页的页面停留时长。
可选的,所述采集终端的浏览器进程信息及非浏览器进程信息,包括:
采集终端的浏览器进程创建时间、浏览器进程结束时间、浏览器进程激活时间、浏览器进程非激活时间、浏览器进程访问网页的地址、浏览器进程访问网页的时间;
采集终端的非浏览器进程创建时间、非浏览器进程结束时间、非浏览器进程激活时间、非浏览器进程非激活时间。
可选的,基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间,包括:
基于所述浏览器进程创建时间、所述浏览器进程非激活时间、所述非浏览器进程创建时间及所述非浏览器进程非激活时间,确定所述终端创建的各进程的最后一次非激活时间;
基于所述浏览器进程访问网页的地址及所述浏览器进程访问网页的时间,确定目标网页的访问开始时间以及所述目标网页之后的下一个访问网页的访问开始时间;
基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间;
基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间。
可选的,所述基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间,包括:
判断从所述目标网页的访问开始时间之后的所述网页访问时长阈值内是否存在非浏览器进程激活时间;
若存在至少一个非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述至少一个非浏览器进程激活时间中最先激活的时间;
若不存在非浏览器进程激活时间,则判断从所述目标网页的访问开始时间起经过所述网页访问时长阈值之后是否存在非浏览器进程激活时间;
若存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述目标网页的访问开始时间与所述网页访问时长阈值之和;
若不存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述最后一次非激活时间。
可选的,所述基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间,包括:
判断从所述目标网页的访问开始时间至所述目标网页之后的下一个访问网页的访问开始时间是否包含于所述浏览器进程激活时间至所述目标网页的关闭时间内;
若包含于,则确定所述终端针对目标网页的访问结束时间为所述目标网页之后的下一个访问网页的访问开始时间;
若不包含于,则判断条件是否成立,所述条件为:所述目标网页的访问开始时间属于所述浏览器进程激活时间至所述目标网页的关闭时间内,且所述目标网页之后的下一个访问网页的访问开始时间不属于所述浏览器进程激活时间至所述目标网页的关闭时间内;
若条件成立,则确定所述终端针对目标网页的访问结束时间为所述目标网页的关闭时间。
第二方面,本发明还提出一种基于终端访问的页面停留时长确定装置,包括:
采集单元,用于采集终端的浏览器进程信息及非浏览器进程信息;
第一确定单元,用于基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间;
第二确定单元,用于基于所述访问开始时间及访问结束时间,确定所述终端在目标网页的页面停留时长。
可选的,所述采集单元,用于采集终端的浏览器进程创建时间、浏览器进程结束时间、浏览器进程激活时间、浏览器进程非激活时间、浏览器进程访问网页的地址、浏览器进程访问网页的时间;采集终端的非浏览器进程创建时间、非浏览器进程结束时间、非浏览器进程激活时间、非浏览器进程非激活时间。
可选的,所述第一确定单元,包括:
第一处理子单元,用于基于所述浏览器进程创建时间、所述浏览器进程非激活时间、所述非浏览器进程创建时间及所述非浏览器进程非激活时间,确定所述终端创建的各进程的最后一次非激活时间;
第二处理子单元,用于基于所述浏览器进程访问网页的地址及所述浏览器进程访问网页的时间,确定目标网页的访问开始时间以及所述目标网页之后的下一个访问网页的访问开始时间;
第三处理子单元,用于基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间;
第四处理子单元,用于基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间。
可选的,所述第三处理子单元,用于判断从所述目标网页的访问开始时间之后的所述网页访问时长阈值内是否存在非浏览器进程激活时间;若存在至少一个非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述至少一个非浏览器进程激活时间中最先激活的时间;若不存在非浏览器进程激活时间,则判断从所述目标网页的访问开始时间起经过所述网页访问时长阈值之后是否存在非浏览器进程激活时间;若存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述目标网页的访问开始时间与所述网页访问时长阈值之和;若不存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述最后一次非激活时间。
可选的,第四处理子单元,用于判断从所述目标网页的访问开始时间至所述目标网页之后的下一个访问网页的访问开始时间是否包含于所述浏览器进程激活时间至所述目标网页的关闭时间内;若包含于,则确定所述终端针对目标网页的访问结束时间为所述目标网页之后的下一个访问网页的访问开始时间;若不包含于,则判断条件是否成立,所述条件为:所述目标网页的访问开始时间属于所述浏览器进程激活时间至所述目标网页的关闭时间内,且所述目标网页之后的下一个访问网页的访问开始时间不属于所述浏览器进程激活时间至所述目标网页的关闭时间内;若条件成立,则确定所述终端针对目标网页的访问结束时间为所述目标网页的关闭时间。
相比于现有技术,本发明的基于终端访问的页面停留时长确定方法及装置,采集终端的浏览器进程信息及非浏览器进程信息,求得用户终端的页面停留时长。克服现有的页面停留时长测量方法,无法解决针对海量数据的分析和挖掘问题。
进一步地,本发明的基于终端访问的页面停留时长确定方法及装置,针对终端数据采集不完全的情况,充分考虑各种可能性,进而准确计算浏览器在某URL访问的开始与结束时间点。
进一步地,本发明的基于终端访问的页面停留时长确定方法及装置,借助hadoop分布式计算技术,增强了处理海量终端数据的能力。在实际大数据分析项目中,该方法得到了可靠的结果,能充分满足用户终端上网行为的分析需求。
附图说明
图1为本发明实施例提供的一种基于终端访问的页面停留时长确定方法流程图;
图2为本发明实施例提供的一种基于终端访问的页面停留时长确定装置结构图;
图3为本发明实施例提供的第一确定单元结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本实施例公开一种基于终端访问的页面停留时长确定方法,该方法可包括以下步骤101至103:
101、采集终端的浏览器进程信息及非浏览器进程信息。
本实施例中,为了采集终端的信息,需要先采集终端的ID。
102、基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间。
本实施例中的目标网页,即待确定停留时长的网页。
103、基于所述访问开始时间及访问结束时间,确定所述终端在目标网页的页面停留时长。
页面停留时长=访问结束时间-访问开始时间。
相比于现有技术,本实施例公开的基于终端访问的页面停留时长确定方法,通过采集终端的浏览器进程信息及非浏览器进程信息,求得用户终端的页面停留时长。克服现有的页面停留时长测量方法,无法解决针对海量数据的分析和挖掘问题。
进一步地,本实施例公开的基于终端访问的页面停留时长确定方法,可借助hadoop分布式计算技术,增强了处理海量终端数据的能力。在实际大数据分析项目中,该方法得到了可靠的结果,能充分满足用户终端上网行为的分析需求。
在一个具体的例子中,步骤101:采集终端的浏览器进程信息及非浏览器进程信息,具体包括:
采集终端的浏览器进程创建时间、浏览器进程结束时间、浏览器进程激活时间、浏览器进程非激活时间、浏览器进程访问网页的地址、浏览器进程访问网页的时间;
采集终端的非浏览器进程创建时间、非浏览器进程结束时间、非浏览器进程激活时间、非浏览器进程非激活时间。
需要说明的是,本实施例仅为举例说明,并不限定采集终端的信息,本领域技术人员可根据实际需要确定采集终端的具体信息,以方便进行大数据分析,比如还可采集终端的开关机时间,相应地,在没有采集到终端的关机时间时,可基于上述采集的浏览器进程信息及非浏览器进程信息,确定终端的关机时间。
对于开关机时长T计算需要具体分析讨论,主要可以分为四种情况:
其中,符号表示不存在,表示存在,ActiveTime(first)表示终端创建的各进程的第一次激活时间,DisableTime(last)表示终端创建的各进程的最后一次非激活时间。举例来说,若终端创建了三个进程,进程1、进程2和进程3,对应的非激活时间分别为1点、2点和3点,则DisableTime(last)为3点。当然一个进程可能被多次激活或非激活,比如进程1的非激活时间有2个:1点和3点半,进程2和进程3的非激活时间不变,则DisableTime(last)为3点半。
表1给出了实施例采用的字段名称及其描述。
表1字段名称及其描述
类别 字段名称 描述
dd 设备唯-ID 32位算法
开关机 cmd 开机:login关机:logout
开关机 time 发生时间
进程 name 进程名
进程 CreateTime 进程创建时间
进程 EndTime 进程结束时间
进程 ActiveTime 进程激活时的时间
进程 DisableTime 进程非激活时的时间
进程 topActiveTime 进程窗口处于顶层时间且处于活动状态的时间
网址 url 访问网站的网址
网址 time 数据产生时的时间
基于上述求得到开关机时长T,可过滤掉非用户访问URL时间,从而可以确定每天开关机时间内,用户访问URL的时间信息。
在一个具体的例子中,步骤102:基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间,具体可包括图1中未示出的步骤1021至1024。
1021、基于所述浏览器进程创建时间、所述浏览器进程非激活时间、所述非浏览器进程创建时间及所述非浏览器进程非激活时间,确定所述终端创建的各进程的最后一次非激活时间。
本实施例中,如果没有采集到最后一次非激活时间,则通过下式确定最后一次非激活时间:
DisableTime(last)=ActiveTime(last)+topActiveTime(last)
其中,DisableTime(last)表示终端创建的各进程的最后一次非激活时间,ActiveTime(last)表示终端创建的各进程的最后一次激活时间,topActiveTime(last)表示终端创建的各进程的最后一次处于顶层且处于活动状态(或称为激活状态)的时长。topActiveTime(last)也可以在采集终端的信息时采集到。
1022、基于所述浏览器进程访问网页的地址及所述浏览器进程访问网页的时间,确定目标网页的访问开始时间以及所述目标网页之后的下一个访问网页的访问开始时间。
1023、基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间。
本实施例中,所述目标网页的关闭时间可以理解为终端通过浏览器进程关闭目标网页的时间。
本实施例中,网页访问时长阈值可根据不同需求进行设置,本实施例不限定网页访问时长阈值的具体值。
1024基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间。
本实施例公开的基于终端访问的页面停留时长确定方法,针对采集终端数据不完全的情况,充分考虑各种可能性,进而准确计算浏览器在某URL访问的开始与结束时间点。
在一个具体的例子中,步骤1023:基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间,具体过程如下(1)至(5):
(1)判断从所述目标网页的访问开始时间之后的所述网页访问时长阈值内是否存在非浏览器进程激活时间;
(2)若存在至少一个非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述至少一个非浏览器进程激活时间中最先激活的时间;
(3)若不存在非浏览器进程激活时间,则判断从所述目标网页的访问开始时间起经过所述网页访问时长阈值之后是否存在非浏览器进程激活时间;
(4)若存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述目标网页的访问开始时间与所述网页访问时长阈值之和;
(5)若不存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述最后一次非激活时间。
在一个具体的例子中,步骤1024:基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间,具体过程如下1)至4):
1)判断从所述目标网页的访问开始时间至所述目标网页之后的下一个访问网页的访问开始时间是否包含于所述浏览器进程激活时间至所述目标网页的关闭时间内;
本实施例中,所述浏览器进程激活时间至所述目标网页的关闭时间内,可选为:时间上最接近目标网页的访问开始时间的浏览器进程激活时间至所述目标网页的关闭时间内。
2)若包含于,则确定所述终端针对目标网页的访问结束时间为所述目标网页之后的下一个访问网页的访问开始时间;
3)若不包含于,则判断条件是否成立,所述条件为:所述目标网页的访问开始时间属于所述浏览器进程激活时间至所述目标网页的关闭时间内,且所述目标网页之后的下一个访问网页的访问开始时间不属于所述浏览器进程激活时间至所述目标网页的关闭时间内;
4)若条件成立,则确定所述终端针对目标网页的访问结束时间为所述目标网页的关闭时间。
相比于现有技术,上述实施例公开的基于终端访问的页面停留时长确定方法,采集终端的浏览器进程信息及非浏览器进程信息,求得用户终端的页面停留时长。克服现有的页面停留时长测量方法,无法解决针对海量数据的分析和挖掘问题。
进一步地,上述实施例公开的基于终端访问的页面停留时长确定方法,针对终端数据采集不完全的情况,充分考虑各种可能性,进而准确计算浏览器在某URL访问的开始与结束时间点。
进一步地,上述实施例公开的基于终端访问的页面停留时长确定方法,借助hadoop分布式计算技术,增强了处理海量终端数据的能力。在实际大数据分析项目中,该方法得到了可靠的结果,能充分满足用户终端上网行为的分析需求。
如图2所示,本实施例公开一种基于终端访问的页面停留时长确定装置,该装置可包括以下单元:采集单元21、第一确定单元22以及第二确定单元23。
采集单元21,用于采集终端的浏览器进程信息及非浏览器进程信息;
第一确定单元22,用于基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间;
第二确定单元23,用于基于所述访问开始时间及访问结束时间,确定所述终端在目标网页的页面停留时长。
在一个具体的例子中,所述采集单元21,用于采集终端的浏览器进程创建时间、浏览器进程结束时间、浏览器进程激活时间、浏览器进程非激活时间、浏览器进程访问网页的地址、浏览器进程访问网页的时间;采集终端的非浏览器进程创建时间、非浏览器进程结束时间、非浏览器进程激活时间、非浏览器进程非激活时间。
在一个具体的例子中,如图3所示,所述第一确定单元22,包括:第一处理子单元221、第二处理子单元222、第三处理子单元223及第四处理子单元224。
第一处理子单元221,用于基于所述浏览器进程创建时间、所述浏览器进程非激活时间、所述非浏览器进程创建时间及所述非浏览器进程非激活时间,确定所述终端创建的各进程的最后一次非激活时间;
第二处理子单元222,用于基于所述浏览器进程访问网页的地址及所述浏览器进程访问网页的时间,确定目标网页的访问开始时间以及所述目标网页之后的下一个访问网页的访问开始时间;
第三处理子单元223,用于基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间;
第四处理子单元224,用于基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间。
在一个具体的例子中,所述第三处理子单元223,用于判断从所述目标网页的访问开始时间之后的所述网页访问时长阈值内是否存在非浏览器进程激活时间;若存在至少一个非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述至少一个非浏览器进程激活时间中最先激活的时间;若不存在非浏览器进程激活时间,则判断从所述目标网页的访问开始时间起经过所述网页访问时长阈值之后是否存在非浏览器进程激活时间;若存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述目标网页的访问开始时间与所述网页访问时长阈值之和;若不存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述最后一次非激活时间。
在一个具体的例子中,所述第四处理子单元224,用于判断从所述目标网页的访问开始时间至所述目标网页之后的下一个访问网页的访问开始时间是否包含于所述浏览器进程激活时间至所述目标网页的关闭时间内;若包含于,则确定所述终端针对目标网页的访问结束时间为所述目标网页之后的下一个访问网页的访问开始时间;若不包含于,则判断条件是否成立,所述条件为:所述目标网页的访问开始时间属于所述浏览器进程激活时间至所述目标网页的关闭时间内,且所述目标网页之后的下一个访问网页的访问开始时间不属于所述浏览器进程激活时间至所述目标网页的关闭时间内;若条件成立,则确定所述终端针对目标网页的访问结束时间为所述目标网页的关闭时间。
本实施例公开的基于终端访问的页面停留时长确定装置可以执行上述基于终端访问的页面停留时长确定方法实施例的流程,本实施例不再赘述。
相比于现有技术,上述实施例公开的基于终端访问的页面停留时长确定装置,通过采集终端的浏览器进程信息及非浏览器进程信息,求得用户终端的页面停留时长。克服现有的页面停留时长测量方法,无法解决针对海量数据的分析和挖掘问题。
进一步地,上述实施例公开的基于终端访问的页面停留时长确定装置,针对终端数据采集不完全的情况,充分考虑各种可能性,进而准确计算浏览器在某URL访问的开始与结束时间点。
进一步地,上述实施例公开的基于终端访问的页面停留时长确定装置,借助hadoop分布式计算技术,增强了处理海量终端数据的能力。在实际大数据分析项目中,该方法得到了可靠的结果,能充分满足用户终端上网行为的分析需求。
需要说明的是,本文中,“第一”、“第二”、“第三”及“第四”仅仅用来区分名称相同的词语,并不暗示这些名称相同的词语之间的关系或顺序。
本领域技术人员可以理解,可以把装置实施例中的各单元组合成一个单元,以及此外可以把它们分成多个子单元。除了这样的特征和/或过程或者单元中的至少一些是互相排斥之处,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (6)

1.一种基于终端访问的页面停留时长确定方法,其特征在于,包括:
采集终端的浏览器进程信息及非浏览器进程信息;
基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间;
基于所述访问开始时间及访问结束时间,确定所述终端在目标网页的页面停留时长;
所述采集终端的浏览器进程信息及非浏览器进程信息,包括:
采集终端的浏览器进程创建时间、浏览器进程结束时间、浏览器进程激活时间、浏览器进程非激活时间、浏览器进程访问网页的地址、浏览器进程访问网页的时间;
采集终端的非浏览器进程创建时间、非浏览器进程结束时间、非浏览器进程激活时间、非浏览器进程非激活时间;
基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间,包括:
基于所述浏览器进程创建时间、所述浏览器进程非激活时间、所述非浏览器进程创建时间及所述非浏览器进程非激活时间,确定所述终端创建的各进程的最后一次非激活时间;
基于所述浏览器进程访问网页的地址及所述浏览器进程访问网页的时间,确定目标网页的访问开始时间以及所述目标网页之后的下一个访问网页的访问开始时间;
基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间;
基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间。
2.根据权利要求1所述的方法,其特征在于,所述基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间,包括:
判断从所述目标网页的访问开始时间之后的所述网页访问时长阈值内是否存在非浏览器进程激活时间;
若存在至少一个非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述至少一个非浏览器进程激活时间中最先激活的时间;
若不存在非浏览器进程激活时间,则判断从所述目标网页的访问开始时间起经过所述网页访问时长阈值之后是否存在非浏览器进程激活时间;
若存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述目标网页的访问开始时间与所述网页访问时长阈值之和;
若不存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述最后一次非激活时间。
3.根据权利要求1所述的方法,其特征在于,所述基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间,包括:
判断从所述目标网页的访问开始时间至所述目标网页之后的下一个访问网页的访问开始时间是否包含于所述浏览器进程激活时间至所述目标网页的关闭时间内;
若包含于,则确定所述终端针对目标网页的访问结束时间为所述目标网页之后的下一个访问网页的访问开始时间;
若不包含于,则判断条件是否成立,所述条件为:所述目标网页的访问开始时间属于所述浏览器进程激活时间至所述目标网页的关闭时间内,且所述目标网页之后的下一个访问网页的访问开始时间不属于所述浏览器进程激活时间至所述目标网页的关闭时间内;
若条件成立,则确定所述终端针对目标网页的访问结束时间为所述目标网页的关闭时间。
4.一种基于终端访问的页面停留时长确定装置,其特征在于,包括:
采集单元,用于采集终端的浏览器进程信息及非浏览器进程信息;
第一确定单元,用于基于所述浏览器进程信息及非浏览器进程信息,确定所述终端针对目标网页的访问开始时间及访问结束时间;
第二确定单元,用于基于所述访问开始时间及访问结束时间,确定所述终端在目标网页的页面停留时长;
所述采集单元,用于采集终端的浏览器进程创建时间、浏览器进程结束时间、浏览器进程激活时间、浏览器进程非激活时间、浏览器进程访问网页的地址、浏览器进程访问网页的时间;采集终端的非浏览器进程创建时间、非浏览器进程结束时间、非浏览器进程激活时间、非浏览器进程非激活时间;
所述第一确定单元,包括:
第一处理子单元,用于基于所述浏览器进程创建时间、所述浏览器进程非激活时间、所述非浏览器进程创建时间及所述非浏览器进程非激活时间,确定所述终端创建的各进程的最后一次非激活时间;
第二处理子单元,用于基于所述浏览器进程访问网页的地址及所述浏览器进程访问网页的时间,确定目标网页的访问开始时间以及所述目标网页之后的下一个访问网页的访问开始时间;
第三处理子单元,用于基于所述最后一次非激活时间、所述目标网页的访问开始时间、所述非浏览器进程激活时间以及预设的网页访问时长阈值,确定所述目标网页的关闭时间;
第四处理子单元,用于基于所述浏览器进程激活时间、所述目标网页的访问开始时间、所述目标网页之后的下一个访问网页的访问开始时间以及所述目标网页的关闭时间,确定所述终端针对目标网页的访问结束时间。
5.根据权利要求4所述的装置,其特征在于,所述第三处理子单元,用于判断从所述目标网页的访问开始时间之后的所述网页访问时长阈值内是否存在非浏览器进程激活时间;若存在至少一个非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述至少一个非浏览器进程激活时间中最先激活的时间;若不存在非浏览器进程激活时间,则判断从所述目标网页的访问开始时间起经过所述网页访问时长阈值之后是否存在非浏览器进程激活时间;若存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述目标网页的访问开始时间与所述网页访问时长阈值之和;若不存在非浏览器进程激活时间,则确定所述目标网页的关闭时间为所述最后一次非激活时间。
6.根据权利要求4所述的装置,其特征在于,第四处理子单元,用于判断从所述目标网页的访问开始时间至所述目标网页之后的下一个访问网页的访问开始时间是否包含于所述浏览器进程激活时间至所述目标网页的关闭时间内;若包含于,则确定所述终端针对目标网页的访问结束时间为所述目标网页之后的下一个访问网页的访问开始时间;若不包含于,则判断条件是否成立,所述条件为:所述目标网页的访问开始时间属于所述浏览器进程激活时间至所述目标网页的关闭时间内,且所述目标网页之后的下一个访问网页的访问开始时间不属于所述浏览器进程激活时间至所述目标网页的关闭时间内;若条件成立,则确定所述终端针对目标网页的访问结束时间为所述目标网页的关闭时间。
CN201510767940.8A 2015-11-11 2015-11-11 一种基于终端访问的页面停留时长确定方法及装置 Active CN105376311B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510767940.8A CN105376311B (zh) 2015-11-11 2015-11-11 一种基于终端访问的页面停留时长确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510767940.8A CN105376311B (zh) 2015-11-11 2015-11-11 一种基于终端访问的页面停留时长确定方法及装置

Publications (2)

Publication Number Publication Date
CN105376311A CN105376311A (zh) 2016-03-02
CN105376311B true CN105376311B (zh) 2018-09-11

Family

ID=55378106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510767940.8A Active CN105376311B (zh) 2015-11-11 2015-11-11 一种基于终端访问的页面停留时长确定方法及装置

Country Status (1)

Country Link
CN (1) CN105376311B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213906B (zh) * 2017-06-30 2022-02-11 北京国双科技有限公司 会话时长计算方法、装置及系统
CN110889065B (zh) * 2018-08-15 2023-05-09 北京国双科技有限公司 页面停留时长确定方法、装置与设备
CN109195177B (zh) * 2018-09-14 2021-11-19 国云科技股份有限公司 基于ActiveMQ的基站手机停留时间实时统计方法
CN111382380A (zh) * 2018-12-27 2020-07-07 北京奇虎科技有限公司 一种页面访问时长的统计方法和装置
CN110633412A (zh) * 2019-08-15 2019-12-31 平安普惠企业管理有限公司 页面停留意愿分析方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079396A1 (en) * 1999-06-22 2000-12-28 Odigo, Inc. System and method for processing and presenting internet usage information to facilitate user communications
CN103281217A (zh) * 2013-05-23 2013-09-04 中国科学院计算机网络信息中心 一种用户页面停留时长的测量方法
CN103605689A (zh) * 2013-11-01 2014-02-26 北京奇虎科技有限公司 一种获取访问停留时间的方法及装置
CN103810183A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种得到真实访客停留时长的方法
CN103810177A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种准确获取网站访问者在网页上真实停留时间的方法
CN104850409A (zh) * 2015-06-05 2015-08-19 北京京东尚科信息技术有限公司 统计网页停留时长方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079396A1 (en) * 1999-06-22 2000-12-28 Odigo, Inc. System and method for processing and presenting internet usage information to facilitate user communications
CN103810183A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种得到真实访客停留时长的方法
CN103810177A (zh) * 2012-11-07 2014-05-21 江苏仕德伟网络科技股份有限公司 一种准确获取网站访问者在网页上真实停留时间的方法
CN103281217A (zh) * 2013-05-23 2013-09-04 中国科学院计算机网络信息中心 一种用户页面停留时长的测量方法
CN103605689A (zh) * 2013-11-01 2014-02-26 北京奇虎科技有限公司 一种获取访问停留时间的方法及装置
CN104850409A (zh) * 2015-06-05 2015-08-19 北京京东尚科信息技术有限公司 统计网页停留时长方法

Also Published As

Publication number Publication date
CN105376311A (zh) 2016-03-02

Similar Documents

Publication Publication Date Title
CN105376311B (zh) 一种基于终端访问的页面停留时长确定方法及装置
CN106776841B (zh) 一种互联网舆情事件传播指数的获取方法和系统
Bhatnagar et al. Forecasting incidence of dengue in Rajasthan, using time series analyses
CN110717121B (zh) 一种页面首屏时间确定方法及装置
CN109145215A (zh) 网络舆情分析方法、装置及存储介质
ATE386985T1 (de) Verfahren und system zum verbessern der präsentation von html-seiten in einem internetzugriffsgerät
CN105528422A (zh) 一种主题爬虫处理方法及装置
CN104182412A (zh) 一种网页爬取方法及系统
CN104090923B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN108134760A (zh) 网站监测数据获取方法及装置
CN104281619A (zh) 搜索结果排序系统及方法
CN109241380A (zh) 一种基于网络爬虫和新浪api相结合的微博数据的采集方法
CN104536972B (zh) 基于cdn的网页内容感知系统及方法
CN105204806A (zh) 移动终端网页个性化显示方法及装置
US20140289395A1 (en) Network comment collection method and system
CN107526748A (zh) 一种识别用户点击行为的方法和设备
CN110110179A (zh) 房市热力地图生成方法、装置、设备及存储介质
US20150341381A1 (en) Apparatus and method for collecting harmful website information
CN104123337B (zh) 一种预测报考信息的方法和装置
CN102629933A (zh) 一种识别用户实际点击访问网站行为的方法及系统
JP2010231508A (ja) 重要度判定装置、重要度判定方法、およびプログラム
CN108334629A (zh) 一种基于自动化测试框架的电网设备状态数据获取系统
CN104516956B (zh) 一种网站信息增量爬取方法
WO2017113324A1 (zh) 基于正则表达式的url过滤方法
CN107766384A (zh) 一种确定页面发布时间的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant