CN103678666A - 用于在线访问的数据处理方法和装置 - Google Patents

用于在线访问的数据处理方法和装置 Download PDF

Info

Publication number
CN103678666A
CN103678666A CN201310723641.5A CN201310723641A CN103678666A CN 103678666 A CN103678666 A CN 103678666A CN 201310723641 A CN201310723641 A CN 201310723641A CN 103678666 A CN103678666 A CN 103678666A
Authority
CN
China
Prior art keywords
page
session
accession
accession page
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310723641.5A
Other languages
English (en)
Other versions
CN103678666B (zh
Inventor
刘合翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310723641.5A priority Critical patent/CN103678666B/zh
Publication of CN103678666A publication Critical patent/CN103678666A/zh
Application granted granted Critical
Publication of CN103678666B publication Critical patent/CN103678666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/954Navigation, e.g. using categorised browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于在线访问的数据处理方法和装置。该用于在线访问的数据处理方法包括:获取用户使用在线访问平台时产生的会话;检测会话中访问页面的类型,其中,访问页面包括多种类型的访问页面;获取多种类型的访问页面中每一类型访问页面的页面浏览量PV;获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和;以及基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标。通过本发明,达到了自动检测在线访问中用户访问的迷失程度的效果。

Description

用于在线访问的数据处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种用于在线访问的数据处理方法和装置。
背景技术
用户在在线访问中浏览网站、网页和不同网页栏目时,常常会根据其自身需求以及上述网站、网页和不同网页栏目的内容和导航等进行跨域访问,其中,跨域访问是指用户从一个网站切换到其他网站或者网页或者不同网页栏目等进行的访问。用户的跨域访问情况可以反映网站、网页和不同网页栏目的相关内容的吸引力情况以及相关导航的导航能力等,其中,这种内容的吸引力和导航的导航能力可以通过在线访问中用户访问的迷失程度来衡量,当用户访问的迷失程度较大时,则表明网页的相关内容的吸引力较低或者其导航的导航能力较差,当用户访问的迷失程度较小时,则表明网页的相关内容的吸引力较高或者其导航的导航能力较佳。
目前,在相关技术中还无法统计或者检测在线访问中用户访问的迷失程度。
针对相关技术中无法检测在线访问中用户访问的迷失程度的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于在线访问的数据处理方法和装置,以解决相关技术中无法检测在线访问中用户访问的迷失程度的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于在线访问的数据处理方法。该用于在线访问的数据处理方法包括:获取用户使用在线访问平台时产生的会话;检测会话中访问页面的类型,其中,访问页面包括多种类型的访问页面;获取多种类型的访问页面中每一类型访问页面的页面浏览量PV;获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和;以及基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标。
进一步地,获取用户使用在线访问平台时产生的会话包括:获取用户使用在线访问平台时产生的会话的开始时间;获取用户使用在线访问平台时产生的会话的结束时间,其中,会话的开始时间和会话的结束时间之间的时间段为会话时间段,
在获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,数据处理方法还包括:获取会话时间段内多种类型的访问页面的页面浏览量PV总数;判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值,其中,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
进一步地,访问页面包括第一类型访问页面和第二类型访问页面,
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV包括:获取第一类型访问页面的页面浏览量PV;获取第二类型访问页面的页面浏览量PV,
在获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,数据处理方法还包括:基于获取的第一类型访问页面的页面浏览量PV计算第一类型访问页面的页面重复浏览量;基于获取的第二类型访问页面的页面浏览量PV计算第二类型访问页面的页面重复浏览量;计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和,
获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和包括:获取第一和,第一和为相邻第一类型访问页面之间的第二类型访问页面的页面浏览量PV之和;获取第二和,第二和为相邻第二类型访问页面之间的第一类型访问页面的页面浏览量PV之和;计算第一和与第二和的总和,
基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标包括:计算第一和与第二和的总和与第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和的比值;根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标。
进一步地,根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标包括:计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值的比值以确定会话的会话迷失指标。
进一步地,在计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值的比值以确定会话的会话迷失指标之后,数据处理方法还包括:获取会话的会话迷失指标阈值;判断会话的会话迷失指标是否大于会话的会话迷失指标阈值;如果判断出会话的会话迷失指标大于会话的会话迷失指标阈值,则确定会话为迷失会话;获取在线访问平台在预设时间段内的迷失会话的个数和会话的总个数;以及计算迷失会话的个数占会话的总个数的比例以确定在线访问平台的用户迷失度。
为了实现上述目的,根据本发明的另一方面,提供了一种用于在线访问的数据处理装置。该用于在线访问的数据处理装置包括:第一获取单元,用于获取用户使用在线访问平台时产生的会话;检测单元,用于检测会话中访问页面的类型,其中,访问页面包括多种类型的访问页面;第二获取单元,用于获取多种类型的访问页面中每一类型访问页面的页面浏览量PV;第三获取单元,用于获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和;以及第一确定单元,用于基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标。
进一步地,第一获取单元包括:第一获取模块,用于获取用户使用在线访问平台时产生的会话的开始时间;第二获取模块,用于获取用户使用在线访问平台时产生的会话的结束时间,其中,会话的开始时间和会话的结束时间之间的时间段为会话时间段,
数据处理装置还包括:第四获取单元,用于在获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,获取会话时间段内多种类型的访问页面的页面浏览量PV总数;第一判断单元,用于判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值,其中,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,第三获取单元用于获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
进一步地,访问页面包括第一类型访问页面和第二类型访问页面,第二获取单元包括:第三获取模块,用于获取第一类型访问页面的页面浏览量PV;第四获取模块,用于获取第二类型访问页面的页面浏览量PV,数据处理装置还包括:第一计算单元,用于在获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,基于获取的第一类型访问页面的页面浏览量PV计算第一类型访问页面的页面重复浏览量;第二计算单元,用于基于获取的第二类型访问页面的页面浏览量PV计算第二类型访问页面的页面重复浏览量;第三计算单元,用于计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和。第三获取单元包括:第五获取模块,用于获取第一和,第一和为相邻第一类型访问页面之间的第二类型访问页面的页面浏览量PV之和;第六获取模块,用于获取第二和,第二和为相邻第二类型访问页面之间的第一类型访问页面的页面浏览量PV之和;第一计算模块,用于计算第一和与第二和的总和。第一确定单元包括:第二计算模块,用于计算第一和与第二和的总和与第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和的比值;确定模块,用于根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标。
进一步地,第一确定单元还用于计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值的比值以确定会话的会话迷失指标。
进一步地,数据处理装置还包括:第五获取单元,用于在计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值的比值以确定会话的会话迷失指标之后,获取会话的会话迷失指标阈值;第二判断单元,用于判断会话的会话迷失指标是否大于会话的会话迷失指标阈值;第二确定单元,用于如果判断出会话的会话迷失指标大于会话的会话迷失指标阈值,则确定会话为迷失会话;第六获取单元,用于获取在线访问平台在预设时间段内的迷失会话的个数和会话的总个数;以及第四计算单元,用于计算迷失会话的个数占会话的总个数的比例以确定在线访问平台的用户迷失度。
通过本发明,采用获取用户使用在线访问平台时产生的会话;检测会话中访问页面的类型,其中,访问页面包括多种类型的访问页面;获取多种类型的访问页面中每一类型访问页面的页面浏览量PV;获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和;以及基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标,解决了相关技术中无法检测在线访问中用户访问的迷失程度的问题,进而达到了自动检测在线访问中用户访问的迷失程度的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的用于在线访问的数据处理装置的结构示意图;
图2是根据本发明第二实施例的用于在线访问的数据处理装置的结构示意图;
图3是根据本发明第一实施例的用于在线访问的数据处理方法的流程图;
图4是根据本发明第二实施例的用于在线访问的数据处理方法的流程图;以及
图5是根据本发明第三实施例的用于在线访问的数据处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
根据本发明的实施例,提供了一种用于在线访问的数据处理装置,该用于在线访问的数据处理装置用于检测在线访问的迷失程度。
图1是根据本发明第一实施例的用于在线访问的数据处理装置的结构示意图。
如图1所示,该装置包括第一获取单元10、检测单元20、第二获取单元30、第三获取单元40和第一确定单元50,
第一获取单元10用于获取用户使用在线访问平台时产生的会话。
需要说明的是,获取用户使用在线访问平台时产生的会话可以为获取用户使用在线访问平台时产生的一个会话。
以网络(web)语言中的web会话为例,会话是指用户开启一个浏览器之后,访问某一个web站点,并在这个站点点击多个超链接以访问服务器的多个web资源,然后关闭浏览器的整个过程。其中,每个上述过程即为一个会话。另外,在线访问平台可以包括政府、学校、企业等的在线访问平台。
例如,当用户登录某购物网站或者向购物车中添加一件商品时,就必须开始一个会话,而会话开启之后,用户可能不止浏览一个商家或者一个网站的商品,这样,用户在一个会话中可以产生多次跨越网站、网页或者网页栏目的情况,而上述跨越网站、网页或者网页栏目可以对应不同类型的访问页面。
检测单元20用于检测会话中访问页面的类型。
其中,访问页面包括多种类型的访问页面。访问页面的类型可以由用户在会话中的跨域信息确定。需要说明的是,用户在会话中的跨域信息可以包括一种或者多种跨域信息,例如,用户在会话中的跨域信息可以包括用户在会话中的网站层级的跨域信息、统一资源定位(Uniform Resource Locator,简称URL)层级的跨域信息和栏目层级的跨域信息。
例如,在一次会话中,用户可能先浏览了网站A中的商品1,然后又去网站B浏览了同样的商品1,这样就会产生第一种跨域信息,即网站A到网站B的网站层级的跨越信息,此时用户浏览的页面的类型包括网站A的页面类型和网站B的页面类型,另外,在本次会话中,用户还可能先浏览了网站A中的商家a的商品1,然后又去网站A中的商家b浏览了同样的商品1,这样又会产生第二种跨域信息,即网页到网页的跨越信息,此时用户浏览的页面的类型包括商家a的网页类型和商家b的网页类型。
由于访问页面与该访问页面的IP地址一一对应,因此,检测会话中访问页面的类型可以是根据访问页面与其IP地址的对应关系,通过检测访问页面的IP地址检测访问页面的类型。具体地,对两个访问页面而言,如果检测到两个访问页面的IP地址不相同,则该两个访问页面为不同类型的访问页面,如果检测到两个访问页面的IP地址相同,则该两个访问页面为相同类型的访问页面。在检测到会话中访问页面的类型之后,可以将访问页面的类型存储在类型列表中。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,可以检测到用户浏览的访问页面的类型共有3种,并且该3种类型的访问页面分别为A、B、C。
第二获取单元30用于获取多种类型的访问页面中每一类型访问页面的页面浏览量PV。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是获取会话中所有类型的访问页面中每一类型访问页面的页面浏览量PV,其中,页面浏览量(PageView,简称PV)是指用户在一个会话中浏览的页面的数量,会话PV又称为会话长度。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是根据访问页面与其IP地址的对应关系,通过获取每一类型的访问页面的IP地址被访问的次数获取每一类型访问页面的页面浏览量PV。
获取的页面浏览量PV可以存储在PV表中,根据每一类型的访问页面与其PV之间的对应关系,当每一类型的访问页面的IP地址被访问一次后,该种类型的访问页面的PV就会增加1。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,用户分别浏览的3种类型的访问网页为A、B、C,其中,A的页面浏览量PV1为2,B的页面浏览量PV2为3,C的页面浏览量PV3为1。
需要说明的是,根据获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,可以计算多种类型的访问页面中每一类型访问页面的页面重复浏览量(Disorientation Counts,简称DC),其中,DC=PV-1。
第三获取单元40用于获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
优选地,可以通过以下方式获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和:
首先,假设获取的会话中访问页面的类型数为N,则访问页面分别有第一类型的访问页面,第二类型的访问页面,……,第N类型的访问页面,其中,N为大于2的整数。
接着,获取第一类型的访问页面的第一次访问和其第二次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV11;获取第一类型的访问页面的第二次访问和其第三次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV12,获取第一类型的访问页面的第M-1次访问和其第M次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV1M-1,其中,M的大小等于第一类型的访问页面的页面浏览量PV,并且M为大于等于2的整数,需要说明的是,当M为1时,则说明第一类型的访问页面仅仅被访问了1次,即第一类型的访问页面没有被重复访问,该步骤将这种情况排除在外。
然后,计算第一类型的访问页面中所有相邻的两次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量的和,即(PV11+PV12+……+PV1M-1)。
需要说明的是,计算(PV11+PV12+……+PV1M-1)的值也可以用下列解决方案代替:
即,判断第一类型的访问页面被访问的次数是否大于1,如果判断出第一类型的访问页面被访问的次数大于1,则获取会话中所有类型的访问页面的总的页面浏览量PV总1,并获取第一类型的访问页面的页面浏览量PV1,计算(PV总1-PV1),则(PV 1-PV1)=(PV11+PV12+……+PV1M-1)。
同理,依次获取并计算第二类型的访问页面至第N类型的访问页面中所有相邻的两次访问之间的除自身类型的其他类型的访问页面页面浏览量的和,即(PV21+PV22+……+PV2M-1)……(PVN1+PVN2+……+PVNM-1)。另外,(PV21+PV22+……+PV2M-1)=(PV总2-PV2)……(PVN1+PVN2+……+PVNM-1)=(PV总N-PVN)。
最后,计算(PV11+PV12+……+PV1M-1)+(PV21+PV22+……+PV2M-1)+……+(PVN1+PVN2+……+PVNM-1),其中,该计算结果为多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。另外,根据上述描述,该计算结果可以被根据(PV总1-PV1)+(PV总2-PV2)+……+(PV总N-PVN)求得。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A1、B1、C1、B2、A2、B3,其中,字母A、B、C分别表示访问网页的类型,字母A、B、C的右下标表示该字母代表的类型的访问页面的第几次访问,则在该会话中,A类型的访问页面的A1和A2之间的B、C类型访问网页的PV为3,B类型的访问页面的B1和B2之间以及B2和B3之间的A、C类型访问网页的PV为(1+1),由于C类型的访问页面仅仅被访问了1次,因此,相邻该类型的访问页面之间的访问页面的页面浏览量PV之和为0或者忽略不计。综上,A、B、C三种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和为(3+1+1)。
第一确定单元50基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标。
会话迷失指标可以用会话迷失度表示。会话迷失度用于表征用户在会话中的迷失程度,其中,会话迷失度可以基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定,或者会话迷失度还可以基于每一类型访问页面的页面重复浏览量DC和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定。
具体地,当用户使用在线访问平台时,根据每一类型访问页面的页面重复浏览量DC计算所有类型的页面重复浏览量DC,当所有类型的页面重复浏览量DC一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越大时,说明网站内容的吸引力越小或者网站内的导航能力越差,否则当所有类型的页面重复浏览量DC一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越小时,说明网站内容的吸引力越大或者网站内的导航能力越好。
导航能力的强弱是对一个网站或者网页而言的,当用户浏览一个网站或者一个网页的信息,不会在几个网站或者网页之间频繁的重复跨越时,则说明被浏览网站的导航能力较强,否则当用户浏览一个网站或者一个网页的信息,会在几个网站或者网页之间频繁的重复跨越多次时,则说明被浏览网站的导航能力较弱。
例如,在一次会话中,用户可以通过以下方式查看商品1的相关信息:方式一,用户在网站A和网站B之间重复跨域数次以查看商品1的相关信息;方式二,用户从网站A经过1次跨越,在网站B中查看商品1的相关信息。由于方式一中网页被多次重复浏览,方式二中没有出现网页被重复浏览的现象,因此方式一的会话迷失度高于方式二的会话迷失度。
这样,通过本发明实施例,由于会话中访问页面的页面浏览量PV可以反映会话的迷失度,进而可以反映网站内容的吸引力情况和网站导航的导航能力,因此,通过检测会话中访问页面的页面浏览量PV可以达到自动检测在线访问中用户访问的迷失水平的效果。
优选地,在本发明实施例中,该装置还可以包括第四获取单元和第一判断单元,并且第一获取单元10可以包括:第一获取模块和第二获取模块。
第一获取模块用于获取用户使用在线访问平台时产生的会话的会话开始时间。
在本发明实施例中,由于会话是一个用户与服务器之间的不中断的请求和响应的序列,对用户的每个请求,服务器都能够识别出该请求来自于同一个用户,当一个未知的用户向Web应用程序发送第一个请求时就开始了一个会话,因此获取用户使用在线访问平台时产生的会话的会话开始时间可以是获取一个未知的用户向Web应用程序发送第一个请求的时间。
第二获取模块用于获取用户使用在线访问平台时产生的会话的会话结束时间。
在本发明实施例中,可以通过以下方式获取用户使用在线访问平台时产生的会话的会话结束时间:
方式一,在未知的用户向Web应用程序发送第一个请求之后,检测用户向Web应用程序发送的请求是否为明确会话的请求,当检测到用户向Web应用程序发送的请求为明确结束会话的请求时,则获取该明确结束会话的请求的发送时间,其中,上述明确结束会话的请求的发送时间为会话结束时间。
方式二,当用户在一段时间内不再向Web应用程序发送请求时,检测该段时间的时间长度是否大于预设时间长度,当检测到该段时间的时间长度大于预设时间长度时,获取该时间段的最后时刻,该时刻为会话结束时间。
需要说明的是,会话的开始时间和会话的结束时间之间的时间段为会话时间段。
这样,通过获取用户使用在线访问平台时产生的会话的会话开始时间和获取用户使用在线访问平台时产生的会话的会话结束时间,可以保证获取的用户使用在线访问平台时产生的会话为一个完整并且为同一个会话。
第四获取单元用于获取会话时间段内多种类型的访问页面的页面浏览量PV总数。
获取会话时间段内多种类型的访问页面的页面浏览量PV总数可以是在一个会话过程中,用户所访问的访问页面的总数量。
在本发明实施例中,首先可以检测多种类型的访问页面的页面浏览量PV是否发生在会话时间段内,当检测到多种类型的访问页面的页面浏览量PV发生在会话时间段内之后,记录多种类型的访问页面的页面浏览量PV的总数。
这样,可以保证检测到的多种类型的访问页面的页面浏览量PV为同一会话的PV,达到了准确检测PV的效果。
第一判断单元用于判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值。
其中,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。预设值可以任意设定,例如,预设值可以为3,这样,判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于3,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于3时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
由于获取的会话时间段内多种类型的访问页面的页面浏览量PV总数较小时,确定会话迷失指标对会话的意义不大,因此,先判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值,当判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,再考虑确定会话迷失指标可以提高工作效率。
图2是根据本发明第二实施例的用于在线访问的数据处理装置的结构示意图。
如图2所示,该实施例可以作为图1所示实施例的优选实施方式,该实施例的用于在线访问的数据处理装置除了包括第一实施例的第一获取单元10、检测单元20、第二获取单元30、第三获取单元40和第一确定单元50之外,还包括第一计算单元60、第二计算单元70、第三计算单元80,其中,第二获取单元30包括第三获取模块301和第四获取模块302,第三获取单元40包括第五获取模块401、第六获取模块402和第一计算模块403,第一确定单元50包括第二计算模块501和确定模块502。
第一获取单元10和检测单元20的作用与第一实施例中的相同,在此不再赘述。需要说明的是,访问页面可以包括第一类型访问页面和第二类型访问页面。以下以用户所访问的第一类型访问页面和第二类型访问页面为例进行讲述。
第三获取模块301用于获取第一类型访问页面的页面浏览量PV。
由于第一类型访问页面和第一类型访问页面的页面浏览量PV一一对应,因此,可以通过第一类型访问页面与第一类型访问页面的页面浏览量PV的对应关系获取第一类型访问页面的页面浏览量PV。
获取的会话中第一类型访问页面可以存储在类型列表中,在将获取的会话中第一类型访问页面存储在类型列表中之后,可以同时在类型列表中记录不同类型的访问页面的PV,这样,当获取到会话中访问页面的类型之后,可以判断获取的访问页面的类型是否为类型列表中存储的访问页面类型,如果确定获取的访问页面的类型为类型列表中存储的类型,则将该类型对应的访问页面的PV增加1,否则如果确定获取的访问页面的类型不为类型列表中存储的类型,则将该类型添加到类型列表中,并将该类型对应的PV置1或者置0。其中,如果PV置1,则DC=PV-1,如果PV置0,则DC=PV,DC表示该类型的页面的重复浏览量。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,可以获取A类型的访问页面的PV为3(该处PV的初始值为1)。
第四获取模块302用于获取第二类型访问页面的页面浏览量PV。
获取第二类型访问页面的页面浏览量PV的方式与获取第一类型访问页面的页面浏览量PV的方式相同,在此不再赘述。
第一计算单元60用于基于获取的第一类型访问页面的页面浏览量PV计算第一类型访问页面的页面重复浏览量。
具体地,可以根据PV在类型表中的记录方式计算第一类型访问页面的页面重复浏览量。其中,当第一类型访问页面的页面浏览量PV的初始值被置1时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV-1,当第一类型访问页面的页面浏览量PV的初始值被置0时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV。
第二计算单元70用于基于获取的第二类型访问页面的页面浏览量PV计算第二类型访问页面的页面重复浏览量。
第二类型访问页面的页面重复浏览量DC的计算方式同第一类型访问页面的页面重复浏览量的计算方式,在此不再赘述。
需要说明的是,第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的计算必须基于相同的PV初始值。
第三计算单元80用于计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和。
第五获取模块401用于获取第一和。
其中,第一和为相邻第一类型访问页面之间的第二类型访问页面的页面浏览量PV之和。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,第一和可以为相邻的A类型访问页面之间的B类型访问页面的页面浏览量PV之和,即(2+1)。
第六获取模块402用于获取第二和。
其中,第二和为相邻第二类型访问页面之间的第一类型访问页面的页面浏览量PV之和。
第一计算模块403用于计算第一和和第二和的总和。
第二计算模块501用于计算第一和与第二和的总和与第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和的比值。
其中,上述比值为访问页面的页面重复浏览量DC中访问页面的页面浏览量PV的平均值(Disorientation Gap,简称DG)。
具体地,上述比值可以通过以下公式计算得到:
DG=(PV1+PV2)/(DC1+DC2),其中,PV1表示第一和,PV2表示第二和,DC1表示第一类型访问页面的页面重复浏览量,DC2表示第二类型访问页面的页面重复浏览量,DG表示比值,即平均值。
确定模块502用于根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标。
需要说明的是,可以通过第一类型访问页面的页面重复浏览量DC1、第二类型访问页面的页面重复浏览量DC2与比值DG的多种运算方式确定会话的会话迷失指标。
优选地,可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与第二类型访问页面的页面重复浏览量DC2的和,该和为多种类型的访问页面的页面重复浏览量DC,其中,DC=(DC1+DC2)。
然后,计算多种类型的访问页面的页面重复浏览量DC除以比值商,该商即为会话迷失指标,其中,Z=DC/DG,Z表示会话迷失指标。
对Z=DC/DG而言,当页面重复浏览量DC大小一定时,如果DG越大,则会话迷失指标越小,会话迷失指标越小表明网站的内容的吸引力越大,并且网站的导航能力也越好;否则当页面重复浏览量DC大小一定时,如果DG越小,则会话迷失指标越大,会话迷失指标越大表明网站的内容的吸引力越小,并且网站的导航能力也越差。
优选地,还可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与比值DG的商Z1,即Z1=DC1/DG;并且计算第二类型访问页面的页面重复浏览量DC2与比值DG的商Z2,即Z2=DC2/DG。
然后,计算Z=Z1+Z2,其中,Z表示会话迷失指标。
这样,通过上述定量计算可以准确地得到会话迷失指标(会话迷失度),并根据会话迷失指标准确地把握网站的内容的吸引力情况和导航的导航能力,进而通过不断调整网站的内容和导航以达到优化网站的效果。
进一步优选地,在本发明实施例中,该数据处理装置还可以包括第五获取单元、第二判断单元、第二确定单元、第六获取单元和第四计算单元。上述单元可以用于确定在线访问平台的用户迷失度,其中,用户迷失度是指在线访问平移台在预设时间段内的所有会话的整体迷失水平:
第五获取单元用于在根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标之后,获取会话的会话迷失指标阈值。
会话迷失指标阈值为预先设定的,获取会话的会话迷失指标阈值之后,可以将上述步骤确定的会话迷失度(会话迷失指标)与之比较,进而确定会话迷失度(会话迷失指标)对应的会话是否为迷失会话。
第二判断单元用于判断会话的会话迷失指标是否大于会话的会话迷失指标阈值。
第二确定单元用于如果判断出会话的会话迷失指标大于会话的会话迷失指标阈值,则确定会话为迷失会话。
第六获取单元用于获取在线访问平台在预设时间段内的迷失会话的次数和会话的总次数。
其中,会话的总次数为在预设时间段内记录的在线访问平台产生的所有会话的次数。
第四计算单元用于计算迷失会话的次数占会话的总次数比例以确定在线访问平台的用户迷失度。
具体地,当用户迷失度大时,说明迷失会话的次数占的比例较大,当用户迷失度小时,说明迷失会话的次数占的比例较小。
由于检测会话迷失度仅仅是检测在一个会话中用户在线访问的关注水平,具有偶然性,而通过本发明实施例,可以先检测多个会话各自的会话迷失度,再确定多个会话中迷失会话的比例,即用户迷失度,避免了仅仅检测会话迷失度的偶然性,进而达到了检测结果更准确的效果。
根据本发明的实施例,提供了一种用于在线访问的数据处理方法,该用于在线访问的数据处理方法用于检测在线访问的迷失程度。该用于在线访问的数据处理方法可以运行在计算机处理设备上。需要说明的是,本发明实施例所提供的用于在线访问的数据处理方法可以通过本发明实施例的用于在线访问的数据处理装置来执行,本发明实施例的用于在线访问的数据处理装置也可以用于执行本发明实施例的用于在线访问的数据处理方法。
图3是根据本发明第一实施例的用于在线访问的数据处理方法的流程图。
如图3所示,该方法包括如下的步骤S102至步骤S110:
步骤S102,获取用户使用在线访问平台时产生的会话。
需要说明的是,获取用户使用在线访问平台时产生的会话可以为获取用户使用在线访问平台时产生的一个会话。
以网络(web)语言中的web会话为例,会话是指用户开启一个浏览器之后,访问某一个web站点,并在这个站点点击多个超链接以访问服务器的多个web资源,然后关闭浏览器的整个过程。其中,每个上述过程即为一个会话。另外,在线访问平台可以包括政府、学校、企业等的在线访问平台。
例如,当用户登录某购物网站或者向购物车中添加一件商品时,就必须开始一个会话,而会话开启之后,用户可能不止浏览一个商家或者一个网站的商品,这样,用户在一个会话中可以产生多次跨越网站、网页或者网页栏目的情况,而上述跨越网站、网页或者网页栏目可以对应不同类型的访问页面。
步骤S104,检测会话中访问页面的类型。
其中,访问页面包括多种类型的访问页面。访问页面的类型可以由用户在会话中的跨域信息确定。需要说明的是,用户在会话中的跨域信息可以包括一种或者多种跨域信息,例如,用户在会话中的跨域信息可以包括用户在会话中的网站层级的跨域信息、统一资源定位(Uniform Resource Locator,简称URL)层级的跨域信息和栏目层级的跨域信息。
例如,在一次会话中,用户可能先浏览了网站A中的商品1,然后又去网站B浏览了同样的商品1,这样就会产生第一种跨域信息,即网站A到网站B的网站层级的跨越信息,此时用户浏览的页面的类型包括网站A的页面类型和网站B的页面类型,另外,在本次会话中,用户还可能先浏览了网站A中的商家a的商品1,然后又去网站A中的商家b浏览了同样的商品1,这样又会产生第二种跨域信息,即网页到网页的跨越信息,此时用户浏览的页面的类型包括商家a的网页类型和商家b的网页类型。
由于访问页面与该访问页面的IP地址一一对应,因此,检测会话中访问页面的类型可以是根据访问页面与其IP地址的对应关系,通过检测访问页面的IP地址检测访问页面的类型。具体地,对两个访问页面而言,如果检测到两个访问页面的IP地址不相同,则该两个访问页面为不同类型的访问页面,如果检测到两个访问页面的IP地址相同,则该两个访问页面为相同类型的访问页面。在检测到会话中访问页面的类型之后,可以将访问页面的类型存储在类型列表中。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,可以检测到用户浏览的访问页面的类型共有3种,并且该3种类型的访问页面分别为A、B、C。
步骤S106,获取多种类型的访问页面中每一类型访问页面的页面浏览量PV。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是获取会话中所有类型的访问页面中每一类型访问页面的页面浏览量PV,其中,页面浏览量(PageView,简称PV)是指用户在一个会话中浏览的页面的数量,会话PV又称为会话长度。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是根据访问页面与其IP地址的对应关系,通过获取每一类型的访问页面的IP地址被访问的次数获取每一类型访问页面的页面浏览量PV。
获取的页面浏览量PV可以存储在PV表中,根据每一类型的访问页面与其PV之间的对应关系,当每一类型的访问页面的IP地址被访问一次后,该种类型的访问页面的PV就会增加1。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,用户分别浏览的3种类型的访问网页为A、B、C,其中,A的页面浏览量PV1为2,B的页面浏览量PV2为3,C的页面浏览量PV3为1。
需要说明的是,根据获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,可以计算多种类型的访问页面中每一类型访问页面的页面重复浏览量(Disorientation Counts,简称DC),其中,DC=PV-1。
步骤S108,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
优选地,可以通过以下方式获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和:
首先,假设获取的会话中访问页面的类型数为N,则访问页面分别有第一类型的访问页面,第二类型的访问页面,……,第N类型的访问页面,其中,N为大于2的整数。
接着,获取第一类型的访问页面的第一次访问和其第二次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV11;获取第一类型的访问页面的第二次访问和其第三次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV12,获取第一类型的访问页面的第M-1次访问和其第M次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV1M-1,其中,M的大小等于第一类型的访问页面的页面浏览量PV,并且M为大于等于2的整数,需要说明的是,当M为1时,则说明第一类型的访问页面仅仅被访问了1次,即第一类型的访问页面没有被重复访问,该步骤将这种情况排除在外。
然后,计算第一类型的访问页面中所有相邻的两次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量的和,即(PV11+PV12+……+PV1M-1)。
需要说明的是,计算(PV11+PV12+……+PV1M-1)的值也可以用下列解决方案代替:
即,判断第一类型的访问页面被访问的次数是否大于1,如果判断出第一类型的访问页面被访问的次数大于1,则获取会话中所有类型的访问页面的总的页面浏览量PV总1,并获取第一类型的访问页面的页面浏览量PV1,计算(PV总1-PV1),则(PV 1-PV1)=(PV11+PV12+……+PV1M-1)。
同理,依次获取并计算第二类型的访问页面至第N类型的访问页面中所有相邻的两次访问之间的除自身类型的其他类型的访问页面页面浏览量的和,即(PV21+PV22+……+PV2M-1)……(PVN1+PVN2+……+PVNM-1)。另外,(PV21+PV22+……+PV2M-1)=(PV总2-PV2)……(PVN1+PVN2+……+PVNM-1)=(PV总N-PVN)。
最后,计算(PV11+PV12+……+PV1M-1)+(PV21+PV22+……+PV2M-1)+……+(PVN1+PVN2+……+PVNM-1),其中,该计算结果为多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。另外,根据上述描述,该计算结果可以被根据(PV总1-PV1)+(PV总2-PV2)+……+(PV总N-PVN)求得。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A1、B1、C1、B2、A2、B3,其中,字母A、B、C分别表示访问网页的类型,字母A、B、C的右下标表示该字母代表的类型的访问页面的第几次访问,则在该会话中,A类型的访问页面的A1和A2之间的B、C类型访问网页的PV为3,B类型的访问页面的B1和B2之间以及B2和B3之间的A、C类型访问网页的PV为(1+1),由于C类型的访问页面仅仅被访问了1次,因此,相邻该类型的访问页面之间的访问页面的页面浏览量PV之和为0或者忽略不计。综上,A、B、C三种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和为(3+1+1)。
步骤S110,基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标。
会话迷失指标可以用会话迷失度表示。会话迷失度用于表征用户在会话中的迷失程度,其中,会话迷失度可以基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定,或者会话迷失度还可以基于每一类型访问页面的页面重复浏览量DC和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定。
具体地,当用户使用在线访问平台时,根据每一类型访问页面的页面重复浏览量DC计算所有类型的页面重复浏览量DC,当所有类型的页面重复浏览量DC一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越大时,说明网站内容的吸引力越小或者网站内的导航能力越差,否则当所有类型的页面重复浏览量DC一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越小时,说明网站内容的吸引力越大或者网站内的导航能力越好。
导航能力的强弱是对一个网站或者网页而言的,当用户浏览一个网站或者一个网页的信息,不会在几个网站或者网页之间频繁的重复跨越时,则说明被浏览网站的导航能力较强,否则当用户浏览一个网站或者一个网页的信息,会在几个网站或者网页之间频繁的重复跨越多次时,则说明被浏览网站的导航能力较弱。
例如,在一次会话中,用户可以通过以下方式查看商品1的相关信息:方式一,用户在网站A和网站B之间重复跨域数次以查看商品1的相关信息;方式二,用户从网站A经过1次跨越,在网站B中查看商品1的相关信息。由于方式一中网页被多次重复浏览,方式二中没有出现网页被重复浏览的现象,因此方式一的会话迷失度高于方式二的会话迷失度。
这样,通过本发明实施例,由于会话中访问页面的页面浏览量PV可以反映会话的迷失度,进而可以反映网站内容的吸引力情况和网站导航的导航能力,因此,通过检测会话中访问页面的页面浏览量PV可以达到自动检测在线访问中用户访问的迷失水平的效果。
图4是根据本发明第二实施例的用于在线访问的数据处理方法的流程图。
如图4所示,该用于在线访问的数据处理方法包括如下的步骤S202至步骤S216,该实施例可以作为图3所示实施例的优选实施方式。
步骤S202,获取用户使用在线访问平台时产生的会话的会话开始时间。
在本发明实施例中,由于会话是一个用户与服务器之间的不中断的请求和响应的序列,对用户的每个请求,服务器都能够识别出该请求来自于同一个用户,当一个未知的用户向Web应用程序发送第一个请求时就开始了一个会话,因此获取用户使用在线访问平台时产生的会话的会话开始时间可以是获取一个未知的用户向Web应用程序发送第一个请求的时间。
步骤S204,获取用户使用在线访问平台时产生的会话的会话结束时间。
在本发明实施例中,可以通过以下方式获取用户使用在线访问平台时产生的会话的会话结束时间:
方式一,在未知的用户向Web应用程序发送第一个请求之后,检测用户向Web应用程序发送的请求是否为明确会话的请求,当检测到用户向Web应用程序发送的请求为明确结束会话的请求时,则获取该明确结束会话的请求的发送时间,其中,上述明确结束会话的请求的发送时间为会话结束时间。
方式二,当用户在一段时间内不再向Web应用程序发送请求时,检测该段时间的时间长度是否大于预设时间长度,当检测到该段时间的时间长度大于预设时间长度时,获取该时间段的最后时刻,该时刻为会话结束时间。
需要说明的是,会话的开始时间和会话的结束时间之间的时间段为会话时间段。
这样,通过获取用户使用在线访问平台时产生的会话的会话开始时间和获取用户使用在线访问平台时产生的会话的会话结束时间,可以保证获取的用户使用在线访问平台时产生的会话为一个完整并且为同一个会话。
步骤S206和步骤S208,分别同图1所示实施例的步骤S104和步骤S106,在此不再赘述。
步骤S210,获取会话时间段内多种类型的访问页面的页面浏览量PV总数。
获取会话时间段内多种类型的访问页面的页面浏览量PV总数可以是在一个会话过程中,用户所访问的访问页面的总数量。
在本发明实施例中,首先可以检测多种类型的访问页面的页面浏览量PV是否发生在会话时间段内,当检测到多种类型的访问页面的页面浏览量PV发生在会话时间段内之后,记录多种类型的访问页面的页面浏览量PV的总数。
这样,可以保证检测到的多种类型的访问页面的页面浏览量PV为同一会话的PV,达到了准确检测PV的效果。
步骤S212,判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值。
其中,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。预设值可以任意设定,例如,预设值可以为3,这样,判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于3,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于3时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
步骤S214和步骤S216,分别同图1所示实施例的步骤S108和步骤S110,在此不再赘述。
由于获取的会话时间段内多种类型的访问页面的页面浏览量PV总数较小时,确定会话迷失指标对会话的意义不大,因此,先判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值,当判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,再考虑确定会话迷失指标可以提高工作效率。
图5是根据本发明第三实施例的用于在线访问的数据处理方法的流程图。
如图5所示,该用于在线访问的数据处理方法包括如下的步骤S302至步骤S324,该实施例可以作为图3所示实施例的优选实施方式。
步骤S302和步骤S302,分别同图3所示实施例的步骤S102和步骤S104,在此不再赘述。
需要说明的是,访问页面可以包括第一类型访问页面和第二类型访问页面。以下以用户所访问的第一类型访问页面和第二类型访问页面为例进行讲述。
步骤S306,获取第一类型访问页面的页面浏览量PV。
由于第一类型访问页面和第一类型访问页面的页面浏览量PV一一对应,因此,可以通过第一类型访问页面与第一类型访问页面的页面浏览量PV的对应关系获取第一类型访问页面的页面浏览量PV。
获取的会话中第一类型访问页面可以存储在类型列表中,在将获取的会话中第一类型访问页面存储在类型列表中之后,可以同时在类型列表中记录不同类型的访问页面的PV,这样,当获取到会话中访问页面的类型之后,可以判断获取的访问页面的类型是否为类型列表中存储的访问页面类型,如果确定获取的访问页面的类型为类型列表中存储的类型,则将该类型对应的访问页面的PV增加1,否则如果确定获取的访问页面的类型不为类型列表中存储的类型,则将该类型添加到类型列表中,并将该类型对应的PV置1或者置0。其中,如果PV置1,则DC=PV-1,如果PV置0,则DC=PV,DC表示该类型的页面的重复浏览量。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,可以获取A类型的访问页面的PV为3(该处PV的初始值为1)。
步骤S308,获取第二类型访问页面的页面浏览量PV。
获取第二类型访问页面的页面浏览量PV的方式与获取第一类型访问页面的页面浏览量PV的方式相同,在此不再赘述。
需要说明的是,步骤S306和步骤S308可以合并为一个步骤执行。
步骤S310,基于获取的第一类型访问页面的页面浏览量PV计算第一类型访问页面的页面重复浏览量。
具体地,可以根据PV在类型表中的记录方式计算第一类型访问页面的页面重复浏览量。其中,当第一类型访问页面的页面浏览量PV的初始值被置1时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV-1,当第一类型访问页面的页面浏览量PV的初始值被置0时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV。
步骤S312,基于获取的第二类型访问页面的页面浏览量PV计算第二类型访问页面的页面重复浏览量。
第二类型访问页面的页面重复浏览量DC的计算方式同第一类型访问页面的页面重复浏览量的计算方式,在此不再赘述。
需要说明的是,步骤S310和步骤S312可以合并为一个步骤执行。另外,第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的计算必须基于相同的PV初始值。
步骤S314,计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和。
步骤S316,获取第一和。
其中,第一和为相邻第一类型访问页面之间的第二类型访问页面的页面浏览量PV之和。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,第一和可以为相邻的A类型访问页面之间的B类型访问页面的页面浏览量PV之和,即(2+1)。
步骤S318,获取第二和。
其中,第二和为相邻第二类型访问页面之间的第一类型访问页面的页面浏览量PV之和。
步骤S320,计算第一和和第二和的总和。
步骤S322,计算第一和与第二和的总和与第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和的比值。
其中,上述比值为访问页面的页面重复浏览量DC中访问页面的页面浏览量PV的平均值(Disorientation Gap,简称DG)。
具体地,上述比值可以通过以下公式计算得到:
DG=(PV1+PV2)/(DC1+DC2),其中,PV1表示第一和,PV2表示第二和,DC1表示第一类型访问页面的页面重复浏览量,DC2表示第二类型访问页面的页面重复浏览量,DG表示比值,即平均值。
需要说明的是,步骤S309至步骤S311可以合并为一个步骤执行。
步骤S324,根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标。
需要说明的是,可以通过第一类型访问页面的页面重复浏览量DC1、第二类型访问页面的页面重复浏览量DC2与比值DG的多种运算方式确定会话的会话迷失指标。
优选地,可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与第二类型访问页面的页面重复浏览量DC2的和,该和为多种类型的访问页面的页面重复浏览量DC,其中,DC=(DC1+DC2)。
然后,计算多种类型的访问页面的页面重复浏览量DC除以比值商,该商即为会话迷失指标,其中,Z=DC/DG,Z表示会话迷失指标。
对Z=DC/DG而言,当页面重复浏览量DC大小一定时,如果DG越大,则会话迷失指标越小,会话迷失指标越小表明网站的内容的吸引力越大,并且网站的导航能力也越好;否则当页面重复浏览量DC大小一定时,如果DG越小,则会话迷失指标越大,会话迷失指标越大表明网站的内容的吸引力越小,并且网站的导航能力也越差。
优选地,还可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与比值DG的商Z1,即Z1=DC1/DG;并且计算第二类型访问页面的页面重复浏览量DC2与比值DG的商Z2,即Z2=DC2/DG。
然后,计算Z=Z1+Z2,其中,Z表示会话迷失指标。
这样,通过上述定量计算可以准确地得到会话迷失指标(会话迷失度),并根据会话迷失指标准确地把握网站的内容的吸引力情况和导航的导航能力,进而通过不断调整网站的内容和导航以达到优化网站的效果。
进一步优选地,在根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标之后,该数据处理方法还可以通过以下方式确定在线访问平台的用户迷失度,其中,用户迷失度是指在线访问平移台在预设时间段内的所有会话的整体迷失水平:
步骤1,获取会话的会话迷失指标阈值。
会话迷失指标阈值为预先设定的,获取会话的会话迷失指标阈值之后,可以将上述步骤确定的会话迷失度(会话迷失指标)与之比较,进而确定会话迷失度(会话迷失指标)对应的会话是否为迷失会话。
步骤2,判断会话的会话迷失指标是否大于会话的会话迷失指标阈值。
步骤3,如果判断出会话的会话迷失指标大于会话的会话迷失指标阈值,则确定会话为迷失会话。
步骤4,获取在线访问平台在预设时间段内的迷失会话的次数和会话的总次数。
其中,会话的总次数为在预设时间段内记录的在线访问平台产生的所有会话的次数。
步骤5,计算迷失会话的次数占会话的总次数比例以确定在线访问平台的用户迷失度。
具体地,当用户迷失度大时,说明迷失会话的次数占的比例较大,当用户迷失度小时,说明迷失会话的次数占的比例较小。
由于检测会话迷失度仅仅是检测在一个会话中用户在线访问的关注水平,具有偶然性,而通过本发明实施例,可以先检测多个会话各自的会话迷失度,再确定多个会话中迷失会话的比例,即用户迷失度,避免了仅仅检测会话迷失度的偶然性,进而达到了检测结果更准确的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
从以上的描述中,可以看出,本发明实现了解决了相关技术中无法检测在线访问中用户访问的迷失水平的问题,进而达到了自动检测在线访问中用户访问的迷失水平的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于在线访问的数据处理方法,其特征在于,包括:
获取用户使用在线访问平台时产生的会话;
检测所述会话中访问页面的类型,其中,所述访问页面包括多种类型的访问页面;
获取所述多种类型的访问页面中每一类型访问页面的页面浏览量PV;
获取所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和;以及
基于所述每一类型访问页面的页面浏览量PV和所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定所述会话的会话迷失指标。
2.根据权利要求1所述的数据处理方法,其特征在于,
获取用户使用在线访问平台时产生的会话包括:获取所述用户使用所述在线访问平台时产生的所述会话的开始时间;获取所述用户使用所述在线访问平台时产生的所述会话的结束时间,其中,所述会话的开始时间和所述会话的结束时间之间的时间段为会话时间段,
在获取所述多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,所述数据处理方法还包括:获取所述会话时间段内所述多种类型的访问页面的页面浏览量PV总数;判断获取的所述会话时间段内所述多种类型的访问页面的页面浏览量PV总数是否大于预设值,其中,当判断出获取的所述会话时间段内所述多种类型的访问页面的页面浏览量PV总数大于所述预设值时,获取所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
3.根据权利要求1所述的数据处理方法,其特征在于,所述访问页面包括第一类型访问页面和第二类型访问页面,
获取所述多种类型的访问页面中每一类型访问页面的页面浏览量PV包括:获取所述第一类型访问页面的页面浏览量PV;获取所述第二类型访问页面的页面浏览量PV,
在获取所述多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,所述数据处理方法还包括:基于获取的所述第一类型访问页面的页面浏览量PV计算所述第一类型访问页面的页面重复浏览量;基于获取的所述第二类型访问页面的页面浏览量PV计算所述第二类型访问页面的页面重复浏览量;计算所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和,
获取所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和包括:获取第一和,所述第一和为相邻所述第一类型访问页面之间的所述第二类型访问页面的页面浏览量PV之和;获取第二和,所述第二和为相邻所述第二类型访问页面之间的所述第一类型访问页面的页面浏览量PV之和;计算所述第一和与所述第二和的总和,
基于所述每一类型访问页面的页面浏览量PV和所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定所述会话的会话迷失指标包括:计算所述第一和与所述第二和的总和与所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和的比值;根据计算得到的所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和与所述比值确定所述会话的会话迷失指标。
4.根据权利要求3所述的数据处理方法,其特征在于,根据计算得到的所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和与所述比值确定所述会话的会话迷失指标包括:计算所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和与所述比值的比值以确定所述会话的会话迷失指标。
5.根据权利要求4所述的数据处理方法,其特征在于,在计算所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和与所述比值的比值以确定所述会话的会话迷失指标之后,所述数据处理方法还包括:
获取所述会话的会话迷失指标阈值;
判断所述会话的会话迷失指标是否大于所述会话的会话迷失指标阈值;
如果判断出所述会话的会话迷失指标大于所述会话的会话迷失指标阈值,则确定所述会话为迷失会话;
获取所述在线访问平台在预设时间段内的所述迷失会话的个数和所述会话的总个数;以及
计算所述迷失会话的个数占所述会话的总个数的比例以确定所述在线访问平台的用户迷失度。
6.一种用于在线访问的数据处理装置,其特征在于,包括:
第一获取单元,用于获取用户使用在线访问平台时产生的会话;
检测单元,用于检测所述会话中访问页面的类型,其中,所述访问页面包括多种类型的访问页面;
第二获取单元,用于获取所述多种类型的访问页面中每一类型访问页面的页面浏览量PV;
第三获取单元,用于获取所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和;以及
第一确定单元,用于基于所述每一类型访问页面的页面浏览量PV和所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定所述会话的会话迷失指标。
7.根据权利要求6所述的数据处理装置,其特征在于,
所述第一获取单元包括:第一获取模块,用于获取所述用户使用所述在线访问平台时产生的所述会话的开始时间;第二获取模块,用于获取所述用户使用所述在线访问平台时产生的所述会话的结束时间,其中,所述会话的开始时间和所述会话的结束时间之间的时间段为会话时间段,
所述数据处理装置还包括:第四获取单元,用于在获取所述多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,获取所述会话时间段内所述多种类型的访问页面的页面浏览量PV总数;第一判断单元,用于判断获取的所述会话时间段内所述多种类型的访问页面的页面浏览量PV总数是否大于预设值,其中,当判断出获取的所述会话时间段内所述多种类型的访问页面的页面浏览量PV总数大于所述预设值时,所述第三获取单元用于获取所述多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
8.根据权利要求6所述的数据处理装置,其特征在于,所述访问页面包括第一类型访问页面和第二类型访问页面,
所述第二获取单元包括:第三获取模块,用于获取所述第一类型访问页面的页面浏览量PV;第四获取模块,用于获取所述第二类型访问页面的页面浏览量PV,
所述数据处理装置还包括:第一计算单元,用于在获取所述多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,基于获取的所述第一类型访问页面的页面浏览量PV计算所述第一类型访问页面的页面重复浏览量;第二计算单元,用于基于获取的所述第二类型访问页面的页面浏览量PV计算所述第二类型访问页面的页面重复浏览量;第三计算单元,用于计算所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和,
所述第三获取单元包括:第五获取模块,用于获取第一和,所述第一和为相邻所述第一类型访问页面之间的所述第二类型访问页面的页面浏览量PV之和;第六获取模块,用于获取第二和,所述第二和为相邻所述第二类型访问页面之间的所述第一类型访问页面的页面浏览量PV之和;第一计算模块,用于计算所述第一和与所述第二和的总和,
所述第一确定单元包括:第二计算模块,用于计算所述第一和与所述第二和的总和与所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和的比值;确定模块,用于根据计算得到的所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和与所述比值确定所述会话的会话迷失指标。
9.根据权利要求8所述的数据处理装置,其特征在于,所述第一确定单元还用于计算所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和与所述比值的比值以确定所述会话的会话迷失指标。
10.根据权利要求9所述的数据处理装置,其特征在于,所述数据处理装置还包括:
第五获取单元,用于在计算所述第一类型访问页面的页面重复浏览量和所述第二类型访问页面的页面重复浏览量的和与所述比值的比值以确定所述会话的会话迷失指标之后,获取所述会话的会话迷失指标阈值;
第二判断单元,用于判断所述会话的会话迷失指标是否大于所述会话的会话迷失指标阈值;
第二确定单元,用于如果判断出所述会话的会话迷失指标大于所述会话的会话迷失指标阈值,则确定所述会话为迷失会话;
第六获取单元,用于获取所述在线访问平台在预设时间段内的所述迷失会话的个数和所述会话的总个数;以及
第四计算单元,用于计算所述迷失会话的个数占所述会话的总个数的比例以确定所述在线访问平台的用户迷失度。
CN201310723641.5A 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置 Active CN103678666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310723641.5A CN103678666B (zh) 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310723641.5A CN103678666B (zh) 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN103678666A true CN103678666A (zh) 2014-03-26
CN103678666B CN103678666B (zh) 2017-02-15

Family

ID=50316210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310723641.5A Active CN103678666B (zh) 2013-12-24 2013-12-24 用于在线访问的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN103678666B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791077A (zh) * 2014-12-24 2016-07-20 北京秒针信息咨询有限公司 一种统计电子邮件广告访问指标的方法及装置
CN112036666A (zh) * 2020-09-29 2020-12-04 中移(杭州)信息技术有限公司 绑定流程评估方法、装置、服务器、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002086773A1 (en) * 2001-04-20 2002-10-31 Traffion Technologies Pty Ltd Method of tracking user behaviour within a communications network
US20040073644A1 (en) * 2002-10-15 2004-04-15 Koch Donald O. System and method for processing web activity data
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法
CN102541892A (zh) * 2010-12-22 2012-07-04 北京凯思昊鹏软件工程技术有限公司 记录和分析用户行为特征的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002086773A1 (en) * 2001-04-20 2002-10-31 Traffion Technologies Pty Ltd Method of tracking user behaviour within a communications network
US20040073644A1 (en) * 2002-10-15 2004-04-15 Koch Donald O. System and method for processing web activity data
CN102541892A (zh) * 2010-12-22 2012-07-04 北京凯思昊鹏软件工程技术有限公司 记录和分析用户行为特征的方法
CN102393849A (zh) * 2011-07-18 2012-03-28 电子科技大学 一种Web日志数据的预处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许波 等: "基于行为分析的用户兴趣建模", 《情报杂志》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791077A (zh) * 2014-12-24 2016-07-20 北京秒针信息咨询有限公司 一种统计电子邮件广告访问指标的方法及装置
CN105791077B (zh) * 2014-12-24 2018-11-09 北京秒针信息咨询有限公司 一种统计电子邮件广告访问指标的方法及装置
CN112036666A (zh) * 2020-09-29 2020-12-04 中移(杭州)信息技术有限公司 绑定流程评估方法、装置、服务器、存储介质
CN112036666B (zh) * 2020-09-29 2024-03-22 中移(杭州)信息技术有限公司 绑定流程评估方法、装置、服务器、存储介质

Also Published As

Publication number Publication date
CN103678666B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
US10121155B2 (en) Measuring quality of user interaction with third party content
CN105187237B (zh) 查找相关联的用户标识的方法和装置
CN103455524A (zh) 展现和获取词条信息的方法和装置
CN106339380A (zh) 常见问题信息的推荐方法及装置
US10057155B2 (en) Method and apparatus for determining automatic scanning action
CN103812906B (zh) 一种网址推荐方法、装置和通信系统
CN105718559A (zh) 查找表单页面和目标页面转化关系的方法和装置
CN103177096B (zh) 基于文本属性的页面元素定位方法及设备
CN107526718A (zh) 用于生成文本的方法和装置
CN106354855A (zh) 一种推荐方法及系统
CN103544257A (zh) 网页质量检测方法和装置
Uriawan et al. Pearson correlation method and web scraping for analysis of islamic content on instagram videos
CN108809896A (zh) 一种信息校验方法、装置和电子设备
CN103678666A (zh) 用于在线访问的数据处理方法和装置
CN110719344B (zh) 域名获取方法、装置、电子设备及存储介质
CN101639856B (zh) 检测互联网信息传播的网页关联评价装置
CN110866170A (zh) 基于站点质量的Tor暗网服务的重要性评估方法、搜索方法及系统
US20220067078A1 (en) Aggregation system, Response Summary Process, and Method of Use
CN108664550A (zh) 一种对用户行为数据进行漏斗分析方法及装置
CN111026981B (zh) 热点话题的可视化展示方法、装置和设备
CN104392000B (zh) 确定移动站点抓取配额的方法和装置
KR101004999B1 (ko) 콘텐츠와 콘텐츠 제공 사이트의 파급력 측정 방법 및 장치
CN105260481A (zh) 一种推送列表多样性的评测方法及系统
Liu et al. A web services selection approach based on personalized qos prediction
CN105630790B (zh) 网页编码的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device used for online access

Effective date of registration: 20190531

Granted publication date: 20170215

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.