具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
根据本发明的实施例,提供了一种用于在线访问的数据处理装置,该用于在线访问的数据处理装置用于检测在线访问的迷失程度。
图1是根据本发明第一实施例的用于在线访问的数据处理装置的结构示意图。
如图1所示,该装置包括第一获取单元10、检测单元20、第二获取单元30、第三获取单元40和第一确定单元50,
第一获取单元10用于获取用户使用在线访问平台时产生的会话。
需要说明的是,获取用户使用在线访问平台时产生的会话可以为获取用户使用在线访问平台时产生的一个会话。
以网络(web)语言中的web会话为例,会话是指用户开启一个浏览器之后,访问某一个web站点,并在这个站点点击多个超链接以访问服务器的多个web资源,然后关闭浏览器的整个过程。其中,每个上述过程即为一个会话。另外,在线访问平台可以包括政府、学校、企业等的在线访问平台。
例如,当用户登录某购物网站或者向购物车中添加一件商品时,就必须开始一个会话,而会话开启之后,用户可能不止浏览一个商家或者一个网站的商品,这样,用户在一个会话中可以产生多次跨越网站、网页或者网页栏目的情况,而上述跨越网站、网页或者网页栏目可以对应不同类型的访问页面。
检测单元20用于检测会话中访问页面的类型。
其中,访问页面包括多种类型的访问页面。访问页面的类型可以由用户在会话中的跨域信息确定。需要说明的是,用户在会话中的跨域信息可以包括一种或者多种跨域信息,例如,用户在会话中的跨域信息可以包括用户在会话中的网站层级的跨域信息、统一资源定位(Uniform Resource Locator,简称URL)层级的跨域信息和栏目层级的跨域信息。
例如,在一次会话中,用户可能先浏览了网站A中的商品1,然后又去网站B浏览了同样的商品1,这样就会产生第一种跨域信息,即网站A到网站B的网站层级的跨越信息,此时用户浏览的页面的类型包括网站A的页面类型和网站B的页面类型,另外,在本次会话中,用户还可能先浏览了网站A中的商家a的商品1,然后又去网站A中的商家b浏览了同样的商品1,这样又会产生第二种跨域信息,即网页到网页的跨越信息,此时用户浏览的页面的类型包括商家a的网页类型和商家b的网页类型。
由于访问页面与该访问页面的IP地址一一对应,因此,检测会话中访问页面的类型可以是根据访问页面与其IP地址的对应关系,通过检测访问页面的IP地址检测访问页面的类型。具体地,对两个访问页面而言,如果检测到两个访问页面的IP地址不相同,则该两个访问页面为不同类型的访问页面,如果检测到两个访问页面的IP地址相同,则该两个访问页面为相同类型的访问页面。在检测到会话中访问页面的类型之后,可以将访问页面的类型存储在类型列表中。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,可以检测到用户浏览的访问页面的类型共有3种,并且该3种类型的访问页面分别为A、B、C。
第二获取单元30用于获取多种类型的访问页面中每一类型访问页面的页面浏览量PV。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是获取会话中所有类型的访问页面中每一类型访问页面的页面浏览量PV,其中,页面浏览量(PageView,简称PV)是指用户在一个会话中浏览的页面的数量,会话PV又称为会话长度。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是根据访问页面与其IP地址的对应关系,通过获取每一类型的访问页面的IP地址被访问的次数获取每一类型访问页面的页面浏览量PV。
获取的页面浏览量PV可以存储在PV表中,根据每一类型的访问页面与其PV之间的对应关系,当每一类型的访问页面的IP地址被访问一次后,该种类型的访问页面的PV就会增加1。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,用户分别浏览的3种类型的访问网页为A、B、C,其中,A的页面浏览量PV1为2,B的页面浏览量PV2为3,C的页面浏览量PV3为1。
需要说明的是,根据获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,可以计算多种类型的访问页面中每一类型访问页面的页面重复浏览量(Disorientation Counts,简称DC),其中,DC=PV-1。
第三获取单元40用于获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
优选地,可以通过以下方式获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和:
首先,假设获取的会话中访问页面的类型数为N,则访问页面分别有第一类型的访问页面,第二类型的访问页面,……,第N类型的访问页面,其中,N为大于2的整数。
接着,获取第一类型的访问页面的第一次访问和其第二次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV11;获取第一类型的访问页面的第二次访问和其第三次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV12,获取第一类型的访问页面的第M-1次访问和其第M次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV1M-1,其中,M的大小等于第一类型的访问页面的页面浏览量PV,并且M为大于等于2的整数,需要说明的是,当M为1时,则说明第一类型的访问页面仅仅被访问了1次,即第一类型的访问页面没有被重复访问,该步骤将这种情况排除在外。
然后,计算第一类型的访问页面中所有相邻的两次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量的和,即(PV11+PV12+……+PV1M-1)。
需要说明的是,计算(PV11+PV12+……+PV1M-1)的值也可以用下列解决方案代替:
即,判断第一类型的访问页面被访问的次数是否大于1,如果判断出第一类型的访问页面被访问的次数大于1,则获取会话中所有类型的访问页面的总的页面浏览量PV总1,并获取第一类型的访问页面的页面浏览量PV1,计算(PV总1-PV1),则(PV总 1-PV1)=(PV11+PV12+……+PV1M-1)。
同理,依次获取并计算第二类型的访问页面至第N类型的访问页面中所有相邻的两次访问之间的除自身类型的其他类型的访问页面页面浏览量的和,即(PV21+PV22+……+PV2M-1)……(PVN1+PVN2+……+PVNM-1)。另外,(PV21+PV22+……+PV2M-1)=(PV总2-PV2)……(PVN1+PVN2+……+PVNM-1)=(PV总N-PVN)。
最后,计算(PV11+PV12+……+PV1M-1)+(PV21+PV22+……+PV2M-1)+……+(PVN1+PVN2+……+PVNM-1),其中,该计算结果为多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。另外,根据上述描述,该计算结果可以被根据(PV总1-PV1)+(PV总2-PV2)+……+(PV总N-PVN)求得。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A1、B1、C1、B2、A2、B3,其中,字母A、B、C分别表示访问网页的类型,字母A、B、C的右下标表示该字母代表的类型的访问页面的第几次访问,则在该会话中,A类型的访问页面的A1和A2之间的B、C类型访问网页的PV为3,B类型的访问页面的B1和B2之间以及B2和B3之间的A、C类型访问网页的PV为(1+1),由于C类型的访问页面仅仅被访问了1次,因此,相邻该类型的访问页面之间的访问页面的页面浏览量PV之和为0或者忽略不计。综上,A、B、C三种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和为(3+1+1)。
第一确定单元50基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标。
会话迷失指标可以用会话迷失度表示。会话迷失度用于表征用户在会话中的迷失程度,其中,会话迷失度可以基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定,或者会话迷失度还可以基于每一类型访问页面的页面重复浏览量DC和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定。
具体地,当用户使用在线访问平台时,根据每一类型访问页面的页面重复浏览量DC计算所有类型的页面重复浏览量DC总,当所有类型的页面重复浏览量DC总一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越大时,说明网站内容的吸引力越小或者网站内的导航能力越差,否则当所有类型的页面重复浏览量DC总一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越小时,说明网站内容的吸引力越大或者网站内的导航能力越好。
导航能力的强弱是对一个网站或者网页而言的,当用户浏览一个网站或者一个网页的信息,不会在几个网站或者网页之间频繁的重复跨越时,则说明被浏览网站的导航能力较强,否则当用户浏览一个网站或者一个网页的信息,会在几个网站或者网页之间频繁的重复跨越多次时,则说明被浏览网站的导航能力较弱。
例如,在一次会话中,用户可以通过以下方式查看商品1的相关信息:方式一,用户在网站A和网站B之间重复跨域数次以查看商品1的相关信息;方式二,用户从网站A经过1次跨越,在网站B中查看商品1的相关信息。由于方式一中网页被多次重复浏览,方式二中没有出现网页被重复浏览的现象,因此方式一的会话迷失度高于方式二的会话迷失度。
这样,通过本发明实施例,由于会话中访问页面的页面浏览量PV可以反映会话的迷失度,进而可以反映网站内容的吸引力情况和网站导航的导航能力,因此,通过检测会话中访问页面的页面浏览量PV可以达到自动检测在线访问中用户访问的迷失水平的效果。
优选地,在本发明实施例中,该装置还可以包括第四获取单元和第一判断单元,并且第一获取单元10可以包括:第一获取模块和第二获取模块。
第一获取模块用于获取用户使用在线访问平台时产生的会话的会话开始时间。
在本发明实施例中,由于会话是一个用户与服务器之间的不中断的请求和响应的序列,对用户的每个请求,服务器都能够识别出该请求来自于同一个用户,当一个未知的用户向Web应用程序发送第一个请求时就开始了一个会话,因此获取用户使用在线访问平台时产生的会话的会话开始时间可以是获取一个未知的用户向Web应用程序发送第一个请求的时间。
第二获取模块用于获取用户使用在线访问平台时产生的会话的会话结束时间。
在本发明实施例中,可以通过以下方式获取用户使用在线访问平台时产生的会话的会话结束时间:
方式一,在未知的用户向Web应用程序发送第一个请求之后,检测用户向Web应用程序发送的请求是否为明确会话的请求,当检测到用户向Web应用程序发送的请求为明确结束会话的请求时,则获取该明确结束会话的请求的发送时间,其中,上述明确结束会话的请求的发送时间为会话结束时间。
方式二,当用户在一段时间内不再向Web应用程序发送请求时,检测该段时间的时间长度是否大于预设时间长度,当检测到该段时间的时间长度大于预设时间长度时,获取该时间段的最后时刻,该时刻为会话结束时间。
需要说明的是,会话的开始时间和会话的结束时间之间的时间段为会话时间段。
这样,通过获取用户使用在线访问平台时产生的会话的会话开始时间和获取用户使用在线访问平台时产生的会话的会话结束时间,可以保证获取的用户使用在线访问平台时产生的会话为一个完整并且为同一个会话。
第四获取单元用于获取会话时间段内多种类型的访问页面的页面浏览量PV总数。
获取会话时间段内多种类型的访问页面的页面浏览量PV总数可以是在一个会话过程中,用户所访问的访问页面的总数量。
在本发明实施例中,首先可以检测多种类型的访问页面的页面浏览量PV是否发生在会话时间段内,当检测到多种类型的访问页面的页面浏览量PV发生在会话时间段内之后,记录多种类型的访问页面的页面浏览量PV的总数。
这样,可以保证检测到的多种类型的访问页面的页面浏览量PV为同一会话的PV,达到了准确检测PV的效果。
第一判断单元用于判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值。
其中,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。预设值可以任意设定,例如,预设值可以为3,这样,判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于3,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于3时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
由于获取的会话时间段内多种类型的访问页面的页面浏览量PV总数较小时,确定会话迷失指标对会话的意义不大,因此,先判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值,当判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,再考虑确定会话迷失指标可以提高工作效率。
图2是根据本发明第二实施例的用于在线访问的数据处理装置的结构示意图。
如图2所示,该实施例可以作为图1所示实施例的优选实施方式,该实施例的用于在线访问的数据处理装置除了包括第一实施例的第一获取单元10、检测单元20、第二获取单元30、第三获取单元40和第一确定单元50之外,还包括第一计算单元60、第二计算单元70、第三计算单元80,其中,第二获取单元30包括第三获取模块301和第四获取模块302,第三获取单元40包括第五获取模块401、第六获取模块402和第一计算模块403,第一确定单元50包括第二计算模块501和确定模块502。
第一获取单元10和检测单元20的作用与第一实施例中的相同,在此不再赘述。需要说明的是,访问页面可以包括第一类型访问页面和第二类型访问页面。以下以用户所访问的第一类型访问页面和第二类型访问页面为例进行讲述。
第三获取模块301用于获取第一类型访问页面的页面浏览量PV。
由于第一类型访问页面和第一类型访问页面的页面浏览量PV一一对应,因此,可以通过第一类型访问页面与第一类型访问页面的页面浏览量PV的对应关系获取第一类型访问页面的页面浏览量PV。
获取的会话中第一类型访问页面可以存储在类型列表中,在将获取的会话中第一类型访问页面存储在类型列表中之后,可以同时在类型列表中记录不同类型的访问页面的PV,这样,当获取到会话中访问页面的类型之后,可以判断获取的访问页面的类型是否为类型列表中存储的访问页面类型,如果确定获取的访问页面的类型为类型列表中存储的类型,则将该类型对应的访问页面的PV增加1,否则如果确定获取的访问页面的类型不为类型列表中存储的类型,则将该类型添加到类型列表中,并将该类型对应的PV置1或者置0。其中,如果PV置1,则DC=PV-1,如果PV置0,则DC=PV,DC表示该类型的页面的重复浏览量。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,可以获取A类型的访问页面的PV为3(该处PV的初始值为1)。
第四获取模块302用于获取第二类型访问页面的页面浏览量PV。
获取第二类型访问页面的页面浏览量PV的方式与获取第一类型访问页面的页面浏览量PV的方式相同,在此不再赘述。
第一计算单元60用于基于获取的第一类型访问页面的页面浏览量PV计算第一类型访问页面的页面重复浏览量。
具体地,可以根据PV在类型表中的记录方式计算第一类型访问页面的页面重复浏览量。其中,当第一类型访问页面的页面浏览量PV的初始值被置1时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV-1,当第一类型访问页面的页面浏览量PV的初始值被置0时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV。
第二计算单元70用于基于获取的第二类型访问页面的页面浏览量PV计算第二类型访问页面的页面重复浏览量。
第二类型访问页面的页面重复浏览量DC的计算方式同第一类型访问页面的页面重复浏览量的计算方式,在此不再赘述。
需要说明的是,第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的计算必须基于相同的PV初始值。
第三计算单元80用于计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和。
第五获取模块401用于获取第一和。
其中,第一和为相邻第一类型访问页面之间的第二类型访问页面的页面浏览量PV之和。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,第一和可以为相邻的A类型访问页面之间的B类型访问页面的页面浏览量PV之和,即(2+1)。
第六获取模块402用于获取第二和。
其中,第二和为相邻第二类型访问页面之间的第一类型访问页面的页面浏览量PV之和。
第一计算模块403用于计算第一和和第二和的总和。
第二计算模块501用于计算第一和与第二和的总和与第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和的比值。
其中,上述比值为访问页面的页面重复浏览量DC中访问页面的页面浏览量PV的平均值(Disorientation Gap,简称DG)。
具体地,上述比值可以通过以下公式计算得到:
DG=(PV1+PV2)/(DC1+DC2),其中,PV1表示第一和,PV2表示第二和,DC1表示第一类型访问页面的页面重复浏览量,DC2表示第二类型访问页面的页面重复浏览量,DG表示比值,即平均值。
确定模块502用于根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标。
需要说明的是,可以通过第一类型访问页面的页面重复浏览量DC1、第二类型访问页面的页面重复浏览量DC2与比值DG的多种运算方式确定会话的会话迷失指标。
优选地,可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与第二类型访问页面的页面重复浏览量DC2的和,该和为多种类型的访问页面的页面重复浏览量DC,其中,DC=(DC1+DC2)。
然后,计算多种类型的访问页面的页面重复浏览量DC除以比值商,该商即为会话迷失指标,其中,Z=DC/DG,Z表示会话迷失指标。
对Z=DC/DG而言,当页面重复浏览量DC大小一定时,如果DG越大,则会话迷失指标越小,会话迷失指标越小表明网站的内容的吸引力越大,并且网站的导航能力也越好;否则当页面重复浏览量DC大小一定时,如果DG越小,则会话迷失指标越大,会话迷失指标越大表明网站的内容的吸引力越小,并且网站的导航能力也越差。
优选地,还可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与比值DG的商Z1,即Z1=DC1/DG;并且计算第二类型访问页面的页面重复浏览量DC2与比值DG的商Z2,即Z2=DC2/DG。
然后,计算Z=Z1+Z2,其中,Z表示会话迷失指标。
这样,通过上述定量计算可以准确地得到会话迷失指标(会话迷失度),并根据会话迷失指标准确地把握网站的内容的吸引力情况和导航的导航能力,进而通过不断调整网站的内容和导航以达到优化网站的效果。
进一步优选地,在本发明实施例中,该数据处理装置还可以包括第五获取单元、第二判断单元、第二确定单元、第六获取单元和第四计算单元。上述单元可以用于确定在线访问平台的用户迷失度,其中,用户迷失度是指在线访问平移台在预设时间段内的所有会话的整体迷失水平:
第五获取单元用于在根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标之后,获取会话的会话迷失指标阈值。
会话迷失指标阈值为预先设定的,获取会话的会话迷失指标阈值之后,可以将上述步骤确定的会话迷失度(会话迷失指标)与之比较,进而确定会话迷失度(会话迷失指标)对应的会话是否为迷失会话。
第二判断单元用于判断会话的会话迷失指标是否大于会话的会话迷失指标阈值。
第二确定单元用于如果判断出会话的会话迷失指标大于会话的会话迷失指标阈值,则确定会话为迷失会话。
第六获取单元用于获取在线访问平台在预设时间段内的迷失会话的次数和会话的总次数。
其中,会话的总次数为在预设时间段内记录的在线访问平台产生的所有会话的次数。
第四计算单元用于计算迷失会话的次数占会话的总次数比例以确定在线访问平台的用户迷失度。
具体地,当用户迷失度大时,说明迷失会话的次数占的比例较大,当用户迷失度小时,说明迷失会话的次数占的比例较小。
由于检测会话迷失度仅仅是检测在一个会话中用户在线访问的关注水平,具有偶然性,而通过本发明实施例,可以先检测多个会话各自的会话迷失度,再确定多个会话中迷失会话的比例,即用户迷失度,避免了仅仅检测会话迷失度的偶然性,进而达到了检测结果更准确的效果。
根据本发明的实施例,提供了一种用于在线访问的数据处理方法,该用于在线访问的数据处理方法用于检测在线访问的迷失程度。该用于在线访问的数据处理方法可以运行在计算机处理设备上。需要说明的是,本发明实施例所提供的用于在线访问的数据处理方法可以通过本发明实施例的用于在线访问的数据处理装置来执行,本发明实施例的用于在线访问的数据处理装置也可以用于执行本发明实施例的用于在线访问的数据处理方法。
图3是根据本发明第一实施例的用于在线访问的数据处理方法的流程图。
如图3所示,该方法包括如下的步骤S102至步骤S110:
步骤S102,获取用户使用在线访问平台时产生的会话。
需要说明的是,获取用户使用在线访问平台时产生的会话可以为获取用户使用在线访问平台时产生的一个会话。
以网络(web)语言中的web会话为例,会话是指用户开启一个浏览器之后,访问某一个web站点,并在这个站点点击多个超链接以访问服务器的多个web资源,然后关闭浏览器的整个过程。其中,每个上述过程即为一个会话。另外,在线访问平台可以包括政府、学校、企业等的在线访问平台。
例如,当用户登录某购物网站或者向购物车中添加一件商品时,就必须开始一个会话,而会话开启之后,用户可能不止浏览一个商家或者一个网站的商品,这样,用户在一个会话中可以产生多次跨越网站、网页或者网页栏目的情况,而上述跨越网站、网页或者网页栏目可以对应不同类型的访问页面。
步骤S104,检测会话中访问页面的类型。
其中,访问页面包括多种类型的访问页面。访问页面的类型可以由用户在会话中的跨域信息确定。需要说明的是,用户在会话中的跨域信息可以包括一种或者多种跨域信息,例如,用户在会话中的跨域信息可以包括用户在会话中的网站层级的跨域信息、统一资源定位(Uniform Resource Locator,简称URL)层级的跨域信息和栏目层级的跨域信息。
例如,在一次会话中,用户可能先浏览了网站A中的商品1,然后又去网站B浏览了同样的商品1,这样就会产生第一种跨域信息,即网站A到网站B的网站层级的跨越信息,此时用户浏览的页面的类型包括网站A的页面类型和网站B的页面类型,另外,在本次会话中,用户还可能先浏览了网站A中的商家a的商品1,然后又去网站A中的商家b浏览了同样的商品1,这样又会产生第二种跨域信息,即网页到网页的跨越信息,此时用户浏览的页面的类型包括商家a的网页类型和商家b的网页类型。
由于访问页面与该访问页面的IP地址一一对应,因此,检测会话中访问页面的类型可以是根据访问页面与其IP地址的对应关系,通过检测访问页面的IP地址检测访问页面的类型。具体地,对两个访问页面而言,如果检测到两个访问页面的IP地址不相同,则该两个访问页面为不同类型的访问页面,如果检测到两个访问页面的IP地址相同,则该两个访问页面为相同类型的访问页面。在检测到会话中访问页面的类型之后,可以将访问页面的类型存储在类型列表中。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,可以检测到用户浏览的访问页面的类型共有3种,并且该3种类型的访问页面分别为A、B、C。
步骤S106,获取多种类型的访问页面中每一类型访问页面的页面浏览量PV。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是获取会话中所有类型的访问页面中每一类型访问页面的页面浏览量PV,其中,页面浏览量(PageView,简称PV)是指用户在一个会话中浏览的页面的数量,会话PV又称为会话长度。
获取多种类型的访问页面中每一类型访问页面的页面浏览量PV可以是根据访问页面与其IP地址的对应关系,通过获取每一类型的访问页面的IP地址被访问的次数获取每一类型访问页面的页面浏览量PV。
获取的页面浏览量PV可以存储在PV表中,根据每一类型的访问页面与其PV之间的对应关系,当每一类型的访问页面的IP地址被访问一次后,该种类型的访问页面的PV就会增加1。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、C、B、A、B,则在该会话中,用户分别浏览的3种类型的访问网页为A、B、C,其中,A的页面浏览量PV1为2,B的页面浏览量PV2为3,C的页面浏览量PV3为1。
需要说明的是,根据获取多种类型的访问页面中每一类型访问页面的页面浏览量PV之后,可以计算多种类型的访问页面中每一类型访问页面的页面重复浏览量(Disorientation Counts,简称DC),其中,DC=PV-1。
步骤S108,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
优选地,可以通过以下方式获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和:
首先,假设获取的会话中访问页面的类型数为N,则访问页面分别有第一类型的访问页面,第二类型的访问页面,……,第N类型的访问页面,其中,N为大于2的整数。
接着,获取第一类型的访问页面的第一次访问和其第二次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV11;获取第一类型的访问页面的第二次访问和其第三次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV12,获取第一类型的访问页面的第M-1次访问和其第M次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量PV1M-1,其中,M的大小等于第一类型的访问页面的页面浏览量PV,并且M为大于等于2的整数,需要说明的是,当M为1时,则说明第一类型的访问页面仅仅被访问了1次,即第一类型的访问页面没有被重复访问,该步骤将这种情况排除在外。
然后,计算第一类型的访问页面中所有相邻的两次访问之间的第二类型的访问页面至第N类型的访问页面的页面浏览量的和,即(PV11+PV12+……+PV1M-1)。
需要说明的是,计算(PV11+PV12+……+PV1M-1)的值也可以用下列解决方案代替:
即,判断第一类型的访问页面被访问的次数是否大于1,如果判断出第一类型的访问页面被访问的次数大于1,则获取会话中所有类型的访问页面的总的页面浏览量PV总1,并获取第一类型的访问页面的页面浏览量PV1,计算(PV总1-PV1),则(PV总 1-PV1)=(PV11+PV12+……+PV1M-1)。
同理,依次获取并计算第二类型的访问页面至第N类型的访问页面中所有相邻的两次访问之间的除自身类型的其他类型的访问页面页面浏览量的和,即(PV21+PV22+……+PV2M-1)……(PVN1+PVN2+……+PVNM-1)。另外,(PV21+PV22+……+PV2M-1)=(PV总2-PV2)……(PVN1+PVN2+……+PVNM-1)=(PV总N-PVN)。
最后,计算(PV11+PV12+……+PV1M-1)+(PV21+PV22+……+PV2M-1)+……+(PVN1+PVN2+……+PVNM-1),其中,该计算结果为多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。另外,根据上述描述,该计算结果可以被根据(PV总1-PV1)+(PV总2-PV2)+……+(PV总N-PVN)求得。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A1、B1、C1、B2、A2、B3,其中,字母A、B、C分别表示访问网页的类型,字母A、B、C的右下标表示该字母代表的类型的访问页面的第几次访问,则在该会话中,A类型的访问页面的A1和A2之间的B、C类型访问网页的PV为3,B类型的访问页面的B1和B2之间以及B2和B3之间的A、C类型访问网页的PV为(1+1),由于C类型的访问页面仅仅被访问了1次,因此,相邻该类型的访问页面之间的访问页面的页面浏览量PV之和为0或者忽略不计。综上,A、B、C三种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和为(3+1+1)。
步骤S110,基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和确定会话的会话迷失指标。
会话迷失指标可以用会话迷失度表示。会话迷失度用于表征用户在会话中的迷失程度,其中,会话迷失度可以基于每一类型访问页面的页面浏览量PV和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定,或者会话迷失度还可以基于每一类型访问页面的页面重复浏览量DC和多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和进行确定。
具体地,当用户使用在线访问平台时,根据每一类型访问页面的页面重复浏览量DC计算所有类型的页面重复浏览量DC总,当所有类型的页面重复浏览量DC总一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越大时,说明网站内容的吸引力越小或者网站内的导航能力越差,否则当所有类型的页面重复浏览量DC总一定时,则多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和越小时,说明网站内容的吸引力越大或者网站内的导航能力越好。
导航能力的强弱是对一个网站或者网页而言的,当用户浏览一个网站或者一个网页的信息,不会在几个网站或者网页之间频繁的重复跨越时,则说明被浏览网站的导航能力较强,否则当用户浏览一个网站或者一个网页的信息,会在几个网站或者网页之间频繁的重复跨越多次时,则说明被浏览网站的导航能力较弱。
例如,在一次会话中,用户可以通过以下方式查看商品1的相关信息:方式一,用户在网站A和网站B之间重复跨域数次以查看商品1的相关信息;方式二,用户从网站A经过1次跨越,在网站B中查看商品1的相关信息。由于方式一中网页被多次重复浏览,方式二中没有出现网页被重复浏览的现象,因此方式一的会话迷失度高于方式二的会话迷失度。
这样,通过本发明实施例,由于会话中访问页面的页面浏览量PV可以反映会话的迷失度,进而可以反映网站内容的吸引力情况和网站导航的导航能力,因此,通过检测会话中访问页面的页面浏览量PV可以达到自动检测在线访问中用户访问的迷失水平的效果。
图4是根据本发明第二实施例的用于在线访问的数据处理方法的流程图。
如图4所示,该用于在线访问的数据处理方法包括如下的步骤S202至步骤S216,该实施例可以作为图3所示实施例的优选实施方式。
步骤S202,获取用户使用在线访问平台时产生的会话的会话开始时间。
在本发明实施例中,由于会话是一个用户与服务器之间的不中断的请求和响应的序列,对用户的每个请求,服务器都能够识别出该请求来自于同一个用户,当一个未知的用户向Web应用程序发送第一个请求时就开始了一个会话,因此获取用户使用在线访问平台时产生的会话的会话开始时间可以是获取一个未知的用户向Web应用程序发送第一个请求的时间。
步骤S204,获取用户使用在线访问平台时产生的会话的会话结束时间。
在本发明实施例中,可以通过以下方式获取用户使用在线访问平台时产生的会话的会话结束时间:
方式一,在未知的用户向Web应用程序发送第一个请求之后,检测用户向Web应用程序发送的请求是否为明确会话的请求,当检测到用户向Web应用程序发送的请求为明确结束会话的请求时,则获取该明确结束会话的请求的发送时间,其中,上述明确结束会话的请求的发送时间为会话结束时间。
方式二,当用户在一段时间内不再向Web应用程序发送请求时,检测该段时间的时间长度是否大于预设时间长度,当检测到该段时间的时间长度大于预设时间长度时,获取该时间段的最后时刻,该时刻为会话结束时间。
需要说明的是,会话的开始时间和会话的结束时间之间的时间段为会话时间段。
这样,通过获取用户使用在线访问平台时产生的会话的会话开始时间和获取用户使用在线访问平台时产生的会话的会话结束时间,可以保证获取的用户使用在线访问平台时产生的会话为一个完整并且为同一个会话。
步骤S206和步骤S208,分别同图1所示实施例的步骤S104和步骤S106,在此不再赘述。
步骤S210,获取会话时间段内多种类型的访问页面的页面浏览量PV总数。
获取会话时间段内多种类型的访问页面的页面浏览量PV总数可以是在一个会话过程中,用户所访问的访问页面的总数量。
在本发明实施例中,首先可以检测多种类型的访问页面的页面浏览量PV是否发生在会话时间段内,当检测到多种类型的访问页面的页面浏览量PV发生在会话时间段内之后,记录多种类型的访问页面的页面浏览量PV的总数。
这样,可以保证检测到的多种类型的访问页面的页面浏览量PV为同一会话的PV,达到了准确检测PV的效果。
步骤S212,判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值。
其中,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。预设值可以任意设定,例如,预设值可以为3,这样,判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于3,当判断出获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于3时,获取多种类型的访问页面中相邻同种类型的访问页面之间的访问页面的页面浏览量PV之和。
步骤S214和步骤S216,分别同图1所示实施例的步骤S108和步骤S110,在此不再赘述。
由于获取的会话时间段内多种类型的访问页面的页面浏览量PV总数较小时,确定会话迷失指标对会话的意义不大,因此,先判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数是否大于预设值,当判断获取的会话时间段内多种类型的访问页面的页面浏览量PV总数大于预设值时,再考虑确定会话迷失指标可以提高工作效率。
图5是根据本发明第三实施例的用于在线访问的数据处理方法的流程图。
如图5所示,该用于在线访问的数据处理方法包括如下的步骤S302至步骤S324,该实施例可以作为图3所示实施例的优选实施方式。
步骤S302和步骤S302,分别同图3所示实施例的步骤S102和步骤S104,在此不再赘述。
需要说明的是,访问页面可以包括第一类型访问页面和第二类型访问页面。以下以用户所访问的第一类型访问页面和第二类型访问页面为例进行讲述。
步骤S306,获取第一类型访问页面的页面浏览量PV。
由于第一类型访问页面和第一类型访问页面的页面浏览量PV一一对应,因此,可以通过第一类型访问页面与第一类型访问页面的页面浏览量PV的对应关系获取第一类型访问页面的页面浏览量PV。
获取的会话中第一类型访问页面可以存储在类型列表中,在将获取的会话中第一类型访问页面存储在类型列表中之后,可以同时在类型列表中记录不同类型的访问页面的PV,这样,当获取到会话中访问页面的类型之后,可以判断获取的访问页面的类型是否为类型列表中存储的访问页面类型,如果确定获取的访问页面的类型为类型列表中存储的类型,则将该类型对应的访问页面的PV增加1,否则如果确定获取的访问页面的类型不为类型列表中存储的类型,则将该类型添加到类型列表中,并将该类型对应的PV置1或者置0。其中,如果PV置1,则DC=PV-1,如果PV置0,则DC=PV,DC表示该类型的页面的重复浏览量。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,可以获取A类型的访问页面的PV为3(该处PV的初始值为1)。
步骤S308,获取第二类型访问页面的页面浏览量PV。
获取第二类型访问页面的页面浏览量PV的方式与获取第一类型访问页面的页面浏览量PV的方式相同,在此不再赘述。
需要说明的是,步骤S306和步骤S308可以合并为一个步骤执行。
步骤S310,基于获取的第一类型访问页面的页面浏览量PV计算第一类型访问页面的页面重复浏览量。
具体地,可以根据PV在类型表中的记录方式计算第一类型访问页面的页面重复浏览量。其中,当第一类型访问页面的页面浏览量PV的初始值被置1时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV-1,当第一类型访问页面的页面浏览量PV的初始值被置0时,则第一类型访问页面的页面重复浏览量DC的计算公式可以为:DC=PV。
步骤S312,基于获取的第二类型访问页面的页面浏览量PV计算第二类型访问页面的页面重复浏览量。
第二类型访问页面的页面重复浏览量DC的计算方式同第一类型访问页面的页面重复浏览量的计算方式,在此不再赘述。
需要说明的是,步骤S310和步骤S312可以合并为一个步骤执行。另外,第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的计算必须基于相同的PV初始值。
步骤S314,计算第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和。
步骤S316,获取第一和。
其中,第一和为相邻第一类型访问页面之间的第二类型访问页面的页面浏览量PV之和。
例如,在一个会话中,用户依次浏览的访问网页及其次序为A、B、B、A、B、A,则在该会话中,第一和可以为相邻的A类型访问页面之间的B类型访问页面的页面浏览量PV之和,即(2+1)。
步骤S318,获取第二和。
其中,第二和为相邻第二类型访问页面之间的第一类型访问页面的页面浏览量PV之和。
步骤S320,计算第一和和第二和的总和。
步骤S322,计算第一和与第二和的总和与第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和的比值。
其中,上述比值为访问页面的页面重复浏览量DC中访问页面的页面浏览量PV的平均值(Disorientation Gap,简称DG)。
具体地,上述比值可以通过以下公式计算得到:
DG=(PV1+PV2)/(DC1+DC2),其中,PV1表示第一和,PV2表示第二和,DC1表示第一类型访问页面的页面重复浏览量,DC2表示第二类型访问页面的页面重复浏览量,DG表示比值,即平均值。
需要说明的是,步骤S309至步骤S311可以合并为一个步骤执行。
步骤S324,根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标。
需要说明的是,可以通过第一类型访问页面的页面重复浏览量DC1、第二类型访问页面的页面重复浏览量DC2与比值DG的多种运算方式确定会话的会话迷失指标。
优选地,可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与第二类型访问页面的页面重复浏览量DC2的和,该和为多种类型的访问页面的页面重复浏览量DC,其中,DC=(DC1+DC2)。
然后,计算多种类型的访问页面的页面重复浏览量DC除以比值商,该商即为会话迷失指标,其中,Z=DC/DG,Z表示会话迷失指标。
对Z=DC/DG而言,当页面重复浏览量DC大小一定时,如果DG越大,则会话迷失指标越小,会话迷失指标越小表明网站的内容的吸引力越大,并且网站的导航能力也越好;否则当页面重复浏览量DC大小一定时,如果DG越小,则会话迷失指标越大,会话迷失指标越大表明网站的内容的吸引力越小,并且网站的导航能力也越差。
优选地,还可以通过以下方式确定会话的会话迷失指标:
首先,计算第一类型访问页面的页面重复浏览量DC1与比值DG的商Z1,即Z1=DC1/DG;并且计算第二类型访问页面的页面重复浏览量DC2与比值DG的商Z2,即Z2=DC2/DG。
然后,计算Z=Z1+Z2,其中,Z表示会话迷失指标。
这样,通过上述定量计算可以准确地得到会话迷失指标(会话迷失度),并根据会话迷失指标准确地把握网站的内容的吸引力情况和导航的导航能力,进而通过不断调整网站的内容和导航以达到优化网站的效果。
进一步优选地,在根据计算得到的第一类型访问页面的页面重复浏览量和第二类型访问页面的页面重复浏览量的和与比值确定会话的会话迷失指标之后,该数据处理方法还可以通过以下方式确定在线访问平台的用户迷失度,其中,用户迷失度是指在线访问平移台在预设时间段内的所有会话的整体迷失水平:
步骤1,获取会话的会话迷失指标阈值。
会话迷失指标阈值为预先设定的,获取会话的会话迷失指标阈值之后,可以将上述步骤确定的会话迷失度(会话迷失指标)与之比较,进而确定会话迷失度(会话迷失指标)对应的会话是否为迷失会话。
步骤2,判断会话的会话迷失指标是否大于会话的会话迷失指标阈值。
步骤3,如果判断出会话的会话迷失指标大于会话的会话迷失指标阈值,则确定会话为迷失会话。
步骤4,获取在线访问平台在预设时间段内的迷失会话的次数和会话的总次数。
其中,会话的总次数为在预设时间段内记录的在线访问平台产生的所有会话的次数。
步骤5,计算迷失会话的次数占会话的总次数比例以确定在线访问平台的用户迷失度。
具体地,当用户迷失度大时,说明迷失会话的次数占的比例较大,当用户迷失度小时,说明迷失会话的次数占的比例较小。
由于检测会话迷失度仅仅是检测在一个会话中用户在线访问的关注水平,具有偶然性,而通过本发明实施例,可以先检测多个会话各自的会话迷失度,再确定多个会话中迷失会话的比例,即用户迷失度,避免了仅仅检测会话迷失度的偶然性,进而达到了检测结果更准确的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
从以上的描述中,可以看出,本发明实现了解决了相关技术中无法检测在线访问中用户访问的迷失水平的问题,进而达到了自动检测在线访问中用户访问的迷失水平的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。