CN104317884A - 网站来源页面类型的获取方法和装置 - Google Patents

网站来源页面类型的获取方法和装置 Download PDF

Info

Publication number
CN104317884A
CN104317884A CN201410564671.0A CN201410564671A CN104317884A CN 104317884 A CN104317884 A CN 104317884A CN 201410564671 A CN201410564671 A CN 201410564671A CN 104317884 A CN104317884 A CN 104317884A
Authority
CN
China
Prior art keywords
page
solicited message
source
server
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410564671.0A
Other languages
English (en)
Other versions
CN104317884B (zh
Inventor
钦滨杰
陈俊宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410564671.0A priority Critical patent/CN104317884B/zh
Publication of CN104317884A publication Critical patent/CN104317884A/zh
Application granted granted Critical
Publication of CN104317884B publication Critical patent/CN104317884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站来源页面类型的获取方法和装置。其中,该方法包括:获取服务器接收到的当前页面发送的第一请求信息,其中,当前页面为终端当前访问的页面;循环执行下述步骤,直至判断出当前页面的前一页面发送第二请求信息至服务器,步骤包括:判断当前页面的前一页面是否有将第二请求信息发送至服务器;在获取到当前页面的前一页面发送的第二请求信息之后,从第二请求信息中提取当前页面的前一页面的来源页面信息;按照来源页面信息确定当前页面的来源页面类型。采用本发明,解决了现有技术中的网站分析方法无法准确判断来源页面类型的问题,实现了准确判断当前页面的来源页面类型的效果。

Description

网站来源页面类型的获取方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网站来源页面类型的获取方法和装置。
背景技术
随着互联网的普及和互联网用户的急剧增加,用户访问行为引起了互联网广告主和广告投放商的迫切关注。其中,获取网站来源页面信息并判断网站来源页面类型是一个重要的方面。
现有的网站分析方法中针对网站来源页面类型的分析和判断是通过接收由浏览器所发送的request请求,再抓取request请求中记录该页面的URL(Uniform Resource Locator,统一资源定位符)中所包含的来源页面类型的信息。抓取来源页面类型的方法是直接查看当前页面发来的request请求中所包含的来源页面类型参数,其中,来源页面类型参数为一段字母与符号的组合。但是,由于某些使用环境或使用过程中互联网网速的限制,在当前页面没有完全加载好之前,用户便已经点击已加载当前页面部分,并跳转到了下一页面,这种非正常(即当前页面未加载完成即点击下一页面链接)的用户点击跳转行为会导致分析系统不能记录本次访问真实的来源页面类型信息。
例如,用户通过页面A点击进入页面B,但由于网速过慢,页面B还未完全加载,在被植入的javascript代码被执行之前,即:在javascript代码将浏览器本次访问的相关信息通过request请求发送给服务器之前,用户已点击页面B中被刷新出的部分内容跳转到页面C并加载成功。此时由于页面C也被植入了javascript代码,所以会将新的访问信息通过request请求发送给服务器。而现在所有的分析工具所抓取来源类型的方法都是直接查看当前页面(如页面C)发来的请求中所包含的来源页面参数,即上一个页面(如页面B)的信息。由于当前页面的来源页面为B页面,所以分析系统不能记录本次访问真实的来源页面A的信息。
针对现有技术中的网站分析方法无法准确判断来源页面类型的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的网站分析方法无法准确判断来源页面类型的问题,目前尚未提出有效的解决方案,为此,本发明的主要目的在于提供一种网站来源页面类型的获取方法和装置,以解决上述问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网站来源页面类型的获取方法,该方法包括:获取服务器接收到的当前页面发送的第一请求信息,其中,当前页面为终端当前访问的页面;循环执行下述步骤,直至判断出当前页面的前一页面发送第二请求信息至服务器,步骤包括:判断当前页面的前一页面是否有将第二请求信息发送至服务器;在获取到当前页面的前一页面发送的第二请求信息之后,从第二请求信息中提取当前页面的前一页面的来源页面信息;按照来源页面信息确定当前页面的来源页面类型。
进一步地,判断当前页面的前一页面是否有将第二请求信息发送至服务器包括:从当前页面的第一请求信息中提取当前页面的前一页面的页面地址信息;在服务器上查找页面地址信息所指向的第二请求信息;若服务器上存在第二请求信息,则判断出当前页面的前一页面有将第二请求信息发送至服务器;若服务器上不存在第二请求信息,则判断出当前页面的前一页面没有将第二请求信息发送至服务器。
进一步地,从第二请求信息中提取当前页面的前一页面的来源页面信息包括:从第二请求信息中提取当前页面的前一页面的URL;读取URL中的来源页面标识,将来源页面标识作为来源页面信息。
进一步地,按照来源页面信息确定当前页面的来源页面类型包括:从预设的来源页面类型信息表中读取来源页面标识对应的来源页面类型,其中,来源页面类型信息表中预先保存有各个来源页面标识与来源页面类型的对应关系。
进一步地,获取服务器接收到的当前页面发送的第一请求信息包括:在网站的各个网页上部署监测代码;监测代码在各个网页被访问后加载完成时生成第一请求信息。
为了实现上述目的,根据本发明的另一方面,提供了一种网站来源页面类型的获取装置,该装置包括:获取模块,用于获取服务器接收到的当前页面发送的第一请求信息,其中,当前页面为终端当前访问的页面;循环执行模块,用于循环执行判断模块的步骤,直至判断出当前页面的前一页面发送第二请求信息至服务,判断模块用于判断当前页面的前一页面是否有将第二请求信息发送至服务器;提取模块,用于在获取到当前页面的前一页面发送的第二请求信息之后,从第二请求信息中提取当前页面的前一页面的来源页面信息;确定模块,用于按照来源页面信息确定当前页面的来源页面类型。
进一步地,判断模块包括:第一提取子模块,用于从当前页面的第一请求信息中提取当前页面的前一页面的页面地址信息;查找模块,用于在服务器上查找页面地址信息所指向的第二请求信息;判断子模块,用于若服务器上存在第二请求信息,则判断出当前页面的前一页面有将第二请求信息发送至服务器;确定子模块,用于若服务器上不存在第二请求信息,则判断出当前页面的前一页面没有将第二请求信息发送至服务器。
进一步地,提取模块包括:第二提取子模块,用于从第二请求信息中提取当前页面的前一页面的URL;处理模块,用于读取URL中的来源页面标识,将来源页面标识作为来源页面信息。
进一步地,确定模块包括:读取模块,用于从预设的来源页面类型信息表中读取来源页面标识对应的来源页面类型,其中,来源页面类型信息表中预先保存有各个来源页面标识与来源页面类型的对应关系。
进一步地,获取模块包括:设置模块,用于在网站的各个网页上部署监测代码;生成模块,用于监测代码在各个网页被访问后加载完成时生成第一请求信息。
采用本发明实施例,可以在获取到当前页面发送的第一请求信息之后,循环执行判断当前页面的前一页面是否有将第二请求信息发送至服务器的步骤,直至判断出当前页面的前一页面将第二请求信息发送至服务器,并根据第二请求信息确定当前页面的来源页面类型。通过本发明实施例,通过当前页面的前一页面确定当前页面的来源类型,具体地,通过循环判断当前页面的前一页面是否发送第二请求信息,来从第二请求信息中获取当前页面的来源类型,可以避免网速过慢导致请求信息漏发而导致的来源网页类型的判断不准确的效果。通过本发明,解决了现有技术中的网站分析方法无法准确判断来源页面类型的问题,实现了准确判断当前页面的来源页面类型的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的网站来源页面类型的获取方法的流程图;
图2是根据本发明实施例的一种可选的网站来源页面类型的获取方法的流程图;
图3是根据本发明实施例的网站来源页面类型的获取装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是根据本发明实施例的网站来源页面类型的获取方法的流程图,如图1所示该方法包括如下步骤:
步骤S102,获取服务器接收到的当前页面发送的第一请求信息,其中,当前页面为终端当前访问的页面。
步骤S104,循环执行下述步骤,直至判断出当前页面的前一页面发送第二请求信息至服务器,步骤包括:判断当前页面的前一页面是否有将第二请求信息发送至服务器。
步骤S106,在获取到当前页面的前一页面发送的第二请求信息之后,从第二请求信息中提取当前页面的前一页面的来源页面信息。
步骤S108,按照来源页面信息确定当前页面的来源页面类型。
采用本发明实施例,可以在获取到当前页面发送的第一请求信息之后,循环执行判断当前页面的前一页面是否有将第二请求信息发送至服务器的步骤,直至判断出当前页面的前一页面将第二请求信息发送至服务器,并根据第二请求信息确定当前页面的来源页面类型。通过本发明实施例,通过当前页面的前一页面确定当前页面的来源类型,具体地,通过循环判断当前页面的前一页面是否发送第二请求信息,来从第二请求信息中获取当前页面的来源类型,可以避免网速过慢导致请求信息漏发而导致的来源网页类型的判断不准确的效果。通过本发明,解决了现有技术中的网站分析方法无法准确判断来源页面类型的问题,实现了准确判断当前页面的来源页面类型的效果。
其中,上述实施例中的第一请求信息和第二请求信息可以为request请求,request请求中携带有当前页面的URL和前一页面的URL。
URL(即统一资源定位符),即从互联网得到资源的位置和访问方法的表示,是互联网上标准资源的地址。
在本发明的上述实施例中,在获取到当前页面发送的第一请求信息之后,获取当前页面的前一页面的是否有将第二请求信息发送至服务器,若有,则说明没有出现网速过慢的情况,即前一个页面就是来源页面,并可通过判断前一个页面的类型来确定来源页面类型;若前一个页面URL没有将第二请求信息传给服务器,则说明出现了网速过慢,用户在当前页面的前一页面加载未完成时,即跳转至当前页面,于是获取前一个页面(即当前页面的前一页面的前一个页面)的来源页面的信息,看该页面是否有发送request请求,若有,则说明真正的来源页面为该页面(即前一个页面的来源页面),若没有,则继续此动作,直至找出真正的来源页面。
在本发明的上述实施例中,判断当前页面的前一页面是否有将第二请求信息发送至服务器可以包括:从当前页面的第一请求信息中提取当前页面的前一页面的页面地址信息;在服务器上查找页面地址信息所指向的第二请求信息;若服务器上存在第二请求信息,则判断出当前页面的前一页面有将第二请求信息发送至服务器;若服务器上不存在第二请求信息,则判断出当前页面的前一页面没有将第二请求信息发送至服务器。其中的页面地址信息可以为上述的URL。
具体地,判断出前一个页面的URL所对应的网页有将request信息传到服务器,则说明没有出现网速过慢的情况,即前一个页面就是来源页面,并可通过判断前一个页面的类型(将来源参数与服务器已有数据进行匹配)来确定来源类型;若在此之前,前一个页的面URL所对应的网页没有将request信息传给服务器,则说明出现了网速过慢,用户在javascript脚本加载成功之前就已经跳转的其他页面的情况,于是需要进一步提取前一个页面的来源页面的信息,看该页面是否在之前有发送request请求,若有,则说明真正的来源页面为该页面(前一个页面的来源页面),若没有,则继续此动作,直至找出真正的来源页面。
根据本发明的上述实施例,获取服务器接收到的当前页面发送的第一请求信息可以包括:在网站的各个网页上部署监测代码;监测代码在各个网页被访问后加载完成时生成第一请求信息。
具体地,预先在监测网页(可以为被访问的各个网页)上所布下javascript脚本代码(即上述实施例中的监测代码),一旦用户进入到该监测页面时,运行javascript脚本代码,运行监测代码成功后发送request请求信息至服务器,该request请求信息中携带有当前页面的URL和上一页面(即前一页面)的URL,每个URL中均携带有一段参数是代表来源页信息。若出现网速过慢的情况,javascript还未来得及加载用户就点击其他链接跳转到下一个页面,则这种情况无法发送request请求,只能等待跳转到下一个页面,并且下一个页面的javascript脚本被加载成功,才能发送request请求。
根据本发明的上述实施例,当页面在被访问时,生成一个访问请求至服务器,该访问请求中携带有被访问页面的URL和被访问页面的前一页面的URL,而在页面加载完成时生成一个请求信息(该请求信息可以为上述的第一请求信息和第二请求信息),请求信息中也会携带被访问页面的URL和被访问页面的前一页面的URL的信息,并且请求信息中的URL中携带一个标签(即上述实施例中的来源页面标识),可以通过请求信息中的来源页面标识确定被访问页面的来源类型。
具体到上述实施例中,在网页上部署监测代码后,在网页被访问时,生成一个访问请求,在网页加载过程中,通过监测代码可以查来源页面标识表获取各个网页的前一页面对应的来源页面标识,将该来源页面标识加入到当前被访问的页面上。本发明实施例中的网页即为页面。
在上述实施例中,从第二请求信息中提取当前页面的前一页面的来源页面信息可以包括:从第二请求信息中提取当前页面的前一页面的URL;读取URL中的来源页面标识,将来源页面标识作为来源页面信息。
需要进一步说明的是,按照来源页面信息确定当前页面的来源页面类型可以包括:从预设的来源页面类型信息表中读取来源页面标识对应的来源页面类型,其中,来源页面类型信息表中预先保存有各个来源页面标识与来源页面类型的对应关系。表1示出了来源页面类型信息表的一种实施方式。
表1
来源页面标识 来源页面类型
1 搜索引擎
2 购物网站
3 门户网站
下面结合附图2详细介绍本发明实施例,如图2所示,上述实施例可以通过如下步骤实现:
步骤S201:用户访问网页A。
步骤S202:通过点击网页A的链接进入网页B。
具体地,在通过点击网页A的链接进入网页B时,网页B生成访问请求,该访问请求中携带有网页A和网页B的URL;在网页B加载完成时,生成请求信息,该请求信息中携带的URL中还有一个来源页面标识。来源页面标识可以为字符串或数字,其用于标识网页B的来源页面信息。
其中,在网页B的加载过程中,其网页内嵌入的监测代码获取网页A的URL,对其进行来源类型匹配,得到网页B的来源页面类型,即为
如,网页A为百度。则查来源页面标识表得到网页B的来源类型为搜索引擎。
表2示出了来源页面标识表的一种实现方式:
当前页面的前一页面的URL 当前页面的URL中携带的来源页面标识
www.baidu.com 1
www.hao123.com 1
www.taobao.com 2
www.tiancity.com 2
www.sina.com.cn 3
若网络正常,则网页B向服务器发送访问请求和请求信息;若网络不正常,则网页B尚未加载完成就进入网页C,则进入网页C之后,只能获取到网页B发送的访问请求,无法获取网页B的请求信息。
步骤S203:通过点击网页B的链接进入网页C。
步骤S204:获取网页C向服务器发送的第一请求信息。
也即获取当前页面(即网页C)的第一请求信息。如,网页C为天猫商城,网页B为淘宝网。
步骤S205:判断网页B是否有向服务器发送第二请求信息。
也即,判断当前页面的前一页面是否有向服务器发送第二请求信息。若是,则执行步骤S206;若否重复执行步骤S205。
具体地,预先在监测网页(该监测网页包括该实施例中的各个网页)上所布下的javascript脚本代码(即上述实施例中的监测代码)。当用户进入到该监测页面时,运行javascript脚本,发送request请求至服务器,请求中包含当前页面的URL和上一页面的URL,URL中有一段参数(即上述实施例中的来源页面标识)是代表来源页信息。
若当前页面的前一页面有向服务器发送第二请求信息,则确定网速正常,从第二请求信息中获取当前页面的前一页面的来源页面,在该实施例中为网页A,这样可以确定网页C的访问路径:搜素引擎—购物网站—天猫商城。
若当前页面的前一页面未向服务器发送第二请求信息,则确定网速不正常,获取前一页面(即网页B)的上一页面(即网页A)是否向服务器发送第二请求信息。
具体地,可以从网页B(即当前页面的前一页面)发送至服务器的访问请求中提取前一页面的来源页面(在该实施例中为页面A)的URL,使用该提取到的URL从服务器中查找前一页面(即网页B)的上一页面(即网页A)是否向服务器发送第二请求信息。
根据本发明的上述实施例,还可以通过判断服务器当前页面的前一页面发送至服务器的请求的URL中是否携带有来源页面标识,来判断当前页面的前一页面是否有向服务器发送第二请求信息。
具体地,当接收到当前页面的第一请求信息之后,提取出当前页面的URL和前一页面的URL;看前一页面的URL所对应的网页是否有将request信息传到服务器。
若有,则说明没有出现网速过慢的情况,即前一个页面就是来源页面,并可通过判断前一个页面的类型(将来源参数与服务器已有数据进行匹配)来确定来源类型。
若没有,则说明出现了网速过慢,用户在javascript脚本加载成功之前就已经跳转的其他页面的情况,则重复执行步骤S205。
步骤S206:根据第二请求信息确定当前页面的来源页面类型。
通过本发明上述实施例,用户在javascript脚本加载成功之前就已经跳转的其他页面的情况,于是需要进一步提取前一个页面的来源页面的信息,看该页面是否在之前有发送request请求,若有,则说明真正的来源页面为该页面(前一个页面的来源页面),若没有,则继续此动作,直至找出真正的来源页面。通过循环判断的步骤来确定真正的来源页面,解决了由于用户网速太慢,而在javascript监测脚本加载成功之前就点击其他链接离开的情况,能够更准确的判断真正的来源页,并以此作为依据分析用户行为。
本发明上述实施例中的来源类型,即用户进入当前这个页面之前的上一个页面的类型,即用户通过什么类型的页面进入到当前这个页面。
在对用户的访问行文进行统计时,需要知道用户的访问路径。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图3是根据本发明实施例的网站来源页面类型的获取装置的示意图。如图3所示,该装置可以包括:获取模块10、循环执行模块30、提取模块50和确定模块70。循环执行模块30包括判断模块(图中未示出)。
其中,获取模块,用于获取服务器接收到的当前页面发送的第一请求信息,其中,当前页面为终端当前访问的页面;循环执行模块,用于循环执行判断模块的步骤,直至判断出当前页面的前一页面发送第二请求信息至服务,判断模块用于判断当前页面的前一页面是否有将第二请求信息发送至服务器;提取模块,用于在获取到当前页面的前一页面发送的第二请求信息之后,从第二请求信息中提取当前页面的前一页面的来源页面信息;确定模块,用于按照来源页面信息确定当前页面的来源页面类型。
采用本发明实施例,可以在获取到当前页面发送的第一请求信息之后,循环执行判断当前页面的前一页面是否有将第二请求信息发送至服务器的步骤,直至判断出当前页面的前一页面将第二请求信息发送至服务器,并根据第二请求信息确定当前页面的来源页面类型。通过本发明实施例,通过当前页面的前一页面确定当前页面的来源类型,具体地,通过循环判断当前页面的前一页面是否发送第二请求信息,来从第二请求信息中获取当前页面的来源类型,可以避免网速过慢导致请求信息漏发而导致的来源网页类型的判断不准确的效果。通过本发明,解决了现有技术中的网站分析方法无法准确判断来源页面类型的问题,实现了准确判断当前页面的来源页面类型的效果。
其中,上述实施例中的第一请求信息和第二请求信息可以为request请求,request请求中携带有当前页面的URL和前一页面的URL。
URL(即统一资源定位符),即从互联网得到资源的位置和访问方法的表示,是互联网上标准资源的地址。
在本发明的上述实施例中,在获取到当前页面发送的第一请求信息之后,获取当前页面的前一页面的是否有将第二请求信息发送至服务器,若有,则说明没有出现网速过慢的情况,即前一个页面就是来源页面,并可通过判断前一个页面的类型来确定来源页面类型;若前一个页面URL没有将第二请求信息传给服务器,则说明出现了网速过慢,用户在当前页面的前一页面加载未完成时,即跳转至当前页面,于是获取前一个页面(即当前页面的前一页面的前一个页面)的来源页面的信息,看该页面是否有发送request请求,若有,则说明真正的来源页面为该页面(即前一个页面的来源页面),若没有,则继续此动作,直至找出真正的来源页面。
根据本发明的上述实施例,判断模块可以包括:第一提取子模块,用于从当前页面的第一请求信息中提取当前页面的前一页面的页面地址信息;查找模块,用于在服务器上查找页面地址信息所指向的第二请求信息;判断子模块,用于若服务器上存在第二请求信息,则判断出当前页面的前一页面有将第二请求信息发送至服务器;确定子模块,用于若服务器上不存在第二请求信息,则判断出当前页面的前一页面没有将第二请求信息发送至服务器。
其中的页面地址信息可以为上述的URL。
具体地,判断出前一个页面的URL所对应的网页有将request信息传到服务器,则说明没有出现网速过慢的情况,即前一个页面就是来源页面,并可通过判断前一个页面的类型(将来源参数与服务器已有数据进行匹配)来确定来源类型;若在此之前,前一个页的面URL所对应的网页没有将request信息传给服务器,则说明出现了网速过慢,用户在javascript脚本加载成功之前就已经跳转的其他页面的情况,于是需要进一步提取前一个页面的来源页面的信息,看该页面是否在之前有发送request请求,若有,则说明真正的来源页面为该页面(前一个页面的来源页面),若没有,则继续此动作,直至找出真正的来源页面。
根据本发明的上述实施例,获取模块可以包括:设置模块,用于在网站的各个网页上部署监测代码;生成模块,用于监测代码在各个网页被访问后加载完成时生成第一请求信息。
具体地,预先在监测网页(可以为被访问的各个网页)上所布下javascript脚本代码(即上述实施例中的监测代码),一旦用户进入到该监测页面时,运行javascript脚本代码,运行监测代码成功后发送request请求信息至服务器,该request请求信息中携带有当前页面的URL和上一页面(即前一页面)的URL,每个URL中均携带有一段参数是代表来源页信息。若出现网速过慢的情况,javascript还未来得及加载用户就点击其他链接跳转到下一个页面,则这种情况无法发送request请求,只能等待跳转到下一个页面,并且下一个页面的javascript脚本被加载成功,才能发送request请求。
根据本发明的上述实施例,当页面在被访问时,生成一个访问请求至服务器,该访问请求中携带有被访问页面的URL和被访问页面的前一页面的URL,而在页面加载完成时生成一个请求信息(该请求信息可以为上述的第一请求信息和第二请求信息),请求信息中也会携带被访问页面的URL和被访问页面的前一页面的URL的信息,并且请求信息中的URL中携带一个标签(即上述实施例中的来源页面标识),可以通过请求信息中的来源页面标识确定被访问页面的来源类型。
具体到上述实施例中,在网页上部署监测代码后,在网页被访问时,生成一个访问请求,在网页加载过程中,通过监测代码可以查来源页面标识表获取各个网页的前一页面对应的来源页面标识,将该来源页面标识加入到当前被访问的页面上。
本发明实施例中的网页即为页面。
在上述实施例中,提取模块可以包括:第二提取子模块,用于从第二请求信息中提取当前页面的前一页面的URL;处理模块,用于读取URL中的来源页面标识,将来源页面标识作为来源页面信息。
需要进一步说明的是,确定模块可以包括:读取模块,用于从预设的来源页面类型信息表中读取来源页面标识对应的来源页面类型,其中,来源页面类型信息表中预先保存有各个来源页面标识与来源页面类型的对应关系。
通过本发明上述实施例用户在javascript脚本加载成功之前就已经跳转的其他页面的情况,于是需要进一步提取前一个页面的来源页面的信息,看该页面是否在之前有发送request请求,若有,则说明真正的来源页面为该页面(前一个页面的来源页面),若没有,则继续此动作,直至找出真正的来源页面。通过循环判断的步骤来确定真正的来源页面,解决了由于用户网速太慢,而在javascript监测脚本加载成功之前就点击其他链接离开的情况,能够更准确的判断真正的来源页,并以此作为依据分析用户行为。
本发明上述实施例中的来源类型,即用户进入当前这个页面之前的上一个页面的类型,即用户通过什么类型的页面进入到当前这个页面。
本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例一中的内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
从以上的描述中,可以看出,本发明实现了如下技术效果:
采用本发明实施例,可以在获取到当前页面发送的第一请求信息之后,循环执行判断当前页面的前一页面是否有将第二请求信息发送至服务器的步骤,直至判断出当前页面的前一页面将第二请求信息发送至服务器,并根据第二请求信息确定当前页面的来源页面类型。通过本发明实施例,通过当前页面的前一页面确定当前页面的来源类型,具体地,通过循环判断当前页面的前一页面是否发送第二请求信息,来从第二请求信息中获取当前页面的来源类型,可以避免网速过慢导致请求信息漏发而导致的来源网页类型的判断不准确的效果。通过本发明,解决了现有技术中的网站分析方法无法准确判断来源页面类型的问题,实现了准确判断当前页面的来源页面类型的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网站来源页面类型的获取方法,其特征在于,包括:
获取服务器接收到的当前页面发送的第一请求信息,其中,所述当前页面为终端当前访问的页面;
循环执行下述步骤,直至判断出所述当前页面的前一页面发送第二请求信息至所述服务器,所述步骤包括:判断所述当前页面的前一页面是否有将第二请求信息发送至所述服务器;
在获取到所述当前页面的前一页面发送的所述第二请求信息之后,从所述第二请求信息中提取所述当前页面的前一页面的来源页面信息;
按照所述来源页面信息确定所述当前页面的来源页面类型。
2.根据权利要求1所述的获取方法,其特征在于,判断所述当前页面的前一页面是否有将第二请求信息发送至所述服务器包括:
从所述当前页面的所述第一请求信息中提取所述当前页面的前一页面的页面地址信息;
在所述服务器上查找所述页面地址信息所指向的所述第二请求信息;
若所述服务器上存在所述第二请求信息,则判断出所述当前页面的前一页面有将所述第二请求信息发送至所述服务器;
若所述服务器上不存在所述第二请求信息,则判断出所述当前页面的前一页面没有将所述第二请求信息发送至所述服务器。
3.根据权利要求1所述的获取方法,其特征在于,从所述第二请求信息中提取所述当前页面的前一页面的来源页面信息包括:
从所述第二请求信息中提取所述当前页面的前一页面的URL;
读取所述URL中的来源页面标识,将所述来源页面标识作为所述来源页面信息。
4.根据权利要求3所述的获取方法,其特征在于,按照所述来源页面信息确定所述当前页面的来源页面类型包括:
从预设的来源页面类型信息表中读取所述来源页面标识对应的所述来源页面类型,
其中,所述来源页面类型信息表中预先保存有各个所述来源页面标识与所述来源页面类型的对应关系。
5.根据权利要求1至4中任意一项所述的获取方法,其特征在于,获取服务器接收到的当前页面发送的第一请求信息包括:
在网站的各个网页上部署监测代码;
所述监测代码在所述各个网页被访问后加载完成时生成所述第一请求信息。
6.一种网站来源页面类型的获取装置,其特征在于,包括:
获取模块,用于获取服务器接收到的当前页面发送的第一请求信息,其中,所述当前页面为终端当前访问的页面;
循环执行模块,用于循环执行判断模块的步骤,直至判断出所述当前页面的前一页面发送第二请求信息至所述服务,所述判断模块用于判断所述当前页面的前一页面是否有将第二请求信息发送至所述服务器;
提取模块,用于在获取到所述当前页面的前一页面发送的所述第二请求信息之后,从所述第二请求信息中提取所述当前页面的前一页面的来源页面信息;
确定模块,用于按照所述来源页面信息确定所述当前页面的来源页面类型。
7.根据权利要求6所述的获取装置,其特征在于,所述判断模块包括:
第一提取子模块,用于从所述当前页面的所述第一请求信息中提取所述当前页面的前一页面的页面地址信息;
查找模块,用于在所述服务器上查找所述页面地址信息所指向的所述第二请求信息;
判断子模块,用于若所述服务器上存在所述第二请求信息,则判断出所述当前页面的前一页面有将所述第二请求信息发送至所述服务器;
确定子模块,用于若所述服务器上不存在所述第二请求信息,则判断出所述当前页面的前一页面没有将所述第二请求信息发送至所述服务器。
8.根据权利要求6所述的获取装置,其特征在于,所述提取模块包括:
第二提取子模块,用于从所述第二请求信息中提取所述当前页面的前一页面的URL;
处理模块,用于读取所述URL中的来源页面标识,将所述来源页面标识作为所述来源页面信息。
9.根据权利要求8所述的获取装置,其特征在于,所述确定模块包括:
读取模块,用于从预设的来源页面类型信息表中读取所述来源页面标识对应的所述来源页面类型,
其中,所述来源页面类型信息表中预先保存有各个所述来源页面标识与所述来源页面类型的对应关系。
10.根据权利要求6至9中任意一项所述的获取装置,其特征在于,所述获取模块包括:
设置模块,用于在网站的各个网页上部署监测代码;
生成模块,用于所述监测代码在所述各个网页被访问后加载完成时生成所述第一请求信息。
CN201410564671.0A 2014-10-21 2014-10-21 网站来源页面类型的获取方法和装置 Active CN104317884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410564671.0A CN104317884B (zh) 2014-10-21 2014-10-21 网站来源页面类型的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410564671.0A CN104317884B (zh) 2014-10-21 2014-10-21 网站来源页面类型的获取方法和装置

Publications (2)

Publication Number Publication Date
CN104317884A true CN104317884A (zh) 2015-01-28
CN104317884B CN104317884B (zh) 2018-06-26

Family

ID=52373116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410564671.0A Active CN104317884B (zh) 2014-10-21 2014-10-21 网站来源页面类型的获取方法和装置

Country Status (1)

Country Link
CN (1) CN104317884B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933858A (zh) * 2015-12-31 2017-07-07 北京五八信息技术有限公司 页面来源统计方法及视图控制器
CN106959806A (zh) * 2017-03-22 2017-07-18 武汉斗鱼网络科技有限公司 页面身份获取方法及装置
CN107169026A (zh) * 2017-04-12 2017-09-15 深圳充电网科技有限公司 一种网站页面显示的方法及装置
CN107784065A (zh) * 2017-08-17 2018-03-09 平安壹钱包电子商务有限公司 业务数据跟踪方法、装置、计算机设备及存储介质
CN110971713A (zh) * 2018-09-28 2020-04-07 北京国双科技有限公司 追溯网页访问来源的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161802A1 (en) * 2001-02-27 2002-10-31 Gabrick Kurt A. Web presentation management system
CN101114284A (zh) * 2006-07-27 2008-01-30 阿里巴巴公司 一种显示网页内容相关信息的方法及系统
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN103729458A (zh) * 2014-01-10 2014-04-16 湖南神州祥网科技有限公司 一种网页请求的区分方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020161802A1 (en) * 2001-02-27 2002-10-31 Gabrick Kurt A. Web presentation management system
CN101114284A (zh) * 2006-07-27 2008-01-30 阿里巴巴公司 一种显示网页内容相关信息的方法及系统
CN102819597A (zh) * 2012-08-13 2012-12-12 北京星网锐捷网络技术有限公司 网页分类方法及设备
CN103729458A (zh) * 2014-01-10 2014-04-16 湖南神州祥网科技有限公司 一种网页请求的区分方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933858A (zh) * 2015-12-31 2017-07-07 北京五八信息技术有限公司 页面来源统计方法及视图控制器
CN106933858B (zh) * 2015-12-31 2020-03-24 北京五八信息技术有限公司 页面来源统计方法及视图控制器
CN106959806A (zh) * 2017-03-22 2017-07-18 武汉斗鱼网络科技有限公司 页面身份获取方法及装置
CN107169026A (zh) * 2017-04-12 2017-09-15 深圳充电网科技有限公司 一种网站页面显示的方法及装置
CN107784065A (zh) * 2017-08-17 2018-03-09 平安壹钱包电子商务有限公司 业务数据跟踪方法、装置、计算机设备及存储介质
CN107784065B (zh) * 2017-08-17 2021-04-27 平安壹钱包电子商务有限公司 业务数据跟踪方法、装置、计算机设备及存储介质
CN110971713A (zh) * 2018-09-28 2020-04-07 北京国双科技有限公司 追溯网页访问来源的方法及装置

Also Published As

Publication number Publication date
CN104317884B (zh) 2018-06-26

Similar Documents

Publication Publication Date Title
CN107562620B (zh) 一种埋点自动设置方法和装置
CN108304410B (zh) 一种异常访问页面的检测方法、装置及数据分析方法
US9659105B2 (en) Methods and apparatus to track web browsing sessions
CN107609135B (zh) 页面元素确定方法及设备、用户行为路径确定方法及装置
CN107943838B (zh) 一种自动获取xpath生成爬虫脚本的方法及系统
CN107357903B (zh) 用户行为数据整合方法、装置及电子设备
CN103297394B (zh) 网站安全检测方法和装置
CN102752288A (zh) 网络访问行为识别方法和装置
CN104317884A (zh) 网站来源页面类型的获取方法和装置
CN102870118B (zh) 用户行为的获取方法、设备及系统
US11308502B2 (en) Method for detecting web tracking services
CN105677866A (zh) 一种内容转化追踪方法、装置、系统和转化服务器
US20150302466A1 (en) Data determination method and device for a thermodynamic chart
CN103297469A (zh) 一种网站数据的采集方法及装置
CN104410546A (zh) 实时处理系统的测试方法和装置
CN106446113A (zh) 移动大数据解析方法及装置
CN103631957A (zh) 访客行为数据统计方法及装置
CN107835132B (zh) 一种流量来源跟踪的方法及装置
US20130179421A1 (en) System and Method for Collecting URL Information Using Retrieval Service of Social Network Service
CN104394041A (zh) 访问日志生成方法及装置
CN104717079A (zh) 网络流量的数据处理方法及装置
CN109146561B (zh) 网络用户的识别方法、装置及服务器
CN106815248A (zh) 网站分析方法及装置
CN105450460B (zh) 网络操作记录方法及系统
CN102684925A (zh) 互联网访问来源信息的获取方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for acquiring types of source pages of website

Effective date of registration: 20190531

Granted publication date: 20180626

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20180626