CN106685680B - 还原推介流量数据的方法和装置 - Google Patents

还原推介流量数据的方法和装置 Download PDF

Info

Publication number
CN106685680B
CN106685680B CN201510758300.0A CN201510758300A CN106685680B CN 106685680 B CN106685680 B CN 106685680B CN 201510758300 A CN201510758300 A CN 201510758300A CN 106685680 B CN106685680 B CN 106685680B
Authority
CN
China
Prior art keywords
flows
data
promotion
restored
address information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510758300.0A
Other languages
English (en)
Other versions
CN106685680A (zh
Inventor
胡立芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510758300.0A priority Critical patent/CN106685680B/zh
Publication of CN106685680A publication Critical patent/CN106685680A/zh
Application granted granted Critical
Publication of CN106685680B publication Critical patent/CN106685680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding

Abstract

本发明公开了一种还原推介流量数据的方法和装置。其中,该方法包括:在目标网站的全部推介流量数据中提取待还原的流量数据;获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据集合;从第一推介流量数据集合中,查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合;从第二推介流量数据集合中查找与待还原的流量数据中访问间隔最短的第三推介流量数据;将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据。本发明解决了在客户终端cookie失效后或删除cookie后的流量数据的来源被误统计为来自于目标网站自身访问所产生的推介流量数据的技术问题。

Description

还原推介流量数据的方法和装置
技术领域
本发明涉及网站分析领域,具体而言,涉及一种还原推介流量数据的方法和装置。
背景技术
目前,很多商家都在通过各式各样的网络用户行为分析的方法的用户流量浏览网站的行为习惯进行分析,以网络用户行为的分析结果作为改进网站布局和增加访问量等商业目的重要数据来源。作为目前主流的网站分析方法,页面标签数据采集技术常常被使用在对网站的流量分析中;网站流量的主要来源类型有直接流量、搜索流量以及推介流量,推介流量是指用户通过非键入目标网站的网址方式和通过非搜索引擎的其他网站来到目的网站所产生的流量,因此查找推介流量的流量来源,可以知晓目的网站当前的推介方法对目的网站是否适用,并且网站开发人员可以根据推介流量的统计结果对网站进行进一步的改进,故推介流量的流量来源值得深入分析。
在使用页面标签数据采集技术分析网络用户行为时,是利用访问流量中的cookie数据对用户行为进行统计分析的,然而在实际统计分析的过程中,由于cookie的可清除性和实效性,会导致部分来自于非搜索引擎的其他网站的推介流量数据会被误统计为来自于目标网站本身的流量数据。例如当用户通过非搜索引擎的其他网站进入目标网站后,进行了清除cookie的操作,当用户在目标网站包含的页面进行其他访问时,由于之前的cookie已经被清除,因此服务器会为清除cookie数据之后的访问流量数据重新分配cookie数据,然而新的cookie数据的字段中记录此部分流量数据的来源是目标网站本身,而不是这段流量数据的真正来源,故新的cookie数据会导致流量的来源被误统计。
针对在访问终端通过访问非搜索引擎的其他网站提供的链接地址进入目标网站之后,由于访问终端中保存的本地访问的cookie的时效性限制或用户清除该cookie,使得继续访问该目标网站中的内容时,网络服务器产生的新cookie中未记录该目标网站的原始来源,导致当前继续访问该目标网站中的内容所产生的流量数据被误统计为来自于目标网站自身访问所产生的推介流量数据的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种还原推介流量数据的方法和装置,以至少解决在访问终端通过访问非搜索引擎的其他网站提供的链接地址进入目标网站之后,由于cookie的时效性限制或用户清除该cookie,使得继续访问该目标网站中的内容时,网络服务器产生的新cookie中未记录该目标网站的原始来源,导致在cookie失效后或删除cookie后的流量数据的来源被误统计为来自于目标网站自身访问所产生的推介流量数据的技术问题。
根据本发明实施例的一个方面,提供了一种还原推介流量的方法,包括:在目标网站的全部推介流量数据中提取待还原的流量数据,其中,待还原的流量数据包括:访问目标网站的当前访问界面中的内容以及当前访问界面中的子界面的内容所产生的流量数据;获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据集合;从第一推介流量数据集合中,查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合,其中,数据参数包括:cookie字段、流量来源的设备属性和/或访问目标网站的过程中记录的最后一个访问页面;从第二推介流量数据集合中查找与待还原的流量数据中访问目标网站间隔最短的第三推介流量数据;将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据。
根据本发明实施例的另一方面,还提供了一种还原推介流量的裝置,包括:提取模块,用于在目标网站的全部推介流量数据中提取待还原的流量数据,其中,待还原的流量数据包括访问目标网站的当前访问界面中的内容以及当前访问界面中的子界面的内容所产生的流量数据;第一获取模块,用于获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据集合;第一查找模块,用于从第一推介流量数据集合中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合,其中,数据参数包括:cookie字段、流量来源的设备属性和/或访问目标网站的过程中记录的最后一个访问页面;第二查找模块,用于从第二推介流量数据集合中查找与待还原的流量数据中访问目标网站间隔最短的第三推介流量数据;合并模块,用于将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据。
在本发明实施例中,采用从目标网站的全毕业推介流量在中提取待还原的流量数据的方式,通过比对待还原的流量数据的数据参数和除待还原的流量数据以外的其余推介流量数据的数据参数,达到了从除待还原的流量数据以外的其余推介流量数据中根据筛选条件逐层筛选查找待还原的流量数据原所属的推介流量数据的目的,从而实现了待还原的流量数据与其原所属的流量数据合并的技术效果,进一步的使待还原的流量数据根据其流量来源进行还原的技术效果,进而解决了在访问终端通过访问非搜索引擎的其他网站提供的链接地址进入目标网站之后,由于cookie的时效性限制或用户清除该cookie,使得继续访问该目标网站中的内容时,网络服务器产生的新cookie中未记录该目标网站的原始来源,导致在cookie失效后或删除cookie后的流量数据的来源被误统计为来自于目标网站自身访问所产生的推介流量数据的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种还原推介流量数据的方法的流程图;
图2是根据本发明实施例的一种可选的还原推介流量数据的方法的流程图;
图3是根据本发明实施例的一种还原推介流量数据的装置的示意图;
图4是根据本发明实施例的一种可选的还原推介流量数据的装置的示意图;
图5是根据本发明实施例的一种可选的还原推介流量数据的装置的示意图;
图6是根据本发明实施例的一种可选的还原推介流量数据的装置的示意图;
图7是根据本发明实施例的一种可选的还原推介流量数据的装置的示意图;
图8是根据本发明实施例的一种可选的还原推介流量数据的装置的示意图;以及
图9是根据本发明实施例的一种可选的还原推介流量数据的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请涉及到的名词解释如下:
cookie:是服务器暂时存放在上网用户的电脑里的资料,即一种文本文件,以便让服务器能够识别网络用户身份。当用户访问某一网站时,服务器会首先传递一份cookie资料放在用户的访问终端上。当用户再次访问同一个网站时,服务器便会把这次访问数据归并到同一用户。
推介流量数据:是指用户通过非搜索引擎的其他网站来到特定网站的流量。
URL:统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
实施例1
根据本发明实施例,提供了一种还原推介流量数据的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种还原推介流量数据的方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,在目标网站的全部推介流量数据中提取待还原的流量数据,其中,待还原的流量数据包括访问目标网站的当前访问界面中的内容以及当前访问界面中的子界面的内容所产生的流量数据。
具体的,在上述步骤S102中,目标网站可以是用户访问的任意网站,可以通过获取目标网站的全部流量数据的cookie字段包含的流量来源,从上述目标网站的全部流量数据中识别上述目标网站的推介流量数据。上述目标网站的推介流量可以是用户的访问终端通过任意非搜索引擎的方式进入目标网站所产生的流量,上述待还原的流量数据可以是用户在访问当前目标网站时,在当前目标网站进行进一步操作,继续访问当前访问界面的内容,或通过当前访问界面提供的链接进入当前目标网站的兄弟网站或者当前目标网站子界面所产生的流量数据。
作为一种可选的实施例,以用户当前访问的购物网站为目标网站,在用户访问该购物网站产生的所有流量数据中,除去用户通过搜索引擎的方式和直接键入购物网站网址的方式进入该购物网站所产生的流量,其余的流量可以认为是用户访问该购物网站产生的全部推介流量。在该购物网站的全部推介流量中,有一部分推介流量数据是用户在浏览其他网站时,其他网站通过浮动广告等方式提供的包含该购物网站链接的广告信息,用户通过访问上述广告信息进入该购物网站所产生的推介流量数据,还有一部分推介流量数据是用户在访问该购物网站时,访问了购物网站当前访问页面提供的内容或子界面提供的内容所产生的推介流量数据,可以认为用户通过访问上述广告信息进入该购物网站所产生的推介流量数据,还有一部分推介流量数据是用户在访问该购物网站时,访问了购物网站当前访问页面提供的内容或子界面提供的内容所产生的推介流量数据是待还原的流量数据。
步骤S104,获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据集合。
作为一种可选的实施例,可以认为上述目标网站的全部推介由上述待还原的流量数据和除上述待还原的流量数据的剩余流量数据组成,并可以认为除上述待还原的流量数据的剩余流量数据为第一推介流量数据。
步骤S106,从第一推介流量数据集合中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合,其中,数据参数包括:cookie字段、流量来源的设备属性和/或访问目标网站的最后一次访问页面的URL。
具体的,在上述步骤S106中,由于待还原的数据流量和原所属的数据流量具有相同的数据参数,因此通过比对待还原的流量数据和第一推介流量数据的数据参数,可以得到可能是待还原的流量数据原所属的数据流量,值得注意的是,上述步骤得到的数据流量可能是个数任意的推介流量数据,在不存在与待还原的数据流量的数据参数相同的数据流量时,可以认为待还原的数据流量并未出现被误统计的现象,在存在一条与待还原的数据流量的数据参数相同的数据流量时,可以判断这一条数据流量是否为待还原的流量数据原所属的推介流量数据,在存在多条与待还原的数据流量的数据参数相同的流量数据时,可以在多条流量数据中查找待还原的流量数据原所属的推介流量数据。
此处需要说明的是,上述第二推介流量数据集合可以包括N个推介流量数据,此处N可以是自然数。
步骤S108,从第二推介流量数据集合中查找与待还原的流量数据中访问目标网站间隔最短的第三推介流量数据。
具体的,在上述步骤S108中,在查找到多条与待还原的流量数据的数据参数相匹配的第二推介流量数据后,为了确定待还原的流量数据所属的原推介流量数据,采用查找第二推介流量数据和待还原的流量数据中访问间隔时间的方法查找待还原的流量数据原所属的推介流量数据,认为与待还原的流量数据访问间隔时间最短的第二推介流量数据为第三推介流量数据。
步骤S110,将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据。
具体的,在上述步骤S110中,可以认为第三推介流量数据是待还原的流量数据所属的原推介数据,因此将待还原的流量数据与第三推介流量数据合并。
在一种可选的实施例中,仍以目标网站为一购物网站为例,用户在视频网站观看视频时,该视频网站多弹出包括上述购物网站的链接的广告,用户通过点击上述包括购物网站链接的广告进入该购物网站,在进入该购物网站进行访问的过程中,用户进行了清除访问终端的cookie的操作,然后在用户继续访问该购物网站时,服务器会为这一流量分配一个新的cookie字段,在这一新的cookie字段中记录的用户对该购物网站的访问行为并非来自上述视频网站,而是来自购物网站自身,因此用户的清除访问终端的cookie的行为导致上述来自视频网站的推介流量数据被误统计。
在另一种可选的实施例中,仍以目标网站为一购物网站为例,在流量监控方定义cookie的时效性为30分钟的情况下,用户在视频网站观看视频时,该视频网站多弹出包括上述购物网站的链接的广告,用户通过点击上述包括购物网站链接的广告进入该购物网站,在访问该购物网站进行访问的过程中,刚好达到30分钟,故30分钟后服务器会为这一流量重新分配一个新的cookie,而在这一新的cookie字段中记录的用户对该购物网站的访问行为并非来自上述视频网站,而是来自购物网站自身,使得原本同为来上述视频网站的推介流量数据被分为两部分,且30分钟的后的推介流量数据的来源被误统计。
作为一种可选的实施例,仍以目标网站为一购物网站为例,待还原的流量数据可以是流量数据来源是购物网站自身的流量数据,提取待还原的流量数据,并将上述流量数据的数据参数与其余流量数据的数据参数进行比较,在数据参数一致的情况下,查找与待还原的流量数据的访问间隔时间最短的流量数据,并认为与待还原的流量数据的访问间隔时间最短的流量数据为待还原的流量数据原所属的流量数据。
由上可知,本申请上述实施例提供的方法通过在目标网站的全部推介流量数据中提取待还原的流量数据,获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据,并从第一推介流量数据中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据,其中,数据参数包括:cookie字段、流量来源的设备属性和/或访问目标网站之后记录的最后一个访问页面,再从第二推介流量数据中查找与待还原的流量数据中访问间隔最短的第三推介流量数据,最后将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据,达到了查找待还原的流量数据的原所属推介流量数据的技术下沟,实现了对误统计的流量数据进行还原的目的,进而解决了在访问终端通过访问非搜索引擎的其他网站提供的链接地址进入目标网站之后,由于访问终端中保存的本地访问的cookie的时效性限制或用户清除该cookie,使得继续访问该目标网站中的内容时,网络服务器产生的新cookie中未记录该目标网站的原始来源,导致当前继续访问该目标网站中的内容所产生的流量数据被误统计为来自于目标网站自身访问所产生的推介流量数据的技术问题。
可选的,在上述步骤S106中,从第一推介流量数据集合中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合包括如下步骤:
步骤S1061,将待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对。
具体的,在上述步骤S1061中,第一推介流量数据中可以包含多个推介流量数据。
步骤S1063,从第一推介流量数据集合中筛选得到多个与待还原的流量数据的cookie字段一致的推介流量数据。
此处需要说明的是,上述cookie字段与待还原的流量数据的cookie字段一致的第一推介流量数据的个数可以是i个,i为小于等于N的自然数。
步骤S1065,获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息。
步骤S1067,判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同。
作为一种可选的实施例,由于待还原的流量数据的误统计是由于cookie数据被清除或cookie数据的时效性引起的,即由于cookie数据被清除或cookie数据的时效使得完整的推介流量数据被分为两部分,因此待还原的流量数据应该与原所属的流量数据可以连接成一条完整的流量数据,故若筛选得到的多个推介流量数据中包括待还原流量数据原所属的流量数据,则待还原的流量数据的首个访问页面的地址信息应该与原所属的推介流量数据的最后访问界面的地址信息相同,具体的,上述地址信息可以是访问界面的URL。
步骤S1069,在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合。
具体的,在上述步骤S1067中,从多个推介流量数据中筛选的最后一个访问页面的地址信息与首个访问界面的地址信息相同的流量数据可以是多个,上述多个推介流量数据构成了第二推介流量数据集合。
在一种可选的实施例中,仍以上述目标网站为购物网站为例,在用户通过包括此购物网站链接的广告的视频网站进入购物网站后,在用户浏览购物网站时,出现了由于cookie的有效时间截止导致的cookie的有效时间截止后的访问流量数据被统计为新的推介流量数据,这一新的推介流量数据就是待还原的流量数据;由于新的推介流量数据的起始记录来源是购物网站自身,因此服务器为新的推介流量数据分配新的cookie所记录的推介流量数据的来源会被误记录为来自购物网站自身。由于新的推介流量数据与原所属的流量数据具有数据参数相同,且前后连续的特点,因此比对新的推介流量数据的cookie字段和其余推介流量数据的cookie字段,在二者的cookie字段一致的情况下,比对新的推介流量的首个访问界面的地址信息和其余推介流量数据的最后一个访问界面的地址信息,将最后一个访问界面的地址信息与新的推介流量的首个访问界面的地址信息一致的推介流量构成第二推介流量数据,并进入下一个筛选待还原的流量数据的原所属流量数据的步骤。
由上可知,本申请上述实施例提供的上述方法通过将待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对,从第一推介流量数据集合中筛选得到多个与待还原的流量数据的cookie字段一致的推介流量数据,获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息,并判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同,最终在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合,完成了在推介流量数据中查找可能是待还原的流量数据的原所属的推介流量数据的目的,达到了在除待还原的流量数据之外的其他流量数据中查找与待还原的流量数据原所属的流量数据的技术效果,解决了在推介流量数据中查找待还原的流量数据的原所属流量数据的技术问题。
可选的,在上述步骤S106中,从第一推介流量数据集合中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合的步骤包括:
步骤S1071,将待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对。
具体的,在上述步骤S1071中,第一推介流量数据集合包含多个推介流量数据。
步骤S1073,从第一推介流量数据集合中筛选得到多个与待还原的流量数据的cookie字段不一致的推介流量数据。
此处需要注意的是,从第一推介流量数据集合中筛选得到的多个与待还原的流量数据的cookie字段不一致的推介流量数据可以是j个,其中,j为小于等于N的自然数。此处j与上述i不同的是,i代表与待还原的流量数据的cookie字段一致的推介流量数据的数目;j代表与待还原的流量数据的cookie字段不一致的推介流量数据的数目。
步骤S1075,从多个与待还原的流量数据的cookie字段不一致的推介流量数据中筛选得到设备属性相同的多个推介流量数据。
具体的,在上述步骤S1075中,设备属性可以包括:操作系统、浏览器、屏幕分辨率、色深以及访问终端是否为移动设备。此处需要注意的是,从多个与待还原的流量数据的cookie字段不一致的推介流量数据中筛选得到设备属性相同的多个推介流量数据可以是k个,其中,k是小于等于j的自然数。
步骤S1077,获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息。
具体的,在上述步骤S1077中,访问界面的地址信息可以是访问界面的URL。当多个推介流量数据中记录的最后一个访问界面地址信息与待还原的流量数据包含的首个访问界面的地址信息相同时,可以认为多个推介流量中包含待还原流量数据原所属的流量数据,因此获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息以便在多个推介流量数据中进一步筛选待还原流量数据的原所属推介流量数据。
步骤S1079,判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同。
步骤S1081,在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合。
作为一种可选的实施例,推介流量数据的来源被误统计是由于cookie数据的时效性或用户清除了cookie数据导致的,这使得待还原的流量数据与其所属的原推介流量数据是连续的,因此上述步骤确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合,第二推介流量数据集合包括待还原的流量数据的原所属的推介流量数据。
由上可知,本申请上述实施例提供的方法通过比对待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段,从第一推介流量数据集合中筛选得到多个个与待还原的流量数据的cookie字段不一致的推介流量数据,再从多个与待还原的流量数据的cookie字段不一致的推介流量数据中筛选得到设备属性相同的多个推介流量数据,并在获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息之后判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同,在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合,实现了对于cookie字段与待还原的流量数据的cookie字段不一致的多个推介流量进行进一步判断的目的,通过比对待还原的流量数据和多个推介流量数据包含的其他参数,达到了查找与待还原的流量数据来自同一访问终端的推介流量数据的技术效果,进一步达到了查找可能与待还原的流量数据存在前后连接关系的推介流量数据的技术效果,进而解决了在推介流量数据中查找待还原的流量数据的原所属流量数据的技术问题。
可选的,在上述步骤S108中,从第二推介流量数据集合中查找与待还原的流量数据中访问间隔最短的第三推介流量数据,包括:
步骤S1081:获取待还原的流量数据包含的首个访问界面的会话开始时间。
步骤S1083:获取第二推介流量数据集合中包含的每个推介流量数据中记录最后访问界面的会话结束时间。
具体的,在上述步骤S1083中,第二推介流量数据集合中包含的每个推介流量数据中记录的最后访问界面可以是上述每个推介流量数据在统计时,统计时间截止时所访问的界面。
步骤S1085计算首个访问界面的会话开始时间与每个最后访问界面的会话结束时间的时间间隔。
步骤S1087:将第二推介流量数据集合中对应的访问间隔最短的推介流量数据作为第三推介流量数据。
具体的,在上述步骤S1087中,第二推介流量数据集合包含多条流量数据,可以认为有多个推介流量数据的最后访问界面的地址信息与待还原的流量数据的地址信息相同,在多个与待还原的流量数据的地址信息相同的推介流量数据中,其中只有一条可以为待还原的流量数据原所属的推介流量数据,可以认为与待还原的流量数据访问间隔时间最短的推介流量数据为待还原的流量数据原所属的推介流量数据。
由上可知,本申请上述实施例提供的方法通过获取待还原的流量数据包含的首个访问界面的会话开始时间和第二推介流量数据集合中包含的每个推介流量数据中记录最后访问界面的会话结束时间,并计算上述两个会话时间的时间差,再将第二推介流量数据集合中对应的访问间隔最短的推介流量数据作为第三推介流量数据,其中,上述第三推介流量数据可以认为是待还原的流量数据原所属的推介流量数据,达到了对上述步骤中筛选得到的多个可能是待还原的流量数据的原所属的推介流量数据进行进一步筛选的技术效果,解决了确定待还原的流量数据原所属的推介流量数据的技术问题。
可选地,在上述步骤S110中,在目标网站的全部推介流量数据中提取待还原的流量数据的步骤包括:
步骤S1101:获取全部推介流量数据的来源主机名。
步骤S1103:判断全部推介流量数据的来源主机名是否包含目标网站的网站域名或目标网站的兄弟网站的网站域名。
具体的,在上述步骤S1103中,兄弟网站可以是与目标网站隶属与统一总网站的的网站,例如同一购物网站中的不同商品的网站可以被认为是互相为对方的兄弟网站。
步骤S1105:确认来源主机名包含目标网站或目标网站的兄弟网站的网站域名的推介流量数据为待还原的流量数据。
由此可知,本申请上述实施例通过在全部推介流量数据中查找来源主机名包含目标网站的网站域名或目标网站的兄弟网站的网站域名的推介流量数据的方法,确认来源主机名包含目标网站或目标网站的兄弟网站的网站域名的推介流量数据为待还原的流量数据,达到了在全部推介流量数据中查找来自于目标网站自身的流量数据;解决了在全部推介流量数据中提取流量数据来源有可能被误统计的推介流量数据。
可选的,在上述步骤S1067中,在判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同之后的步骤还包括:
步骤S10671:在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据。
由上可知,本申请提出的上述实施例采用在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据的方法,完成了对待还原的流量数据的原所属推介流量数据的筛选,达到了放弃非待还原的流量数据的原所属推介流量数据的技术效果。
可选的,在上述步骤S1077中,在获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息之后的步骤还包括:
在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据。
由上可知,本申请提出的上述实施例采用在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据的方法,完成了对待还原的流量数据的原所属推介流量数据的筛选,达到了放弃非待还原的流量数据的原所属推介流量数据的技术效果。
图2是根据本发明实施例的一种可选的还原推介流量数据的方法的流程图,结合图2所示的流程图,下面对一种可选的应用场景下的还原推介流量数据的方法进行详细描述如下:
S21:从全部流量数据中提取待还原的流量数据。
具体的,在上述步骤S21中,在目标网站的全部推介流量数据中提取待还原的流量数据。
S22:获取全部流量数据中除提取待还原的流量数据以外的第一推介流量数据。
具体的,在上述步骤S22中,获取第一推介流量数据,即目标网站中除待提取的流量数据以外的其他数据。
S23:对比第一推介流量数据的cookie字段与待还原的流量数据的cookie字段。
S24:判断对比结果是否一致。
具体的,在上述步骤S24中,判断第一推介流量数据的cookie字段与待还原的流量数据的cookie字段的比对结果是否一致,在比对结果一致时进入步骤S25,比对结果不一致时进入步骤S29。
S25:比对待还原的流量数据与第一推介流量数据的最后访问页面的地址信息。
具体的,在上述步骤S25中,比对待还原的流量数据的首个访问页面的地址信息和第一推介流量数据合集中每个推介流量数据的最后访问页面的地址信息。
S26:判断对比结果是否一致。
具体的,在上述步骤S26中,判断待还原的流量数据的首个访问页面的地址信息和第一推介流量数据合集中每个推介流量数据的最后访问页面的地址信息是否一致,在比对结果一致时进入步骤S27,比对结果不一致时进入步骤S213。
S27:确认与待还原流量数据访问间隔时间最短的第三流量数据为待还原的流量数据原所属的流量数据。
S28:将待还原的流量数据与原所属的流量数据合并。
具体的,在上述步骤S28中,认为上述第三流量数据为待还原的流量数据原所属的推介流量数据。
S29:对比第一推介流量数据与待还原的流量数据的设备属性。
具体的,在上述步骤S29中,对比第一推介流量数据与待还原的流量数据的设备属性,其中,设备属性可以包括:操作系统、浏览器、屏幕分辨率、屏幕色深和是否为移动设备。
S210:判断对比结果是否一致。
具体的,在上述步骤S210中,在在对比第一推介流量数据与待还原的流量数据的设备属性的结果一致时进入步骤S211,比对结果不一致时进入步骤S213。
S211:比对待还原的流量数据与第一推介流量数据的最后访问页面的地址信息。
具体的,在上述步骤S211中,比对待还原的流量数据的首个访问页面的地址信息与第一推介流量数据浴的最后访问页面的地址信息。
S212:判断对比结果是否一致。
具体的,在上述步骤S212中,在比对待还原的流量数据的首个访问页面的地址信息与第一推介流量数据浴的最后访问页面的地址信息结果一致时进入步骤S27,比对结果不一致时进入步骤S213。
S213:放弃还原此部分待还原流量数据。
具体的,在上述步骤S213中,在经过上述步骤的筛选仍不能找到待还原的流量数据的原所属的推介流量数据,则放弃还原此部分流量数据。
实施例2
根据本发明实施例,提供了一种获取视频的播放结果的装置实施例。
图3是根据本发明实施例的一种还原推介流量数据的装置的示意图,如图3所示,该装置包括:提取模块30、第一获取模块32、第一查找模块34、第二查找模块36和合并模块38。其中,
提取模块30,用于在目标网站的全部推介流量数据中提取待还原的流量数据,其中,待还原的流量数据包括访问目标网站的当前访问界面中的内容以及当前访问界面中的子界面的内容所产生的流量数据。
具体的,在上述装置中,目标网站可以是用户访问的任意网站,可以通过获取目标网站的全部流量数据的cookie字段包含的流量来源,从上述目标网站的全部流量数据中识别上述目标网站的推介流量数据。上述目标网站的推介流量可以是用户的访问终端通过任意非搜索引擎的方式进入目标网站所产生的流量,上述待还原的流量数据可以是用户在访问当前目标网站时,在当前目标网站进行进一步操作,继续访问当前访问界面的内容,或通过当前访问界面提供的链接进入当前目标网站的兄弟网站或者当前目标网站子界面所产生的流量数据。
第一获取模块32,用于获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据集合;
第一查找模块34,用于从第一推介流量数据集合中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合,其中,数据参数包括:cookie字段、流量来源的设备属性和/或访问目标网站的过程中记录的最后一个访问页面。
具体的,在上述装置中,由于待还原的数据流量和原所属的数据流量具有相同的数据参数,因此通过比对待还原的流量数据和第一推介流量数据的数据参数,可以得到可能是待还原的流量数据原所属的数据流量,值得注意的是,上述步骤得到的数据流量可能是个数任意的推介流量数据,在不存在与待还原的数据流量的数据参数相同的数据流量时,可以认为待还原的数据流量并未出现被误统计的现象,在存在一条与待还原的数据流量的数据参数相同的数据流量时,可以判断这一条数据流量是否为待还原的流量数据原所属的推介流量数据,在存在多条与待还原的数据流量的数据参数相同的流量数据时,可以在多条流量数据中查找待还原的流量数据原所属的推介流量数据。
第二查找模块36,用于从第二推介流量数据集合中查找与待还原的流量数据中访问间隔最短的第三推介流量数据。
具体的,在上述装置中,在查找到多条与待还原的流量数据的数据参数相匹配的第二推介流量数据后,为了确定待还原的流量数据所属的原推介流量数据,采用第二查找模块查找待还原的流量数据原所属的推介流量数据,认为与待还原的流量数据访问间隔时间最短的第二推介流量数据为第三推介流量数据。
合并模块38,用于将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据。
由上可知,本申请上述实施例提供的装置通过提取模块在目标网站的全部推介流量数据中提取待还原的流量数据,通过第一获取模块获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据,并通过第一查找模块从第一推介流量数据中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据,其中,数据参数包括:cookie字段、流量来源的设备属性和/或访问目标网站之后记录的最后一个访问页面,再通过第二查找模块从第二推介流量数据中查找与待还原的流量数据中访问间隔最短的第三推介流量数据,最后通过合并模块将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据,达到了查找待还原的流量数据的原所属推介流量数据的技术下沟,实现了对误统计的流量数据进行还原的目的,进而解决了在访问终端通过访问非搜索引擎的其他网站提供的链接地址进入目标网站之后,由于访问终端中保存的本地访问的cookie的时效性限制或用户清除该cookie,使得继续访问该目标网站中的内容时,网络服务器产生的新cookie中未记录该目标网站的原始来源,导致当前继续访问该目标网站中的内容所产生的流量数据被误统计为来自于目标网站自身访问所产生的推介流量数据的技术问题。
可选地,如图4所示,在上述装置中,第一查找模块包括:第一比对模块40、第一筛选模块42、第二获取模块44、第一判断模块46和第一确认模块48。其中,
第一比对模块40,将待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对。
第一筛选模块42,用于从第一推介流量数据集合中筛选得到多个与待还原的流量数据的cookie字段一致的推介流量数据。
第二获取模块44,用于获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息。
第一判断模块46,用于判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同。
第一确认模块48,用于在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合。
具体的,在上述装置中,从多个推介流量数据中筛选的最后一个访问页面的地址信息与首个访问界面的地址信息相同的流量数据可以是多个,上述多个推介流量数据构成了第二推介流量数据集合。
由上可知,本申请上述实施例提供的上述装置通过第一比对模块将待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对,通过第一筛选模块从第一推介流量数据集合中筛选得到多个与待还原的流量数据的cookie字段一致的推介流量数据,通过第二获取模块获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息,并通过第一判断模块判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同,最终在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,通过第一确认模块确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合,完成了在推介流量数据中查找可能是待还原的流量数据的原所属的推介流量数据的目的,达到了在除待还原的流量数据之外的其他流量数据中查找与待还原的流量数据原所属的流量数据的技术效果,解决了在推介流量数据中查找待还原的流量数据的原所属流量数据的技术问题。
可选地,如图5所示,在上述装置中,第一查找模块还可以包括:第二比对模块50、第二筛选模块52、第三筛选模块54、第三获取模块56、第二判断模块58和第二确认模块510。其中,
第二比对模块50,用于将待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对。
第二筛选模块52,用于从第一推介流量数据集合中筛选得到多个与待还原的流量数据的cookie字段不一致的推介流量数据。
第三筛选模块54,用于从多个与待还原的流量数据的cookie字段不一致的推介流量数据中筛选得到设备属性相同的多个推介流量数据。
具体的,在上述装置中,设备属性可以包括多个与待还原的流量数据的cookie字段不一致的推介流量数据和待还原的流量数据的操作系统、浏览器、屏幕分辨率、色深以及访问终端是否为移动设备。
第三获取模块56,用于获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息。
具体的,在上述装置中,访问界面的地址信息可以是访问界面的URL。当多个推介流量数据中记录的最后一个访问界面地址信息与待还原的流量数据包含的首个访问界面的地址信息相同时,可以认为多个推介流量中包含待还原流量数据原所属的流量数据,因此获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息以便在多个推介流量数据中进一步筛选待还原流量数据的原所属推介流量数据。
第二判断模块58,用于判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同。
第二确认模块510,用于在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合。
由上可知,本申请上述实施例提供的装置通过第二比对模块比对待还原的流量数据的cookie字段与第一推介流量数据集合中包含的每个推介流量数据的cookie字段,通过第二筛选模块从第一推介流量数据集合中筛选得到多个与待还原的流量数据的cookie字段不一致的推介流量数据,再通过第三筛选模块从多个与待还原的流量数据的cookie字段不一致的推介流量数据中筛选得到设备属性相同的多个推介流量数据,并通过第三获取模块获取待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息,并通过第二判断模块判断筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与待还原的流量数据中的首个访问界面的地址信息是否相同,再通过第二确认模块在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息相同的情况下,确认筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成第二推介流量数据集合,达到了查找与待还原的流量数据来自同一访问终端的推介流量数据的技术效果,进一步达到了查找可能与待还原的流量数据存在前后连接关系的推介流量数据的技术效果,进而解决了在推介流量数据中查找待还原的流量数据的原所属流量数据的技术问题。
可选的,如图6所示,在上述装置中,第一查找模块包括:第四获取模块60、第五获取模块62、计算模块64、第三确认模块66。其中,
第四获取模块60,用于获取待还原的流量数据包含的首个访问界面的会话开始时间。
第五获取模块62,用于获取第二推介流量数据集合中包含的每个推介流量数据中记录最后访问界面的会话结束时间。
计算模块64,用于计算首个访问界面的会话开始时间与每个最后访问界面的会话结束时间的时间间隔。
第三确认模块66,用于确认第二推介流量数据集合中对应的访问间隔最短的推介流量数据为第三推介流量数据。
具体的,在上述装置中,第二推介流量数据集合包含多条数据流量,可以认为有多个推介流量数据的最后访问界面的地址信息与待还原的流量数据的地址信息相同,在多个与待还原的流量数据的地址信息相同的推介流量数据中,其中只有一条可以为待还原的流量数据原所属的推介流量数据,可以认为与待还原的流量数据访问间隔时间最短的推介流量数据为待还原的流量数据原所属的推介流量数据。
由上可知,本申请上述实施例提供的装置通过第四获取模块和第五获取模块获取待还原的流量数据包含的首个访问界面的会话开始时间和第二推介流量数据集合中包含的每个推介流量数据中记录最后访问界面的会话结束时间,并通过计算模块计算上述两个会话时间的时间差,再通过第三确认模块将第二推介流量数据集合中对应的访问间隔最短的推介流量数据确认为第三推介流量数据,其中,上述第三推介流量数据可以认为是待还原的流量数据原所属的推介流量数据,达到了对上述步骤中筛选得到的多个可能是待还原的流量数据的原所属的推介流量数据进行进一步筛选的技术效果,解决了确定待还原的流量数据原所属的推介流量数据的技术问题。
可选的,如图7所示,在上述装置中,提取模块包括:第六获取模块70、第三判断模块72、第四确认模块74。其中,
第六获取模块70,用于获取全部推介流量数据的来源主机名。
第三判断模块72,用于判断全部推介流量数据的来源主机名是否包含目标网站的网站域名或目标网站的兄弟网站的网站域名。
第四确认模块74,用于确认来源主机名包含目标网站或目标网站的兄弟网站的网站域名的推介流量数据为待还原的流量数据。
由此可知,本申请上述实施例通过第六获取模块获取全部推介流量数据的来源主机名,再通过第三判断模块判断全部推介流量数据的来源主机名是否包含目标网站的网站域名或目标网站的兄弟网站的网站域名,最后第四确认模块确认来源主机名包含目标网站或目标网站的兄弟网站的网站域名的推介流量数据为待还原的流量数据达到了在全部推介流量数据中查找来自于目标网站自身的流量数据;解决了在全部推介流量数据中提取流量数据来源有可能被误统计的推介流量数据。
可选的,如图8所示,在本申请提出的上述装置中,该装置还包括:第一放弃模块80。
第一放弃模块80,用于在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据。
由上可知,本申请提出的上述实施例采用第一放弃模块在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据,完成了对待还原的流量数据的原所属推介流量数据的筛选,达到了放弃非待还原的流量数据的原所属推介流量数据的技术效果。
可选的,如图9所示,在本申提出的上述装置中,该装置还包括:第二放弃模块90。
第二放弃模块90,用于在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据。
由上可知,本申请提出的上述实施例采用第二放弃模块在多个推介流量数据中记录的最后一个访问页面的地址信息与首个访问界面的地址信息不相同的情况下,放弃还原多个推介流量数据,完成了对待还原的流量数据的原所属推介流量数据的筛选,达到了放弃非待还原的流量数据的原所属推介流量数据的技术效果。
还原推介流量数据的装置包括处理器和存储器,上述提取模块、第一获取模块、第一查找模块、第二查找模块和合并模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数还原推介流量数据。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:在目标网站的全部推介流量数据中提取待还原的流量数据,其中,待还原的流量数据包括访问目标网站的当前访问界面中的内容以及当前访问界面中的子界面的内容所产生的流量数据;获取全部推介流量数据中除去待还原的流量数据之外的第一推介流量数据集合;从第一推介流量数据集合中查找与待还原的流量数据的数据参数相匹配的第二推介流量数据集合,其中,数据参数包括:cookie字段、流量来源的设备属性和/或访问目标网站的过程中记录的最后一个访问页面;从第二推介流量数据集合中查找与待还原的流量数据中访问间隔最短的第三推介流量数据;以及将第三推介流量数据与待还原的流量数据进行合并,以还原待还原的流量数据。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种还原推介流量数据的方法,其特征在于,包括:
在目标网站的全部推介流量数据中,提取待还原的流量数据,其中,所述待还原的流量数据包括:访问所述目标网站的当前访问界面中的内容,以及所述当前访问界面中的子界面的内容所产生的流量数据;
获取所述全部推介流量数据中除去所述待还原的流量数据之外的第一推介流量数据集合;
从所述第一推介流量数据集合中,查找与所述待还原的流量数据的数据参数相匹配的第二推介流量数据集合,其中,所述数据参数包括:cookie字段、流量来源的设备属性和访问所述目标网站的过程中记录的最后一个访问页面,所述第二推介流量数据为满足如下条件的推介流量数据:与所述待还原的流量数据的cookie字段一致且记录的最后一个访问页面的地址信息与所述待还原的流量数据包含的首个访问界面的地址信息相同,或与所述待还原的流量数据的cookie字段不一致,但多个推介流量数据的设备属性相同且记录的最后一个访问页面的地址信息与所述待还原的流量数据包含的首个访问界面的地址信息相同;
从所述第二推介流量数据集合中查找与所述待还原的流量数据中访问所述目标网站间隔最短的第三推介流量数据;
将所述第三推介流量数据与所述待还原的流量数据进行合并,以还原所述待还原的流量数据。
2.根据权利要求1所述的方法,其特征在于,从所述第一推介流量数据集合中查找与所述待还原的流量数据的数据参数相匹配的第二推介流量数据集合,包括:
将所述待还原的流量数据的cookie字段与所述第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对;
从所述第一推介流量数据集合中筛选得到多个与所述待还原的流量数据的cookie字段一致的推介流量数据;
获取所述待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息;
判断所述筛选得到的多个推介流量数据中记录的所述最后一个访问页面的地址信息与所述待还原的流量数据中的所述首个访问界面的地址信息是否相同;
在所述多个推介流量数据中记录的所述最后一个访问页面的地址信息与所述首个访问界面的地址信息相同的情况下,确认所述筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成所述第二推介流量数据集合。
3.根据权利要求1所述的方法,其特征在于,从所述第一推介流量数据集合中查找与所述待还原的流量数据的数据参数相匹配的第二推介流量数据集合包括:
将所述待还原的流量数据的cookie字段与所述第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对;
从所述第一推介流量数据集合中筛选得到多个与所述待还原的流量数据的cookie字段不一致的推介流量数据;
从所述多个与所述待还原的流量数据的cookie字段不一致的推介流量数据中筛选得到设备属性相同的多个推介流量数据;
获取所述待还原的流量数据包含的首个访问界面的地址信息和筛选得到的所述多个推介流量数据中记录的最后一个访问界面的地址信息;
判断筛选得到的所述多个推介流量数据中记录的最后一个访问页面的地址信息与所述待还原的流量数据中的所述首个访问界面的地址信息是否相同;
在所述多个推介流量数据中记录的最后一个访问页面的地址信息与所述首个访问界面的地址信息相同的情况下,确认筛选得到的所述多个推介流量数据中地址信息相同的推介流量数据构成所述第二推介流量数据集合。
4.根据权利要求1所述的方法,其特征在于,从所述第二推介流量数据集合中查找与所述待还原的流量数据中访问所述目标网站间隔最短的第三推介流量数据,包括:
获取所述待还原的流量数据包含的首个访问界面的会话开始时间;
获取所述第二推介流量数据集合中包含的每个推介流量数据中记录最后访问界面的会话结束时间;
计算所述首个访问界面的会话开始时间与每个最后访问界面的会话结束时间的时间间隔;
将所述第二推介流量数据集合中对应的访问所述目标网站间隔最短的推介流量数据作为所述第三推介流量数据。
5.根据权利要求1所述的方法,其特征在于,在目标网站的全部推介流量数据中提取待还原的流量数据,包括:
获取所述全部推介流量数据的来源主机名;
判断所述全部推介流量数据的来源主机名是否包含所述目标网站的网站域名或所述目标网站的兄弟网站的网站域名;
确认所述来源主机名包含所述目标网站或所述目标网站的兄弟网站的网站域名的所述推介流量数据为所述待还原的流量数据。
6.根据权利要求2所述的方法,其特征在于,在判断所述筛选得到的多个推介流量数据中记录的所述最后一个访问页面的地址信息与所述待还原的流量数据中的所述首个访问界面的地址信息是否相同之后,所述方法还包括:
在所述多个推介流量数据中记录的最后一个访问页面的地址信息与所述首个访问界面的地址信息不相同的情况下,放弃还原所述多个推介流量数据。
7.根据权利要求3所述的方法,其特征在于,在获取所述待还原的流量数据包含的首个访问界面的地址信息和筛选得到的所述多个推介流量数据中记录的最后一个访问界面的地址信息之后,所述方法还包括:
在所述多个推介流量数据中记录的最后一个访问页面的地址信息与所述首个访问界面的地址信息不相同的情况下,放弃还原所述多个推介流量数据。
8.一种还原推介流量数据的装置,其特征在于,包括:
提取模块,用于在目标网站的全部推介流量数据中提取待还原的流量数据,其中,所述待还原的流量数据包括访问所述目标网站的当前访问界面中的内容以及所述当前访问界面中的子界面的内容所产生的流量数据;
第一获取模块,用于获取所述全部推介流量数据中除去所述待还原的流量数据之外的第一推介流量数据集合;
第一查找模块,用于从所述第一推介流量数据集合中查找与所述待还原的流量数据的数据参数相匹配的第二推介流量数据集合,其中,所述数据参数包括:
cookie字段、流量来源的设备属性和访问所述目标网站的过程中记录的最后一个访问页面,所述第二推介流量数据为满足如下条件的推介流量数据:与所述待还原的流量数据的cookie字段一致且记录的最后一个访问页面的地址信息与所述待还原的流量数据包含的首个访问界面的地址信息相同,或与所述待还原的流量数据的cookie字段不一致,但多个推介流量数据的设备属性相同且记录的最后一个访问页面的地址信息与所述待还原的流量数据包含的首个访问界面的地址信息相同;
第二查找模块,用于从所述第二推介流量数据集合中查找与所述待还原的流量数据中访问所述目标网站间隔最短的第三推介流量数据;
合并模块,用于将所述第三推介流量数据与所述待还原的流量数据进行合并,以还原所述待还原的流量数据。
9.根据权利要求8所述的装置,其特征在于,所述第一查找模块包括:
第一比对模块,将所述待还原的流量数据的cookie字段与所述第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对;
第一筛选模块,用于从所述第一推介流量数据集合中筛选得到多个与所述待还原的流量数据的cookie字段一致的推介流量数据;
第二获取模块,用于获取所述待还原的流量数据包含的首个访问界面的地址信息和筛选得到的多个推介流量数据中记录的最后一个访问界面的地址信息;
第一判断模块,用于判断所述筛选得到的多个推介流量数据中记录的所述最后一个访问页面的地址信息与所述待还原的流量数据中的所述首个访问界面的地址信息是否相同;
第一确认模块,用于在所述多个推介流量数据中记录的最后一个访问页面的地址信息与所述首个访问界面的地址信息相同的情况下,确认所述筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成所述第二推介流量数据集合。
10.根据权利要求8所述的装置,其特征在于,所述第一查找模块还包括:
第二比对模块,用于将所述待还原的流量数据的cookie字段与所述第一推介流量数据集合中包含的每个推介流量数据的cookie字段进行比对;
第二筛选模块,用于从所述第一推介流量数据集合中筛选得到多个与所述待还原的流量数据的cookie字段不一致的推介流量数据;
第三筛选模块,用于从所述多个与所述待还原的流量数据的cookie字段不一致的推介流量数据中筛选得到设备属性相同的多个推介流量数据;
第三获取模块,用于获取所述待还原的流量数据包含的首个访问界面的地址信息和筛选得到的所述多个推介流量数据中记录的最后一个访问界面的地址信息;
第二判断模块,用于判断所述筛选得到的多个推介流量数据中记录的最后一个访问页面的地址信息与所述待还原的流量数据中的所述首个访问界面的地址信息是否相同;
第二确认模块,用于在所述多个推介流量数据中记录的最后一个访问页面的地址信息与所述首个访问界面的地址信息相同的情况下,确认所述筛选得到的多个推介流量数据中地址信息相同的推介流量数据构成所述第二推介流量数据集合。
CN201510758300.0A 2015-11-09 2015-11-09 还原推介流量数据的方法和装置 Active CN106685680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510758300.0A CN106685680B (zh) 2015-11-09 2015-11-09 还原推介流量数据的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510758300.0A CN106685680B (zh) 2015-11-09 2015-11-09 还原推介流量数据的方法和装置

Publications (2)

Publication Number Publication Date
CN106685680A CN106685680A (zh) 2017-05-17
CN106685680B true CN106685680B (zh) 2019-09-20

Family

ID=58864320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510758300.0A Active CN106685680B (zh) 2015-11-09 2015-11-09 还原推介流量数据的方法和装置

Country Status (1)

Country Link
CN (1) CN106685680B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880676A (zh) * 2012-09-10 2013-01-16 新浪网技术(中国)有限公司 统计用户行为数据的方法及用户行为数据统计系统
WO2013181972A1 (zh) * 2012-06-06 2013-12-12 华为技术有限公司 网络访问行为识别方法和装置
CN103546326A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种网站流量统计的方法
CN104462096A (zh) * 2013-09-13 2015-03-25 北大方正集团有限公司 舆情监测分析方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013181972A1 (zh) * 2012-06-06 2013-12-12 华为技术有限公司 网络访问行为识别方法和装置
CN102880676A (zh) * 2012-09-10 2013-01-16 新浪网技术(中国)有限公司 统计用户行为数据的方法及用户行为数据统计系统
CN104462096A (zh) * 2013-09-13 2015-03-25 北大方正集团有限公司 舆情监测分析方法和装置
CN103546326A (zh) * 2013-11-04 2014-01-29 北京中搜网络技术股份有限公司 一种网站流量统计的方法

Also Published As

Publication number Publication date
CN106685680A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
JP6511455B2 (ja) ユーザ行動の特徴を抽出して推奨を個人化する方法及びシステム
CN106446228B (zh) 一种web页面数据的采集分析方法及装置
CN104662529B (zh) 用于高性能分析的数据精炼引擎的系统和方法
CN103886068B (zh) 用于互联网用户行为分析的数据处理方法和装置
CN103778151B (zh) 一种识别特征群体的方法及装置和搜索方法及装置
CN102609474B (zh) 一种访问信息提供方法及系统
CN103218431B (zh) 一种能识别网页信息自动采集的系统
CN103118111B (zh) 一种基于多个数据交互中心的数据进行信息推送的方法
CN109120429B (zh) 一种风险识别方法及系统
CN104217031B (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
US20120143883A1 (en) Ranking product information
CN103345695A (zh) 一种商品推荐的方法和装置
CN105260414B (zh) 用户行为相似性计算方法及装置
Langhnoja et al. Web usage mining using association rule mining on clustered data for pattern discovery
CN107153656A (zh) 一种信息搜索方法和装置
CN105069168A (zh) 搜索词推荐方法和装置
CN108830689A (zh) 物品推荐方法、装置、服务器和存储介质
CN105069077A (zh) 搜索方法及装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
EP3289487B1 (en) Computer-implemented methods of website analysis
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
WO2011147800A1 (en) Method of identifying remote users of websites
CN108874802A (zh) 网页检测方法和装置
CN109409940A (zh) 基于路径的浏览处理方法、装置、设备和存储介质
CN110020237A (zh) 网页跳转方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant