CN106815248A - 网站分析方法及装置 - Google Patents

网站分析方法及装置 Download PDF

Info

Publication number
CN106815248A
CN106815248A CN201510862383.8A CN201510862383A CN106815248A CN 106815248 A CN106815248 A CN 106815248A CN 201510862383 A CN201510862383 A CN 201510862383A CN 106815248 A CN106815248 A CN 106815248A
Authority
CN
China
Prior art keywords
targeted website
website
url
target
landing page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510862383.8A
Other languages
English (en)
Other versions
CN106815248B (zh
Inventor
储雨知
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510862383.8A priority Critical patent/CN106815248B/zh
Publication of CN106815248A publication Critical patent/CN106815248A/zh
Application granted granted Critical
Publication of CN106815248B publication Critical patent/CN106815248B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种网站分析方法及装置。该方法包括:获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL;判断目标网站ID对应的着陆页URL是否为绝对路径;如果目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找目标网站ID对应的域名;以及将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL。通过本申请,解决了相关技术中在进行网站分析时由于着陆页URL丢失了域名,导致不能在IIS日志中获取到丢失了域名的着陆页URL的绝对路径的问题。

Description

网站分析方法及装置
技术领域
本申请涉及网站分析领域,具体而言,涉及一种网站分析方法及装置。
背景技术
目前,越来越多网站热衷于进行网站访客行为的研究,即网站分析。在进行网站分析时,往往需在客户网站上部署第三方脚本,这些脚本记录用户的综合浏览量(PageView)等行为,然后将这些信息发送到后端,形成IIS(Internet Information Services,互联网信息服务)日志,并供其它程序对IIS日志进行解析、存储。Page View等行为中常包含客户网站ID、着陆页URL等信息。由于一些原因,部分着陆页URL丢失了其域名,即得到的IIS日志中有部分着陆页URL为相对路径,然后用户希望看到的是绝对路径。
针对相关技术中在进行网站分析时由于着陆页URL丢失了域名,导致不能在IIS日志中获取到丢失了域名的着陆页URL的绝对路径的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网站分析方法及装置,以解决相关技术中在进行网站分析时由于着陆页URL丢失了域名,导致不能在IIS日志中获取到丢失了域名的着陆页URL的绝对路径的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网站分析方法。该方法包括:获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL;判断目标网站ID对应的着陆页URL是否为绝对路径;如果目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找目标网站ID对应的域名;以及将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL。
进一步地,在获取目标综合浏览量之前,该方法还包括:在目标网站上布署预设脚本代码,其中,预设脚本代码用于采集目标网站的综合浏览量;通过目标网站上预设脚本代码采集目标网站的综合浏览量;以及将采集到的目标网站的综合浏览量作为目标综合浏览量。
进一步地,在将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL之后,该方法还包括:将目标URL发送至目标地址;在目标地址上根据目标URL生成目标IIS日志;以及在目标IIS日志中获取目标URL的绝对路径。
进一步地,在从预设数据库中查找目标网站ID对应的域名之前,该方法还包括:获取目标时间段内的网站历史数据;从网站历史数据中分别统计每个目标网站ID和每个目标网站ID对应的域名,得到网站数据集合;以及将网站数据集合存储至预设数据库。
进一步地,在判断目标网站ID对应的着陆页URL是否为绝对路径之后,该方法还包括:如果目标网站ID对应的着陆页URL是绝对路径,获取目标网站ID对应的着陆页URL中的域名;以及将目标网站ID对应的着陆页URL中的域名存储至预设数据库,以更新预设数据库中目标网站ID对应的域名。
为了实现上述目的,根据本申请的另一方面,提供了一种网站分析装置。该装置包括:第一获取单元,用于获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL;判断单元,用于判断目标网站ID对应的着陆页URL是否为绝对路径;查找单元,用于在目标网站ID对应的着陆页URL不是绝对路径的情况下,从预设数据库中查找目标网站ID对应的域名;以及第二获取单元,用于将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL。
进一步地,该装置还包括:布署单元,用于在目标网站上布署预设脚本代码,其中,预设脚本代码用于采集目标网站的综合浏览量;采集单元,用于通过目标网站上预设脚本代码采集目标网站的综合浏览量;以及确定单元,用于将采集到的目标网站的综合浏览量作为目标综合浏览量。
进一步地,该装置还包括:发送单元,用于将目标URL发送至目标地址;生成单元,用于在目标地址上根据目标URL生成目标IIS日志;以及第三获取单元,用于在目标IIS日志中获取目标URL的绝对路径。
进一步地,该装置还包括:第四获取单元,用于获取目标时间段内的网站历史数据;统计单元,用于从网站历史数据中分别统计每个目标网站ID和每个目标网站ID对应的域名,得到网站数据集合;以及存储单元,用于将网站数据集合存储至预设数据库。
进一步地,该装置还包括:第五获取单元,用于在目标网站ID对应的着陆页URL是绝对路径的情况下,获取目标网站ID对应的着陆页URL中的域名;以及更新单元,用于将目标网站ID对应的着陆页URL中的域名存储至预设数据库,以更新预设数据库中目标网站ID对应的域名。
通过本申请,采用以下步骤:获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL;判断目标网站ID对应的着陆页URL是否为绝对路径;如果目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找目标网站ID对应的域名;以及将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL,解决了相关技术中在进行网站分析时由于着陆页URL丢失了域名,导致不能在IIS日志中获取到丢失了域名的着陆页URL的绝对路径的问题,根据目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接得到的目标URL为绝对路径,进而实现了在IIS日志中能够获取到丢失了域名的着陆页URL的绝对路径的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网站分析方法的流程图;以及
图2是根据本申请实施例的网站分析装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分术语进行说明:
统一资源定位符(Uniform Resource Locator,简称URL)也被称为网页地址,是因特网上标准的资源的地址。通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上,特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由下列三部分组成:第一部分是协议(或称为服务方式);第二部分是存有该资源的主机IP地址(有时也包括端口号);第三部分是主机资源的具体地址,例如目录和文件名等。第一部分和第二部分之间用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。
综合浏览量(Page View,简称PV):为网站各网页被浏览的总次数。一个访客有可能创造十几个甚至更多的Pageviews。综合浏览量是目前判断网站访问流量最常用的计算方式,也是反映一个网站受欢迎程度的重要指标之一。
IIS日志,默认格式:ex+年份的末两位数字+月份+日期,文件后缀为“.log”,例如,2010年7月30日的日志生成文件是ex100730.log。服务器的一些状况和访问IP的来源都会记录在IIS日志中,方便网站管理人员查看网站的运营情况。
绝对路径是指文件在硬盘上真正存在的路径。例如“bg.jpg”这个图片是存放在硬盘的“E:\book\网页布局代码\第2章”目录下,那么“bg.jpg”这个图片的绝对路径就是“E:\book\网页布\代码\第2章\bg.GIF"。那么如果要使用绝对路径指定网页的背景图片就应该使用以下语句:<body backround="E:\book\网页布局\代码\第2章\bg.GIF">。
事实上,在网页编程时,很少会使用绝对路径,如果使用“E:\book\网页布\代码\第2章\bg.jpg”来指定背景图片的位置,在自己的计算机上浏览可能会一切正常,但是上传到Web服务器上浏览就很有可能不会显示图片了。因为上传到Web服务器上时,可能整个网站并没有放在Web服务器的E盘,有可能是D盘或H盘。即使放在Web服务器的E盘里,Web服务器的E盘里也不一定会存在“E:\book\网页布局\代码\第2章”这个目录,因此在浏览网页时是不会显示图片的。为了避免这种隋况发生,通常在网页里指定文件时,都会选择使用相对路径。所谓相对路径,就是相对于自己的目标文件位置。例如,上面的例子,“s1.htm”文件里引用了“bg.jpg”图片,由于“bg.jpg”图片相对于“s1.htm”来说,是在同一个目录的,那么要在“s1.htm”文件里使用以下代码后,只要这两个文件的相对位置没有变(也就是说还是在同一个目录内),那么无论上传到Web服务器的哪个位置,在浏览器里都能正确地显示图片。<bodybackground="bg.GIF">。再例如,假设“s1.htm”文件所在目录为“E:\book\网页布局\代码\第2章”,而“bg.jpg”图片所在目录为“E:\book\网页布局\代码\第2章\img”,那么“bg.jpg”图片相对于“s1.htm”文件来说,是在其所在目录的“img”子目录里,则引用图片的语句应该为:<body background="img/bg.GIF">。
注意:相对路径使用“/”字符作为目录的分隔字符,而绝对路径可以使用“\”或“/”字符作为目录的分隔字符。由于“img”目录是“第2章”目录下的子目录,因此在“img”前不用再加上“/”字符。
在相对路径里常使用“../”来表示上一级目录。如果有多个上一级目录,可以使用多个“../”,例如“http://www.cnblogs.com/”代表上上级目录。假设“s1.htm”文件所在目录为“E:\book\网页布局\代码\第2章”,而“bg.jpg”图片所在目录为“E:\book\网页布局\代码”,那么“bg.jpg”图片相对于“s1.htm”文件来说,是在其所在目录的上级目录里,则引用图片的语句应该为:<body background="../bg.GIF">。
根据本申请的实施例,提供了一种网站分析方法。
图1是根据本申请实施例的网站分析方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页统一资源定位符URL。
可选地,在本申请实施例提供的网站分析方法中,在获取目标综合浏览量之前,该方法还包括:在目标网站上布署预设脚本代码,其中,预设脚本代码用于采集目标网站的综合浏览量;通过目标网站上预设脚本代码采集目标网站的综合浏览量;以及将采集到的目标网站的综合浏览量作为目标综合浏览量。
在本申请中的,获取目标网站上各网页被浏览的总次数,得到目标综合浏览量。其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL等信息。
步骤S102,判断目标网站ID对应的着陆页URL是否为绝对路径。
步骤S103,如果目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找目标网站ID对应的域名。
可选地,在本申请实施例提供的网站分析方法中,在从预设数据库中查找目标网站ID对应的域名之前,该方法还包括:获取目标时间段内的网站历史数据;从网站历史数据中分别统计每个目标网站ID和每个目标网站ID对应的域名,得到网站数据集合;以及将网站数据集合存储至预设数据库。
通过上述步骤,在预设数据库中存储有(int,string)型键值对,int表示网站ID,string表示网站ID对应的域名。如果目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找目标网站ID对应的域名。
步骤S104,将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL。
可选地,在本申请实施例提供的网站分析方法中,在将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL之后,该方法还包括:将目标URL发送至目标地址;在目标地址上根据目标URL生成目标IIS日志;以及在目标IIS日志中获取目标URL的绝对路径。
将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到完整的着陆页URL(即目标URL)。根据完整的着陆页URL即可获取其绝对路径,解决了相关技术中在进行网站分析时由于着陆页URL丢失了域名,导致不能在IIS日志中获取到丢失了域名的着陆页URL的绝对路径的问题。
可选地,在本申请实施例提供的网站分析方法中,在判断目标网站ID对应的着陆页URL是否为绝对路径之后,该方法还包括:如果目标网站ID对应的着陆页URL是绝对路径,获取目标网站ID对应的着陆页URL中的域名;以及将目标网站ID对应的着陆页URL中的域名存储至预设数据库,以更新预设数据库中目标网站ID对应的域名。
如果目标网站ID对应的着陆页URL是绝对路径,根据目标网站ID对应的着陆页URL中的域名更新预设数据库中目标网站ID对应的域名。通过对预设数据库中的信息进行更新,保证了后续在预设数据库中获取到的网站ID对应的域名的准确性。
本申请实施例提供的网站分析方法,通过获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL;判断目标网站ID对应的着陆页URL是否为绝对路径;如果目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找目标网站ID对应的域名;以及将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL,解决了相关技术中在进行网站分析时由于着陆页URL丢失了域名,导致不能在IIS日志中获取到丢失了域名的着陆页URL的绝对路径的问题,根据目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接得到的目标URL为绝对路径,进而实现了在IIS日志中能够获取到丢失了域名的着陆页URL的绝对路径的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网站分析装置,需要说明的是,本申请实施例的网站分析装置可以用于执行本申请实施例所提供的用于网站分析方法。以下对本申请实施例提供的网站分析装置进行介绍。
图2是根据本申请实施例的网站分析装置的示意图。如图2所示,该装置包括:第一获取单元10、判断单元20、查找单元30和第二获取单元40。
第一获取单元10,用于获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL。
判断单元20,用于判断目标网站ID对应的着陆页URL是否为绝对路径。
查找单元30,用于在目标网站ID对应的着陆页URL不是绝对路径的情况下,从预设数据库中查找目标网站ID对应的域名。
第二获取单元40,用于将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL。
可选地,在本申请实施例提供的网站分析装置中,该装置还包括:布署单元,用于在目标网站上布署预设脚本代码,其中,预设脚本代码用于采集目标网站的综合浏览量;采集单元,用于通过目标网站上预设脚本代码采集目标网站的综合浏览量;以及确定单元,用于将采集到的目标网站的综合浏览量作为目标综合浏览量。
可选地,在本申请实施例提供的网站分析装置中,该装置还包括:发送单元,用于将目标URL发送至目标地址;生成单元,用于在目标地址上根据目标URL生成目标IIS日志;以及第三获取单元,用于在目标IIS日志中获取目标URL的绝对路径。
可选地,在本申请实施例提供的网站分析装置中,该装置还包括:第四获取单元,用于获取目标时间段内的网站历史数据;统计单元,用于从网站历史数据中分别统计每个目标网站ID和每个目标网站ID对应的域名,得到网站数据集合;以及存储单元,用于将网站数据集合存储至预设数据库。
可选地,在本申请实施例提供的网站分析装置中,该装置还包括:第五获取单元,用于在目标网站ID对应的着陆页URL是绝对路径的情况下,获取目标网站ID对应的着陆页URL中的域名;以及更新单元,用于将目标网站ID对应的着陆页URL中的域名存储至预设数据库,以更新预设数据库中目标网站ID对应的域名。
本申请实施例提供的网站分析装置,通过第一获取单元10获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL;判断单元20判断目标网站ID对应的着陆页URL是否为绝对路径;查找单元30在目标网站ID对应的着陆页URL不是绝对路径的情况下,从预设数据库中查找目标网站ID对应的域名;以及第二获取单元40将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL,解决了相关技术中在进行网站分析时由于着陆页URL丢失了域名,导致不能在IIS日志中获取到丢失了域名的着陆页URL的绝对路径的问题,根据目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接得到的目标URL为绝对路径,进而实现了在IIS日志中能够获取到丢失了域名的着陆页URL的绝对路径的效果。
所述网站分析装置包括处理器和存储器,上述第一获取单元、判断单元、查找单元和第二获取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设数据库、预设脚本代码都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数进行网站分析。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标综合浏览量,其中,目标综合浏览量中记录有目标网站ID和目标网站ID对应的着陆页URL;判断目标网站ID对应的着陆页URL是否为绝对路径;如果目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找目标网站ID对应的域名;以及将目标网站ID对应的域名与目标网站ID对应的着陆页URL进行拼接,得到目标URL。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网站分析方法,其特征在于,包括:
获取目标综合浏览量,其中,所述目标综合浏览量中记录有目标网站ID和所述目标网站ID对应的着陆页统一资源定位符URL;
判断所述目标网站ID对应的着陆页URL是否为绝对路径;
如果所述目标网站ID对应的着陆页URL不是绝对路径,从预设数据库中查找所述目标网站ID对应的域名;以及
将所述目标网站ID对应的域名与所述目标网站ID对应的着陆页URL进行拼接,得到目标URL。
2.根据权利要求1所述的方法,其特征在于,在获取目标综合浏览量之前,所述方法还包括:
在目标网站上布署预设脚本代码,其中,所述预设脚本代码用于采集所述目标网站的综合浏览量;
通过所述目标网站上预设脚本代码采集所述目标网站的综合浏览量;以及
将采集到的目标网站的综合浏览量作为目标综合浏览量。
3.根据权利要求1所述的方法,其特征在于,在将所述目标网站ID对应的域名与所述目标网站ID对应的着陆页URL进行拼接,得到目标URL之后,所述方法还包括:
将所述目标URL发送至目标地址;
在所述目标地址上根据所述目标URL生成目标互联网信息服务IIS日志;以及
在所述目标IIS日志中获取所述目标URL的绝对路径。
4.根据权利要求1所述的方法,其特征在于,在从预设数据库中查找所述目标网站ID对应的域名之前,所述方法还包括:
获取目标时间段内的网站历史数据;
从所述网站历史数据中分别统计每个目标网站ID和所述每个目标网站ID对应的域名,得到网站数据集合;以及
将所述网站数据集合存储至所述预设数据库。
5.根据权利要求4所述的方法,其特征在于,在判断所述目标网站ID对应的着陆页URL是否为绝对路径之后,所述方法还包括:
如果所述目标网站ID对应的着陆页URL是所述绝对路径,获取所述目标网站ID对应的着陆页URL中的域名;以及
将所述目标网站ID对应的着陆页URL中的域名存储至所述预设数据库,以更新所述预设数据库中所述目标网站ID对应的域名。
6.一种网站分析装置,其特征在于,包括:
第一获取单元,用于获取目标综合浏览量,其中,所述目标综合浏览量中记录有目标网站ID和所述目标网站ID对应的着陆页统一资源定位符URL;
判断单元,用于判断所述目标网站ID对应的着陆页URL是否为绝对路径;
查找单元,用于在所述目标网站ID对应的着陆页URL不是绝对路径的情况下,从预设数据库中查找所述目标网站ID对应的域名;以及
第二获取单元,用于将所述目标网站ID对应的域名与所述目标网站ID对应的着陆页URL进行拼接,得到目标URL。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
布署单元,用于在目标网站上布署预设脚本代码,其中,所述预设脚本代码用于采集所述目标网站的综合浏览量;
采集单元,用于通过所述目标网站上预设脚本代码采集所述目标网站的综合浏览量;以及
确定单元,用于将采集到的目标网站的综合浏览量作为目标综合浏览量。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
发送单元,用于将所述目标URL发送至目标地址;
生成单元,用于在所述目标地址上根据所述目标URL生成目标互联网信息服务IIS日志;以及
第三获取单元,用于在所述目标IIS日志中获取所述目标URL的绝对路径。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第四获取单元,用于获取目标时间段内的网站历史数据;
统计单元,用于从所述网站历史数据中分别统计每个目标网站ID和所述每个目标网站ID对应的域名,得到网站数据集合;以及
存储单元,用于将所述网站数据集合存储至所述预设数据库。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第五获取单元,用于在所述目标网站ID对应的着陆页URL是所述绝对路径的情况下,获取所述目标网站ID对应的着陆页URL中的域名;以及
更新单元,用于将所述目标网站ID对应的着陆页URL中的域名存储至所述预设数据库,以更新所述预设数据库中所述目标网站ID对应的域名。
CN201510862383.8A 2015-11-30 2015-11-30 网站分析方法及装置 Active CN106815248B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510862383.8A CN106815248B (zh) 2015-11-30 2015-11-30 网站分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510862383.8A CN106815248B (zh) 2015-11-30 2015-11-30 网站分析方法及装置

Publications (2)

Publication Number Publication Date
CN106815248A true CN106815248A (zh) 2017-06-09
CN106815248B CN106815248B (zh) 2020-07-03

Family

ID=59108269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510862383.8A Active CN106815248B (zh) 2015-11-30 2015-11-30 网站分析方法及装置

Country Status (1)

Country Link
CN (1) CN106815248B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509426A (zh) * 2018-04-11 2018-09-07 焦点科技股份有限公司 一种深度多维度流量语义分析方法
CN110190983A (zh) * 2019-04-18 2019-08-30 网宿科技股份有限公司 一种网络问题分析方法及装置
CN110472165A (zh) * 2019-08-20 2019-11-19 深圳前海微众银行股份有限公司 Url提取方法、装置、设备及计算机可读存储介质
CN114491371A (zh) * 2022-01-27 2022-05-13 佛山众陶联供应链服务有限公司 一种web系统前端多系统跳转方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101188505A (zh) * 2007-12-11 2008-05-28 华为技术有限公司 内容类型识别的方法和设备
CN101242307A (zh) * 2008-02-01 2008-08-13 刘峰 用嵌入代码代理日志实现网站访问分析系统与方法
US20110225181A1 (en) * 2010-03-12 2011-09-15 Kristopher Kubicki Method and system for generating prime uniform resource identifiers
CN103888966A (zh) * 2014-03-05 2014-06-25 浙江大学 一种无线传感网络的动态日志的收集与处理方法
US20140258349A1 (en) * 2013-03-08 2014-09-11 Go Daddy Operating Company, LLC Systems for Associating an Online File Folder with a Uniform Resource Locator
CN104978277A (zh) * 2015-07-30 2015-10-14 北京百度网讯科技有限公司 用于调试页面的方法、终端及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101188505A (zh) * 2007-12-11 2008-05-28 华为技术有限公司 内容类型识别的方法和设备
CN101242307A (zh) * 2008-02-01 2008-08-13 刘峰 用嵌入代码代理日志实现网站访问分析系统与方法
US20110225181A1 (en) * 2010-03-12 2011-09-15 Kristopher Kubicki Method and system for generating prime uniform resource identifiers
US20140258349A1 (en) * 2013-03-08 2014-09-11 Go Daddy Operating Company, LLC Systems for Associating an Online File Folder with a Uniform Resource Locator
CN103888966A (zh) * 2014-03-05 2014-06-25 浙江大学 一种无线传感网络的动态日志的收集与处理方法
CN104978277A (zh) * 2015-07-30 2015-10-14 北京百度网讯科技有限公司 用于调试页面的方法、终端及服务器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一落叶而知秋: ""JavaScript实现网站访问次数统计代码"", 《HTTPS://WWW.JB51.NET/ARTICLE/70957.HTM》 *
马海祥博客: ""如何查看及分析网站IIS日志文件"", 《HTTP://WWW.MAHAIXIANG.CN/SEOYJY/1039.HTML》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509426A (zh) * 2018-04-11 2018-09-07 焦点科技股份有限公司 一种深度多维度流量语义分析方法
CN110190983A (zh) * 2019-04-18 2019-08-30 网宿科技股份有限公司 一种网络问题分析方法及装置
CN110190983B (zh) * 2019-04-18 2022-05-10 网宿科技股份有限公司 一种网络问题分析方法及装置
CN110472165A (zh) * 2019-08-20 2019-11-19 深圳前海微众银行股份有限公司 Url提取方法、装置、设备及计算机可读存储介质
CN110472165B (zh) * 2019-08-20 2024-01-16 深圳前海微众银行股份有限公司 Url提取方法、装置、设备及计算机可读存储介质
CN114491371A (zh) * 2022-01-27 2022-05-13 佛山众陶联供应链服务有限公司 一种web系统前端多系统跳转方法及系统
CN114491371B (zh) * 2022-01-27 2022-09-16 佛山众陶联供应链服务有限公司 一种web系统前端多系统跳转方法及系统

Also Published As

Publication number Publication date
CN106815248B (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
US8473495B2 (en) Centralized web-based software solution for search engine optimization
CN103631957B (zh) 访客行为数据统计方法及装置
CN103605715B (zh) 用于多个数据源的数据整合处理方法和装置
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN104182506A (zh) 日志管理方法
WO2012122384A1 (en) Determining preferred categories based on user access attribute values
CN102970348B (zh) 网络应用推送方法、系统和网络应用服务器
CN107437026B (zh) 一种基于广告网络拓扑的恶意网页广告检测方法
CN110263070B (zh) 事件上报方法及装置
CN103186670A (zh) 一种完整采集网页信息的方法和系统
CN103297469A (zh) 一种网站数据的采集方法及装置
CN104391953B (zh) 检测网页更新的方法及装置
US10049369B2 (en) Group targeting system and method for internet service or advertisement
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN106815248A (zh) 网站分析方法及装置
CN105721578B (zh) 一种用户行为数据采集方法和系统
CN111090797B (zh) 数据获取方法、装置、计算机设备和存储介质
WO2017136755A1 (en) Analyzing analytic element network traffic
IL259139B2 (en) A method for locating online tracking services
CN103605848A (zh) 路径分析方法和装置
Lakshmi et al. An overview of preprocessing on web log data for web usage analysis
CN106790593A (zh) 一种页面处理方法和装置
WO2017138926A1 (en) Managing network communication protocols
Kaushal et al. Methods for user profiling across social networks
JP2015185153A (ja) 関心ワード抽出システム及びその方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant