发明内容
为了克服上述现有技术的不足,本发明提供了一种更加详细、高效的网站流量统计的方法,该方法针对第三代搜索引擎,对原有网站流量信息做了进一步的细化,增加了数据划分的详细规则、地域流量的统计、关键词搜索量昨日对比,并可以做历史的详细查询,具有表格导出等一系列的功能,并针对第三代搜索,对搜索关键词的代数做出了区分,便于对网络中出现的热词进行制作和管理。
实现上述目的所采用的解决方案为:
一种网站流量统计的方法,其改进之处在于:所述方法包括:
I、整合日志文件;
II、初始化;
III、根据日志文件进行流量分类,确定自然流量;
IV、分析所述自然流量;
V、显示分析结果,释放内存空间。
进一步的,所述步骤I的日志为后台按单位时间运行产生的分布在不同服务器中的日志;
所述步骤I包括日志整合模块将不同服务器记录的日志进行整合。
进一步的,所述步骤II包括,流量统计系统的配置文件和日志文件的初始化;判断初始化是否成功,若初始化失败,则保存日志文件并记录失败原因;若成功则进入后续步骤。
进一步的,所述流量统计系统包括日志整合模块、流量监控模块和信息展示模块;所述流量监控模块包括流量分类模块、自然流量分析模块和数据库;所述数据库用于存数日志文件的数据库和进行流量分类的数据库;
所述日志整合存储模块用于获取服务器中的日志文件并整合,存储整合后的日志文件并发送给所述流量分类模块;所述流量分类模块对流量进行分类,踢除内网流量和爬虫流量获得自然流量;将所述自然流量的信息发送至自然流量分析模块;所述自然流量分析模块对信息进行分析,并由所述信息显示模块展示。
进一步的,所述步骤III包括,流量分类模块根据日志文件确定爬虫流量和内网流量,除去所述爬虫流量和内网流量获得自然流量。
进一步的,所述日志文件包括请求时间、IP地址、检索词、前一页面URL、请求串、浏览器信息、独立访客md5。
进一步的,所述步骤IV包括,自然流量分析模块根据日志文件分析所述自然流量,获得地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量;分析并存储关键词;将数据传输至信息展示模块。
进一步的,所述地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量分别通过日志文件中的IP地址、cookie、页面网址、推荐活动页面的数据和关键词信息获得。
进一步的,根据所述关键词信息确定受访问的关键词及其访问次数,获得关键词的排行信息和升降信息。
进一步的,所述步骤IV包括,信息展示模块将流量分析模块的信息展示;系统释放内存空间。
与现有技术相比,本发明具有以下有益效果:
(1)本发明的方法屏蔽内部访问产生的网站访问流量和其他网站的爬虫(非人为)流量,确保自然流量的精确,提供更加精准的自然流量。
(2)本发明的方法精确获得自然流量,从而精确的确认某一页面的访问量,确认该页面在某一段时间内的访问量、产生的新访客、访问的ip地址数。
(3)本发明的方法精确获得自然流量,从而实现用户搜索的关键词的历史查询,有效的提供某段时间的关键词的访问量等信息,为词条的管理、制作等提供依据。
(4)本发明的方法提供了地域信息,能够精确的省、市,能够详细的了解这一地域的情况,进一步管理管理网页,减少盲目性。
(5)本发明的方法提供新老访客信息,通过新老访客信息,能够明确某一时间段内推广的效果,提高公司的运维效率。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
如图3所示,图3为网站流量统计系统图。流量统计系统包括日志整合模块、流量监控模块和信息展示模块。流量监控模块包括流量分类模块、自然流量分析模块和数据库;数据库用于存数日志文件的数据库和进行流量分类的数据库;日志整合存储模块用于获取服务器中的日志文件并整合,存储整合后的日志文件并发送给流量分类模块;流量分类模块对流量进行分类,踢除内网流量和爬虫流量获得自然流量;将自然流量的信息发送至自然流量分析模块;自然流量分析模块对信息进行分析,并由信息显示模块展示。
如图1所示,图1为网站流量统计方法的流程图;网站流量统计的方法包括以下:
步骤一、整合后台程序运行的日志文件(单位时间内的日志文件,1天、2天),获得分别在不同的服务器的后台程序运行的日志文件,作为流量分析的日志文件。
步骤二、启动流量统计程序,初始化日志文件,进行相关的配置文件的加载和数据库的初始化,配置文件包括IP地址定位信息,获取数据库的表名,登录用户名;
判断是否初始化成功,若初始化失败,则记录日志,记录失败的原因,以便日后的查询;如果成功则进入后续步骤。
步骤三、流量监控模块依次读取每行日志,按照分隔符依次取出各个字段的值,并按照一定规则进行详细的数据统计。流量分类模块根据日志文件确定爬虫流量和内网流量,除去所述爬虫流量和内网流量获得自然流量,如图2日志文件分析流程图所示。
步骤四、自然流量分析模块根据日志文件分析所述自然流量,获得地域统计信息、访客流量、页面信息、推荐活动流量和关键词流量;分析并存储关键词;将数据传输至信息展示模块。
步骤五、数据统计完成后,依次更新数据表中对应的表格,显示数据查询结果。后台的释放空间,回收内存。
如图2所示,图2为日志文件分析流程图。流量分析包括以下步骤:
步骤一)、确定自然流量。
对于每一行日志文件,都有着自己的属性,包含:请求时间、IP地址、检索词、是否禁查、结果代数、结果条目数、前一页面url(记录跳转页面)、请求串(记录目前正在访问的页面)、浏览器信息、新/老访客、独立访客md5(由机器时间、访问IP、访问地址等计算出的唯一字符串)等等。
流量统计,对第三代搜索引擎的日志文件的信息进行详细的数据划分,包括:爬虫流量,内网流量,自然流量。
内网流量,根据IP地址字段确定,用于屏蔽公司内部的流量,同时去除程序服务器自身发出请求,获得更真实的数据。同时可对内网流量进行详细分析,内网多为公司内部和合作方伙伴,公司的网站服务器产生的内网流量,如PHP/5.3、Java/*等请求,均来自内网。内网IP属于浮动的IP,可以由管理后台进行添加、修改、删除。
爬虫流量,用于剔除了外部公司的爬虫产生的数据,比如百度的BaiduSpider,谷歌的爬虫Goolebot,搜狗的sogou,搜搜的sousouSpider等等,剔除掉上述爬虫产生的数据,以便能更好的进行数据统计。踢出爬虫流量可根据日志文件中的爬虫信息,判断是否为爬虫,若有则踢出其产生的流量,如下表1为爬虫列表。
ID |
Title |
1 |
Googlebot(Google) |
2 |
sogou |
3 |
Inktomi |
4 |
BaiduSpider(Baidu) |
5 |
Raw Spider |
6 |
MSN Bot |
7 |
Sosospider |
8 |
MSIECrawler |
9 |
YoudaoSpider(yodao) |
10 |
ia_archiver |
11 |
MJ12bot |
自然流量,又称主动流量,通过踢除爬虫流量和内网流量获得。自然流量的得来包括以下方式:
1)网民自上次进入目标站点之后,初次记下来的网站域名地址,或通过收藏夹标签等直接进入站点的,即自然流量。
2)访客首次尝试.com能否到达该站点,为自然流量中的模糊流量值。
3)访客通过门户网站、知名站点,Google、Baidu、163、Sina等,直接通过域名进去站点产生的流量。
4)从搜索引擎输入关键字进行信息获取查询,进入目标站点,为自然搜索流量。
5)自然流量最大程度上是指除广告以外带来的流量。
本发明的方法在全部流量的基础上,剔除了内网流量,爬虫流量,更加精确的定位了自然流量,排除内部流量(公司内部、自身服务器程序发出的请求),排除爬虫的流量(同类大公司的爬虫爬取网页的内容),并严格有效的记录上述流量。
步骤二)、获得自然流量后,对自然流量进行详细的分析。自然流量分析包括:
201、地域统计,通过IP地址逆向定位出位置,用于统计来自不同区域的用户访问被统计站点的情况,进而统计出各地区、各市、各省的数据访问量,并记录数据库。
202、访客流量,根据cookie划分该用户是否在有效期内访问了该站点,判断出新老访客。
203、推荐活动流量,通过后台数据库,添加推广的页面url,根据日志分析出来的数据,判断是否完全匹配,该项指标通过前一个页面Url的完全匹配,可以确定一段时间内某一项活动的推广效果。
204、页面信息的统计,网页信息包括来路页面信息和受访页面信息,通过来路/受访分析获取。综合来路页面信息和受访页信息,记录用户的访问行为和跳转行为。
来路页面信息指日志中的“来源网址”的信息;受访页信息指日志中的“受访页网址”的信息,受访页信息包括进站页面和离站页面。其中,
进站页面指当前页面的前一个页面URL的访问记录,即跳转页面,根据日志中的前一个页面URL信息获得。
离站页面的获取方法包括以下步骤:
S2041、提取日志文件中cookies中MD5值重复次数=1的日志,命名为数据A;提取日志中,MD5值重复字数>1的日志,命名为数据B;其中,上述Md5值为包含访问时间、访问IP、访问信息等信息的不重复的唯一整数。
S2042、以相同MD5值为归类条件,对数据B内日志做再次分组,分组等级命名为α。在任意一个α等级分组中,以日志时间最晚的一条日志作为统计起点,按日志时间顺次顺序自后向前进行对比;
S2043、在时间顺序相邻的两条比对日志中,出现日志时间相差大于30分钟(人为根据需要的统计时间设定)的情况,则:此俩条日志将被自动纳入离站页统计,时间较为靠前的一条日志,将自动成为新的统计起点,按日志时间“自后向前”的顺序,顺次与日志时间相隔的第2条日志继续对比
S2044、在时间顺序相邻的两条比对日志中,出现日志时间相差小于等于30分钟的情况,则时间较为靠前的一条日志将被自动剔除不纳入离站页统计,将继续以原统计起点(日志),按日志时间“自后向前”的顺序,顺次与日志时间相隔的第2条日志继续对比,如出现日志时间相差大于30分钟情况,则以1)处理方案类推处理;如出现日志时间相差小于等于30分钟情况,则以2)处理方案类推处理;
S2045、将1)、2)两种情况处理后得到纳入离站页统计的日志,从各个α等级分组中抽取出来,汇总成集,此日志集合命名为数据C。
S2046、数据A+数据C相加,提取其中受访页网址数据,即为离站页面统计所需数据。
205、关键词流量,通过词条信息进行统计。针对第三代搜索技术,根据日志文件中的关键词确定关键词流量,从而进行关键词分析。
关键词分析:包括关键词历史、关键词排行(外)、关键词排行(全)、外部关键词(升降)、全部关键词(升降)的数据分析。
关键词历史用于对全部来源访问的关键词进行单个关键词的历史数据分析,包括统计日期与搜索请求次数。
关键词排行(外)用于对外部链接(剔除爬虫后的非中搜搜索)来源访问的关键词进行关键词排行的阶段数据分析,支持高低排序。
关键词排行(全)用于对全部来源访问的关键词进行关键词排行的阶段数据分析。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。