CN104991957A - 一种确定网页打开时间的方法及装置 - Google Patents

一种确定网页打开时间的方法及装置 Download PDF

Info

Publication number
CN104991957A
CN104991957A CN201510431503.9A CN201510431503A CN104991957A CN 104991957 A CN104991957 A CN 104991957A CN 201510431503 A CN201510431503 A CN 201510431503A CN 104991957 A CN104991957 A CN 104991957A
Authority
CN
China
Prior art keywords
time
domain name
webpage
user
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510431503.9A
Other languages
English (en)
Other versions
CN104991957B (zh
Inventor
李宜明
王立俊
丁文涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING RUNSTONE TECHNOLOGY Co Ltd
Original Assignee
BEIJING RUNSTONE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING RUNSTONE TECHNOLOGY Co Ltd filed Critical BEIJING RUNSTONE TECHNOLOGY Co Ltd
Priority to CN201510431503.9A priority Critical patent/CN104991957B/zh
Publication of CN104991957A publication Critical patent/CN104991957A/zh
Application granted granted Critical
Publication of CN104991957B publication Critical patent/CN104991957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及通信技术领域,尤其涉及一种确定网页打开时间的方法及装置,所述方法包括:获取域名系统服务器中的日志信息,其中,所述日志信息包含至少一个用户的网络协议地址和所述至少一个用户访问第一网页时所产生的域名信息;利用MapReduce模型对所述日志信息进行分析,确定所述至少一个用户访问所述第一网页的平均打开时间。本发明依托DNS服务器和Hadoop大数据分析技术,解决了现有技术中无法获知用户群访问网页是网页的打开时间,实现了低成本的全面评价群体用户对某一网站的打开时间和响应质量,进而,还实现了低成本的全面评价群体用户对所有网站的打开时间和响应质量,得到用户对网站使用的感知。

Description

一种确定网页打开时间的方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种确定网页打开时间的方法及装置。
背景技术
随着网络通信技术的不断发展,网站前端的发展速度也越来越快,从原有的静态页面、动态页面到基于JS(JavaScript)的页面实现。而,页面技术不断改进的一个重要目的就是不断增强用户的体验,提高打开网页和显示网页的速度。
在现有技术中,通过HttpClient和PhantomJS模拟浏览器访问页面,并等待响应结束,根据等待时长能够确定出网页的打开速度,或者,使用FireBug查看每个访问请求的响应时间,从而确定出网页的打开速度。但是,采用上述方法,一次只能分析一个网页的打开时间,即,只能分析单个用户的网页打开时长,面对大规模用户群时,无法获知用户群访问网页时网页的打开时间。
发明内容
本发明通过提供一种确定网页打开时间的方法及装置,解决了现有技术中无法获知用户群访问网页时网页的打开时间的技术问题。
本发明实施例提供了一种确定网页打开时间的方法,所述方法包括:
获取域名系统服务器中的日志信息,其中,所述日志信息包含至少一个用户的网络协议地址和所述至少一个用户访问第一网页时所产生的域名信息;
利用MapReduce模型对所述日志信息进行分析,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述利用MapReduce模型对所述日志信息进行分析,具体包括:
基于所述日志信息,确定所述第一网页所对应的首域名段和尾域名段;
执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间;
执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间,具体包括:
基于所述首域名段中各个首域名的访问时间,依照时间先后顺序,判断相邻的两个首域名之间的第一时间间隔是否满足第一预设时间范围;
若所述第一时间间隔满足所述第一预设时间范围,则确定所述各个首域名的访问时间中最早的访问时间为所述起始时间;以及
基于所述尾域名段中各个尾域名的访问时间,依照时间先后顺序,判断相邻的两个尾域名之间的第二时间间隔是否满足第二预设时间范围;
若所述第二时间间隔满足所述第二预设时间范围,则确定所述各个尾域名的访问时间中最晚的访问时间为所述终止时间。
优选的,所述执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间,具体包括:
针对同一用户,基于重复访问所述第一网页获得的i个所述起始时间和j个所述终止时间,依照时间先后顺序,获得倒序排列的起始时间队列和终止时间队列;
基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间,具体包括:
通过迭代判断所述终止时间队列中的第一个元素与所述起始时间队列中的第一个元素之间的时间差值是否满足预设有效时间范围,获得至少一个所述时间差值为有效时间差值;
基于至少一个所述有效时间差值和所述有效时间差值的数量,确定所述至少一个用户访问所述第一网页的平均打开时间。
基于同一发明构思,本发明提供一种确定网页打开时间的装置,所述装置包括:
获取模块,用于获取域名系统服务器中的日志信息,其中,所述日志信息包含至少一个用户的网络协议地址和所述至少一个用户访问第一网页时所产生的域名信息;
分析模块,用于利用MapReduce模型对所述日志信息进行分析,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述分析模块,具体包括:
第一确定子模块,用于基于所述日志信息,确定所述第一网页所对应的首域名段和尾域名段;
第二确定子模块,用于执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间;
第三确定子模块,用于执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述第二确定子模块,具体包括:
第一判断单元,用于基于所述首域名段中各个首域名的访问时间,依照时间先后顺序,判断相邻的两个首域名之间的第一时间间隔是否满足第一预设时间范围;
第一确定单元,用于若所述第一时间间隔满足所述第一预设时间范围,则确定所述各个首域名的访问时间中最早的访问时间为所述起始时间;以及
第二判断单元,用于基于所述尾域名段中各个尾域名的访问时间,依照时间先后顺序,判断相邻的两个尾域名之间的第二时间间隔是否满足第二预设时间范围;
第二确定单元,用于若所述第二时间间隔满足所述第二预设时间范围,则确定所述各个尾域名的访问时间中最晚的访问时间为所述终止时间。
优选的,所述第三确定子模块,具体包括:
获得单元,用于针对同一用户,基于重复访问所述第一网页获得的i个所述起始时间和j个所述终止时间,依照时间先后顺序,获得倒序排列的起始时间队列和终止时间队列;
第三确定单元,用于基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述第三确定单元,具体包括:
获得子单元,用于迭代判断所述终止时间队列中的第一个元素与所述起始时间队列中的第一个元素之间的时间差值是否满足预设有效时间范围,获得至少一个所述时间差值为有效时间差值;
确定子单元,用于基于至少一个所述有效时间差值和所述有效时间差值的数量,确定所述至少一个用户访问所述第一网页的平均打开时间。
本发明实施例中的一个或多个技术方案,至少具有如下技术效果或优点:
本发明通过获得包含域名信息的日志信息,利用MapReduce模型对日志信息进行分析,从而能够确定出访问第一网页的所有用户在访问时对第一网页的平均打开时间,解决了现有技术中无法获知用户群访问网页是网页的打开时间,实现了低成本的全面评价群体用户对某一网站的打开时间和响应质量,进而,还实现了低成本的全面评价群体用户对所有网站的打开时间和响应质量,得到用户对网站使用的感知。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例中一种确定网页打开时间的方法的流程图;
图2为本发明实施例中步骤102的流程图;
图3为本发明实施例中步骤203的流程图;
图4为本发明实施例中步骤302中迭代判断过程的流程图;
图5为本发明实施例中一种确定网页打开时间的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种确定网页打开时间的方法,如图1所示,所述方法包括:
步骤101:获取域名系统服务器中的日志信息,其中,所述日志信息包含至少一个用户的网络协议地址和所述至少一个用户访问第一网页时所产生的域名信息。
步骤102:利用MapReduce模型对所述日志信息进行分析,确定所述至少一个用户访问所述第一网页的平均打开时间。
对于步骤101而言,在域名系统(Domain Name System,DNS)服务器中存放有用户访问网页所产生的日志信息,日志信息中不仅包含用户访问网页时的网络协议(Internet Protocol,IP)地址,还包含用户每次访问网页时所产生的域名信息,域名信息中包含域名的名称和访问域名的时间点,DNS服务器的日志信息能够准确的记录用户访问网页所产生的信息。在获取得到DNS服务器的日志信息之后,将日志信息存放于Hadoop分布式文件存储系统中(HadoopDistributed File System,HDFS),以供后续在Hadoop平台中利用MapReduce模型对日志信息进行处理。
具体来讲,如图2所示,步骤102包括:
步骤201:基于所述日志信息,确定所述第一网页所对应的首域名段和尾域名段;
步骤202:执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间;
步骤203:执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间。
网页的访问通常具有域名访问有序性,即,在访问一个网页时,一般会访问很多的域名,这些域名包括主域名和广告域名等等,而在网页调用时,一般会按照一定顺序访问这些域名,从而根据这些域名的出现顺序能够知晓某一时间点是处于访问网页的开始,还是处于访问网页的终止,因此,划分出首域名段和尾域名段。
另外,由于访问域名存在随机性,因此,对于步骤201而言,通过重复访问第一网页,根据日志信息进行迭代判断,统计出首域名段包含的首域名和尾域名段包含的尾域名,从而确定出第一网页所对应的首域名段和尾域名段。具体的,统计在首域名段中出现的概率在预设概率值以上的域名为首域名,并将首域名放入首域名段中,以完成域名筛选,例如,当预设概率值为80%时,第一域名“163.com”出现概率为85%,则第一域名属于首域名段。同理,统计在尾域名段中出现的概率在预设概率值以上的域名为尾域名,并将尾域名放入尾域名段中。其中,首域名段至少包含一个首域名,尾域名段至少包含一个尾域名。
需要说明的是,无论在首域名段还是在尾域名段,当域名的概率均低于预设概率值时,则降低预设概率值,重新筛选域名,另外,当经过筛选后同一域名段中包含的域名数量超过预设数量,则提高预设概率值,例如,当预设数量为3时,如果首域名段中包含4个首域名,则提高预设概率值,将首域名段中的首域名控制在3个以内,等等。
在步骤202中,进入Map阶段,输出如下:
[key:ip],[value:1_time or 2_time]
其中,上式中1代表与首域名段对应的起始时间,即,访问首域名段的时间,2代表与尾域名段对应的终止时间,即,访问尾域名段的时间。在Map处理过程中,基于首域名段中各个首域名的访问时间,依照时间先后顺序,判断相邻的两个首域名之间的第一时间间隔是否满足第一预设时间范围,若第一时间间隔满足第一预设时间范围,则确定各个首域名的访问时间中最早的访问时间为起始时间,同理,基于尾域名段中各个尾域名的访问时间,依照时间先后顺序,判断相邻的两个尾域名之间的第二时间间隔是否满足第二预设时间范围,若第二时间间隔满足第二预设时间范围,则确定各个尾域名的访问时间中最晚的访问时间为终止时间。
例如,当首域名段中包含第一首域名、第二首域名和第三首域名时,且,在Map阶段,所有首域名均出现,第一首域名的访问时间为第一时间,第二首域名的访问时间为第二时间,第三首域名的访问时间为第三时间,第一时间早于第二时间和第三时间,且,第三时间晚于第二时间,依照时间先后顺序,分别判断第一时间和第二时间之间的时间间隔,以及第二时间和第三时间之间的时间间隔是否均满足第一预设时间范围,第一预设时间范围可以为8~10s。当然,也可以判断第一时间间隔是否为一预设时间值,本申请不做限定。当第一时间和第二时间之间的时间间隔满足第一预设时间范围,且,第二时间和第三时间之间的时间间隔也满足第一预设时间范围时,则确定最早的第一时间为该次访问网页时的起始时间。同理,在尾域名段中,确定出最晚的访问时间为该次访问网页时的终止时间,在此不再赘述。
例如,IP地址为12.12.23.22对第一网页进行3次访问,Map阶段输出:
                               {1_122232,2_122237}
key:12.12.23.22       value   {1_122242,2_122247}
                               {1_122252,2_122267}
需要说明的是,一次网页的访问对应一个起始时间和一个终止时间,重复多次访问网页,则,理论上,对应访问的次数,存在相同数量的起始时间和相同数量的终止时间,但实际中,由于无法做到精确配对,往往得到的起始时间的数量和终止时间的数量不相同。其中,如图3所示,步骤203,具体包括:
步骤301:针对同一用户,基于重复访问所述第一网页获得的i个所述起始时间和j个所述终止时间,依照时间先后顺序,获得倒序排列的起始时间队列和终止时间队列;
步骤302:基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间。
对于步骤301而言,每一个用户对应着一个起始时间队列和一个终止时间队列。另外,步骤302具体包括:
迭代判断所述终止时间队列中的第一个元素与所述起始时间队列中的第一个元素之间的时间差值是否满足预设有效时间范围,获得至少一个所述时间差值为有效时间差值;
基于至少一个所述有效时间差值和所述有效时间差值的数量,确定所述至少一个用户访问所述第一网页的平均打开时间。
在Reduce阶段,输出如下:
[key:ip],[bi,bi-1…b1],[ej,ej-1…e1]
其中,上式中[bi,bi-1…b1]为倒序排列的起始时间队列,[ej,ej-1…e1]为倒序排列的终止时间队列。对于同一IP地址,i与j可以相同也可以不同,当i和j不同时,表明获得的起始时间的数量与终止时间的数量不同,无法精确配对,因此,将队列进行倒序排列,具体的,如果出现尾域名,则表明也出现过首域名,倒序排列后,参见图4,将起始时间队列和终止时间队列从第一个元素开始进行迭代判断,即,先判断ej-bi是否满足预设有效时间范围,预设有效时间范围可以为100ms-30s,若ej-bi满足预设有效时间范围,则确定ej-bi为一个有效时间差值,并进行下一轮判断,即,判断ej-1-bi-1是否满足预设有效时间范围。
当终止时间队列中的第一元素与起始时间队列中的第一个元素之间的时间差值不满足预设有效时间范围时,若该时间差值大于预设有效时间范围,则判断终止时间队列中第二个元素与起始时间队列中的第一个元素之间的时间差值是否满足预设有效时间范围,当满足时,作为有效时间差值输出。例如,若ej-bi大于预设有效时间范围,则判断ej-1-bi是否满足预设有效时间范围,若满足,则确定ej-1-bi为一个有效时间差值。
进一步,若终止时间队列中的第一元素与起始时间队列中的第一个元素之间的时间差值小于预设有效时间范围,则判断终止时间队列中的第一个元素与起始时间队列中的第二个元素之间的时间差值是否满足预设有效时间范围,同样,当满足时,作为有效时间差值输出。例如,若ej-bi小于预设有效时间范围,则判断ej-bi-1是否满足预设有效时间范围,若满足,则确定ej-bi-1为一个有效时间差值。
通过上述方式对起始时间队列和终止时间队列中的所有元素进行遍历,获得至少一个有效时间差值。对于同一IP地址,即同一用户,根据获得的至少一个有效时间差值,将至少一个有效时间差值中各个有效时间差值进行相加,得到与该IP地址对应的第一总时间差值,再根据至少一个有效时间差值中包含的有效时间差值的数量,利用第一总时间差值除以有效时间差值的数量,能够确定该IP地址访问第一网页的平均打开时间。
例如,在Reduce阶段,首先,获得起始时间队列为{122252,122242,12232},终止时间队列为{122267,122247,122237},然后,得到三个有效时间差值分别为15、5和5,最终IP为12.12.23.22的用户对第一网页的平均打开时间为8.3s。
接着,对于不同IP地址,即不同用户,根据每个IP地址打开第一网页的平均打开时间,通过将所有用户的平均打开时间相加,再除以用户的个数,能够确定所有用户访问第一网页的平均打开时间。
本申请依托DNS服务器和Hadoop大数据分析技术,通过获得包含域名信息的日志信息,利用MapReduce模型对日志信息进行分析,从而能够确定出访问第一网页的所有用户在访问时对第一网页的平均打开时间,解决了现有技术中无法获知用户群访问网页是网页的打开时间,实现了低成本的全面评价群体用户对某一网站的打开时间和响应质量,进而,还实现了低成本的全面评价群体用户对所有网站的打开时间和响应质量,得到用户对网站使用的感知。
基于同一发明构思,本发明提供一种确定网页打开时间的装置,如图5所示,所述装置包括:
获取模块501,用于获取域名系统服务器中的日志信息,其中,所述日志信息包含至少一个用户的网络协议地址和所述至少一个用户访问第一网页时所产生的域名信息;
分析模块502,用于利用MapReduce模型对所述日志信息进行分析,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述分析模块,具体包括:
第一确定子模块,用于基于所述日志信息,确定所述第一网页所对应的首域名段和尾域名段;
第二确定子模块,用于执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间;
第三确定子模块,用于执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述第二确定子模块,具体包括:
第一判断单元,用于基于所述首域名段中各个首域名的访问时间,依照时间先后顺序,判断相邻的两个首域名之间的第一时间间隔是否满足第一预设时间范围;
第一确定单元,用于若所述第一时间间隔满足所述第一预设时间范围,则确定所述各个首域名的访问时间中最早的访问时间为所述起始时间;以及
第二判断单元,用于基于所述尾域名段中各个尾域名的访问时间,依照时间先后顺序,判断相邻的两个尾域名之间的第二时间间隔是否满足第二预设时间范围;
第二确定单元,用于若所述第二时间间隔满足所述第二预设时间范围,则确定所述各个尾域名的访问时间中最晚的访问时间为所述终止时间。
优选的,所述第三确定子模块,具体包括:
获得单元,用于针对同一用户,基于重复访问所述第一网页获得的i个所述起始时间和j个所述终止时间,依照时间先后顺序,获得倒序排列的起始时间队列和终止时间队列;
第三确定单元,用于基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间。
优选的,所述第三确定单元,具体包括:
获得子单元,用于迭代判断所述终止时间队列中的第一个元素与所述起始时间队列中的第一个元素之间的时间差值是否满足预设有效时间范围,获得至少一个所述时间差值为有效时间差值;
确定子单元,用于基于至少一个所述有效时间差值和所述有效时间差值的数量,确定所述至少一个用户访问所述第一网页的平均打开时间。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一种确定网页打开时间的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序,可将这些单词解释为名称。

Claims (10)

1.一种确定网页打开时间的方法,其特征在于,所述方法包括:
获取域名系统服务器中的日志信息,其中,所述日志信息包含至少一个用户的网络协议地址和所述至少一个用户访问第一网页时所产生的域名信息;
利用MapReduce模型对所述日志信息进行分析,确定所述至少一个用户访问所述第一网页的平均打开时间。
2.如权利要求1所述的方法,其特征在于,所述利用MapReduce模型对所述日志信息进行分析,具体包括:
基于所述日志信息,确定所述第一网页所对应的首域名段和尾域名段;
执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间;
执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间。
3.如权利要求2所述的方法,其特征在于,所述执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间,具体包括:
基于所述首域名段中各个首域名的访问时间,依照时间先后顺序,判断相邻的两个首域名之间的第一时间间隔是否满足第一预设时间范围;
若所述第一时间间隔满足所述第一预设时间范围,则确定所述各个首域名的访问时间中最早的访问时间为所述起始时间;以及
基于所述尾域名段中各个尾域名的访问时间,依照时间先后顺序,判断相邻的两个尾域名之间的第二时间间隔是否满足第二预设时间范围;
若所述第二时间间隔满足所述第二预设时间范围,则确定所述各个尾域名的访问时间中最晚的访问时间为所述终止时间。
4.如权利要求2所述的方法,其特征在于,所述执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间,具体包括:
针对同一用户,基于重复访问所述第一网页获得的i个所述起始时间和j个所述终止时间,依照时间先后顺序,获得倒序排列的起始时间队列和终止时间队列;
基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间。
5.如权利要求4所述的方法,其特征在于,所述基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间,具体包括:
通过迭代判断所述终止时间队列中的第一个元素与所述起始时间队列中的第一个元素之间的时间差值是否满足预设有效时间范围,获得至少一个所述时间差值为有效时间差值;
基于至少一个所述有效时间差值和所述有效时间差值的数量,确定所述至少一个用户访问所述第一网页的平均打开时间。
6.一种确定网页打开时间的装置,其特征在于,所述装置包括:
获取模块,用于获取域名系统服务器中的日志信息,其中,所述日志信息包含至少一个用户的网络协议地址和所述至少一个用户访问第一网页时所产生的域名信息;
分析模块,用于利用MapReduce模型对所述日志信息进行分析,确定所述至少一个用户访问所述第一网页的平均打开时间。
7.如权利要求6所述的装置,其特征在于,所述分析模块,具体包括:
第一确定子模块,用于基于所述日志信息,确定所述第一网页所对应的首域名段和尾域名段;
第二确定子模块,用于执行所述MapReduce模型中的Map处理过程,确定与所述首域名段对应的起始时间和与所述尾域名段对应的终止时间;
第三确定子模块,用于执行所述MapReduce模型中的Reduce处理过程,基于所述起始时间和所述终止时间,确定所述至少一个用户访问所述第一网页的平均打开时间。
8.如权利要求7所述的装置,其特征在于,所述第二确定子模块,具体包括:
第一判断单元,用于基于所述首域名段中各个首域名的访问时间,依照时间先后顺序,判断相邻的两个首域名之间的第一时间间隔是否满足第一预设时间范围;
第一确定单元,用于若所述第一时间间隔满足所述第一预设时间范围,则确定所述各个首域名的访问时间中最早的访问时间为所述起始时间;以及
第二判断单元,用于基于所述尾域名段中各个尾域名的访问时间,依照时间先后顺序,判断相邻的两个尾域名之间的第二时间间隔是否满足第二预设时间范围;
第二确定单元,用于若所述第二时间间隔满足所述第二预设时间范围,则确定所述各个尾域名的访问时间中最晚的访问时间为所述终止时间。
9.如权利要求7所述的装置,其特征在于,所述第三确定子模块,具体包括:
获得单元,用于针对同一用户,基于重复访问所述第一网页获得的i个所述起始时间和j个所述终止时间,依照时间先后顺序,获得倒序排列的起始时间队列和终止时间队列;
第三确定单元,用于基于所述起始时间队列和所述终止时间队列,确定所述至少一个用户访问所述第一网页的平均打开时间。
10.如权利要求9所述的装置,其特征在于,所述第三确定单元,具体包括:
获得子单元,用于迭代判断所述终止时间队列中的第一个元素与所述起始时间队列中的第一个元素之间的时间差值是否满足预设有效时间范围,获得至少一个所述时间差值为有效时间差值;
确定子单元,用于基于至少一个所述有效时间差值和所述有效时间差值的数量,确定所述至少一个用户访问所述第一网页的平均打开时间。
CN201510431503.9A 2015-07-21 2015-07-21 一种确定网页打开时间的方法及装置 Active CN104991957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510431503.9A CN104991957B (zh) 2015-07-21 2015-07-21 一种确定网页打开时间的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510431503.9A CN104991957B (zh) 2015-07-21 2015-07-21 一种确定网页打开时间的方法及装置

Publications (2)

Publication Number Publication Date
CN104991957A true CN104991957A (zh) 2015-10-21
CN104991957B CN104991957B (zh) 2018-08-07

Family

ID=54303772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510431503.9A Active CN104991957B (zh) 2015-07-21 2015-07-21 一种确定网页打开时间的方法及装置

Country Status (1)

Country Link
CN (1) CN104991957B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106790258A (zh) * 2017-01-25 2017-05-31 福建天泉教育科技有限公司 一种服务器筛选网络请求的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1234433B1 (en) * 1999-12-03 2005-09-21 AT & T Corp. System and method for encoding user information in domain names
CN101194247A (zh) * 2001-04-20 2008-06-04 甲骨文国际公司 服务器控制的客户端性能测量技术
CN102361484A (zh) * 2011-07-05 2012-02-22 上海交通大学 被动网络性能测量系统及其页面识别方法
CN102521100A (zh) * 2011-12-01 2012-06-27 江苏仕德伟网络科技股份有限公司 一种确定网站访问者打开网页所用时间的方法
CN103812713A (zh) * 2012-11-06 2014-05-21 腾讯科技(深圳)有限公司 一种网页加载时间的测试方法和装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1234433B1 (en) * 1999-12-03 2005-09-21 AT & T Corp. System and method for encoding user information in domain names
CN101194247A (zh) * 2001-04-20 2008-06-04 甲骨文国际公司 服务器控制的客户端性能测量技术
CN102361484A (zh) * 2011-07-05 2012-02-22 上海交通大学 被动网络性能测量系统及其页面识别方法
CN102521100A (zh) * 2011-12-01 2012-06-27 江苏仕德伟网络科技股份有限公司 一种确定网站访问者打开网页所用时间的方法
CN103812713A (zh) * 2012-11-06 2014-05-21 腾讯科技(深圳)有限公司 一种网页加载时间的测试方法和装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106790258A (zh) * 2017-01-25 2017-05-31 福建天泉教育科技有限公司 一种服务器筛选网络请求的方法及系统
CN106790258B (zh) * 2017-01-25 2019-09-06 福建天泉教育科技有限公司 一种服务器筛选网络请求的方法及系统

Also Published As

Publication number Publication date
CN104991957B (zh) 2018-08-07

Similar Documents

Publication Publication Date Title
CN102624920B (zh) 一种通过代理服务器进行访问的方法及装置
CN103685583B (zh) 一种域名解析的方法和系统
CN102891897B (zh) 网页分享方法和服务器及客户端
CN102737019B (zh) 机器行为确定方法、网页浏览器及网页服务器
US7756987B2 (en) Cybersquatter patrol
CN104363253B (zh) 网站安全检测方法与装置
CN102799636B (zh) 移动终端显示网页的方法及系统
CN109561078A (zh) 一种外链url资源调用方法及装置
CN102968584B (zh) 一种登录网页的方法和装置
CN104378389B (zh) 网站安全检测方法与装置
CN104462583A (zh) 一种进行广告拦截处理浏览器装置和移动终端
CN102833258A (zh) 网址访问方法及系统
CN105099755A (zh) 一种监控网站系统性能的方法、设备和系统
CN105354337A (zh) 一种网络爬虫实现方法和网络爬虫系统
CN104363252B (zh) 网站安全检测方法与装置
CN104301311A (zh) Dns过滤网络数据内容的方法及设备
CN104363251A (zh) 网站安全检测方法与装置
CN102271168A (zh) 修改dns回复ip的手段屏蔽和劫持互联网弹窗的方法
CN103414693A (zh) 打点方法及打点装置
CN105553968A (zh) 一种实现多账号登录的方法和装置
CN107580052A (zh) 自演进的网络自适应爬虫方法及系统
CN107392020A (zh) 数据库操作分析方法、装置、计算设备及计算机存储介质
CN107623693A (zh) 域名解析防护方法及装置、系统、计算设备、存储介质
CN106411819A (zh) 一种识别代理互联网协议地址的方法及装置
CN104967698A (zh) 一种爬取网络数据的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant