CN106649679A - 一种基于HBase的网页日访问次数获得方法及装置 - Google Patents
一种基于HBase的网页日访问次数获得方法及装置 Download PDFInfo
- Publication number
- CN106649679A CN106649679A CN201611162736.4A CN201611162736A CN106649679A CN 106649679 A CN106649679 A CN 106649679A CN 201611162736 A CN201611162736 A CN 201611162736A CN 106649679 A CN106649679 A CN 106649679A
- Authority
- CN
- China
- Prior art keywords
- webpage
- day
- storage region
- record
- access times
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本发明公开了一种基于HBase的网页日访问次数获得方法,包括:将网页日访问记录存储在HBase的存储区域中,所述存储区域保存的网页日访问记录每超过一次预设值增加一个存储区域;接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加,获得总体网页日访问次数。本发明还公开了一种基于HBase的网页日访次数获得装置。
Description
技术领域
本发明涉及互联网信息技术领域,尤其涉及一种基于HBase的网页日访问次数获得方法及装置。
背景技术
目前,在互联网公司一般有如下需求:希望快速得到网页日访问次数的累加和排序,比如:得到公司所有产品页面的近90天的网页日访问次数累加和排序,并得到top500。由于公司所有的网页页面的数量比较多,并且每个网页页面每天的访问时间不是固定的,因此,不能用离线处理的方式计算网页日访问次数,只能针对每一个网页页面只能处理该网页页面在一天内有多少网页日访问次数,并依次计算这90天内每天该网页页面的网页日访问次数,通过将这90天内每天该网页页面的网页日访问次数累加起来,计算得到该网页页面这90天内的页面网页日访问次数累加并排序。
由于目前互联网公司所拥有的网页页面数量十分巨大,一般往往在10亿数量级,而这些网页页面每天的访问量又十分巨大,每天每个网页页面的访问次数往往也是几亿数量级,以统计90天范围内所有产品页面网页页面的网页日访问次数为例,往往需要查询几百亿条记录,以计算得到90天内所有产品页面网页页面的日访问次数,由于在大数据场景下,需要查询与计算的数据量十分庞大,而依靠传统的关系型数据库,在实现如此超大规模的数据的查询时,需要耗费大量的时间,无法满足互联网公司要求对数据进行快速累加与排序的目的。
发明内容
有鉴于此,本发明实施例期望提供一种基于HBase的网页日访问次数获得方法及装置,能够快速将大规模网页日访问记录进行统计,提高统计效率。
为达到上述目的,本发明实施例提供了一种基于HBase的网页日访问次数获得方法,所述方法包括:
将网页日访问记录存储在HBase的存储区域中,所述存储区域保存的网页日访问记录每超过一次预设值增加一个存储区域;
接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加,获得总体网页日访问次数。
上述方案中,所述将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加之后,所述方法还包括:将各个存储区域中保存的网页日访问记录进行排序,得到总体网页日访问次数排名。
上述方案中,将各个存储区域中保存的网页日访问记录进行排序,得到总体网页日访问次数排名,包括:将各个存储区域保存在各个节点上的网页日访问记录进行排序,得到各个存储区域的网页日访问次数排名;将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名。
本发明实施例还提供了一种基于HBase的网页日访次数获得装置,所述装置包括:
存储模块,用于将网页日访问记录存储在HBase的存储区域中,所述存储区域保存的网页日访问记录每超过一次预设值增加一个存储区域;
处理模块,用于接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加,获得总体网页日访问次数。
上述方案中,所述处理模块还用于:将各个存储区域保存在各个节点上的网页日访问记录进行排序,得到各个存储区域的网页日访问次数排名;将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名。
上述方案中,所述处理模块具体用于:将各个存储区域保存在各个节点上的网页日访问记录进行排序,得到各个存储区域的网页日访问次数排名;将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名。
本发明实施例提供的一种基于HBase的网页日访问次数获得方法及装置,将网页日访问记录依次存储在HBase的存储区域中,所述存储区域包括至少一个存储子区域;接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储子区域中保存的网页日访问记录进行累加,得到网页日访问次数;进一步的,将网页日访问记录进行累加后还可以排序,获得总体网页日访问次数排名。如此,通过将网页访问记录存储在分散的存储区域中,同时对分散的存储区域中的网页访问记录进行累加排序,能够快速的将大规模网页日访问记录进行累加和排序获得网页日访问次数排名,从而提高效率。
附图说明
图1为本发明实施例基于HBase的网页日访问次数获得方法流程示意图;
图2为本发明实施例基于HBase的网页日访问次数获得装置结构示意图;
图3为本发明实施例基于HBase的网页日访问次数获得方法详细流程示意图;
具体实施方式
为了能够更加详细的了解本发明实施例的特点与技术内容,下面对本发明实施例的实现进行详细阐述。
图1为本发明实施例基于HBase的网页日访问次数获得方法流程示意图,如图1所示,本发明实施例基于HBase的网页日访问次数获得方法包括:
步骤101:将网页日访问记录存储在HBase的存储区域中,所述存储区域保存的网页日访问记录每超过一次预设值增加一个存储区域;
在实际应用中,通过上述方法,将网页日访问记录存储在HBase的存储区域中,如:HBase的地区Region上;当存储区域中保存的数据量超过预设值后,为了防止对单个读取存储区域访问带来的压力,选择对当前存储区域进行分裂,后续的保存网页日访问记录操作会分配到分裂出的存储区域中,从而达到减轻单个存储区域访问的负载,提升访问扫描速度。
步骤102:接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加,获得总体网页日访问次数;
其中,上述步骤还包括:将各个存储区域上保存在各个节点上的网页日访问记录进行累加,得到各个存储区域网页日访问次数排名;
将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名;
在实际应用中,为了保证数据扫描读取的高效性,对存储区域网页访问记录进行排序的过程中,只对网页日访问记录这个值进行索引构建,如此,就可以减少扫描读取的工作量,缩短排序时间。
图2为本发明实施例基于HBase的网页日访问次数获得装置结构示意图,如图2所示,本发明实施例基于HBase的网页日访问次数获得装置结构包括:
存储模块201,用于将网页日访问记录存储在HBase的存储区域中,所述存储区域保存的网页日访问记录每超过一次预设值增加一个存储区域;
处理模块202,用于接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加,获得总体网页日访问次数;
这里,处理模块202,还用于将各个存储区域上保存在各个节点上的网页日访问记录进行累加,得到各个存储区域网页日访问次数排名;将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问次数排名。
进一步的,所述处理模块具体用于:将各个存储区域保存在各个节点上的网页日访问记录进行排序,得到各个存储区域的网页日访问次数排名;
将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名。
图3为本发明实施例基于HBase的网页日访问次数获得方法详细流程示意图,如图3所示,本发明实施例基于HBase的网页日访问次数获得方法详细流程包括:
步骤301:分别计算存储区域上每个节点上保存网页访问记录对应的网页日访问次数;
在步骤301之前,针对于某个公司所有产品的网页,将每个网页每天的访问记录保存在HBase下的存储区域上,并将所述保存的网页访问记录按照访问时间的先后顺序进行排序,当收到针对于没有产品网页访问记录查询请求后,执行步骤301,将各个存储区域上保存在各个节点上的网页日访问记录进行累加,得到各个存储区域网页日访问次数排名;
在实际应用中,为了保证存储区域不会变得太大,需要一个检测程序每天晚上对存储区域进行扫描,当存储区域上保存网页访问记录超过一定大小时(例如:10G),则对当前存储区域按照一个网页索引进行有序分裂,保证一个网页不同天数的数据会落到一个值中;同时,为了保证数据扫描的高校性,在对存储区域进行排序时,只对网页日访问记录这个值进行索引构建,这样可以扫描读取的工作量,缩短排序时间。
步骤302:累加排序获得每个存储区域上网页日访问记录排名;
其中,根据每个存储区域上保存的网页访问记录,分别计算存储区域每个节点上保存访问记录对用网页的日访问次数,再对同一个存储区域下各个节点上的网页日访问次数进行累加排序,得到每个存储区域上网页日访问记录排名。
步骤303:将每个存储区域上网页日访问记录排名进行累加排序,得到总体网页日访问记录排名。
通过上述步骤,将每个网页的访问记录存储在一个HBase的存储区域中,并按照时间的顺序进行排序,在需要进行查询时,可以针对HBase上的各个存储区域分别查询网页访问记录,分别计算每个节点上保存网页访问记录对应的网页日访问次数,对同一个存储区域下各个节点上的网页日访问次数进行累加排序,得到每个存储区域上网页日访问次数的排名,最后,将各个存储区域中网页日访问次数排名进行累加排序,得到总体网页日访问次数排名。如此,通过将网页访问记录存储在分散的存储区域中,同时对分散的存储区域中的网页访问记录进行累加排序,能够快速的将大规模网页日访问记录进行累加和排序获得网页日访问次数排名,从而提高效率。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (6)
1.一种基于HBase的网页日访问次数获得方法,其特征在于,所述方法包括:
将网页日访问记录存储在HBase的存储区域中,所述存储区域保存的网页日访问记录每超过一次预设值增加一个存储区域;
接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加,获得总体网页日访问次数。
2.根据权利要求1所述的方法,其特征在于,所述将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加之后,所述方法还包括:
将各个存储区域中保存的网页日访问记录进行排序,得到总体网页日访问次数排名。
3.根据权利要求2所述的方法,其特征在于,将各个存储区域中保存的网页日访问记录进行排序,得到总体网页日访问次数排名,包括:
将各个存储区域保存在各个节点上的网页日访问记录进行排序,得到各个存储区域的网页日访问次数排名;
将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名。
4.一种基于HBase的网页日访次数获得装置,其特征在于,所述装置包括:
存储模块,用于将网页日访问记录存储在HBase的存储区域中,所述存储区域保存的网页日访问记录每超过一次预设值增加一个存储区域;
处理模块,用于接收到网页日访问次数获取请求后,将存储有网页日访问记录的各个存储区域中保存的网页日访问记录进行累加,获得总体网页日访问次数。
5.根据权利要求4所述的装置,其特征在于,所述处理模块还用于:
将各个存储区域保存在各个节点上的网页日访问记录进行排序,得到各个存储区域的网页日访问次数排名;
将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名。
6.根据权利要求4或5所述的装置,其特征在于,所述处理模块具体用于:将各个存储区域保存在各个节点上的网页日访问记录进行排序,得到各个存储区域的网页日访问次数排名;
将所述各个存储区域网页日访问次数排名进行合并,得到总体网页日访问排名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611162736.4A CN106649679A (zh) | 2016-12-15 | 2016-12-15 | 一种基于HBase的网页日访问次数获得方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611162736.4A CN106649679A (zh) | 2016-12-15 | 2016-12-15 | 一种基于HBase的网页日访问次数获得方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106649679A true CN106649679A (zh) | 2017-05-10 |
Family
ID=58823450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611162736.4A Pending CN106649679A (zh) | 2016-12-15 | 2016-12-15 | 一种基于HBase的网页日访问次数获得方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106649679A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902505A (zh) * | 2009-05-31 | 2010-12-01 | 中国科学院计算机网络信息中心 | 一种分布式dns查询日志的实时统计装置及方法 |
CN104504077A (zh) * | 2014-12-22 | 2015-04-08 | 北京国双科技有限公司 | 网页访问数据的统计方法和装置 |
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
US20160019310A1 (en) * | 2013-06-27 | 2016-01-21 | Tencent Technology (Shenzhen) Co., Ltd. | Method and apparatus for rendering statistics on web page visits by a browser |
-
2016
- 2016-12-15 CN CN201611162736.4A patent/CN106649679A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101902505A (zh) * | 2009-05-31 | 2010-12-01 | 中国科学院计算机网络信息中心 | 一种分布式dns查询日志的实时统计装置及方法 |
US20160019310A1 (en) * | 2013-06-27 | 2016-01-21 | Tencent Technology (Shenzhen) Co., Ltd. | Method and apparatus for rendering statistics on web page visits by a browser |
CN104504077A (zh) * | 2014-12-22 | 2015-04-08 | 北京国双科技有限公司 | 网页访问数据的统计方法和装置 |
CN104820670A (zh) * | 2015-03-13 | 2015-08-05 | 国家电网公司 | 一种电力信息大数据的采集和存储方法 |
CN105138592A (zh) * | 2015-07-31 | 2015-12-09 | 武汉虹信技术服务有限责任公司 | 一种基于分布式架构的日志数据存储和检索方法 |
Non-Patent Citations (1)
Title |
---|
陈敏 等: "《大数据浪潮——大数据整体解决方案及关键技术探索》", 31 October 2015, 华中科技大学出版社 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107329983B (zh) | 一种机器数据分布式存储、读取方法及系统 | |
CN102663048B (zh) | 一种搜索结果提供方法及装置 | |
CN103237094B (zh) | 一种识别用户的方法及装置 | |
CN104504077B (zh) | 网页访问数据的统计方法和装置 | |
CN106528787A (zh) | 一种基于海量数据多维分析的查询方法及装置 | |
US20120239732A1 (en) | Prereading Method and System for Web Browser | |
CN106557498A (zh) | 数据存储方法和装置以及数据查询方法和装置 | |
US20100268706A1 (en) | Method, system, and computer readable medium for managing resource links | |
CN103559300B (zh) | 数据的查询方法和查询装置 | |
WO2014015174A2 (en) | Method and system of ranking search results, and method and system of optimizing search result ranking | |
CN106919611B (zh) | 产品信息推送方法和装置 | |
CN105868291A (zh) | 推荐网址的方法、装置及系统 | |
CN104965863B (zh) | 一种对象聚类方法和装置 | |
CN103218443A (zh) | 一种面向博客网页的网页检索系统及方法 | |
CN112416925B (zh) | 基于有序分布式索引结构的查询方法和分布式数据库系统 | |
CN107277115A (zh) | 一种内容推送方法及装置 | |
CN106802904A (zh) | 日志处理方法、装置及系统 | |
CN109254980A (zh) | 客户分数排序的方法、装置、计算机设备和存储介质 | |
CN106933935A (zh) | 任务存储方法和装置 | |
CN108153781A (zh) | 提取业务领域的关键词的方法和装置 | |
CN108334549A (zh) | 一种设备数据存储方法、提取方法、存储平台及提取平台 | |
CN110008393B (zh) | 一种用于获取网站信息的方法及设备 | |
CN102227737A (zh) | 使用访问时间和频率的网页搜索系统和方法 | |
CN103678312B (zh) | 一种推荐网址的方法与客户端 | |
CN106815277B (zh) | 搜索引擎优化的评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |
|
RJ01 | Rejection of invention patent application after publication |