CN102833129A - 网站访问率统计方法及系统 - Google Patents
网站访问率统计方法及系统 Download PDFInfo
- Publication number
- CN102833129A CN102833129A CN2012102881743A CN201210288174A CN102833129A CN 102833129 A CN102833129 A CN 102833129A CN 2012102881743 A CN2012102881743 A CN 2012102881743A CN 201210288174 A CN201210288174 A CN 201210288174A CN 102833129 A CN102833129 A CN 102833129A
- Authority
- CN
- China
- Prior art keywords
- statistics
- objects
- website
- statistical
- statistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种网站访问率统计方法及系统,其中,所述方法包括:S1、抽样,选取不同地区的设备日志;S2、根据所述设备日志,将访问用户划分为多个统计对象;S3、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量;S5、将统计数据根据统计对象、网站、时间段进行二次归类;S6、计算各网站访问率。本发明弥补了日志中提取广告数据的空白,将日志数据进行二次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站见网站访问率统计的不可比较性等问题。
Description
【技术领域】
本发明涉及一种网站访问率统计方法及系统,尤其是涉及一种基于数据挖掘技术的网站访问率统计方法及系统。
【背景技术】
随着互联网的发展和普及,越来越多的人从互联网上获取信息,越来越多的产品供应商,服务供应商会选择网络广告的形式宣传自己的产品和服务,然而选择在什么样的网站上投放广告可以使其投放的效益最大化,成为个供应商头疼的问题。产品供应商只能听取各大网络供应商的片面之词(网站内部统计的访问量,流量等)而盲目的投放广告。然而,当前对网络数据的统计,数据具有一定的片面性和失真性(重复统计,内部数据造假等),且不同网站统计数据的方法不统一,导致不同网站广告数据的可比性降低。
【发明内容】
为了解决上述问题,本发明的目的是提供一种网站访问率统计方法。该方法可从海量日志中通过数据挖掘技术提取出量化广告投放效益的数据。
本发明的另一目的是提供一种网站访问率统计系统。
其中,本发明一实施方式的网站访问率统计方法包括以下步骤:
S1、抽样,选取不同地区的设备日志;
S2、根据所述设备日志,将访问用户划分为多个统计对象;
S3、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;
S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量;
S5、将统计数据根据统计对象、网站、时间段进行二次归类;
S6、计算各网站访问率。
作为本发明的进一步改进,所述S2步骤具体包括:
根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。
作为本发明的进一步改进,所述S3步骤具体包括:
采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据,并将垃圾数据剔除;
将不同设备日志的可同数据汇总到一个或一类表格中。
作为本发明的进一步改进,所述S4步骤还包括:
通过汇总条件的哈希算法去重。
相应地,本发明一实施方式的网站访问率统计系统包括:
抽样单元,用于抽样,选取不同地区的设备日志;
划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象;
数据单元,用于根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;
统计单元,用于对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量;
二次统计单元,用于将统计数据根据统计对象、网站、时间段进行二次归类;
计算单元,用于计算各网站访问率。
作为本发明的进一步改进,所述划分单元具体用于:
根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。
作为本发明的进一步改进,所述数据单元具体用于:
采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据,并将垃圾数据剔除;
将不同设备日志的可同数据汇总到一个或一类表格中。
作为本发明的进一步改进,所述统计单元还用于:
通过汇总条件的哈希算法去重。
相比于现有技术,本发明弥补了日志中提取广告数据的空白,将日志数据进行二次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站见网站访问率统计的不可比较性等问题。
【附图说明】
图1是本发明一实施例的网站访问率统计方法的流程图;
图2是本发明一实施例的网站访问率统计系统的模块图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
如图1所示,在本发明一实施方式中,网站访问率统计方法,包括以下步骤:
S1、抽样,选取不同地区的设备日志;
S2、根据所述设备日志,将访问用户划分为多个统计对象,优选地,根据统计对象的不同,将设备访问用户按照年龄,性别划分。例如:按照年龄性别可以划分为F18-24,M 18-24,F24-48,M24-48等,获取样本不同聚类加权人口(∑样本权数);
S3、采用分布式计算,根据统计对象(人群),统计条件(例如,advertisment的URL,点击3次以上的算一个访问量),统计时间范围,从设备日志中获取可用数据,将垃圾数据裁剪剔除,提高下一步统计的效率,以及内存的利用率,并将不同设备日志的可用数据汇总到一个或一类表格中(根据日志量的大小);
S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量,并通过汇总条件的哈希算法去重;
S5、二次统计,将统计数据根据统计对象,网站(163,sina等),时间段,进行二次归类,获取相应人群,时间段,网站,同统计条件的访问人数;
S6、统计数据计算,获取相应条件的各网站访问率,例如P18-24访问率(163) = P18-24访问量(163)/ P18-24采样人群数量;P24-48访问率(sina) = P24-48访问量(sina)/ P24-48采样人群数量。
如图2所示,在本发明一实施方式中,网站访问率统计系统包括:
抽样单元,用于抽样,选取不同地区的设备日志;
划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象,优选地,根据统计对象的不同,将设备访问用户按照年龄,性别划分。例如:按照年龄性别可以划分为F18-24,M 18-24,F24-48,M24-48等,获取样本不同聚类加权人口(∑样本权数);
数据单元,用于采用分布式计算,根据统计对象(人群),统计条件(包含advertisment的URL,点击3次以上的算一个访问量),统计时间范围,从设备日志中获取可用数据,将垃圾数据裁剪剔除,提高下一步统计的效率,以及内存的利用率,并将不同设备日志的可用数据汇总到一个或一类表格(根据日志量的大小);
统计单元,用于对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量,并通过汇总条件的哈希算法去重;
二次统计单元,用于二次统计,将统计数据根据统计对象,网站(163,sina等),时间段,进行二次归类,获取相应人群,时间段,网站,同统计条件的访问人数;
计算单元,用于统计数据计算,获取相应条件的各网站访问率,例如P18-24访问率(163) = P18-24访问量(163)/ P18-24采样人群数量;P24-48访问率(sina) = P24-48访问量(sina)/ P24-48采样人群数量。
综上所述,本发明通过海量日志数据提取,弥补了日志中提取广告数据的空白,将日志数据进行二次利用,解决了当前网页网站访问率统计的片面性,失真行,以及不同网站见网站访问率统计的不可比较性等问题。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (8)
1.一种网站访问率统计方法,其特征在于,所述方法包括:
S1、抽样,选取不同地区的设备日志;
S2、根据所述设备日志,将访问用户划分为多个统计对象;
S3、根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;
S4、对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量;
S5、将统计数据根据统计对象、网站、时间段进行二次归类;
S6、计算各网站访问率。
2.根据权利要求1所述的网站访问率统计方法,其特征在于,所述S2步骤具体包括:
根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。
3.根据权利要求1所述的网站访问率统计方法,其特征在于,所述S3步骤具体包括:
采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据,并将垃圾数据剔除;
将不同设备日志的可同数据汇总到一个或一类表格中。
4.根据权利要求1所述的网站访问率统计方法,其特征在于,所述S4步骤还包括:
通过汇总条件的哈希算法去重。
5.一种网站访问率统计系统,其特征在于,所述系统包括:
抽样单元,用于抽样,选取不同地区的设备日志;
划分单元,用于根据所述设备日志,将访问用户划分为多个统计对象;
数据单元,用于根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据;
统计单元,用于对可用数据根据统计对象,包含统计条件的URL,统计时间进行聚类汇总,获取不同统计对象对不同URL的访问数量;
二次统计单元,用于将统计数据根据统计对象、网站、时间段进行二次归类;
计算单元,用于计算各网站访问率。
6.根据权利要求5所述的网站访问率统计系统,其特征在于,所述划分单元具体用于:
根据所述设备日志,将访问用户按照年龄、性别划分,获取样本不同聚类的加权人口。
7.根据权利要求5所述的网站访问率统计系统,其特征在于,所述数据单元具体用于:
采用分布式计算,根据统计对象、统计条件、统计时间范围,从设备日志中获取可用数据,并将垃圾数据剔除;
将不同设备日志的可同数据汇总到一个或一类表格中。
8.根据权利要求5所述的网站访问率统计方法,其特征在于,所述统计单元还用于:
通过汇总条件的哈希算法去重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102881743A CN102833129A (zh) | 2012-08-15 | 2012-08-15 | 网站访问率统计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012102881743A CN102833129A (zh) | 2012-08-15 | 2012-08-15 | 网站访问率统计方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102833129A true CN102833129A (zh) | 2012-12-19 |
Family
ID=47336105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012102881743A Pending CN102833129A (zh) | 2012-08-15 | 2012-08-15 | 网站访问率统计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102833129A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106331047A (zh) * | 2015-06-30 | 2017-01-11 | 中兴通讯股份有限公司 | 一种集群设备性能同步统计方法及系统 |
WO2019120241A1 (zh) * | 2017-12-22 | 2019-06-27 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN111694802A (zh) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 去重信息获取方法、装置和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145937A (zh) * | 2006-09-15 | 2008-03-19 | 腾讯科技(深圳)有限公司 | 显示访问量数据的方法及数据访问量发送装置 |
CN101159592A (zh) * | 2007-08-10 | 2008-04-09 | 北大方正集团有限公司 | 互联网数据信息点击量的统计方法和装置 |
CN101431524A (zh) * | 2007-11-07 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种定向网络广告投放的实现方法及装置 |
-
2012
- 2012-08-15 CN CN2012102881743A patent/CN102833129A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145937A (zh) * | 2006-09-15 | 2008-03-19 | 腾讯科技(深圳)有限公司 | 显示访问量数据的方法及数据访问量发送装置 |
CN101159592A (zh) * | 2007-08-10 | 2008-04-09 | 北大方正集团有限公司 | 互联网数据信息点击量的统计方法和装置 |
CN101431524A (zh) * | 2007-11-07 | 2009-05-13 | 阿里巴巴集团控股有限公司 | 一种定向网络广告投放的实现方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106331047A (zh) * | 2015-06-30 | 2017-01-11 | 中兴通讯股份有限公司 | 一种集群设备性能同步统计方法及系统 |
WO2019120241A1 (zh) * | 2017-12-22 | 2019-06-27 | 北京数安鑫云信息技术有限公司 | 基于日志的用户行为数据处理方法、介质、设备及装置 |
CN111694802A (zh) * | 2020-06-12 | 2020-09-22 | 百度在线网络技术(北京)有限公司 | 去重信息获取方法、装置和电子设备 |
CN111694802B (zh) * | 2020-06-12 | 2023-04-28 | 百度在线网络技术(北京)有限公司 | 去重信息获取方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100596135C (zh) | 一种确定内容提供商优先级的系统和方法 | |
CN102426610B (zh) | 微博搜索排名方法及微博搜索引擎 | |
CN104394118A (zh) | 一种用户身份识别方法及系统 | |
CN103838867A (zh) | 日志处理方法和装置 | |
CN102567902A (zh) | 网络广告动态发布方法及其系统 | |
CN104182506A (zh) | 日志管理方法 | |
US20200372527A1 (en) | Reducing processing requirements to correct for bias in ratings data having interdependencies among demographic statistics | |
CN105989074A (zh) | 一种通过移动设备信息进行推荐冷启动的方法和装置 | |
CN101685521A (zh) | 在网页中展现广告的方法及系统 | |
US11093565B2 (en) | Methods and systems for identifying multiple devices belonging to a single user by merging deterministic and probabilistic data to generate a cross device data structure | |
CN103974098A (zh) | 一种机顶盒上基于用户需求的广告推送方法及系统 | |
CN103838819A (zh) | 一种信息发布方法及系统 | |
CN104135498A (zh) | 一种跨平台的信息推送系统及其推送方法 | |
CN102831114A (zh) | 实现互联网用户访问情况统计分析的方法及装置 | |
US11669761B2 (en) | Determining metrics characterizing numbers of unique members of media audiences | |
CN102902775A (zh) | 互联网实时计算的方法和系统 | |
CN105590240A (zh) | 一种品牌广告效果优化的离散计算方法 | |
US20130254175A1 (en) | Returning estimated value of search keywords of entire account | |
CN103379020A (zh) | 邮件群发方法及其系统 | |
CN103778226A (zh) | 构建语言信息识别模型的方法及语言信息识别装置 | |
CN110300084A (zh) | 一种基于ip地址的画像方法和装置 | |
CN106709805B (zh) | 一种用户收益数据获取方法及系统 | |
CN102833129A (zh) | 网站访问率统计方法及系统 | |
CN103093377A (zh) | 一种广告投放方法和系统 | |
CN106897313B (zh) | 一种海量用户业务偏好评估方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20121219 |