CN106021583B - 页面流量数据的统计方法及其系统 - Google Patents

页面流量数据的统计方法及其系统 Download PDF

Info

Publication number
CN106021583B
CN106021583B CN201610388024.8A CN201610388024A CN106021583B CN 106021583 B CN106021583 B CN 106021583B CN 201610388024 A CN201610388024 A CN 201610388024A CN 106021583 B CN106021583 B CN 106021583B
Authority
CN
China
Prior art keywords
page
pageonlyid
unique identifier
statistical
browsing log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610388024.8A
Other languages
English (en)
Other versions
CN106021583A (zh
Inventor
李静
吴凯
王海旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610388024.8A priority Critical patent/CN106021583B/zh
Publication of CN106021583A publication Critical patent/CN106021583A/zh
Application granted granted Critical
Publication of CN106021583B publication Critical patent/CN106021583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开是关于一种页面流量数据的统计方法及其系统,属于计算机网络技术领域。该方法包括:在页面标签里添加所述页面的唯一标识符;接收包含所述唯一标识符的浏览日志;解析所述浏览日志,根据所述唯一标识符进行所述页面的流量数据的统计。本发明能够实现基于唯一标识符的页面流量数据的准确统计;通过将该唯一标识符作为流量表的主键或者索引,还能够实现页面流量数据的快速查询。

Description

页面流量数据的统计方法及其系统
技术领域
本公开涉及计算机网络技术,尤其涉及一种页面流量数据的统计方法及其系统。
背景技术
随着互联网技术的发展以及各大电商公司业务的扩张,大数据分析已经起到了越来越重要的作用,而互联网行业体量最大的数据就是“网站流量”数据,所有访客在网站的一切行为都会被记录下来,用来统计分析以及挖掘。
目前统计某页面各流量指标的方法是截取目标URL(Uniform Resource Locator,统一资源定位符),遍历全表逐一匹配,最后计算各流量指标。但是存在大量如下情况:完全不同的URL可以打开同一个页面,这种情况下,基于URL统计的数据会导致流量指标的失真,造成关注店铺或活动的营销人员的误判。同时,流量数据量巨大,每天上亿的记录,采用全表扫描方式导致查询十分缓慢,资源消耗也非常严重。
因此,需要一种新的页面流量数据的统计方法及其系统。
在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供一种页面流量数据的统计方法及其系统,能够实现对页面流量数据的准确统计。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一方面,提供一种页面流量数据的统计方法,包括:在页面标签里添加所述页面的唯一标识符;接收包含所述唯一标识符的浏览日志;解析所述浏览日志,根据所述唯一标识符进行所述页面的流量数据的统计。
根据本公开的一实施方式,其中所述页面标签为meta标签。
根据本公开的一实施方式,其中所述唯一标识符的编码中包括所述页面的基础信息和开发人员信息。
根据本公开的一实施方式,其中所述页面的基础信息包括:站点编号、页面分组、页面编号、页面类型及页面创建时间,所述页面的开发人员信息包括开发人员所属部门及开发人员ID。
根据本公开的一实施方式,其中所述唯一标识符的编码采用树状规则。
根据本公开的一实施方式,其中同一页面映射至多个不同的URL,当用户通过所述多个不同的URL打开所述同一页面时,生成所述浏览日志并上传。
根据本公开的一实施方式,其中根据所述唯一标识符进行所述页面的流量数据的统计包括:根据所述浏览日志的解析结果,在流量表中增加该唯一标识符字段,并将该唯一标识符字段设置成主键或者索引;接收页面流量查询请求,将该唯一标识符作为该页面的唯一标识,获取该页面的流量数据。
根据本公开实施例的另一方面,提供一种页面流量数据的统计系统,包括:标识符添加模块,其用于在页面标签里添加页面的唯一标识符;接收模块,其用于接收包含所述唯一标识符的浏览日志;统计模块,其用于解析所述浏览日志,根据所述唯一标识符进行所述页面的流量数据的统计。
根据本公开的一实施方式,其中同一页面映射至多个不同的URL,当用户通过所述多个不同的URL打开所述同一页面时,生成所述浏览日志并上传至一日志服务器,所述统计模块包括:数据仓库,其用于解析所述浏览日志,并根据解析结果,在流量表中增加该唯一标识符字段,并设置成索引;流量数据获取单元,其用于接收页面流量查询请求,将该唯一标识符作为该页面的唯一标识,获取该页面的流量数据。
根据本公开实施例的再一方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:在页面标签里添加页面的唯一标识符;接收包含所述唯一标识符的浏览日志;解析所述浏览日志,根据所述唯一标识符进行所述页面的流量数据的统计。
根据本公开的页面流量数据的统计方法及其系统,其通过在页面标签增设唯一标识符用于页面流量数据的统计,解决了基于URL的统计方法中同一页面可以通过多个不同的URL打开导致的页面流量数据不准确的问题。
根据本公开的另一些实施例,本公开的页面流量数据的统计方法及其系统,通过将该唯一标识符设置成流量表的主键或者索引,能够实现用户快速查询,解决了采用全表扫描方式导致的查询效率低下的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1示意性示出根据本公开示例实施方式的页面流量数据的统计方法的流程图;
图2A示意性示出根据本公开示例实施方式的同一页面映射至多个不同的URL的示意图;
图2B示意性示出现有的基于URL页面流量数据的统计方法示意图;
图3A示意性示出根据本公开示例实施方式的唯一标识符的编码的树状结构示意图;
图3B示意性示出基于图3A所示的唯一标识符的编码的树状结构的实际举例;
图4示意性示出根据本公开示例实施方式的页面流量数据的统计方法的流程图;
图5示意性示出根据本公开示例实施方式的页面流量数据的统计系统的结构图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、系统、步骤等。在其它情况下,不详细示出或描述公知结构、方法、系统、实现、材料或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器系统和/或微控制器系统中实现这些功能实体。
以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统和方法的例子。
图1示意性示出根据本公开示例实施方式的页面流量数据的统计方法的流程图。
如图1所示,在步骤S110,在页面标签里添加所述页面的唯一标识符。
本发明中所说的页面(webpage),在WWW环境中,信息以页面信息组织,信息页面由语言来实现,在各个信息页面之间建立超文本链接以便浏览。其中主页是基本信息页,用户通过主页可以访问有关信息。主页一般包括:文本、图象、表格、超链接等基本元素。
在示例性实施例中,其中同一页面可以映射至多个不同的URL。如图2A所示,当用户访问以下四个URL:
http://betu.xx.com/#nogo
http://betu.xx.com/
http://mall.xx.com/index-85499.html/
http://mall.xx.com/index-85499.html/name=nothing
中的任意一个时,均打开同一页面。
不同的URL可以打开同一页面,如在xx电商平台打开百图店铺页面,可以通过多种不同的URL。
对于店家而言,流量决定销量,提高销售量主要渠道就是提高店铺的流量,所以店铺每日的流量数据检测至关重要,直接影响到店家的经营决策。目前统计流量指标如PV、UV、Visits、停留时长等,都是以URL为基础统计各指标数量。
需要说明的是,本发明实施例中,PV(page view,页面浏览量),即访问某特定URL的次数;UV(unique visitor),即访问某特定URL的浏览器数量;Visits是访问某特定URL的客户数量)。
在上述同一页面映射至多个不同的URL的情况下,如果采用现有技术中的基于URL页面流量数据的统计方法,则会如图2B所示。由于存在上述同一页面映射至多个不同的URL的情况,在统计流量指标时,事实上的页面流量数据被拆分成多个URL的流量数据,一份数据拆成多份,且指标数据不能直接累加。而实际可以打开该页面的URL不计其数,无法统一,没有映射关系,造成没有办法真实统计该实际页面的确切流量。另一方面,在计算页面流量数据时,现有技术中使用全表扫描的方法与目标URL逐一匹配,不仅十分消耗内存资源,查询速度也非常缓慢。
在示例性实施例中,其中所述页面标签为meta标签。
例如,在html页面的<meta>标签里,添加页面唯一标识符信息:
<meta name="PageOnlyId"content="PageOnlyValue">
meta标签的属性name,值可以是author,desctription,keywords,generator,revised以及others,把content属性关联到一个名称。name属性提供了名称/值对中的名称。html和xhtml标签都没有指定任何预先定义的<meta>名称。通常情况下,可以自由使用对自己和源文档的读者来说富有意义的名称。meta标签的属性content,值some_text定义与name属性相关的元信息,content属性提供了名称/值对中的值。该值可以是任何有效的字符串。
在html页面里,<meta>标签可支持所有浏览器(例如,IE,Firefox,Chrome,Safari,Opera等等)的加载,并且该标签的元数据总是以名称/值的形式被成对传递,方便记录与整体页面有关的信息,所以选择利用<meta>标签来收集唯一标识符PageOnlyId。
在示例性实施例中,其中所述唯一标识符的编码中包括所述页面的基础信息和开发人员信息。将页面的基础信息和开发人员信息都记录到PageOnlyId,方便统计和页面管理。
在示例性实施例中,其中所述页面的基础信息包括:站点编号、页面分组、页面编号、页面类型及页面创建时间,所述页面的开发人员信息包括开发人员所属部门及开发人员ID。当然,本发明其它实施例中,所述页面的基础信息和开发人员信息并不限于这里所例举的等级划分和种类,还可以划分为更多或者更少的等级,每一个等级里所包含的信息及其编码也是可以根据系统设计需求灵活调整的。
在示例性实施例中,其中所述唯一标识符的编码采用树状规则,如图3A所示。其中,PageOnlyValue取值如下表所示:
Figure BDA0001008072750000061
Figure BDA0001008072750000071
图3B示意性示出基于图3A所示的唯一标识符的编码的树状结构的实际举例。代入实际信息,生成PageOnlyValue编码:
001_sale_market_CJf6gIinOyjDs_d_lisi_20151223010101
其中,001代表一级的站点编号中的PC;sale代表二级的页面分组中的活动页;market代表二级的开发人员所属部门为市场部;CJf6gIinOyjDs代表三级的页面编号;d代表三级的页面类型为动态页面;lisi代表三级的开发人员ID中的开发人员名字为lisi;创建页面时间20151223010101代表该页面的创建时间是2015年12月23日1时1分1秒。当然,这里的时间序列仅是用于举例说明的,实际的创建页面时间可以更粗略,例如仅包括创建的年月日,或者更精确,在此不对本发明构成限制。
在步骤S120,接收包含所述唯一标识符的浏览日志。
在步骤S130,解析所述浏览日志,根据所述唯一标识符进行所述页面的流量数据的统计。
网站访问统计分析的基础是获取网站流量的基本数据,网站流量统计指标大致可以分为三类,每类包含若干数量的统计指标。
网站流量统计指标常用来对网站效果进行评价,主要指标包括:独立访问者数量(UV);重复访问者数量(repeat visitors);页面浏览数(PV);每个访问者的页面浏览数(Page Views per user);某些具体文件/页面的统计指标,如页面显示次数、文件下载次数等。
用户行为指标主要反映用户是如何来到网站的、在网站上停留了多长时间、访问了那些页面等,主要的统计指标包括:用户在网站的停留时间;用户来源网站(也叫“引导网站”);用户所使用的搜索引擎及其关键词;在不同时段的用户访问量情况等。
用户浏览网站的方式相关统计指标主要包括:用户上网设备类型;用户浏览器的名称和版本;访问者电脑分辨率显示模式;用户所使用的操作系统名称和版本;用户所在地理区域分布状况等。
PV是评价网站流量最常用的指标之一。用户每1次对网站中的每个网页访问均被记录1次。用户对同一页面的多次访问,访问量累计。监测网站PV的变化趋势和分析其变化原因是很多站长定期要做的工作。Page Views中的Page一般是指普通的html网页,也包含php、jsp等动态产生的html内容。来自浏览器的一次html内容请求会被看作一个PV,逐渐累计成为PV总数。很多的分析工具提供了html内容请求以外的Page定义,例如,Flash、AJAX、多媒体文件、文件下载、RSS等特定资源也可以当作Page,对这些资源的一次请求也会被计算为一个PV。除了PV总数外,还可以从不同角度来分析和对比PV,比如想知道哪个网页(Page)被浏览的次数多就要以Page为分析对象并分别累计PV。
UV,指访问某个站点的不同IP地址的人数。在同一天内,UV只记录第一次进入网站的具有独立IP的访问者,在同一天内再次访问该网站则不计数。独立IP访问者提供了一定时间内不同观众数量的统计指标。
在示例性实施例中,其中根据所述唯一标识符进行所述页面的流量数据的统计包括:接收当用户通过所述URL打开所述页面时上传的浏览日志,其中所述浏览日志中包括所述唯一标识符;解析所述浏览日志,在流量表中增加该唯一标识符字段,并将该唯一标识符字段设置成主键或者索引;接收页面流量查询请求,将该唯一标识符作为该页面的唯一标识,获取该页面的流量数据。
图4示意性示出根据本公开示例实施方式的页面流量数据的统计方法的流程图。
如图4所示,在步骤S410,在html页面中添加meta标签,在该meta标签里设置唯一标识符PageOnlyId信息。
在步骤S420,修改js代码收集PageOnlyId信息。
修改统计日志js代码,增加收集PageOnlyId功能。例如,修改js代码的示例代码如下:
Function getpageonlyid(PageonlyId){
document.getElementByName("PageonlyId");
}
统计页面浏览行为,需要先在页面中放置JavaScript(js)统计代码,设定js自动获取该页面对应的唯一标识符及其编码数据。当该页面有用户打开的时候,js统计代码会进行判断,并上报浏览日志。
在步骤S430,用户通过同一页面对应的不同URL打开该网站页面。
例如,用户在浏览器中输入以下四个URL:
mall.xx.com/index-85499.html
mall.xx.com/index-85499.html/name=no
betu.xx.com/
betu.xx.com/#nogo
中的任意一个时,均打开同一页面,具体展现方式如上述实施例所示,在此不再赘述。
在步骤S440,用户访问该网站页面,产生浏览行为,将其记录到浏览日志中。
用户通过不同的URL打开同一页面,产生浏览行为。
在步骤S450,采用上述修改过的js代码上传所述浏览日志,该浏览日志中包括PageOnlyId的值PageOnlyValue。
js将收集到的PageOnlyId上传所述浏览日志。
在步骤S460,日志服务器接收所述浏览日志,并将其发送到数据仓库。
在步骤S470,该数据仓库解析所述浏览日志。
所述数据仓库是指存放数据的容器。该数据仓库解析所述浏览日志是把浏览日志数据存放到所述数据仓库的一个指定的表。
在示例性实施例中,所述数据仓库为hive。hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(Extract-Transform-Load,ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。
在步骤S480,将解析获得的PageOnlyId作为流量表的索引或者主键(当流量表未设置索引时,会自动将主键作为该流量表的索引),利用索引统计各流量指标。
所述数据仓库解析所述浏览日志,在流量表中增加字段PageOnlyId,并设置成索引。将PageOnlyId作为页面的唯一标识符,查询页面的流量,最终获取页面实际流量数据。
在示例性实施例中,还可以利用PageOnlyId增加页面的额外查询指标:例如,所有市场部发起的活动页面带来的流量;PC站点下所有商品详情页带来的流量等等。
本发明实施方式公开的页面流量数据的统计方法,通过改变URL作为页面唯一标识的现状,新增页面唯一标识符PageOnlyId,提高实际页面流量数据指标的准确度。并通过定义PageOnlyId的编码,并将其作为流量表的索引,避免全表扫描,提高查询效率,减少内存资源消耗;而将页面的基础信息和开发人员信息作为PageOnlyId编码的一部分,方便流量统计,提高页面流量数据的指导意义。
图5示意性示出根据本公开示例实施方式的页面流量数据的统计系统的结构图。
如图5所示,该系统包括:标识符添加模块510,其用于在页面标签里添加页面的唯一标识符;接收模块520,其用于接收包含所述唯一标识符的浏览日志;统计模块530,其用于解析所述浏览日志,根据所述唯一标识符进行所述页面的流量数据的统计。
在示例性实施例中,其中同一页面映射至多个不同的URL,当用户通过所述多个不同的URL打开所述同一页面时,生成所述浏览日志并上传至一日志服务器,所述统计模块530包括:数据仓库,其用于解析所述浏览日志,并根据解析结果,在流量表中增加该唯一标识符字段,并设置成索引;流量数据获取单元,其用于接收页面流量查询请求,将该唯一标识符作为该页面的唯一标识,获取该页面的流量数据。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
根据本公开实施例的再一方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:在页面标签里添加页面的唯一标识符;接收包含所述唯一标识符的浏览日志;解析所述浏览日志,根据所述唯一标识符进行所述页面的流量数据的统计。
在示例性实施例中,所述电子设备可为服务器、台式计算机、平板计算机或其他智能型电子装置,其中包括通信装置、处理器、储存装置、显示器及输入装置。其中,通信装置、储存装置、显示器及输入装置分别连接于处理器以接受处理器的控制。
通信装置可为具有短程通讯功能的近场通讯(NFC)模块、无线射频识别(RFID)模块或蓝芽(Bluetooth)模块等短程通讯模块芯片。处理器则可为用户终端当中的主要运算核心,例如为中央处理器(CPU)、嵌入式控制器(EC)或数字讯号处理器(DSP),或是被设计为专用于处理页面流量数据统计的专用集成芯片(ASIC)或现场可编程逻辑门芯片(FPGA)。
储存装置用以储存页面流量数据。储存装置具体可为例如为快闪存储器、可编程只读存储器等非挥发性存储器(NVM)芯片。显示器提供使用界面以显示相关的页面流量数据查询信息,而输入装置则用以供使用者操作,以产生控制使用界面上的流量数据。显示器及输入装置可整合为具有触控面板的触控式屏幕。
在示例性实施例,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明实施例中其它内容参考上述发明实施例中的内容,在此不再赘述。
图1和4示出根据本公开示例实施方式的页面流量数据的统计方法的流程图。该方法可例如利用如图5所示的页面流量数据的统计系统实现,但本公开不限于此。需要注意的是,图1和4仅是根据本公开示例实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,图1和4所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块/进程/线程中同步或异步执行的。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
根据本公开的页面流量数据的统计方法及其系统,其通过取代基于URL的流量统计,使用页面唯一标识符PageOnlyId准确统计独立页面的流量数据,解决了基于URL的统计方法中同一页面可以通过多个不同的URL打开导致的页面流量数据不准确的问题。另一方面,本公开的页面流量数据的统计方法及其系统,通过将PageOnlyId的编码采用树状规则,将PageOnlyId作为表索引,能够提高查询效率实现用户快速查询,解决了由于流量数据量巨大,采用全表扫描方式导致的查询效率低下的问题。还可以利用PageOnlyId可增加页面的额外查询指标。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
以上具体地示出和描述了本公开的示例性实施方式。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims (4)

1.一种页面流量数据的统计方法,其特征在于,包括:
在页面中添加meta标签,在所述meta标签里添加所述页面的唯一标识符信息,所述唯一标识符信息包括所述meta标签的属性name和属性content,所述属性content关联到所述属性name,所述属性content的值定义与所述属性name相关的元信息,其中所述属性name为PageOnlyId,所述属性content为PageOnlyValue,PageOnlyValue包括所述页面的站点编号、页面分组、开发人员所属部门、页面编号、页面类型、开发人员ID以及创建页面时间;
修改js统计代码,增加收集PageOnlyId功能;
在所述页面中放置修改后的js统计代码;
当通过同一页面对应的不同URL打开所述页面时,js统计代码自动获取所述页面对应的PageOnlyId,将其记录到浏览日志中;
采用修改过的js统计代码上传所述浏览日志,接收包含所PageOnlyId的浏览日志;
解析所述浏览日志,根据所述浏览日志的解析结果,在流量表中增加字段PageOnlyId,并将解析获得的PageOnlyId作为所述流量表的索引;
根据所述索引进行所述页面的流量数据的统计。
2.根据权利要求1所述的方法,其特征在于,其中所述唯一标识符的编码采用树状规则。
3.一种页面流量数据的统计系统,其特征在于,包括:
标识符添加模块,其用于在页面中添加meta标签,在所述meta标签里添加页面的唯一标识符信息,所述唯一标识符信息包括所述meta标签的属性name和属性content,所述属性content关联到所述属性name,所述属性content的值定义与所述属性name相关的元信息,其中所述属性name为PageOnlyId,所述属性content为PageOnlyValue,PageOnlyValue包括所述页面的站点编号、页面分组、开发人员所属部门、页面编号、页面类型、开发人员ID以及创建页面时间;
接收模块,其用于修改js统计代码,增加收集PageOnlyId功能;在所述页面中放置修改后的js统计代码;当通过同一页面对应的不同URL打开所述页面时,js统计代码自动获取所述页面对应的PageOnlyId,将其记录到浏览日志中;采用修改过的js统计代码上传所述浏览日志,接收包含所述PageOnlyId的浏览日志;
统计模块,其用于解析所述浏览日志,根据所述浏览日志的解析结果,在流量表中增加字段PageOnlyId,并将解析获得的PageOnlyId作为所述流量表的索引,根据所述索引进行所述页面的流量数据的统计。
4.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
在页面中添加meta标签,在所述meta标签里添加页面的唯一标识符信息,所述唯一标识符信息包括所述meta标签的属性name和属性content,所述属性content关联到所述属性name,所述属性content的值定义与所述属性name相关的元信息,其中所述属性name为PageOnlyId,所述属性content为PageOnlyValue,PageOnlyValue包括所述页面的站点编号、页面分组、开发人员所属部门、页面编号、页面类型、开发人员ID以及创建页面时间;
修改js统计代码,增加收集PageOnlyId功能;
在所述页面中放置修改后的js统计代码;
当通过同一页面对应的不同URL打开所述页面时,js统计代码自动获取所述页面对应的PageOnlyId,将其记录到浏览日志中;
采用修改过的js统计代码上传所述浏览日志,接收包含所述唯一标识符的浏览日志;
解析所述浏览日志,根据所述浏览日志的解析结果,在流量表中增加字段PageOnlyId,并将解析获得的PageOnlyId作为所述流量表的索引,根据所述索引进行所述页面的流量数据的统计。
CN201610388024.8A 2016-06-02 2016-06-02 页面流量数据的统计方法及其系统 Active CN106021583B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610388024.8A CN106021583B (zh) 2016-06-02 2016-06-02 页面流量数据的统计方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610388024.8A CN106021583B (zh) 2016-06-02 2016-06-02 页面流量数据的统计方法及其系统

Publications (2)

Publication Number Publication Date
CN106021583A CN106021583A (zh) 2016-10-12
CN106021583B true CN106021583B (zh) 2021-09-17

Family

ID=57090560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610388024.8A Active CN106021583B (zh) 2016-06-02 2016-06-02 页面流量数据的统计方法及其系统

Country Status (1)

Country Link
CN (1) CN106021583B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121729A (zh) * 2016-11-29 2018-06-05 北京京东尚科信息技术有限公司 一种基于页面标题的网页流量数据的统计方法及装置
CN108259207B (zh) * 2016-12-29 2021-04-27 北京国双科技有限公司 流量统计方法、客户端、服务器及系统
CN107480177A (zh) * 2017-07-03 2017-12-15 深圳市金立通信设备有限公司 一种网页点击量统计方法及终端
CN110223130A (zh) * 2018-03-01 2019-09-10 北京京东尚科信息技术有限公司 一种数据分析的方法和装置
CN108491315B (zh) * 2018-03-16 2021-11-23 五八有限公司 页面驻留时长的统计方法、装置及计算机可读存储介质
CN110362767A (zh) * 2018-04-09 2019-10-22 北京京东尚科信息技术有限公司 埋点处理方法、装置、系统及计算机可读存储介质
CN108897677B (zh) * 2018-06-12 2022-04-15 广州视源电子科技股份有限公司 日志构建方法和系统
CN110620748B (zh) * 2018-06-20 2021-12-21 中国电信股份有限公司 数据包的识别方法、装置、系统和计算机可读存储介质
CN113761443A (zh) * 2021-08-24 2021-12-07 百安居信息技术(上海)有限公司 一种网站页面数据采集与统计方法、存储介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999500A (zh) * 2011-09-09 2013-03-27 深圳市快播科技有限公司 一种点击量统计方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393479B1 (en) * 1999-06-04 2002-05-21 Webside Story, Inc. Internet website traffic flow analysis
CN103714091B (zh) * 2012-10-09 2020-01-21 创新先进技术有限公司 一种生成对象识别符及从其中提取属性信息的方法及装置
CN103605744B (zh) * 2013-11-20 2017-10-03 北京国双科技有限公司 网站搜索引擎流量数据的分析方法及装置
CN105100246A (zh) * 2015-07-30 2015-11-25 北京慧点科技有限公司 一种基于下载资源名称的网络流量管控方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999500A (zh) * 2011-09-09 2013-03-27 深圳市快播科技有限公司 一种点击量统计方法及系统

Also Published As

Publication number Publication date
CN106021583A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106021583B (zh) 页面流量数据的统计方法及其系统
US10897511B2 (en) Topical activity monitor and identity collector system
US10269024B2 (en) Systems and methods for identifying and measuring trends in consumer content demand within vertically associated websites and related content
CN107451861B (zh) 一种大数据下用户上网特征识别的方法
CN102054003B (zh) 网络信息推荐、建立网络资源索引的方法及系统
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
US20130097152A1 (en) Topical activity monitor system and method
CN108021651B (zh) 一种网络舆情风险评估方法及装置
US11042899B2 (en) System and method for tracking users across a plurality of media platforms
CN103914478A (zh) 网页训练方法及系统、网页预测方法及系统
CN101409690A (zh) 一种互联网用户行为的获取方法和系统
US20130185429A1 (en) Processing Store Visiting Data
CN112486708B (zh) 页面操作数据的处理方法和处理系统
CN107977678B (zh) 用于输出信息的方法和装置
Hanamanthrao et al. Real-time clickstream data analytics and visualization
CN103248513A (zh) 基于Office办公套件的网络信息数据采集方法及系统
Bhujbal et al. News aggregation using web scraping news portals
CN109033133A (zh) 基于特征项权重增长趋势的事件检测与跟踪方法
KR101600616B1 (ko) 이종콘텐츠 분석 서비스 방법
US20220067111A1 (en) System and method for comparing zones for different versions of a website based on performance metrics
Timonin et al. The process of personal identification and data gathering based on big data technologies for social profiles
CN104750752A (zh) 一种上网偏好用户群体的确定方法和设备
Zaeem et al. Privacycheck’s machine learning to digest privacy policies: Competitor analysis and usage patterns
Pesch Simplifying Usage Statistics: What's Next for SUSHI: Edited by Oliver Pesch
Maheswari et al. Algorithm for Tracing Visitors' On-Line Behaviors for Effective Web Usage Mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant