CN106899426B - 用户访问数量统计方法及其系统 - Google Patents

用户访问数量统计方法及其系统 Download PDF

Info

Publication number
CN106899426B
CN106899426B CN201610509565.1A CN201610509565A CN106899426B CN 106899426 B CN106899426 B CN 106899426B CN 201610509565 A CN201610509565 A CN 201610509565A CN 106899426 B CN106899426 B CN 106899426B
Authority
CN
China
Prior art keywords
grouping
identification information
data
access
service data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610509565.1A
Other languages
English (en)
Other versions
CN106899426A (zh
Inventor
田金元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610509565.1A priority Critical patent/CN106899426B/zh
Publication of CN106899426A publication Critical patent/CN106899426A/zh
Application granted granted Critical
Publication of CN106899426B publication Critical patent/CN106899426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种用户访问数量统计方法及其系统,其中所述方法包括:获取预设时间段内用户访问业务数据的访问信息;对所述访问信息进行分组及去重处理得到统计数据;根据所述统计数据统计业务数据的独立访客数据。通过本申请能够有效避免分布式计算统计访问量指标时出现的数据倾斜。

Description

用户访问数量统计方法及其系统
技术领域
本申请涉及计算机技术领域,尤其涉及一种用户访问数量统计方法及其系统。
背景技术
目前,每天都会有大量的用户登录电子商务平台(例如支付宝客户端),有些用户在电子商务平台的停留时间会比较长,点击访问的产品会比较的多,这样就会产生大量的访问浏览痕迹。
在每天离线统计电子商务平台中的每个产品的当日总的访问UV(独立访客,Unique Visitor)时,由于每天电子商务平台的访问点击量都已经达到N百亿级别的数据量,数据存储都已经快达到TB级别的数据量。
现有技术中的一种统计UV的方案是直接根据产品来分组,然后对用户进行合并去重后再计算UV。但是由于每个产品对应的用户是分布不均匀的,在分布式计算UV时会产生严重的数据倾斜,即会导致一个数据统计,在分布式集群系统上运行很长时间都无法产生运行结果的情况。对于数据倾斜严重的去重汇总统计,分布式集群系统有时候会挂死(hang死)的情况。因此有必要提出改进的技术手段解决上述问题。
发明内容
本申请的主要目的在于提供一种用户访问数量统计方法及其系统,以解决现有技术的统计用户UV导致的数据倾斜的问题。
为了解决上述问题,根据本申请实施例提供一种用户访问数量统计方法,其包括:获取预设时间段内用户访问业务数据的访问信息;对所述访问信息进行分组及去重处理得到统计数据;根据所述统计数据统计业务数据的独立访客数据。
其中,所述访问信息包括:用户标识信息、业务数据标识信息、业务数据对应的页面标识信息。
其中,所述对所述访问信息进行分组及去重处理的步骤,包括:根据所述业务数据标识信息对所述访问信息进行第一次分组;根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
其中,所述访问信息还包括:页面对应的控件的标识信息;所述对所述访问信息进行分组及去重处理的步骤,包括:根据所述业务数据标识信息对所述访问信息进行第一次分组;根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;根据所述控件标识信息对第二次分组后得到的每个组进行第三次分组;对第三次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
其中,所述方法还包括:通过分布式计算统计业务数据的独立访客数据。
其中,所述方法还包括:通过用户访问日志表获取所述访问信息。
根据本申请实施例还提供一种用户访问数量统计系统,其包括:获取模块,用于获取预设时间段内用户访问业务数据的访问信息;分组及去重模块,用于对所述访问信息进行分组及去重处理得到统计数据;统计模块,用于根据所述统计数据统计业务数据的独立访客数据。
其中,所述访问信息包括:用户标识信息、业务数据标识信息、业务数据对应的页面标识信息。
其中,所述分组及去重模块包括:第一分组模块,用于根据所述业务数据标识信息对所述访问信息进行第一次分组;第二分组模块,用于根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;第一去重模块,用于对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
其中,所述访问信息还包括:页面对应的控件的标识信息;所述分组及去重模块包括:第一分组模块,用于根据所述业务数据标识信息对所述访问信息进行第一次分组;第二分组模块,用于根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;第三分组模块,用于根据所述控件标识信息对第二次分组后得到的每个组进行第三次分组;第二去重模块,用于对第三次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
其中,所述统计模块通过分布式计算统计业务数据的独立访客数据。
其中,所述获取模块通过用户访问日志表获取所述访问信息。
根据本申请的技术方案,通过将访问数据分级分组为多个统计任务,虽然增加了任务数量但是每个任务的运行时间会程几何形的缩短,有效避免了分布式计算统计访问量指标时出现的数据倾斜。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一个实施例的用户访问数量统计方法的流程图;
图2是根据本申请另一实施例的用户访问数量统计方法的流程图;
图3是根据本申请实施例的用户访问数量统计系统的结构框图;
图4是根据本申请一个实施例的分组及去重模块的结构框图;
图5是根据本申请另一实施例的分组及去重模块的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1是根据本申请实施例的用户访问数量统计方法的流程图,如图1所示,该方法包括:
步骤S102,获取预设时间段内用户访问业务数据的访问信息。
具体而言,当用户通过客户端访问网站中的某个(些)业务数据时,服务端根据用户的访问浏览情况会生成用户访问日志表。一般地,每个业务数据对应有多个页面,每个页面对应有多个控件,每个用户会访问点击页面中的多个的控件,而且同一个控件也会被同一个用户多次访问点击。
在本申请实施例中,通过用户访问日志表获取至少以下的用户访问业务数据的访问信息:
业务数据标识信息(product_id),例如对于购物网站来说业务数据可以是用户访问的某个产品;
页面标识信息(view_id),即业务数据对应的页面的标识信息,每个业务数据具有对应的一个或多个页面,每个页面具有唯一标识信息。
控件标识信息(action_id),即页面对应的控件的标识信息,每个页面具有对应的一个或多个控件,每个控件具有唯一标识信息。
用户标识信息(user_id);
访问的时间(create_date)。
步骤S104,对所述访问信息进行分组及去重处理。
在本申请的一个实施例中,首先根据业务数据标识信息(product_id)对访问信息进行第一次分组,即将业务数据标识信息相同的访问信息划分到同一组中;然后,根据页面标识信息(view_id)对第一次分组后得到的每个组进行第二次分组,即将页面标识信息相同的访问信息划分到同一组中;最后,对第二次分组后得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,汇总后得到统计数据。下面结合表1至表7详细描述本实施例的处理细节。
表1
业务数据(product_id) 页面(view_id) 用户(user_id)
1 11 1111
1 11 1112
1 11 1111
1 11 1112
1 12 1111
1 12 1112
1 12 1111
1 12 1112
2 11 1111
2 11 1112
2 11 1111
2 11 1112
2 12 1111
2 12 1112
2 12 1111
2 12 1112
表1中示出了通过用户访问日志表获取的部分访问信息。通过表1可以看出,每个产品(1、2……)分别对应有多个页面(11、12……),不同的用户(1111、1112……)访问这些页面。
在进行分组处理时,首先根据业务数据标识信息(product_id)对表1所示的访问信息进行第一次分组(即将业务数据标识信息相同的访问信息划分到同一组中),得到如表2和表3所示的分组数据。其中,表2所示的分组数据为关于业务数据1的访问信息,表3所示的分组数据为关于业务数据2的访问信息。
表2
业务数据(product_id) 页面(view_id) 用户(user_id)
1 11 1111
1 11 1112
1 11 1111
1 11 1112
1 12 1111
1 12 1112
1 12 1111
1 12 1112
表3
业务数据(product_id) 页面(view_id) 用户(user_id)
2 11 1111
2 11 1112
2 11 1111
2 11 1112
2 12 1111
2 12 1112
2 12 1111
2 12 1112
接着,根据页面标识信息(view_id)对表2所示的分组数据继续进行第二次分组(即将页面标识信息相同的访问信息划分到同一组中),得到如表4和表5所示的分组数据。其中,表4所示的分组数据为关于业务数据1的页面11的访问信息,表5所示的分组数据为关于业务数据1的页面12的访问信息。同理,对表3所示的分组数据也进行同样如表2的分组处理,不再赘述。
表4
业务数据(product_id) 页面(view_id) 用户(user_id)
1 11 1111
1 11 1112
1 11 1111
1 11 1112
表5
业务数据(product_id) 页面(view_id) 用户(user_id)
1 12 1111
1 12 1112
1 12 1111
1 12 1112
最后,对表4所示的分组数据进行去重,即,将页面标识信息和用户标识信息相同的访问信息进行去重处理,汇总后得到如表6所示的统计数据。同理,对表5所示的分组数据也进行同样如表4的去重处理,汇总后得到如表7所示的统计数据。之后就可以根据统计数据统计UV类或PV(Page View,页面浏览量或点击量)类的指标数据。
表6
业务数据(product_id) 页面(view_id) 用户(user_id)
1 11 1111
1 11 1112
表7
业务数据(product_id) 页面(view_id) 用户(user_id)
1 12 1111
1 12 1112
需要说明,在上述分组去重处理中,涉及到的访问信息包括业务数据标识信息、页面标识信息和用户标识信息,并不涉及控件标识信息。
在本申请的另一实施例中,如果通过上述的分组去重后得到的数据还存在数据倾斜,即存在每个业务数据对应的统计数据分布不均匀的情况,则还可以通过以下的方法进行分组去重。首先,根据业务数据标识信息(product_id)对访问信息进行第一次分组,即将业务数据标识信息相同的访问信息划分到同一组中;其次,根据页面标识信息(view_id)对第一次分组后得到的每个组进行第二次分组,即将页面标识信息相同的访问信息划分到同一组中;然后,根据控件标识信息(action_id)对第二次分组后得到的每个组进行第三次分组,即将控件标识信息相同的访问信息划分到同一组中;
最后,对第三次分组后得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,汇总后得到统计数据。下面结合表8至表13详细描述本实施例的处理细节。
表8
Figure BDA0001036502510000081
Figure BDA0001036502510000091
表8中示出了通过用户访问日志表获取的部分访问信息。通过表8可以看出,每个产品(1、2……)分别对应有多个页面(11、12……),每个页面(11、12……)分别对应有多个控件(111、112……),不同的用户(1111、1112……)访问页面上的多个控件。
在进行分组处理时,首先根据业务数据标识信息(product_id)对表8所示的访问信息进行第一次分组(即将业务数据标识信息相同的访问信息划分到同一组中),得到如表9和表10所示的分组数据。其中,表9所示的分组数据为关于业务数据1的访问信息,表10所示的分组数据为关于业务数据2的访问信息。
表9
Figure BDA0001036502510000092
表10
Figure BDA0001036502510000093
Figure BDA0001036502510000101
接着,根据页面标识信息(view_id)对表9所示的分组数据继续进行第二次分组(即将页面标识信息相同的访问信息划分到同一组中),得到如表11和表12所示的分组数据。其中,表11所示的分组数据为关于业务数据1的页面11的访问信息,表12所示的分组数据为关于业务数据1的页面12的访问信息。同理,对表10所示的分组数据也同样进行如表9的分组处理,不再赘述。
表11
Figure BDA0001036502510000102
表12
Figure BDA0001036502510000103
然后,根据控件标识信息(action_id)对表11所示的分组数据继续进行第三次分组(即将控件标识信息相同的访问信息划分到同一组中),得到如表13和表14所示的分组数据。其中,表13所示的分组数据为关于业务数据1的页面11的控件111的访问信息,表14所示的分组数据为关于业务数据1的页面11的控件112的访问信息。
表13
Figure BDA0001036502510000111
表14
Figure BDA0001036502510000112
最后,对表13和表14所示的分组数据进行去重,即,将页面标识信息和用户标识信息相同的访问信息进行去重处理,汇总后得到统计数据。需要说明的是,在表13和表14所示的数据中并未出现相同的访问信息,但是在实际应用中却可能会出现大量相同的信息,这并不限制申请的保护范围。此外,在表1至表14中所示数据仅为示例性说明,也不限制本申请的保护范围。
需要说明,在上述分组去重处理中(即表8至表14所示的实施例),涉及到的访问信息包括业务数据标识信息、页面标识信息、控件标识信息和用户标识信息。
根据上述实施例,通过将一个较大的访问数据分组为多组较小的统计数据,数据分级分组越多,数据分布就越均匀,数据倾斜就越小。
步骤S106,根据分组去重的结果统计业务数据的独立访客数据(UV)。
根据上述实施例,通过增加计算的任务数量(分组数量),但是每个任务的运行时间会程几何形的缩短,有效避免了数据倾斜。
图2是根据本申请另一实施例的用户访问数量统计方法的流程图,如图2所示,包括:
步骤S202,获取一段时间内(例如1天、1周或1月)用户访问业务数据的访问信息,所述访问信息包括:业务数据标识信息、页面标识信息、控件标识信息、用户标识信息、访问时间。
步骤S204,根据业务数据标识信息对访问信息进行第一次分组。
步骤S206,根据页面标识信息对第一次分组后得到的每个组进行第二次分组。
步骤S208,对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到第一统计数据。
步骤S210,判断是否存在数据倾斜情况,若是则执行步骤S212,否则执行步骤S216。在实际应用中,当对于每个业务数据上的统计数据分布不均匀时判断存在数据倾斜。
步骤S212,根据控件标识信息对第二次分组后得到的每个组进行第三次分组。
步骤S214,对第三次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到第二统计数据。
步骤S216,通过分布式计算统计业务数据的独立访客数据(UV)。具体地,若不存在数据倾斜的情况,则根据所述第一统计数据统计业务数据的独立访客数据;若存在数据倾斜的情况,则根据所述第二统计数据统计业务数据的独立访客数据。
在本申请的其他实施例中,还可以根据统计数据统计PV(浏览总数)类的指标数据,此处不再赘述。
图3是根据本申请实施例的用户访问数量统计系统的结构框图,如图3所示,其包括:
获取模块31,用于获取预设时间段内用户访问业务数据的访问信息;其中,所述访问信息包括:用户标识信息、业务数据标识信息、业务数据对应的页面标识信息、以及页面对应的控件的标识信息。
在一个实施例中,所述获取模块31可以通过用户访问日志表获取所述访问信息。
分组及去重模块32,用于对所述访问信息进行分组及去重处理得到统计数据。
统计模块33,用于根据所述统计数据统计业务数据的独立访客数据。其中,所述统计模块通过分布式计算根据所述统计数据统计业务数据的独立访客数据。
参考图4,在本申请的一个实施例中,所述分组及去重模块32进一步包括:
第一分组模块321,用于根据所述业务数据标识信息对所述访问信息进行第一次分组;
第二分组模块322,用于根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;
第一去重模块325,用于对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到第一统计数据。
参考图5,在本申请的一个实施例中,所述分组及去重模块32进一步包括:
第一分组模块321,用于根据所述业务数据标识信息对所述访问信息进行第一次分组;
第二分组模块322,用于根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;
第三分组模块323,用于根据所述控件标识信息对第二次分组后得到的每个组进行第三次分组;
第二去重模块326,用于对第三次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到第二统计数据。
在本申请的一个实施例中,统计模块33根据所述第一统计数据或所述第二统计数据、通过分布式计算统计业务数据的独立访客数据。
本申请的方法的操作步骤与系统的结构特征对应,可以相互参照,不再一一赘述。
综上所示,根据本申请的上述实施例,通过将访问数据分级分组为多个统计任务,虽然增加了任务数量但是每个任务的运行时间会程几何形的缩短,有效避免了分布式计算统计访问量指标时出现的数据倾斜。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种用户访问数量统计方法,其特征在于,包括:
获取预设时间段内用户访问业务数据的访问信息,所述访问信息包括:业务数据标识信息、页面标识信息、用户标识信息,每个所述业务数据标识信息下包括有一个或多个页面标识信息;
对所述访问信息进行分组及去重处理得到统计数据,包括:根据所述业务数据标识信息对所述访问信息进行第一次分组;根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据;
根据所述统计数据统计业务数据的独立访客数据。
2.根据权利要求1所述的方法,其特征在于,所述访问信息还包括:控件标识信息;所述对所述访问信息进行分组及去重处理的步骤,包括:
根据所述业务数据标识信息对所述访问信息进行第一次分组;
根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;
根据所述控件标识信息对第二次分组后得到的每个组进行第三次分组;
对第三次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
3.根据权利要求1或2所述的方法,其特征在于,还包括:通过分布式计算统计业务数据的独立访客数据。
4.根据权利要求1所述的方法,其特征在于,还包括:通过用户访问日志表获取所述访问信息。
5.一种用户访问数量统计系统,其特征在于,包括:
获取模块,用于获取预设时间段内用户访问业务数据的访问信息,所述访问信息包括:业务数据标识信息、页面标识信息、用户标识信息, 每个所述业务数据标识信息下包括有一个或多个页面标识信息;
分组及去重模块,用于对所述访问信息进行分组及去重处理得到统计数据,包括:第一分组模块,用于根据所述业务数据标识信息对所述访问信息进行第一次分组;第二分组模块,用于根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;第一去重模块,用于对第二次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据;
统计模块,用于根据所述统计数据统计业务数据的独立访客数据。
6.根据权利要求5所述的系统,其特征在于,所述访问信息还包括:控件标识信息;所述分组及去重模块包括:
第一分组模块,用于根据所述业务数据标识信息对所述访问信息进行第一次分组;
第二分组模块,用于根据所述页面标识信息对第一次分组后得到的每个组进行第二次分组;
第三分组模块,用于根据所述控件标识信息对第二次分组后得到的每个组进行第三次分组;
第二去重模块,用于对第三次分组得到的每个组内、页面标识信息和用户标识信息相同的访问信息进行去重处理,得到所述统计数据。
7.根据权利要求5或6 所述的系统,其特征在于,所述统计模块通过分布式计算统计业务数据的独立访客数据。
8.根据权利要求5所述的系统,其特征在于,所述获取模块通过用户访问日志表获取所述访问信息。
CN201610509565.1A 2016-06-30 2016-06-30 用户访问数量统计方法及其系统 Active CN106899426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610509565.1A CN106899426B (zh) 2016-06-30 2016-06-30 用户访问数量统计方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610509565.1A CN106899426B (zh) 2016-06-30 2016-06-30 用户访问数量统计方法及其系统

Publications (2)

Publication Number Publication Date
CN106899426A CN106899426A (zh) 2017-06-27
CN106899426B true CN106899426B (zh) 2020-07-28

Family

ID=59191168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610509565.1A Active CN106899426B (zh) 2016-06-30 2016-06-30 用户访问数量统计方法及其系统

Country Status (1)

Country Link
CN (1) CN106899426B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107632926B (zh) * 2017-09-18 2020-08-21 苏州浪潮智能科技有限公司 业务数量统计方法、装置、设备及计算机可读存储介质
CN107832406B (zh) * 2017-11-03 2020-09-11 北京锐安科技有限公司 海量日志数据的去重入库方法、装置、设备及存储介质
CN108595314A (zh) * 2018-03-12 2018-09-28 中国平安人寿保险股份有限公司 用户设备月活跃数计算方法、装置、终端设备及存储介质
CN108900619B (zh) * 2018-07-06 2022-01-11 创新先进技术有限公司 一种独立访客统计方法及装置
CN109299164B (zh) * 2018-09-03 2024-05-17 中国平安人寿保险股份有限公司 一种数据查询方法、计算机可读存储介质及终端设备
CN110516184B (zh) * 2019-05-27 2023-03-24 广州起妙科技有限公司 一种统计uv数量的模拟运算方法
CN110362540B (zh) * 2019-07-23 2022-03-01 秒针信息技术有限公司 一种数据存储、访客数获取方法及装置
CN110580322B (zh) * 2019-09-18 2022-03-15 北京百度网讯科技有限公司 独立访客信息处理的方法、装置、电子设备及存储介质
CN111523072B (zh) * 2020-04-20 2023-08-15 咪咕文化科技有限公司 页面访问数据统计方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999506A (zh) * 2011-09-13 2013-03-27 阿里巴巴集团控股有限公司 一种获取用户独立访问数的方法与装置
CN103729479A (zh) * 2014-01-26 2014-04-16 北京北纬通信科技股份有限公司 基于分布式文件存储的网站页面内容统计的方法和系统
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812957B2 (en) * 2007-01-31 2014-08-19 Adobe Systems Incorporated Relevance slider in a site analysis report
US20130297776A1 (en) * 2012-05-02 2013-11-07 Google Inc. Techniques for delay processing to support offline hits

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102999506A (zh) * 2011-09-13 2013-03-27 阿里巴巴集团控股有限公司 一种获取用户独立访问数的方法与装置
CN103729479A (zh) * 2014-01-26 2014-04-16 北京北纬通信科技股份有限公司 基于分布式文件存储的网站页面内容统计的方法和系统
CN105357054A (zh) * 2015-11-26 2016-02-24 上海晶赞科技发展有限公司 网站流量分析方法、装置和电子设备

Also Published As

Publication number Publication date
CN106899426A (zh) 2017-06-27

Similar Documents

Publication Publication Date Title
CN106899426B (zh) 用户访问数量统计方法及其系统
CN106547784B (zh) 一种数据拆分存储方法及装置
KR102125120B1 (ko) 서비스 시나리오 매칭 방법 및 시스템
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
CN109543373B (zh) 一种基于用户行为的信息识别方法及装置
CN109561052B (zh) 网站异常流量的检测方法及装置
US20130185429A1 (en) Processing Store Visiting Data
CN110333951B (zh) 一种商品抢购请求分配方法
EP3293641A1 (en) Data processing method and system
CN106485566A (zh) 一种信息推荐方法及装置
CN105893224B (zh) 一种资源度量方法及装置
CN110457182A (zh) 一种负载均衡集群实例运行指标监控系统
CN106469182B (zh) 一种基于映射关系的信息推荐方法及装置
US9380126B2 (en) Data collection and distribution management
CN107239542A (zh) 一种数据统计方法、装置、服务器及存储介质
CN109947713B (zh) 一种日志的监控方法及装置
WO2021082936A1 (zh) 一种网页访客数量统计方法及装置
CN111770150B (zh) 访问流量控制方法、装置及电子设备
CN110908587A (zh) 一种用于存储时序数据的方法及其装置
CN106156185B (zh) 一种业务请求执行状态的查询方法、装置及系统
CN110659296A (zh) 存储方法、装置、设备以及计算机可读介质
CN103685198A (zh) 一种交互用户数据的方法和装置
CN108984572B (zh) 网站信息推送方法及装置
CN106874327B (zh) 一种针对业务数据的计数方法及装置
CN111125157A (zh) 查询数据的处理方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.

TR01 Transfer of patent right