CN107153702A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN107153702A
CN107153702A CN201710325357.0A CN201710325357A CN107153702A CN 107153702 A CN107153702 A CN 107153702A CN 201710325357 A CN201710325357 A CN 201710325357A CN 107153702 A CN107153702 A CN 107153702A
Authority
CN
China
Prior art keywords
user
day
week
predetermined period
unique mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710325357.0A
Other languages
English (en)
Inventor
孙雪
朱秀萍
甘立宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Micro Shadow Era Technology Co Ltd
Original Assignee
Beijing Micro Shadow Era Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Micro Shadow Era Technology Co Ltd filed Critical Beijing Micro Shadow Era Technology Co Ltd
Priority to CN201710325357.0A priority Critical patent/CN107153702A/zh
Publication of CN107153702A publication Critical patent/CN107153702A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例提供了一种数据处理方法及装置,从分布式存储系统中获取目标服务器在预设周期内的用户行为数据;并获取所述用户行为数据所包含的用户唯一标识;然后,统计获得的用户行为数据所包含的互不相同的用户唯一标识的数量,得到目标服务器在预设周期内的用户访问数量,例如,预设周期内访问目标服务器的用户数量;利用该方法实现了对基于分布式存储系统所存储的数据进行统计和计算。

Description

一种数据处理方法及装置
技术领域
本发明属于计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
对于网站而言,自然会涉及到用户数据(例如,日访问用户数、周访问用户数、月访问用户数等)计算的相关问题。计算用户数据不仅是数据分析的基础,也为网站运营决策提供大数据的支持。
对于数据量相对较小网站,通常采用关系型数据库存储并计算用户数据,例如,MySQL、Oracle数据库。计算用户数据时,可以通过关系型数据库执行SQL语句进行计算所需的数据;或者,数据量较大时,使用直接编辑文本数据的方式计算得到所需的数据。但是,当网站每天访问用户达到亿级,或者,访问网站的次数达到千亿级别时,用户数据被存放在分布式集群中,不能采用应用于关系型数据库的计算方式进行计算。因此,基于分布式集群,如何计算用户数据成为亟需解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种数据处理方法及装置,计算得到基于分布式集群的用户数据。具体的技术方案如下:
第一方面,本申请提供一种数据处理方法,应用于分布式存储系统中,包括:
从所述分布式存储系统中获取目标服务器在预设周期内的用户行为数据;
获取所述用户行为数据所包含的用户唯一标识;
统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量。
可选地,所述预设周期为一天,则所述统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量,包括:
对于一天内所述用户行为数据所包含的用户唯一标识,逐个进行两两比较,去除重复的用户唯一标识,得到互不相同的用户唯一标识集合;
计算所述用户唯一标识集合中所包含的用户唯一标识的数量,得到所述目标服务器的日访问用户量。
可选地,若所述预设周期是一周,则所述统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量,包括:
查找所述预设周期内每一天的用户行为数据所包含的互不相同的用户唯一标识,获得所述目标服务器每一天的日访问用户集合,所述日访问用户集合包括所述用户唯一标识;
将所述预设周期中第二天对应的所述日访问用户集合与所述预设周期中第一天对应的所述日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述第二天对应的累计日访问用户集合;
从所述预设周期中的第三天开始,将当天对应的所述日访问用户集合与前一天对应的累计日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述当天对应的累计日访问用户集合,直到所述预设周期中的最后一天结束,计算得到所述目标服务器的周访问用户量。
可选地,若所述预设周期为一个月,则所述统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量,包括:
根据所述预设周期内的用户行为数据,获得所述目标服务器在所述预设周期内每一周对应的周访问用户集合,所述周访问集合包含在一周内访问所述目标服务器的全部互不相同的用户唯一标识;
将所述预设周期中第二周对应的周访问用户集合与第一周对应的周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述第二周对应的累计周访问用户集合;
从所述预设周期中的第三周开始,将本周对应的周访问用户集合与前一周对应的累计周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述本周对应的累计周访问用户集合,直到所述预设周期中的最后一个完整周,得到第四周对应的累计周访问用户集合;
将所述预设周期内不够一个完整周的剩余天数对应的日访问用户集合进行合并,得到剩余累计日访问用户集合;
将所述剩余累计日访问用户集合与所述第四周对应的累计周访问用户集合进行合并,并去除合并后的访问用户集合中重复的用户唯一标识,得到所述预设周期对应的月访问用户集合;
计算所述月访问用户集合中包含的用户唯一标识,得到所述预设周期的月访问用户量。
可选地,所述方法还包括:输出所述目标服务器在预设周期内的用户访问数量。
第二方面,本申请还提供一种数据处理装置,应用于分布式存储系统中,包括:
第一获取单元,用于从所述分布式存储系统中获取目标服务器在预设周期内的用户行为数据;
第二获取单元,用于获取所述用户行为数据所包含的用户唯一标识;
统计单元,用于统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量。
可选地,所述预设周期为一天,则所述统计单元,包括:
第一去重子单元,用于将一天内所述用户行为数据所包含的用户唯一标识,逐个进行两两比较,去除重复的用户唯一标识,得到互不相同的用户唯一标识集合;
第一计算子单元,用于计算所述用户唯一标识集合中所包含的用户唯一标识的数量,得到所述目标服务器的日访问用户量。
可选地,若所述预设周期是一周,则所述统计单元,包括:
第一获取子单元,用于查找所述预设周期内每一天的用户行为数据所包含的互不相同的用户唯一标识,获得所述目标服务器每一天的日访问用户集合,所述日访问用户集合包括所述用户唯一标识;
第二去重子单元,用于将所述预设周期中第二天对应的所述日访问用户集合与所述预设周期中第一天对应的所述日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述第二天对应的累计日访问用户集合;
第三去重子单元,用于从所述预设周期中的第三天开始,将当天对应的所述日访问用户集合与前一天对应的累计日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述当天对应的累计日访问用户集合,直到所述预设周期中的最后一天结束;
第二计算子单元,用于计算得到所述目标服务器的周访问用户量。
可选地,若所述预设周期为一个月,则所述统计单元,包括:
第二获取子单元,用于根据所述预设周期内的用户行为数据,获得所述目标服务器在所述预设周期内每一周对应的周访问用户集合,所述周访问集合包含在一周内访问所述目标服务器的全部互不相同的用户唯一标识;
第四去重子单元,用于将所述预设周期中第二周对应的周访问用户集合与第一周对应的周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述第二周对应的累计周访问用户集合;
第五去重子单元,用于从所述预设周期中的第三周开始,将本周对应的周访问用户集合与前一周对应的累计周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述本周对应的累计周访问用户集合,直到所述预设周期中的最后一个完整周,得到第四周对应的累计周访问用户集合;
第六去重子单元,用于将所述预设周期内不够一个完整周的剩余天数对应的日访问用户集合进行合并,得到剩余累计日访问用户集合;
第七去重子单元,用于将所述剩余累计日访问用户集合与所述第四周对应的累计周访问用户集合进行合并,并去除合并后的访问用户集合中重复的用户唯一标识,得到所述预设周期对应的月访问用户集合;
第三计算子单元,用于计算所述月访问用户集合中包含的用户唯一标识,得到所述预设周期的月访问用户量。
可选地,还包括:
输出单元,用于输出所述目标服务器在预设周期内的用户访问数量。
本发明实施例提供的数据处理方法,从分布式存储系统中获取目标服务器在预设周期内的用户行为数据;并获取所述用户行为数据所包含的用户唯一标识;然后,统计获得的用户行为数据所包含的互不相同的用户唯一标识的数量,得到目标服务器在预设周期内的用户访问数量,例如,预设周期内访问目标服务器的用户数量;利用该方法实现了对基于分布式存储系统所存储的数据进行统计和计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例一种分布式数据处理系统架构的框图;
图2示出了本申请实施例一种数据处理方法的流程图;
图3示出了本申请实施例另一种数据处理方法的流程图;
图4示出了本申请实施例又一种数据处理方法的流程图;
图5示出了本申请实施例再一种数据处理方法的流程图;
图6示出了本申请实施例一种数据处理装置的框图;
图7示出了本申请实施例一种统计单元的框图;
图8示出了本申请实施例另一种统计单元的框图;
图9示出了本申请实施例又一种统计单元的框图;
图10示出了本申请实施例另一种数据处理装置的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,示出了本申请实施例一种分布式数据处理系统架构的框图,该架构包括:日志数据收集系统100、Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)200和数据计算系统300。
日志数据收集系统100可以由Flume系统实现,Flume是分布式的日志收集系统,它将各个服务器中的日志数据收集起来并送到指定的目的地,例如,HDFS。
在本申请实施例中,日志数据收集系统100用于收集用户行为记录日志,这些用户行为记录日志可以是每天应用程序(Application,APP)、个人计算机(Personal Computer,PC)客户端等平台的用户行为记录。
Flume的核心是把数据从数据输入端收集起来,再将收集到的数据通过数据输出端送到指定的目的地。Flume将数据输入端设置为用户行为日志,将数据输出端设置为HDFS,将读取得到的日志文件转换成指定的存储形式存储到HDFS中。HDFS每天分区域存储接收到的用户行为数据(或,称为用户行为日志)。
数据计算系统300可以通过MapReduce系统实现,MapReduce系统主要包括Mapper和Reducer两个抽象类。Mapper端主要负责对数据进行分析处理,最终转化为Key-Value的数据结构;Reducer端主要是获取Mapper出来的结果,对结果进行统计。
本申请提供的数据处理方法主要应用于数据计算系统中,下面将详细介绍数据处理方法的具体实施过程。
请参见图2,示出了本申请实施例一种数据处理方法的流程图,该方法应用于图1所示分布式系统中的数据计算系统300中。如图2所示,该方法主要包括以下步骤:
S110,从分布式存储系统中读取目标服务器在预设周期内的用户行为数据。
预设周期可以根据实际需求设定,例如,一天、一周、一个月等。
MapReduce中的Map函数先从HDFS中读取目标服务器在预设周期内的用户行为数据。
目标服务器即想要分析用户行为数据的网站或应用程序对应的服务器,可以根据需求指定任意一个网站或应用程序。指定目标服务器后,需要配置图1所示的分布式数据处理系统中的相应参数,例如,日志收集的数据输入端。
S120,获取用户行为数据所包含的用户唯一标识。
Map函数读取用户行为数据后,获取该用户行为数据所包含的用户唯一标识。例如,用户唯一标识可以是用户在目标服务器提供的平台注册的账户、或者,用户所使用的终端设备的唯一标识码等能够唯一标识一个用户的信息。
S130,统计用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到目标服务器在预设周期内的用户访问数量。
MapReduce中的Reduce函数接收Map函数返回的包含用户唯一标识的数据,并对Map函数返回的数据中的用户唯一标识进行去重操作,即去除用户行为数据中出现的重复的用户唯一标识,得到目标服务器在预设周期内的用户访问数量。
本实施例提供的数据处理方法,从分布式存储系统中获取目标服务器在预设周期内的用户行为数据;并获取所述用户行为数据所包含的用户唯一标识;然后,统计获得的用户行为数据所包含的互不相同的用户唯一标识的数量,得到目标服务器在预设周期内的用户访问数量,例如,预设周期内访问目标服务器的用户数量;利用该方法实现了对基于分布式存储系统所存储的数据进行统计和计算,而且,该方法操作简单,运算速度快。
请参见图3,示出了本申请实施例另一种数据处理方法的流程图,本实施例用于计算目标服务器的日访问用户数量。如图3所示,该方法可以包括以下步骤:
S210,从分布式存储系统中读取目标服务器对应的每天的用户行为数据。
MapReduce中的Map函数先从HDFS中读取目标服务器在一天内的用户行为数据。
S220,获取每天的用户行为数据所包含的用户唯一标识。
Map函数从每天的用户行为数据中获取用户唯一标识,并返回给Reduce函数。
S230,对于用户行为数据所包含的用户唯一标识,去除重复的用户唯一标识,得到当天的日访问用户集合。
Reduce函数逐个比较一天内的用户行为数据所包含的用户唯一标识是否存在重复的用户唯一标识,若存在重复的用户唯一标识,则去除重复的用户唯一标识,即相同的用户唯一标识只保留一个。
实际过程中可能存在如下情况,某个用户一天内多次访问目标服务器,则用户行为日志中会存在多条包含同一用户唯一标识的用户访问数据;当统计目标服务器的日访问用户量(即统计每天访问目标服务器的不同用户的总量)时,需要去除重复访问的用户量。例如,用户A一天内访问了3次目标服务器,统计日访问用户量时,用户A的用户数是1。
S240,计算所述日访问用户集合所包含的用户唯一标识的数量,得到目标服务器的日访问用户量。
S230中得到的用户唯一标识集合中的用户唯一标识互不相同,因此,Reduce函数统计该日访问用户集合中包含的用户唯一标识的数量即可得到当天访问目标服务器的用户数量。
本实施例提供的数据处理方法,从分布式存储系统中读取一天内访问目标服务器的用户行为数据,并从用户行为数据中获取用户唯一标识,然后对用户唯一标识进行去重,得到一天内访问目标服务器的所有不同的用户唯一标识,最终得到该目标服务器的日访问用户量。利用该方法可以实现对分布式存储系统中的用户数据的统计和计算,而且,该方法操作简单,运算速度快。
请参见图4,示出了本申请实施例又一种数据处理方法的流程图,本实施例用于计算目标服务器在一周内的访问用户数量,即,周访问用户量。如图4所示,该方法可以包括以下步骤:
S310,从分布式存储系统中读取目标服务器一周内的用户行为数据。
在本申请的一个实施例中,一周可以是星期一到星期日的自然周;在本申请的另一个实施例中,一周可以是连续的7天,并不限定为从星期一到星期日。
S320,获取一周内每一天的日访问用户集合。
Reduce函数按照图3所示的获得日访问用户量的方式得到一周内每一天的日访问用户集合,日访问用户集合包含一天内访问目标服务器的所有互不相同的用户对应的用户唯一标识。
例如,用D1表示一周内第一天的日访问用户集合,D2、D3、D4、D5、D6和D7分别表示一周内第二天、第三天、第四天、第五天、第六天和第七天的日访问用户集合。需要说明的是,此处一周内的第一天不一定是一个自然周的第一天。
S330,将D2与D1进行合并、去重,得到第二天对应的累计日访问用户集合R1。
如果某个用户在第一天和第二天都访问了目标服务器,则在统计时只将该用户统计一次。
Reduce函数将D1和D2进行合并,并去除D1和D2所包含的重复用户唯一标识,得到第二天对应的累计日访问用户集合R1。例如,D1包括四个用户分别是ID1、ID3、ID4、ID5;D2包括ID1、ID2、ID4、ID7这四个用户,将D1与D2合并后得到的R1包括ID1、ID2、ID3、ID4、ID5、ID7这六个用户。
S340,将D3与R1进行合并、去重,得到第三天对应的累计日访问用户集合R2。
D3与R1合并的过程与上述的D1、D2合并过程相同,删除重复的用户唯一标识,得到前三天的累计访问用户集合R2。
S350,将D4与R2进行合并、去重,得到第四天对应的累计日访问用户集合R3。
R3表示一周内前四天的累计访问用户集合。
S360,将D5与R3进行合并、去重,得到第五天对应的累计日访问用户集合R4。
R4表示一周内前五天的累计访问用户集合。
S370,将D6与R4进行合并、去重,得到第六天对应的累计日访问用户集合R5。
R5表示一周内前六天的累计访问用户集合。
S380,将D7与R5进行合并、去重,得到第七天对应的累计日访问用户集合R6。
R6表示一周内七天的累计访问用户集合,即,周访问用户集合。
S390,统计R6内包含的用户唯一标识,得到目标服务器的周访问用户量。
由于R6即一周内七天的累计访问用户集合,所以,只需要统计R6中所包含的用户唯一标识的数据即可得到本周访问目标服务器的不同用户的数量。
本实施例提供的数据处理方法,能够计算得到一周内访问目标服务器的用户数量。首先,获取一周内每一天对应的日访问用户集合,并将第一天的日访问用户集合与第二天的日访问用户集合进行合并、去重,得到前两天的累计日访问用户集合;然后,从第三天开始将当天的日访问用户集合与前一天对应的累计日访问用户集合进行合并、去重,得到该当天对应的累计日访问用户集合,直到本周的最后一天结束,得到本周的累计日访问用户集合。最后,统计本周的累计日访问集合所包含的用户唯一标识的数量,得到周访问用户量。利用该方法可以实现对分布式存储系统中的周访问用户数量的统计和计算,而且,该方法操作简单,运算速度快。
请参见图5,示出了本申请实施例再一种数据处理方法的流程图,本实施例中预设周期是一个月,如图5所示,该方法可以包括以下步骤:
S410,从分布式存储系统中获取目标服务器在一个月内的用户行为数据。
S420,获取目标服务器对应的一个月内每一周的周访问用户集合。
该周访问用户集合根据上述图4所示的方法实施例获得,此处不再赘述。
W1、W2、W3、W4分别表示一个月内第一、第二、第三、第四周的周访问用户集合。
S430,将W1和W2进行合并、去重,得到第二周对应的累计周访问用户集合T1。
利用Reduce函数将W1和W2进行合并,并去除合并后的周访问用户集合所包含的重复的用户唯一标识,得到前两周访问目标服务器的累计周访问用户集合T1。
S440,将W3与T1进行合并、去重,得到第三周对应的累计周访问用户集合T2。
T2表示前三周访问目标服务器的累计周访问用户集合。
S450,W4与T2进行合并、去重,得到第四周对应的累计周访问用户集合T3。
T3表示前四周访问目标服务器的累计周访问用户集合。
S460,将一个月内除四个完整周后剩余的天数对应的日访问用户集合进行合并、去重,得到剩余累计日访问用户集合。
例如,一个月有30天包括4个完整周还剩余2天,此步骤是将剩余的2天对应的日访问用户集合进行合并、去重,得到剩余累计日访问用户集合R1。
S470,将R1与T3进行合并、去重,得到月访问用户集合Y1。
S480,统计月访问用户集合所包含的用户唯一标识,得到月访问用户量。
统计Y1所包含的用户唯一标识的数量,得到月访问用户量。
本实施例提供的数据处理方法,能够计算一个月内访问目标服务器的累计用户数量。首先,获取一个月内每个完整周对应的周访问用户集合;然后,将第一周与第二周的周访问用户集合进行合并、去重,得到前两周的累计周访问用户集合;将第三周的周访问用户集合与前两周累计周访问用户集合进行合并、去重,得到一个月的累计访问用户集合,最后,统计该累计访问用户集合所包含的用户唯一标识即可计算得到一个月内的累计访问用户数量。利用该方法可以实现对分布式存储系统中的周访问用户数量的统计和计算,而且,该方法操作简单,运算速度快。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
请参见图6,示出了本申请实施例一种数据处理装置的框图,该装置应用于分布式存储系统中,如图6所示,该装置包括:第一获取单元110、第二获取单元120和统计单元130。
第一获取单元110,用于从分布式存储系统中读取目标服务器在预设周期内的用户行为数据。
预设周期可以根据实际需求设定,例如,一天、一周、一个月等。用户行为数据即用户访问目标服务器所产生的日志文件,
目标服务器即想要分析用户行为数据的网站或应用程序对应的服务器,可以根据需求指定任意一个网站或应用程序。指定目标服务器后,需要配置图1所示的分布式数据处理系统中的相应参数,例如,日志收集的数据输入端。
第二获取单元120,用于获取用户行为数据所包含的用户唯一标识。
Map函数读取用户行为数据后,获取该用户行为数据所包含的用户唯一标识。
统计单元130,用于统计用户行为数据中包含的互不相同的用户唯一标识的数量,得到目标服务器在预设周期内的用户访问数量。
MapReduce中的Reduce函数接收Map函数返回的包含用户唯一标识的数据,并对Map函数返回的数据中的用户唯一标识进行去重操作,即去除用户行为数据中出现的重复的用户唯一标识,得到目标服务器在预设周期内的用户访问数量。
在本申请的一个实施例中预设周期为一天,如图7所示,统计单元130包括:第一去重子单元1311和第一计算子单元1312。
第一去重子单元1311,用于将一天内用户行为数据所包含的用户唯一标识进行去重,得到互不相同的用户唯一标识集合。
第一计算子单元1312,用于计算用户唯一标识集合中所包含的用户唯一标识的数量,得到所述目标服务器的日访问用户量。
在本申请的另一个实施例中,所述预设周期是一周,如图8所示,统计单元130包括:第一获取子单元1321、第二去重子单元1322、第三去重子单元1323和第二计算子单元1324。
第一获取子单元1321,用于查找一周内每一天的用户行为数据所包含的互不相同的用户唯一标识,获得目标服务器每一天的日访问用户集合;
日访问用户集合包括一天内访问目标服务器的所有不同用户的用户唯一标识。第一获取子单元用于获取一周内第一天访问目标服务器的日访问用户集合。
第二去重子单元1322,用于将一周内第二天对应的所述日访问用户集合与所述预设周期中第一天对应的日访问用户集合进行合并、去重,得到所述第二天对应的累计日访问用户集合。
第二天的累计日访问用户集合是一周内前两天访问目标服务器的所有不同用户的集合。
第三去重子单元1323,用于从一周内的第三天开始,将当天对应的日访问用户集合与前一天对应的累计日访问用户集合进行合并、去重,得到所述当天对应的累计日访问用户集合,直到所述预设周期中的最后一天结束,得到本周的周访问用户集合;
从一周的第三天开始,将当天的日访问用户集合与本周内当天之前的累计日访问用户集合进行合并、去重,直到本周的最后一天结束,得到本周的周访问用户集合。
第二计算子单元1324,用于计算周访问用户集合所包含的用户标识的数量,得到所述目标服务器的周访问用户量。
在本申请的又一个实施例中,预设周期为一个月,如图9所示,统计单元130包括:第二获取子单元1331、第四去重子单元1332、第五去重子单元1333、第六去重子单元1334、第七去重子单元1335和第三计算子单元1336。
第二获取子单元1331,用于根据一个月内的用户行为数据,获得目标服务器在本月内每一周对应的周访问用户集合;
所述周访问集合包含在一周内访问目标服务器的全部互不相同的用户对应的用户唯一标识。
第四去重子单元1332,用于将本月内中第二周的周访问用户集合与第一周的周访问用户集合进行合并、去重,得到第二周对应的累计周访问用户集合。
第二周对应的累计周访问用户集合,即本月内前两周的累计访问用户集合。
第五去重子单元1333,用于从本月的第三周开始,将本周的周访问用户集合与前一周对应的累计周访问用户集合进行合并、去重,得到所述本周对应的累计周访问用户集合,直到本月的最后一个完整周,得到第四周对应的累计周访问用户集合。
第六去重子单元1334,用于将所述预设周期内不够一个完整周的剩余天数对应的日访问用户集合进行合并,得到剩余累计日访问用户集合;
一个月有30天包括4个完整周还剩余2天,该第六去重子单元是将剩余的2天对应的日访问用户集合进行合并、去重,得到剩余累计日访问用户集合R1。
第七去重子单元1335,用于将所述剩余累计日访问用户集合与第四周对应的累计周访问用户集合进行合并、去重,得到本月对应的月访问用户集合。
第三计算子单元1336,用于计算所述月访问用户集合中包含的用户唯一标识,得到本月的月访问用户量。
本实施例提供的数据处理装置,从分布式存储系统中获取目标服务器在预设周期内的用户行为数据;并获取所述用户行为数据所包含的用户唯一标识;然后,统计获得的用户行为数据所包含的互不相同的用户唯一标识的数量,得到目标服务器在预设周期内的用户访问数量,例如,预设周期内访问目标服务器的用户数量;利用该装置实现了对基于分布式存储系统所存储的数据进行统计和计算,而且,该装置操作简单,运算速度快。
请参见图10,示出了本申请实施例另一种数据处理装置的框图,该装置应用于分布式存储系统中,该装置在图6所示实施例的基础上还包括输出单元210。
输出单元210,用于输出目标服务器在预设周期内的用户访问数量。
当统计单元130统计得到预设周期内的用户访问数量后,可以通过输出单元输出到某一结果目录下,以供需要时读取该结果目录下的用户访问数量结果。
本实施提供的数据处理装置,得到预设周期内访问目标服务器的用户访问数量后,通过输出单元输出到设定的结果目录下,当接收到获取该预设周期内用户访问数量的请求后,从该结果目录下读取对应的用户访问数量即可。操作方便,请求响应速度快。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据处理方法,应用于分布式存储系统中,其特征在于,包括:
从所述分布式存储系统中获取目标服务器在预设周期内的用户行为数据;
获取所述用户行为数据所包含的用户唯一标识;
统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量。
2.根据权利要求1所述的方法,其特征在于,所述预设周期为一天,则所述统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量,包括:
对于一天内所述用户行为数据所包含的用户唯一标识,逐个进行两两比较,去除重复的用户唯一标识,得到互不相同的用户唯一标识集合;
计算所述用户唯一标识集合中所包含的用户唯一标识的数量,得到所述目标服务器的日访问用户量。
3.根据权利要求2所述的方法,其特征在于,若所述预设周期是一周,则所述统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量,包括:
查找所述预设周期内每一天的用户行为数据所包含的互不相同的用户唯一标识,获得所述目标服务器每一天的日访问用户集合,所述日访问用户集合包括所述用户唯一标识;
将所述预设周期中第二天对应的所述日访问用户集合与所述预设周期中第一天对应的所述日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述第二天对应的累计日访问用户集合;
从所述预设周期中的第三天开始,将当天对应的所述日访问用户集合与前一天对应的累计日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述当天对应的累计日访问用户集合,直到所述预设周期中的最后一天结束,计算得到所述目标服务器的周访问用户量。
4.根据权利要求3所述的方法,其特征在于,若所述预设周期为一个月,则所述统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量,包括:
根据所述预设周期内的用户行为数据,获得所述目标服务器在所述预设周期内每一周对应的周访问用户集合,所述周访问集合包含一周内访问所述目标服务器的全部互不相同的用户唯一标识;
将所述预设周期中第二周对应的周访问用户集合与第一周对应的周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述第二周对应的累计周访问用户集合;
从所述预设周期中的第三周开始,将本周对应的周访问用户集合与前一周对应的累计周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述本周对应的累计周访问用户集合,直到所述预设周期中的最后一个完整周,得到第四周对应的累计周访问用户集合;
将所述预设周期内不够一个完整周的剩余天数对应的日访问用户集合进行合并,得到剩余累计日访问用户集合;
将所述剩余累计日访问用户集合与所述第四周对应的累计周访问用户集合进行合并,并去除合并后的访问用户集合中重复的用户唯一标识,得到所述预设周期对应的月访问用户集合;
计算所述月访问用户集合中包含的用户唯一标识,得到所述预设周期的月访问用户量。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:输出所述目标服务器在预设周期内的用户访问数量。
6.一种数据处理装置,应用于分布式存储系统中,其特征在于,包括:
第一获取单元,用于从所述分布式存储系统中获取目标服务器在预设周期内的用户行为数据;
第二获取单元,用于获取所述用户行为数据所包含的用户唯一标识;
统计单元,用于统计所述用户行为数据中包含的互不相同的所述用户唯一标识的数量,得到所述目标服务器在预设周期内的用户访问数量。
7.根据权利要求6所述的装置,其特征在于,所述预设周期为一天,则所述统计单元,包括:
第一去重子单元,用于将一天内所述用户行为数据所包含的用户唯一标识,逐个进行两两比较,去除重复的用户唯一标识,得到互不相同的用户唯一标识集合;
第一计算子单元,用于计算所述用户唯一标识集合中所包含的用户唯一标识的数量,得到所述目标服务器的日访问用户量。
8.根据权利要求7所述的装置,其特征在于,若所述预设周期是一周,则所述统计单元,包括:
第一获取子单元,用于查找所述预设周期内每一天的用户行为数据所包含的互不相同的用户唯一标识,获得所述目标服务器每一天的日访问用户集合,所述日访问用户集合包括所述用户唯一标识;
第二去重子单元,用于将所述预设周期中第二天对应的所述日访问用户集合与所述预设周期中第一天对应的所述日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述第二天对应的累计日访问用户集合;
第三去重子单元,用于从所述预设周期中的第三天开始,将当天对应的所述日访问用户集合与前一天对应的累计日访问用户集合进行合并,并去除合并后的日访问用户集合中重复的用户唯一标识,得到所述当天对应的累计日访问用户集合,直到所述预设周期中的最后一天结束;
第二计算子单元,用于计算得到所述目标服务器的周访问用户量。
9.根据权利要求8所述的装置,其特征在于,若所述预设周期为一个月,则所述统计单元,包括:
第二获取子单元,用于根据所述预设周期内的用户行为数据,获得所述目标服务器在所述预设周期内每一周对应的周访问用户集合,所述周访问集合包含在一周内访问所述目标服务器的全部互不相同的用户唯一标识;
第四去重子单元,用于将所述预设周期中第二周对应的周访问用户集合与第一周对应的周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述第二周对应的累计周访问用户集合;
第五去重子单元,用于从所述预设周期中的第三周开始,将本周对应的周访问用户集合与前一周对应的累计周访问用户集合进行合并,并去除合并后的周访问用户集合中重复的用户唯一标识,得到所述本周对应的累计周访问用户集合,直到所述预设周期中的最后一个完整周,得到第四周对应的累计周访问用户集合;
第六去重子单元,用于将所述预设周期内不够一个完整周的剩余天数对应的日访问用户集合进行合并,得到剩余累计日访问用户集合;
第七去重子单元,用于将所述剩余累计日访问用户集合与所述第四周对应的累计周访问用户集合进行合并,并去除合并后的访问用户集合中重复的用户唯一标识,得到所述预设周期对应的月访问用户集合;
第三计算子单元,用于计算所述月访问用户集合中包含的用户唯一标识,得到所述预设周期的月访问用户量。
10.根据权利要求6所述的装置,其特征在于,还包括:
输出单元,用于输出所述目标服务器在预设周期内的用户访问数量。
CN201710325357.0A 2017-05-10 2017-05-10 一种数据处理方法及装置 Pending CN107153702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710325357.0A CN107153702A (zh) 2017-05-10 2017-05-10 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710325357.0A CN107153702A (zh) 2017-05-10 2017-05-10 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN107153702A true CN107153702A (zh) 2017-09-12

Family

ID=59793222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710325357.0A Pending CN107153702A (zh) 2017-05-10 2017-05-10 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107153702A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170829A (zh) * 2018-01-09 2018-06-15 北京值得买科技股份有限公司 一种补签数据处理方法及系统
CN108549596A (zh) * 2018-04-28 2018-09-18 努比亚技术有限公司 一种累计用户的统计方法、装置及计算机可读存储介质
CN108595314A (zh) * 2018-03-12 2018-09-28 中国平安人寿保险股份有限公司 用户设备月活跃数计算方法、装置、终端设备及存储介质
CN113326397A (zh) * 2021-08-04 2021-08-31 北京达佳互联信息技术有限公司 业务数据的处理方法、装置
CN114513434A (zh) * 2020-11-16 2022-05-17 Oppo广东移动通信有限公司 数据监控方法、装置、存储介质及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236652A (zh) * 2010-04-27 2011-11-09 腾讯科技(深圳)有限公司 一种信息的分类方法和装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104182506A (zh) * 2014-08-19 2014-12-03 浪潮(北京)电子信息产业有限公司 日志管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236652A (zh) * 2010-04-27 2011-11-09 腾讯科技(深圳)有限公司 一种信息的分类方法和装置
CN103916293A (zh) * 2014-04-15 2014-07-09 浪潮软件股份有限公司 一种监控分析网站用户行为的方法
CN104182506A (zh) * 2014-08-19 2014-12-03 浪潮(北京)电子信息产业有限公司 日志管理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170829A (zh) * 2018-01-09 2018-06-15 北京值得买科技股份有限公司 一种补签数据处理方法及系统
CN108595314A (zh) * 2018-03-12 2018-09-28 中国平安人寿保险股份有限公司 用户设备月活跃数计算方法、装置、终端设备及存储介质
CN108549596A (zh) * 2018-04-28 2018-09-18 努比亚技术有限公司 一种累计用户的统计方法、装置及计算机可读存储介质
CN114513434A (zh) * 2020-11-16 2022-05-17 Oppo广东移动通信有限公司 数据监控方法、装置、存储介质及服务器
CN113326397A (zh) * 2021-08-04 2021-08-31 北京达佳互联信息技术有限公司 业务数据的处理方法、装置

Similar Documents

Publication Publication Date Title
CN102682059B (zh) 用于将用户分配到集群的方法和系统
CN107153702A (zh) 一种数据处理方法及装置
Poorthuis et al. Making big data small: strategies to expand urban and geographical research using social media
CN104426713B (zh) 网络站点访问效果数据的监测方法和装置
CN102855309B (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN110134584A (zh) 一种接口测试用例的生成方法、装置、存储介质和服务器
CN107103064B (zh) 数据统计方法及装置
CN102724059A (zh) 基于MapReduce的网站运行状态监控与异常检测
CN110675194A (zh) 一种漏斗分析方法、装置、设备及可读介质
CN107578263A (zh) 一种广告异常访问的检测方法、装置和电子设备
CN109063158B (zh) 一种网站访问排名信息查询的方法、设备、系统及介质
CN104270654B (zh) 互联网视频播放监测方法和装置
CN110347724A (zh) 异常行为识别方法、装置、电子设备及介质
CN106886535A (zh) 一种适配多种数据源的数据抽取方法和装置
CN108900619A (zh) 一种独立访客统计方法及装置
CN109582418A (zh) 用户行为数据收集方法、装置、计算机装置、存储介质
CN103440199A (zh) 测试引导方法和装置
CN105426392A (zh) 一种协同过滤推荐方法及系统
CN112000866B (zh) 互联网数据分析方法、装置、电子装置及介质
CN109359109A (zh) 一种基于分布式流计算的数据处理方法及系统
CN111523921B (zh) 漏斗分析方法、分析设备、电子设备及可读存储介质
CN107357919A (zh) 行为日志查询系统及方法
CN104123307A (zh) 数据加载方法及系统
CN113220530B (zh) 数据质量监控方法及平台
CN115470279A (zh) 基于企业数据的数源转换方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170912

RJ01 Rejection of invention patent application after publication