CN108062350A - 一种数据处理方法、节点设备及计算机可读介质 - Google Patents
一种数据处理方法、节点设备及计算机可读介质 Download PDFInfo
- Publication number
- CN108062350A CN108062350A CN201711094400.3A CN201711094400A CN108062350A CN 108062350 A CN108062350 A CN 108062350A CN 201711094400 A CN201711094400 A CN 201711094400A CN 108062350 A CN108062350 A CN 108062350A
- Authority
- CN
- China
- Prior art keywords
- target data
- unique mark
- corresponding unique
- real
- node device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种数据处理方法、节点设备及计算机可读介质,其中该方法应用于Hadoop集群中的节点设备,该方法包括:获取待分析的目标数据;计算所述目标数据对应的唯一标识;根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。本发明实施例通过Hadoop集群中的节点设备实时分析目标数据,不需要依赖Hadoop集群之外的其他设备即可根据目标数据实时获取目标数据对应的待统计的目标指标,节省了运营成本;Hadoop集群中的节点设备可并行实时统计目标指标,可以提高目标指标的获取效率。
Description
技术领域
本发明涉及电子技术领域,尤其涉及一种数据处理方法、节点设备及计算机可读介质。
背景技术
大数据时代数据爆炸式的增长,给数据分析也带来了巨大的挑战,若采用传统的数据分析方式,从数据中分析出有价值的指标越来越难、越来越慢,甚至无法从中分析出有价值的指标。由于Hadoop能够对大量数据进行分布式处理,并且其具有高效、可靠性高的优点,越来越多的企业使用Hadoop来对大数据进行处理分析。
然而,由于Hadoop集群只能分析离线数据,无法单独对数据进行实时分析。现有技术中,基于Hadoop集群对在线数据进行实时分析时,通常需要另外搭建一个与Hadoop集群同等规模的集群来处理Hadoop集群采集的离线数据以及实时数据,从而得到分析结果。
发明内容
本发明实施例提供一种数据处理方法、节点设备及计算机可读介质,Hadoop集群中的节点设备不需要依赖Hadoop集群之外的其他集群即可实时分析目标数据。
第一方面,本发明实施例提供了一种数据处理方法,该数据处理方法应用于Hadoop集群中的节点设备,该数据处理方法包括:
获取待分析的目标数据;
计算所述目标数据对应的唯一标识;
根据所述目标数据对应的唯一标识实时实时更新所述目标数据对应的待统计的目标指标。
第二方面,本发明实施例提供了一种节点设备,该节点设备包括用于执行上述第一方面的方法的单元。
第三方面,本发明实施例提供了另一种节点设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储支持终端执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本发明实施例通过获取待分析的目标数据;计算所述目标数据对应的唯一标识;根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。Hadoop集群中的节点设备能够实时分析目标数据,不需要依赖Hadoop集群之外的其他设备即可根据目标数据实时获取目标数据对应的待统计的目标指标,节省了运营成本。由于Hadoop集群中的节点设备可并行实时统计目标指标,可以提高目标指标的获取效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的示意流程图;
图2是本发明另一实施例提供的一种数据处理方法的示意流程图;
图3是本发明实施例提供的一种节点设备的示意性框图;
图4是本发明另一实施例提供的一种节点设备示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
具体实现中,本发明实施例中描述的终端包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端。然而,应当理解的是,终端可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
终端支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
请参见图1,图1是本发明实施例提供的一种数据处理方法的示意流程图。本实施例中数据处理方法的执行主体为Hadoop集群中的节点设备,节点设备可以是服务器,也可以是电脑等终端。Hadoop集群中的节点设备可并行执行数据处理方法中的各步骤。如图所示的数据处理方法可包括:
S101:获取待分析的目标数据。
节点设备从存储设备中获取待分析的目标数据。存储设备中存储的目标数据来自手机等移动终端,也可以来自业务服务器,业务服务器用于提供为终端某业务。目标数据是手机等移动终端或业务服务器运行时产生的相关数据。存储设备可以是分布式存储设备,Hadoop集群中的节点设备均可访问该存储设备。目标数据可以是待分析的任意应用的相关数据,例如,某应用的注册数据、登录数据、某功能的使用数据等。
可以理解的是,节点设备还可以从产生待分析的目标数据的数据源端采集目标数据。数据源端可以是产生目标数据的手机等移动终端,也可以是产生目标数据的业务服务器。
S102:计算所述目标数据对应的唯一标识。
节点设备采用预设的唯一标识计算策略计算目标数据对应的唯一标识。不同的目标数据对应的唯一标识各不相同。节点设备可以将目标数据与其对应的唯一标识关联保存。
预设的唯一标识计算策略用于计算待分析的目标数据的唯一标识。预设的唯一标识计算策略预先存储于节点设备内,预设的唯一标识计算策略的数目可以为一种,也可以为至少两种。当预设的唯一标识计算策略有至少两种时,可以根据需要处理的数据量选择与数据量匹配的唯一标识计算策略。
S103:根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。
目标指标可以包括但不限于活跃度、新增用户数目中的其中一个。
上述方案,节点设备获取待分析的目标数据;计算所述目标数据对应的唯一标识;根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。Hadoop集群中的节点设备能够实时分析目标数据,不需要依赖Hadoop集群之外的其他设备即可根据目标数据实时获取目标数据对应的待统计的目标指标,节省了运营成本。由于Hadoop集群中的节点设备可并行实时统计目标指标,可以提高目标指标的获取效率。
请参见图2,图2是本发明另一实施例提供的一种数据处理方法的示意流程图。本实施例中数据处理方法的执行主体Hadoop集群中的节点设备,节点设备可以是服务器,也可以是电脑等终端。Hadoop集群中的节点设备可并行执行数据处理方法中的各步骤。如图所示的数据处理方法可包括:
S201:获取待分析的目标数据。
节点设备从存储设备中获取待分析的目标数据。存储设备中存储的目标数据来自手机等移动终端,,也可以来自业务服务器,业务服务器用于提供为终端某业务。目标数据是手机等移动终端或业务服务器运行时产生的相关数据。存储设备可以是分布式存储设备,Hadoop集群中的节点设备均可访问该存储设备。目标数据可以是待分析的任意应用的相关数据,例如,某应用的注册数据、登录数据、某功能的使用数据等。
可以理解的是,节点设备还可以从产生待分析的目标数据的数据源端采集目标数据。数据源端可以是产生目标数据的手机等移动终端,也可以是产生目标数据的业务服务器。
S202:计算所述目标数据对应的唯一标识。
节点设备采用预设的唯一标识计算策略计算目标数据对应的唯一标识。不同的目标数据对应的唯一标识各不相同。节点设备可以将目标数据与其对应的唯一标识关联保存。
预设的唯一标识计算策略用于计算待分析的目标数据的唯一标识。预设的唯一标识计算策略预先存储于节点设备内,预设的唯一标识计算策略的数目可以为一种,也可以为至少两种。当预设的唯一标识计算策略有至少两种时,可以根据需要处理的数据量选择与数据量匹配的唯一标识计算策略。
可选地,S202可以包括S2021或S2022。
S2021:采用消息摘要算法计算所述目标数据对应的唯一标识。
节点设备采用消息摘要算法第五版(Message Digest Algorithm MD5)计算目标数据对应的MD5值,即,目标数据对应的唯一标识为MD5值。
其中,MD5总共可以计算1616条目标数据各自对应的MD5值。
S2022:采用循环冗余校验算法计算所述目标数据对应的唯一校验值。
数据错误检测技术可以是循环冗余校验算法CRC32。节点设备采用CRC32算法计算目标数据对应的唯一校验值,该唯一校验值是一个32比特(bit)的校验值。由于节点设备采用CRC32算法计算目标数据的唯一校验值时,目标数据的每个bit都参与了计算,所以目标数据中即使只有一位发生了变化,也会得到不同的CRC32值。
CRC32算法总共可以计算42亿条目标数据各自对应的唯一校验值。
S203:从数据库中查找所述目标数据对应的唯一标识。
节点设备在计算得到目标数据对应的唯一标识时,触发分布式的数据库HBase的协处理器(Coprocessor),通过协处理器查询HBase的工具表ToolTable,以检测ToolTable中是否保存有该目标数据的唯一标识。工具表ToolTable用于记录数据的唯一标识。ToolTable是预先建立的,ToolTable内存储的唯一标识各不相同。分布式的数据库是Hadoop集群共享的数据库,该数据库可以设置于Hadoop集群中任意节点设备的存储区域,也可以设置于Hadoop集群之外的存储设备中。
在查找到目标数据对应的唯一标识时,执行S204;在未查找到目标数据对应的唯一标识时,执行S205。
S204:若查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的活跃度指标。
在查找到该目标数据对应的唯一标识时,识别为在此之前曾获取过该目标数据,节点设备根据该目标数据的信息实时更新该目标数据对应的待统计的活跃度指标。活跃度指标可以按不同周期进行统计,例如,当天的活跃度、每周的活跃度、每月的活跃度等。活跃度指标用于衡量活跃用户的数目。
此时,节点设备不再重复存储该目标数据的唯一标识,以避免ToolTable内的唯一标识重复。
进一步地,S204可以包括:若查找到所述目标数据对应的唯一标识,则根据所述目标数据对应的唯一标识实时更新所述活跃度指标的活跃度计数值,以及根据所述目标数据对应的获取时间实时更新所述活跃度指标的活跃时间。
节点设备在确认查找到目标数据对应的唯一标识时,获取该唯一标识对应的最后活跃时间,根据目标数据对应的唯一标识实时更新活跃度指标的活跃度计数值。最后活跃时间由当前时刻以及距离当前时刻最近一次查询到该唯一标识的时刻确定。目标数据对应的获取时间即查询到该唯一标识的时间。ToolTable中的唯一标识不重复。
例如,获取到该唯一标识对应的最后活跃时间为当前日期的前一天,说明统计活跃度指标的周期为1天,节点设备将当天活跃计数器加1,并将该唯一标识对应的最后活跃时间修改为当前日期。当天活跃计数器加1表示当天活跃用户数目增加1。
获取到该唯一标识对应的最后活跃时间与当前日期的时间间隔为一周,说明统计活跃度指标的周期为7天,节点设备将7天活跃计数器加1,并将该唯一标识对应的最后活跃时间修改为当前日期。7天活跃计数器加1表示一周内活跃用户数目增加1。
获取到该唯一标识对应的最后活跃时间与当前日期的时间间隔为30天,说明统计活跃度指标的周期为30天,节点设备将30天活跃计数器加1,并将该唯一标识对应的最后活跃时间修改为当前日期。30天活跃计数器加1表示一个月内活跃用户数目增加1。
S205:若未查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的新增用户指标;其中,所述新增用户指标用于标识新增用户的数目。
节点设备在确认从数据库中未查找到该目标数据对应的唯一标识时,识别为该目标数据为新数据,之前未曾获取过该目标数据,节点设备将新增用户对应的计数器加1,从而统计该目标数据对应的新增用户的数目。
可选地,若未查找到所述目标数据对应的唯一标识,数据处理方法还可以包括S206:将所述目标数据对应的唯一标识存储至所述数据库。
节点设备在确认从数据库中未查找到目标数据对应的唯一标识时,将目标数据对应的唯一标识存储至HBase的ToolTable。ToolTable中的唯一标识不重复。
S205与S206不分先后顺序执行。
可选地,节点设备还可以根据该目标数据对应的标识实时更新活跃度指标。节点设备将活跃度计数器加1,以表示该目标数据对应的功能的活跃用户数目增加1个,或者表示该目标数据对应的应用的活跃用户数目增加1个。
可选地,数据处理方法还可以包括:若接收到客户端发送的指标获取请求,则响应该指标获取请求,根据指标获取请求中包含的待获取的指标的标识获取该指标的信息,并将该指标信息返回给发送指标获取请求的客户端,以便该客户端的用户查看该指标的信息。指标的信息包括指标的标识以及该指标对应的计数值。
上述方案,节点设备获取待分析的目标数据;计算所述目标数据对应的唯一标识;根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。Hadoop集群中的节点设备通过在计算得到目标数据对应的唯一标识时,触发分布式的数据库HBase的协处理器(Coprocessor),并通过协处理器查询HBase的工具表ToolTable,从而检测ToolTable中是否保存有该目标数据的唯一标识,并根据查找结果实时更新目标数据对应的待统计的目标指标,以实现实时分析目标数据,不需要依赖Hadoop集群之外的其他设备即可根据目标数据实时获取目标数据对应的待统计的目标指标,节省了运营成本。由于Hadoop集群中的节点设备可并行实时统计目标指标,可以提高目标指标的获取效率。
节点设备可根据目标数据的唯一标识实时统计新增用户数目以及活跃用户的数目。
本发明实施例还提供一种节点设备,该节点设备包括用于执行前述任一实施例中所述的数据处理方法中的各步骤的单元。具体地,参见图3,图3是本发明实施例提供的一种节点设备的示意框图。本实施例的节点设备3包括以下程序单元,具体如下:
获取单元310,用于获取待分析的目标数据。
计算单元320,用于计算所述目标数据对应的唯一标识。
可选地,计算单元320包括:
第一计算单元321,用于采用消息摘要算法计算所述目标数据对应的唯一标识;
第二计算单元322,用于采用循环冗余校验算法计算所述目标数据对应的唯一校验值。
实时更新单元330,用于根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。
可选地,实时更新单元330包括:
查找单元331,用于从数据库中查找所述目标数据对应的唯一标识;
第一指标实时更新单元332,用于若查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的活跃度指标。
进一步地,第一指标实时更新单元332具体用于:若查找到所述目标数据对应的唯一标识,则根据所述目标数据对应的唯一标识实时更新所述活跃度指标的活跃度计数值,以及根据所述目标数据对应的获取时间实时更新所述活跃度指标的活跃时间。
可选地,实时更新单元330还包括:
第二指标实时更新单元333,用于若未查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的新增用户指标;其中,所述新增用户指标用于标识新增用户的数目。
可选地,实时更新单元330还包括:
存储单元334,用于若未查找到所述目标数据对应的唯一标识,则将所述目标数据对应的唯一标识存储至所述数据库。
上述方案,节点设备获取待分析的目标数据;计算所述目标数据对应的唯一标识;根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。Hadoop集群中的节点设备通过在计算得到目标数据对应的唯一标识时,触发分布式的数据库HBase的协处理器(Coprocessor),并通过协处理器查询HBase的工具表ToolTable,从而检测ToolTable中是否保存有该目标数据的唯一标识,并根据查找结果实时更新目标数据对应的待统计的目标指标,以实现实时分析目标数据,不需要依赖Hadoop集群之外的其他设备即可根据目标数据实时获取目标数据对应的待统计的目标指标,节省了运营成本,提高目标指标的获取效率。
节点设备可根据目标数据的唯一标识实时统计新增用户数目以及活跃用户的数目。
参见图4,图4是本发明另一实施例提供的一种节点设备示意框图。如图所示的本实施例中的节点设备4可以包括:一个或多个处理器401;一个或多个输入设备402,一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器404用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器404存储的程序指令。其中,处理器401被配置用于调用所述程序指令执行:
获取待分析的目标数据;
计算所述目标数据对应的唯一标识;
根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。
可选地,处理器401具体被配置用于调用所述程序指令执行:
采用消息摘要算法计算所述目标数据对应的唯一标识。
可选地,处理器401具体被配置用于调用所述程序指令执行:
采用循环冗余校验算法计算所述目标数据对应的唯一校验值。
可选地,处理器401具体被配置用于调用所述程序指令执行:
从数据库中查找所述目标数据对应的唯一标识;
若查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的活跃度指标。
可选地,从数据库中查找所述目标数据对应的唯一标识之后,处理器401还被配置用于调用所述程序指令执行:
若未查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的新增用户指标;其中,所述新增用户指标用于标识新增用户的数目。
可选地,处理器401还被配置用于调用所述程序指令执行:
若未查找到所述目标数据对应的唯一标识,将所述目标数据对应的唯一标识存储至所述数据库。
可选地,处理器401还被配置用于调用所述程序指令执行:
若查找到所述目标数据对应的唯一标识,则根据所述目标数据对应的唯一标识实时更新所述活跃度指标的活跃度计数值,以及根据所述目标数据对应的获取时间实时更新所述活跃度指标的活跃时间。
应当理解,在本发明实施例中,所称处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备403可以包括显示器(LCD等)、扬声器等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器401、输入设备402、输出设备403可执行本发明实施例提供的数据处理方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的节点设备的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现:
获取待分析的目标数据;
计算所述目标数据对应的唯一标识;
根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。
可选地,采用消息摘要算法计算所述目标数据对应的唯一标识。
可选地,所述程序指令被处理器执行时具体实现:
采用循环冗余校验算法计算所述目标数据对应的唯一校验值。
可选地,所述程序指令被处理器执行时具体实现:
从数据库中查找所述目标数据对应的唯一标识;
若查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的活跃度指标。
可选地,所述从数据库中查找所述目标数据对应的唯一标识之后,所述程序指令被处理器执行时还实现:
若未查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的新增用户指标;其中,所述新增用户指标用于标识新增用户的数目。
可选地,若未查找到所述目标数据对应的唯一标识,所述程序指令被处理器执行时还实现:将所述目标数据对应的唯一标识存储至所述数据库。
可选地,所述程序指令被处理器执行时具体实现:
若查找到所述目标数据对应的唯一标识,则根据所述目标数据对应的唯一标识实时更新所述活跃度指标的活跃度计数值,以及根据所述目标数据对应的获取时间实时更新所述活跃度指标的活跃时间。
所述计算机可读存储介质可以是前述任一实施例所述的节点设备的内部存储单元,例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述节点设备的外部存储设备,例如所述节点设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述节点设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述节点设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的节点设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法应用于Hadoop集群中的节点设备,包括:
获取待分析的目标数据;
计算所述目标数据对应的唯一标识;
根据所述目标数据对应的唯一标识实时更新所述目标数据对应的待统计的目标指标。
2.根据权利要求1所述的方法,其特征在于,所述计算所述目标数据对应的唯一标识包括:
采用消息摘要算法计算所述目标数据对应的唯一标识。
3.根据权利要求1所述的方法,其特征在于,所述计算所述目标数据对应的唯一标识包括:
采用循环冗余校验算法计算所述目标数据对应的唯一校验值。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述唯一标识实时更新所述目标数据对应的待统计的目标指标,包括:
从数据库中查找所述目标数据对应的唯一标识;
若查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的活跃度指标。
5.根据权利要求4所述的方法,其特征在于,所述从数据库中查找所述目标数据对应的唯一标识之后,所述方法还包括:
若未查找到所述目标数据对应的唯一标识,则根据所述目标数据实时更新所述目标数据对应的待统计的新增用户指标;其中,所述新增用户指标用于标识新增用户的数目。
6.根据权利要求5所述的方法,其特征在于,若未查找到所述目标数据对应的唯一标识,所述方法还包括:
将所述目标数据对应的唯一标识存储至所述数据库。
7.根据权利要求4所述的方法,其特征在于,所述若查找到所述目标数据,则根据所述目标数据实时更新所述目标数据对应的待统计的活跃度指标,包括:
若查找到所述目标数据对应的唯一标识,则根据所述目标数据对应的唯一标识实时更新所述活跃度指标的活跃度计数值,以及根据所述目标数据对应的获取时间实时更新所述活跃度指标的活跃时间。
8.一种节点设备,其特征在于,包括用于执行如权利要求1-7任一权利要求所述的方法的单元。
9.一种节点设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711094400.3A CN108062350A (zh) | 2017-11-08 | 2017-11-08 | 一种数据处理方法、节点设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711094400.3A CN108062350A (zh) | 2017-11-08 | 2017-11-08 | 一种数据处理方法、节点设备及计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108062350A true CN108062350A (zh) | 2018-05-22 |
Family
ID=62135626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711094400.3A Withdrawn CN108062350A (zh) | 2017-11-08 | 2017-11-08 | 一种数据处理方法、节点设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108062350A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408522A (zh) * | 2018-09-28 | 2019-03-01 | 阿里巴巴集团控股有限公司 | 一种用户特征数据的更新方法和装置 |
CN110471962A (zh) * | 2019-07-05 | 2019-11-19 | 中国平安人寿保险股份有限公司 | 活跃数据报表的生成方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104462500A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 控件活跃度的确定方法、控件处理方法及装置 |
CN104778177A (zh) * | 2014-01-13 | 2015-07-15 | 北大方正集团有限公司 | 数据处理方法及装置 |
CN105138656A (zh) * | 2015-08-31 | 2015-12-09 | 浪潮软件股份有限公司 | 一种处理数据的方法及装置 |
CN105491149A (zh) * | 2015-12-26 | 2016-04-13 | 深圳市金立通信设备有限公司 | 一种数据存储方法及终端 |
-
2017
- 2017-11-08 CN CN201711094400.3A patent/CN108062350A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104778177A (zh) * | 2014-01-13 | 2015-07-15 | 北大方正集团有限公司 | 数据处理方法及装置 |
CN104462500A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 控件活跃度的确定方法、控件处理方法及装置 |
CN105138656A (zh) * | 2015-08-31 | 2015-12-09 | 浪潮软件股份有限公司 | 一种处理数据的方法及装置 |
CN105491149A (zh) * | 2015-12-26 | 2016-04-13 | 深圳市金立通信设备有限公司 | 一种数据存储方法及终端 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408522A (zh) * | 2018-09-28 | 2019-03-01 | 阿里巴巴集团控股有限公司 | 一种用户特征数据的更新方法和装置 |
CN110471962A (zh) * | 2019-07-05 | 2019-11-19 | 中国平安人寿保险股份有限公司 | 活跃数据报表的生成方法和系统 |
CN110471962B (zh) * | 2019-07-05 | 2023-11-03 | 中国平安人寿保险股份有限公司 | 活跃数据报表的生成方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107515890A (zh) | 一种识别常驻点的方法及终端 | |
CN109634819B (zh) | 告警根因定位方法和装置、电子设备 | |
CN107633014A (zh) | 一种数据存储方法及服务器 | |
CN108366096A (zh) | 一种信息订阅方法、终端及计算机可读存储介质 | |
CN107656966A (zh) | 一种处理数据的方法及服务器 | |
CN108241464A (zh) | 一种显示聊天信息的方法、终端及计算机可读存储介质 | |
CN110097170A (zh) | 信息推送对象预测模型获取方法、终端及存储介质 | |
CN105224216B (zh) | 一种用户终端控制方法及用户终端 | |
CN106453904A (zh) | 一种信息提醒的方法及终端 | |
CN108400868A (zh) | 种子密钥的存储方法、装置及移动终端 | |
WO2015057400A1 (en) | Acceleration based on cached flows | |
CN110781183A (zh) | Hive数据库中增量数据的处理方法、装置以及计算机设备 | |
CN109600344A (zh) | 识别风险群体的方法、装置及电子设备 | |
CN113506045A (zh) | 基于移动设备的风险用户识别方法、装置、设备及介质 | |
CN108062350A (zh) | 一种数据处理方法、节点设备及计算机可读介质 | |
CN106250111A (zh) | 一种壁纸获取方法及终端 | |
CN108197002A (zh) | 移动设备无埋点数据统计方法、系统、终端及介质 | |
CN106656752A (zh) | 一种联系人分组的方法及终端 | |
CN107332988A (zh) | 信息处理方法、移动终端及计算机可读存储介质 | |
CN107645583A (zh) | 一种联系人排序方法、移动终端及计算机可读存储介质 | |
CN108092795A (zh) | 一种提示方法、终端设备及计算机可读介质 | |
CN108038563A (zh) | 一种数据预测方法、服务器及计算机可读存储介质 | |
CN107302617A (zh) | 一种数据管理方法及终端 | |
CN107436836A (zh) | 一种日志文件的处理方法及相关设备 | |
CN107404491A (zh) | 终端环境异常检测方法、检测装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20180522 |
|
WW01 | Invention patent application withdrawn after publication |