CN106202280B - 一种信息处理方法及服务器 - Google Patents
一种信息处理方法及服务器 Download PDFInfo
- Publication number
- CN106202280B CN106202280B CN201610507732.9A CN201610507732A CN106202280B CN 106202280 B CN106202280 B CN 106202280B CN 201610507732 A CN201610507732 A CN 201610507732A CN 106202280 B CN106202280 B CN 106202280B
- Authority
- CN
- China
- Prior art keywords
- data
- statistical
- user
- type
- new data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种信息处理方法及服务器,其中方法包括:基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
Description
技术领域
本发明涉及信息处理技术,尤其涉及一种信息处理方法及服务器。
背景技术
目前,大数据处理为信息处理的一种趋势,而在进行大数据采集时,受用户的网络影响,经常会出现用户可能延迟几天或更长时间才能够接收到用户的数据的情况,在进行数据分析的时候,可能就需要重新基于新增的这种延迟数据,对全部的数据重新进行数据分析,或者可能直接根据定义将该数据删除。可以看出,现有技术中对新增的数据的处理存在效率不高以及准确度较低的问题。
发明内容
本发明实施例提供一种信息处理方法及服务器,能够至少解决现有技术中存在的上述问题。
本发明实施例的技术方案是这样实现的:
本发明提供了一种信息处理方法,包括:
基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本发明提供了一种服务器,所述服务器包括:
分组单元,用于基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本发明实施例提供了信息处理方法及服务器,对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的,另外,由于不会出现对数据进行抛弃的情况,从而保证了统计结果的准确度。
附图说明
图1为本发明实施例中信息处理方法的实现流程示意图;
图2为本发明实施例对新增数据进行统计更新的处理流程示意图;
图3为本发明实施例对新增数据进行处理的示意图;
图4为本发明实施例服务器组成结构示意图一;
图5为本发明实施例服务器组成结构示意图二。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例一、
本发明实施例提供了一种信息处理方法,如图1所示,所述方法包括:
步骤101:基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
步骤102:对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
步骤103:对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,所述方法还包括:
判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;
若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
进一步地,本实施例提供的方案无需用户指定针对每一个数据的统计计算方式,系统自动化判断统计属于以下哪类,并根据类别进行统计计算。本实施例中提供的目标统计类型可以包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
具体来说,基于数据进行次数累加的统计类型,可以为针对简单统计比如,针对使用次数、插拔次数类型的数据,直接根据数据进行累加。另外,每一个用户分组可以维护一个预设类型操作的次数统计表。
基于数据的操作用户数量进行累加的统计类型,可以为统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表,将唯一标示(如用户ID)存入维度数据库,采用历史数据的到的统计结果不仅包含用户量数值,还包括ID序列。每一个用户分组可以维护一个用户数量统计表。
基于数据进行操作次数的平均量的统计类型,可以为多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息。每一个用户分组可以维护一个操作次数的平均量统计表。
基于数据对其关联信息进行处理的统计类型,可以为关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
第一种、之前计算时将没有成对的事件当做异常事件,存到异常表中;第二种、之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长。
基于数据进行操作时长的统计类型,可以包括分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计。
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果,可以为将全部分组中的相同的统计类型对应的中间数据统计结果分别进行汇总,得到每一个目标统计类型对应的总汇总结果。
结合上述实施例的说明,对上述针对用户的历史数据进行统计处理的操作进行示例说明:基于历史数据,分析每个用户的数据最常延迟时间(如将经常延迟1天、经常延迟7天的用户分到不同用户组),将类似延迟时间的用户分为一组;
检查每组用户是否分布均匀,均匀则进行数据统计;不均匀,则找出最多用户的用户组,根据常一起出现的用户继续拆分此组,如果不能拆分则将此组用户随机分成两组;
元数据按用户组分别存储到不同文件夹,计算每组用户的统计数据并存储为中间层数据,汇总中间层数据得到完整统计数据;
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。另外,由于不会出现对数据进行抛弃的情况,从而保证了统计结果的准确度。
实施例二、
本发明实施例提供了一种信息处理方法,如图1所示,所述方法包括:
步骤101:基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
步骤102:对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
步骤103:对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,所述方法还包括:
判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;
若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
与实施例一不同之处在于,本实施例在实施例一提供的处理场景的基础上,进一步针对增加的新数据进行处理的方法,具体如图2所示,所述方法还包括:
步骤201:接收到新数据,确定所述新数据对应的第一用户分组,将所述新数据添加至所述第一用户分组的数据信息中;
步骤202:利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
步骤203:对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果。
为了更好的理解针对新增的数据的处理,可以参见图3,对处理方式进行描述,图中可以看出,当前包含有用户分组1以及用户分组2,每一个用户分组均对应有4种目标统计类型,假设均为统计类型一~统计类型四;当接收到新数据时,根据新数据的用户信息,确定新数据为用户分组1中的新增数据;
进一步地,确定该新数据对应的目标统计类型,这里需要理解的是,每一个新数据对应的目标统计类型不一定只有一个,可以有多个,甚至有些数据有可能对应全部的统计类型,那么就可以通过该新数据对每一个目标统计类型都进行更新统计;
再结合图3,假设该新数据对应用户分组1中的类型一,那么就仅采用新数据对用户分组1中的类型一进行重新统计计算即可,最终采用更新后的类型一,对总统计结果再次进行更新。
下面,结合本实施例中提出的上述多个目标统计类型,分别说明针对每一个目标统计类型如何进行增量数据的统计处理进行说明:
第一、基于数据进行次数累加的统计类型的处理方式,可以为:每一个用户分组可以维护一个预设类型操作的次数统计表,也就是在新数据为本目标类型对应的数据时,可以直接在预设类型操作的次数统计表中进行增加。也就是说这种统计类型有新数据时,简单的进行数值直接加减即可。
第二、基于数据的操作用户数量进行累加的统计类型的处理方式,可以为:当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;
若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
也就是说,统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表(用户数量统计表),将唯一标示(如用户ID)存入维度数据库,历史计算结果不仅包含用户量数值,还包括ID序列,有新数据时与ID序列比较,即可增量更新。
第三、基于数据进行操作次数的平均量的统计类型,可以为,多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息,有新数据时根据①、②步增量更新每个维度信息,再根据新的信息组合计算即可。
第四、基于数据对其关联信息进行处理的统计类型,具体为:所述利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;
若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中;若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
进一步地,所述将所述异常操作事件添加至异常事件表中之后,所述方法还包括:基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;相应的,所述基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新,包括:基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
也就是说,关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
之前计算时将没有成对的事件当做异常事件,存到异常表中,接收到新数据后与异常数据表关联后,直接与历史统计结果加减即可,此方法是计算简单,但会导致后续事件没到来时,历史统计结果误差较大;
之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长;接收到新数据后与补全事件中的事件匹配,计算出准确时长,用所有准确时长减去之前补全时长加上历史时长,便完成增量更新。
第五、基于数据进行操作时长的统计类型,分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计,加入新数据后若用户所属组由a改变成b,则将a组用户量减一,b组用户量加1;若用户所属组不变,则结果不变。
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。
另外,本实施例还提供将新数据划分到对应的用户分组,并且利用新数据对用户分组对应的目标统计类型进行更新统计,再根据更新后的中间统计结果对总统计结果进行更新。如此,当存在数据增量更新的情况下,能够仅在一个用户组内进行统计数据的更新,最终就可以完成总统计结果的更新,而避免了对整体数据再次进行计算所带来的耗时问题。另外,由于不会出现对数据进行抛弃的情况,从而保证了统计结果的准确度。
实施例三、
本发明实施例提供了一种服务器,如图4所示,包括:
分组单元41,用于基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元42,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元43,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
分组单元41,用于可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,所述分组单元41,用于判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
进一步地,本实施例提供的方案无需用户指定针对每一个数据的统计计算方式,系统自动化判断统计属于以下哪类,并根据类别进行统计计算。本实施例中提供的目标统计类型可以包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
具体来说,基于数据进行次数累加的统计类型,可以为针对简单统计比如,针对使用次数、插拔次数类型的数据,直接根据数据进行累加。另外,每一个用户分组可以维护一个预设类型操作的次数统计表。
基于数据的操作用户数量进行累加的统计类型,可以为统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表,将唯一标示(如用户ID)存入维度数据库,采用历史数据的到的统计结果不仅包含用户量数值,还包括ID序列。每一个用户分组可以维护一个用户数量统计表。
基于数据进行操作次数的平均量的统计类型,可以为多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息。每一个用户分组可以维护一个操作次数的平均量统计表。
基于数据对其关联信息进行处理的统计类型,可以为关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
第一种、之前计算时将没有成对的事件当做异常事件,存到异常表中;第二种、之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长。
基于数据进行操作时长的统计类型,可以包括分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计。
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果,可以为将全部分组中的相同的统计类型对应的中间数据统计结果分别进行汇总,得到每一个目标统计类型对应的总汇总结果。
结合上述实施例的说明,对上述针对用户的历史数据进行统计处理的操作进行示例说明:基于历史数据,分析每个用户的数据最常延迟时间(如将经常延迟1天、经常延迟7天的用户分到不同用户组),将类似延迟时间的用户分为一组;
检查每组用户是否分布均匀,均匀则进行数据统计;不均匀,则找出最多用户的用户组,根据常一起出现的用户继续拆分此组,如果不能拆分则将此组用户随机分成两组;
元数据按用户组分别存储到不同文件夹,计算每组用户的统计数据并存储为中间层数据,汇总中间层数据得到完整统计数据;
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。
实施例四、
本发明实施例提供了一种服务器,如图5所示,包括:
分组单元51,用于基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元52,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元53,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
分组单元51,用于可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,分组单元51,用于判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
本实施例进一步针对增加的新数据进行处理的方法,具体如图5所示,所述服务器还包括:
数据接收单元54,用于接收到新数据;
相应的,分组单元51,还用于确定所述新数据对应的第一用户分组;将所述新数据添加至所述第一用户分组的数据信息中;
中间统计单元52,用于利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
汇总单元53,用于对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果。
为了更好的理解针对新增的数据的处理,可以参见图3,对处理方式进行描述,图中可以看出,当前包含有用户分组1以及用户分组2,每一个用户分组均对应有4种目标统计类型,假设均为类型一~类型四;当接收到新数据时,根据新数据的用户信息,确定新数据为用户分组1中的新增数据;
进一步地,确定该新数据对应的目标统计类型,这里需要理解的是,每一个新数据对应的目标统计类型不一定只有一个,可以有多个,甚至有些数据有可能对应全部的统计类型,那么就可以通过该新数据对每一个目标统计类型都进行更新统计;
再结合图3,假设该新数据对应用户分组1中的类型一,那么就仅采用新数据对用户分组1中的类型一进行重新统计计算即可,最终采用更新后的类型一,对总统计结果再次进行更新。
下面,结合本实施例中提出的上述多个目标统计类型,分别说明针对每一个目标统计类型如何进行增量数据的统计处理进行说明:
第一、基于数据进行次数累加的统计类型的处理方式,可以为:每一个用户分组可以维护一个预设类型操作的次数统计表,也就是在新数据为本目标类型对应的数据时,可以直接在预设类型操作的次数统计表中进行增加。也就是说这种统计类型有新数据时,简单的进行数值直接加减即可。
第二、基于数据的操作用户数量进行累加的统计类型的处理方式,可以为:当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;
若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
也就是说,统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表(用户数量统计表),将唯一标示(如用户ID)存入维度数据库,历史计算结果不仅包含用户量数值,还包括ID序列,有新数据时与ID序列比较,即可增量更新。
第三、基于数据进行操作次数的平均量的统计类型,可以为,多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息,有新数据时根据①、②步增量更新每个维度信息,再根据新的信息组合计算即可。
第四、基于数据对其关联信息进行处理的统计类型,具体为:所述利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;
若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中;若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
进一步地,所述将所述异常操作事件添加至异常事件表中之后,所述方法还包括:基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;相应的,所述基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新,包括:基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
也就是说,关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
之前计算时将没有成对的事件当做异常事件,存到异常表中,接收到新数据后与异常数据表关联后,直接与历史统计结果加减即可,此方法是计算简单,但会导致后续事件没到来时,历史统计结果误差较大;
之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长;接收到新数据后与补全事件中的事件匹配,计算出准确时长,用所有准确时长减去之前补全时长加上历史时长,便完成增量更新。
第五、基于数据进行操作时长的统计类型,分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计,加入新数据后若用户所属组由a改变成b,则将a组用户量减一,b组用户量加1;若用户所属组不变,则结果不变。
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。
另外,本实施例还提供将新数据划分到对应的用户分组,并且利用新数据对用户分组对应的目标统计类型进行更新统计,再根据更新后的中间统计结果对总统计结果进行更新。如此,当存在数据增量更新的情况下,能够仅在一个用户组内进行统计数据的更新,最终就可以完成总统计结果的更新,而避免了对整体数据再次进行计算所带来的耗时问题。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种信息处理方法,所述方法包括:
根据用户的历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组,并确定每一个用户分组的数据信息;
对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果;
其中,所述特征信息表征数据延迟时间;
其中,接收到新数据,确定所述新数据对应的第一用户分组,将所述新数据添加至所述第一用户分组的数据信息中;
利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果;
其中,利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;
若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中。
2.根据权利要求1所述的方法,其特征在于,所述目标统计类型包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
3.根据权利要求1或2所述的方法,其特征在于,所述利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;
若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
5.根据权利要求4所述的方法,其特征在于,所述将所述异常操作事件添加至异常事件表中之后,所述方法还包括:
基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;
相应的,所述基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新,包括:
基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
6.一种信息处理服务器,其特征在于,所述信息处理服务器包括:
分组单元,用于根据用户的历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果;
其中,所述特征信息表征数据延迟时间;
数据接收单元,用于接收到新数据;
相应的,分组单元,还用于确定所述新数据对应的第一用户分组;将所述新数据添加至所述第一用户分组的数据信息中;
中间统计单元,用于利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
汇总单元,用于对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果;
其中,所述中间统计单元,用于当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中。
7.根据权利要求6所述的信息处理服务器,其特征在于,所述目标统计类型包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
8.根据权利要求6或7所述的信息处理服务器,其特征在于,
所述中间统计单元,用于当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
9.根据权利要求8所述的信息处理服务器,其特征在于,
所述中间统计单元,还用于当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
10.根据权利要求9所述的信息处理服务器,其特征在于,
所述中间统计单元,用于基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610507732.9A CN106202280B (zh) | 2016-06-29 | 2016-06-29 | 一种信息处理方法及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610507732.9A CN106202280B (zh) | 2016-06-29 | 2016-06-29 | 一种信息处理方法及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202280A CN106202280A (zh) | 2016-12-07 |
CN106202280B true CN106202280B (zh) | 2020-06-23 |
Family
ID=57464471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610507732.9A Active CN106202280B (zh) | 2016-06-29 | 2016-06-29 | 一种信息处理方法及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202280B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038218B (zh) * | 2017-03-17 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 报表处理方法和系统 |
CN113285815B (zh) * | 2017-09-22 | 2023-05-30 | 创新先进技术有限公司 | 群聊场景下的人员统计、加入群组方法、装置及设备 |
CN109558432A (zh) * | 2017-09-27 | 2019-04-02 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN110019355A (zh) * | 2017-09-27 | 2019-07-16 | 北京国双科技有限公司 | 独立数据计算方法及装置 |
CN110457649B (zh) * | 2018-05-07 | 2021-05-04 | 华为技术有限公司 | 数据批量选择的方法、装置和计算机存储介质 |
CN111221698A (zh) * | 2018-11-26 | 2020-06-02 | 北京京东金融科技控股有限公司 | 任务数据采集方法与装置 |
CN112328688B (zh) * | 2020-11-09 | 2023-10-13 | 广州虎牙科技有限公司 | 数据存储方法、装置、计算机设备及存储介质 |
CN113516536A (zh) * | 2021-07-21 | 2021-10-19 | 福建天晴数码有限公司 | 一种分布式处理订单大数据的方法及系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7555499B2 (en) * | 2004-08-17 | 2009-06-30 | Oracle International Corporation | Diagnosing database performance problems using a plurality of wait classes |
US20060294058A1 (en) * | 2005-06-28 | 2006-12-28 | Microsoft Corporation | System and method for an asynchronous queue in a database management system |
CN102880676A (zh) * | 2012-09-10 | 2013-01-16 | 新浪网技术(中国)有限公司 | 统计用户行为数据的方法及用户行为数据统计系统 |
CN102946319B (zh) * | 2012-09-29 | 2015-12-16 | 焦点科技股份有限公司 | 网络用户行为信息分析系统及其分析方法 |
CN103366020A (zh) * | 2013-08-06 | 2013-10-23 | 刘临 | 用户行为分析系统及方法 |
CN105094305B (zh) * | 2014-05-22 | 2018-05-18 | 华为技术有限公司 | 识别用户行为的方法、用户设备及行为识别服务器 |
CN104199945A (zh) * | 2014-09-10 | 2014-12-10 | 北京国双科技有限公司 | 数据存储方法和装置 |
CN104598551B (zh) * | 2014-12-31 | 2018-06-05 | 华为软件技术有限公司 | 一种数据统计方法及装置 |
CN104822156B (zh) * | 2015-04-01 | 2018-12-11 | 中国联合网络通信集团有限公司 | 一种用户行为分析的方法及装置 |
-
2016
- 2016-06-29 CN CN201610507732.9A patent/CN106202280B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106202280A (zh) | 2016-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106202280B (zh) | 一种信息处理方法及服务器 | |
EP3117347B1 (en) | Systems and methods for rapid data analysis | |
US20160253425A1 (en) | Bloom filter based log data analysis | |
US10452676B2 (en) | Managing database with counting bloom filters | |
CN104717120B (zh) | 确定信息发送时间的方法和装置 | |
CN111177201B (zh) | 一种数据流处理的方法以及相关装置 | |
CN104731816A (zh) | 一种处理异常业务数据的方法和装置 | |
WO2016178316A1 (ja) | 計算機調達予測装置、計算機調達予測方法、及び、プログラム | |
CN106936778B (zh) | 网站流量异常的检测方法和装置 | |
WO2014183567A1 (en) | Method and apparatus for dynamically adjusting target data hits based on time ontervals | |
CN111476375B (zh) | 一种确定识别模型的方法、装置、电子设备及存储介质 | |
CN113177050A (zh) | 一种数据均衡的方法、装置、查询系统及存储介质 | |
CN111737555A (zh) | 热点关键词的选取方法、设备和存储介质 | |
CN109947713B (zh) | 一种日志的监控方法及装置 | |
WO2019019387A1 (zh) | 信息推送建议生成方法、装置、计算机设备和存储介质 | |
CN109542909B (zh) | 识别大数据存储系统中的关联性存储设备的方法及系统 | |
CN109062638B (zh) | 一种系统组件显示方法、计算机可读存储介质及终端设备 | |
CN110688395A (zh) | 一种信息查询方法、装置、信息统计方法及相关设备 | |
CN110019054B (zh) | 日志去重方法和系统、内容分发网络系统 | |
CN115759250A (zh) | 归因分析方法、装置、电子设备以及存储介质 | |
CN108881591B (zh) | 一种多平台信息推荐方法、装置及存储介质 | |
CN110866003B (zh) | 索引值数目的估算方法和装置以及电子设备 | |
KR101329976B1 (ko) | 리포트 생성 방법 및 시스템 | |
CN112149036A (zh) | 一种批量非正常互动行为的识别方法及系统 | |
CN107948738B (zh) | 一种网络电视去重用户数的计算方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |