CN106202280A - 一种信息处理方法及服务器 - Google Patents

一种信息处理方法及服务器 Download PDF

Info

Publication number
CN106202280A
CN106202280A CN201610507732.9A CN201610507732A CN106202280A CN 106202280 A CN106202280 A CN 106202280A CN 201610507732 A CN201610507732 A CN 201610507732A CN 106202280 A CN106202280 A CN 106202280A
Authority
CN
China
Prior art keywords
data
user
type
new data
statistics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610507732.9A
Other languages
English (en)
Other versions
CN106202280B (zh
Inventor
张龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201610507732.9A priority Critical patent/CN106202280B/zh
Publication of CN106202280A publication Critical patent/CN106202280A/zh
Application granted granted Critical
Publication of CN106202280B publication Critical patent/CN106202280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Abstract

本发明公开了一种信息处理方法及服务器,其中方法包括:基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。

Description

一种信息处理方法及服务器
技术领域
本发明涉及信息处理技术,尤其涉及一种信息处理方法及服务器。
背景技术
目前,大数据处理为信息处理的一种趋势,而在进行大数据采集时,受用户的网络影响,经常会出现用户可能延迟几天或更长时间才能够接收到用户的数据的情况,在进行数据分析的时候,可能就需要重新基于新增的这种延迟数据,对全部的数据重新进行数据分析,或者可能直接根据定义将该数据删除。可以看出,现有技术中对新增的数据的处理存在效率不高以及准确度较低的问题。
发明内容
本发明实施例提供一种信息处理方法及服务器,能够至少解决现有技术中存在的上述问题。
本发明实施例的技术方案是这样实现的:
本发明提供了一种信息处理方法,包括:
基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本发明提供了一种服务器,所述服务器包括:
分组单元,用于基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本发明实施例提供了信息处理方法及服务器,对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的,另外,由于不会出现对数据进行抛弃的情况,从而保证了统计结果的准确度。
附图说明
图1为本发明实施例中信息处理方法的实现流程示意图;
图2为本发明实施例对新增数据进行统计更新的处理流程示意图;
图3为本发明实施例对新增数据进行处理的示意图;
图4为本发明实施例服务器组成结构示意图一;
图5为本发明实施例服务器组成结构示意图二。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例一、
本发明实施例提供了一种信息处理方法,如图1所示,所述方法包括:
步骤101:基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
步骤102:对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
步骤103:对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,所述方法还包括:
判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;
若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
进一步地,本实施例提供的方案无需用户指定针对每一个数据的统计计算方式,系统自动化判断统计属于以下哪类,并根据类别进行统计计算。本实施例中提供的目标统计类型可以包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
具体来说,基于数据进行次数累加的统计类型,可以为针对简单统计比如,针对使用次数、插拔次数类型的数据,直接根据数据进行累加。另外,每一个用户分组可以维护一个预设类型操作的次数统计表。
基于数据的操作用户数量进行累加的统计类型,可以为统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表,将唯一标示(如用户ID)存入维度数据库,采用历史数据的到的统计结果不仅包含用户量数值,还包括ID序列。每一个用户分组可以维护一个用户数量统计表。
基于数据进行操作次数的平均量的统计类型,可以为多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息。每一个用户分组可以维护一个操作次数的平均量统计表。
基于数据对其关联信息进行处理的统计类型,可以为关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
第一种、之前计算时将没有成对的事件当做异常事件,存到异常表中;第二种、之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长。
基于数据进行操作时长的统计类型,可以包括分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计。
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果,可以为将全部分组中的相同的统计类型对应的中间数据统计结果分别进行汇总,得到每一个目标统计类型对应的总汇总结果。
结合上述实施例的说明,对上述针对用户的历史数据进行统计处理的操作进行示例说明:基于历史数据,分析每个用户的数据最常延迟时间(如将经常延迟1天、经常延迟7天的用户分到不同用户组),将类似延迟时间的用户分为一组;
检查每组用户是否分布均匀,均匀则进行数据统计;不均匀,则找出最多用户的用户组,根据常一起出现的用户继续拆分此组,如果不能拆分则将此组用户随机分成两组;
元数据按用户组分别存储到不同文件夹,计算每组用户的统计数据并存储为中间层数据,汇总中间层数据得到完整统计数据;
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。另外,由于不会出现对数据进行抛弃的情况,从而保证了统计结果的准确度。
实施例二、
本发明实施例提供了一种信息处理方法,如图1所示,所述方法包括:
步骤101:基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
步骤102:对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
步骤103:对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,所述方法还包括:
判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;
若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
与实施例一不同之处在于,本实施例在实施例一提供的处理场景的基础上,进一步针对增加的新数据进行处理的方法,具体如图2所示,所述方法还包括:
步骤201:接收到新数据,确定所述新数据对应的第一用户分组,将所述新数据添加至所述第一用户分组的数据信息中;
步骤202:利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
步骤203:对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果。
为了更好的理解针对新增的数据的处理,可以参见图3,对处理方式进行描述,图中可以看出,当前包含有用户分组1以及用户分组2,每一个用户分组均对应有4种目标统计类型,假设均为统计类型一~统计类型四;当接收到新数据时,根据新数据的用户信息,确定新数据为用户分组1中的新增数据;
进一步地,确定该新数据对应的目标统计类型,这里需要理解的是,每一个新数据对应的目标统计类型不一定只有一个,可以有多个,甚至有些数据有可能对应全部的统计类型,那么就可以通过该新数据对每一个目标统计类型都进行更新统计;
再结合图3,假设该新数据对应用户分组1中的类型一,那么就仅采用新数据对用户分组1中的类型一进行重新统计计算即可,最终采用更新后的类型一,对总统计结果再次进行更新。
下面,结合本实施例中提出的上述多个目标统计类型,分别说明针对每一个目标统计类型如何进行增量数据的统计处理进行说明:
第一、基于数据进行次数累加的统计类型的处理方式,可以为:每一个用户分组可以维护一个预设类型操作的次数统计表,也就是在新数据为本目标类型对应的数据时,可以直接在预设类型操作的次数统计表中进行增加。也就是说这种统计类型有新数据时,简单的进行数值直接加减即可。
第二、基于数据的操作用户数量进行累加的统计类型的处理方式,可以为:当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;
若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
也就是说,统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表(用户数量统计表),将唯一标示(如用户ID)存入维度数据库,历史计算结果不仅包含用户量数值,还包括ID序列,有新数据时与ID序列比较,即可增量更新。
第三、基于数据进行操作次数的平均量的统计类型,可以为,多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息,有新数据时根据①、②步增量更新每个维度信息,再根据新的信息组合计算即可。
第四、基于数据对其关联信息进行处理的统计类型,具体为:所述利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;
若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中;若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
进一步地,所述将所述异常操作事件添加至异常事件表中之后,所述方法还包括:基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;相应的,所述基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新,包括:基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
也就是说,关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
之前计算时将没有成对的事件当做异常事件,存到异常表中,接收到新数据后与异常数据表关联后,直接与历史统计结果加减即可,此方法是计算简单,但会导致后续事件没到来时,历史统计结果误差较大;
之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长;接收到新数据后与补全事件中的事件匹配,计算出准确时长,用所有准确时长减去之前补全时长加上历史时长,便完成增量更新。
第五、基于数据进行操作时长的统计类型,分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计,加入新数据后若用户所属组由a改变成b,则将a组用户量减一,b组用户量加1;若用户所属组不变,则结果不变。
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。
另外,本实施例还提供将新数据划分到对应的用户分组,并且利用新数据对用户分组对应的目标统计类型进行更新统计,再根据更新后的中间统计结果对总统计结果进行更新。如此,当存在数据增量更新的情况下,能够仅在一个用户组内进行统计数据的更新,最终就可以完成总统计结果的更新,而避免了对整体数据再次进行计算所带来的耗时问题。另外,由于不会出现对数据进行抛弃的情况,从而保证了统计结果的准确度。
实施例三、
本发明实施例提供了一种服务器,如图4所示,包括:
分组单元41,用于基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元42,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元43,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
分组单元41,用于可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,所述分组单元41,用于判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
进一步地,本实施例提供的方案无需用户指定针对每一个数据的统计计算方式,系统自动化判断统计属于以下哪类,并根据类别进行统计计算。本实施例中提供的目标统计类型可以包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
具体来说,基于数据进行次数累加的统计类型,可以为针对简单统计比如,针对使用次数、插拔次数类型的数据,直接根据数据进行累加。另外,每一个用户分组可以维护一个预设类型操作的次数统计表。
基于数据的操作用户数量进行累加的统计类型,可以为统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表,将唯一标示(如用户ID)存入维度数据库,采用历史数据的到的统计结果不仅包含用户量数值,还包括ID序列。每一个用户分组可以维护一个用户数量统计表。
基于数据进行操作次数的平均量的统计类型,可以为多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息。每一个用户分组可以维护一个操作次数的平均量统计表。
基于数据对其关联信息进行处理的统计类型,可以为关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
第一种、之前计算时将没有成对的事件当做异常事件,存到异常表中;第二种、之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长。
基于数据进行操作时长的统计类型,可以包括分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计。
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果,可以为将全部分组中的相同的统计类型对应的中间数据统计结果分别进行汇总,得到每一个目标统计类型对应的总汇总结果。
结合上述实施例的说明,对上述针对用户的历史数据进行统计处理的操作进行示例说明:基于历史数据,分析每个用户的数据最常延迟时间(如将经常延迟1天、经常延迟7天的用户分到不同用户组),将类似延迟时间的用户分为一组;
检查每组用户是否分布均匀,均匀则进行数据统计;不均匀,则找出最多用户的用户组,根据常一起出现的用户继续拆分此组,如果不能拆分则将此组用户随机分成两组;
元数据按用户组分别存储到不同文件夹,计算每组用户的统计数据并存储为中间层数据,汇总中间层数据得到完整统计数据;
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。
实施例四、
本发明实施例提供了一种服务器,如图5所示,包括:
分组单元51,用于基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元52,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元53,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
本实施例可以应用于服务器侧。通过采用上述方案能够将数据放入分布式的处理系统中,进行不同统计类型的处理。
下面,首先对如何基于用户的历史数据,对用户进行分组得到至少一个用户分组进行说明:
分组单元51,用于可以为根据用户的所述历史数据分析得到所述用户的特征信息,根据所述特征信息对用户进行分组,得到至少一个用户分组。
其中,所述特征信息可以为用户的数据延迟时间,比如,用户A接收到的历史数据通常为延迟1天的,那么该用户的特征信息可以为延迟1天。
在上述处理基础上,下面介绍关于如何进行分组之后的调整处理,所述对用户进行分组得到至少一个用户分组之后,分组单元51,用于判断每一个用户分组中包含的用户数量是否满足预设条件;其中,所述预设条件表征至少一个用户分组中包含的用户数量之间的差值小于预设门限值;若不满足所述预设条件,则选取用户数量最多的一个用户分组,将选取的所述用户分组中的用户重新分组。
也就是说,判断每一个用户分组所包含的用户数量是否平均,通过将用户分组中包含的用户数量尽量的分配均匀保证每一组的处理时长相差不大,并且能够保证整体的处理速度得到保证,不会因为某一个用户分组由于用户数量较大导致处理时间较长,从而影响整体的处理速度。
本实施例进一步针对增加的新数据进行处理的方法,具体如图5所示,所述服务器还包括:
数据接收单元54,用于接收到新数据;
相应的,分组单元51,还用于确定所述新数据对应的第一用户分组;将所述新数据添加至所述第一用户分组的数据信息中;
中间统计单元52,用于利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
汇总单元53,用于对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果。
为了更好的理解针对新增的数据的处理,可以参见图3,对处理方式进行描述,图中可以看出,当前包含有用户分组1以及用户分组2,每一个用户分组均对应有4种目标统计类型,假设均为类型一~类型四;当接收到新数据时,根据新数据的用户信息,确定新数据为用户分组1中的新增数据;
进一步地,确定该新数据对应的目标统计类型,这里需要理解的是,每一个新数据对应的目标统计类型不一定只有一个,可以有多个,甚至有些数据有可能对应全部的统计类型,那么就可以通过该新数据对每一个目标统计类型都进行更新统计;
再结合图3,假设该新数据对应用户分组1中的类型一,那么就仅采用新数据对用户分组1中的类型一进行重新统计计算即可,最终采用更新后的类型一,对总统计结果再次进行更新。
下面,结合本实施例中提出的上述多个目标统计类型,分别说明针对每一个目标统计类型如何进行增量数据的统计处理进行说明:
第一、基于数据进行次数累加的统计类型的处理方式,可以为:每一个用户分组可以维护一个预设类型操作的次数统计表,也就是在新数据为本目标类型对应的数据时,可以直接在预设类型操作的次数统计表中进行增加。也就是说这种统计类型有新数据时,简单的进行数值直接加减即可。
第二、基于数据的操作用户数量进行累加的统计类型的处理方式,可以为:当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;
若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
也就是说,统计维度有重复值存在的情况(如:使用USB的用户量,简单相加可能导致一个用户被计算多次,导致用户量不准),可建立中间数据表(用户数量统计表),将唯一标示(如用户ID)存入维度数据库,历史计算结果不仅包含用户量数值,还包括ID序列,有新数据时与ID序列比较,即可增量更新。
第三、基于数据进行操作次数的平均量的统计类型,可以为,多维度组合情况(如:平均开机次数等),存储组合数据用到的所有多维数据信息,有新数据时根据①、②步增量更新每个维度信息,再根据新的信息组合计算即可。
第四、基于数据对其关联信息进行处理的统计类型,具体为:所述利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;
若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中;若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
进一步地,所述将所述异常操作事件添加至异常事件表中之后,所述方法还包括:基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;相应的,所述基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新,包括:基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
也就是说,关联数据情况(如:软件使用时长需要软件打开、软件关闭信息等),若之前只收到软件打开信息,软件关闭信息在几天后接收到,此时有两种处理方案:
之前计算时将没有成对的事件当做异常事件,存到异常表中,接收到新数据后与异常数据表关联后,直接与历史统计结果加减即可,此方法是计算简单,但会导致后续事件没到来时,历史统计结果误差较大;
之前计算时将没有成对的事件补全(通过整点、下一个开始事件、关机事件等),并将补全后事件存入补全事件表中,并记录时长;接收到新数据后与补全事件中的事件匹配,计算出准确时长,用所有准确时长减去之前补全时长加上历史时长,便完成增量更新。
第五、基于数据进行操作时长的统计类型,分组数据情况(如:将开机时长分组,统计各组用户量),历史结果中加入每个用户所属组的统计,加入新数据后若用户所属组由a改变成b,则将a组用户量减一,b组用户量加1;若用户所属组不变,则结果不变。
可见,通过采用上述方案,就能够对根据数据对用户进行分组,并且基于用户分组中的数据进行至少一个目标统计类型的统计处理,得到每一个用户分组对应的多个目标统计类型的中间数据统计结果,进而根据中间数据统计结果进行汇总得到总统计结果。如此,就能够通过分组进行数据统计,得到数据量较小的中间层次的统计结果,再进行汇总处理,从而达到的提高数据统计的处理效率的目的。
另外,本实施例还提供将新数据划分到对应的用户分组,并且利用新数据对用户分组对应的目标统计类型进行更新统计,再根据更新后的中间统计结果对总统计结果进行更新。如此,当存在数据增量更新的情况下,能够仅在一个用户组内进行统计数据的更新,最终就可以完成总统计结果的更新,而避免了对整体数据再次进行计算所带来的耗时问题。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种信息处理方法,所述方法包括:
基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
2.根据权利要求1所述的方法,其特征在于,所述目标统计类型包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
接收到新数据,确定所述新数据对应的第一用户分组,将所述新数据添加至所述第一用户分组的数据信息中;
利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果。
4.根据权利要求3所述的方法,其特征在于,所述利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;
若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
5.根据权利要求3所述的方法,其特征在于,所述利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果,包括:
当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;
若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中;
若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
6.根据权利要求5所述的方法,其特征在于,所述将所述异常操作事件添加至异常事件表中之后,所述方法还包括:
基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;
相应的,所述基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新,包括:
基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
7.一种服务器,其特征在于,所述服务器包括:
分组单元,用于基于用户的历史数据,对用户进行分组得到至少一个用户分组,并确定每一个用户分组的数据信息;
中间统计单元,用于对所述每一个用户分组的数据信息进行至少一个目标统计类型的统计,得到每一个用户分组中每一个目标统计类型对应的中间数据统计结果;
汇总单元,用于对所述每一个用户分组的每一个目标统计类型对应的中间数据统计结果进行汇总得到总统计结果。
8.根据权利要求7所述的服务器,其特征在于,所述目标统计类型包括以下至少之一:
基于数据进行次数累加的统计类型;
基于数据的操作用户数量进行累加的统计类型;
基于数据进行操作次数的平均量的统计类型;
基于数据对其关联信息进行处理的统计类型;
基于数据进行操作时长的统计类型。
9.根据权利要求7或8所述的服务器,其特征在于,所述服务器还包括:
数据接收单元,用于接收到新数据;
相应的,分组单元,还用于确定所述新数据对应的第一用户分组;将所述新数据添加至所述第一用户分组的数据信息中;
中间统计单元,用于利用所述新数据对所述第一用户分组进行至少一个目标统计类型的统计,得到第一用户分组更新后的中间数据统计结果;
汇总单元,用于对所述第一用户分组的每一个目标统计类型对应的更新的中间数据统计结果,确定更新后的每一个目标统计类型的总统计结果。
10.根据权利要求9所述的服务器,其特征在于,
所述中间统计单元,用于当确定所述新数据对应的目标统计类型为基于数据的操作用户数量进行累加的统计类型时,基于所述新数据对应的用户的标识信息查找保存的用户数量统计表;若所述用户的标识信息保存于用户数量统计表,则不对所述用户数量统计表进行更新;若所述用户的标识信息未保存于用户数量统计表,则基于所述用户的标识信息对所述用户数量统计表进行更新。
11.根据权利要求10所述的服务器,其特征在于,
所述中间统计单元,用于当确定所述新数据对应的目标统计类型为基于所述数据对其关联信息进行处理的统计类型时,判断所述新数据是否存在对应的关联信息;若未保存有所述新数据对应的关联信息,则将所述新数据作为异常操作事件,并将所述异常操作事件添加至异常事件表中;若保存有所述新数据对应的关联信息,则基于所述新数据补全所述异常事件表中的异常事件,基于补全的异常事件完成统计更新。
12.根据权利要求11所述的服务器,其特征在于,
所述中间统计单元,用于基于预设的补全规则,生成预测补全时长,基于所述预测补全时长将所述异常事件补全;基于所述新数据补全所述异常事件表中的异常事件后,基于补全时长以及预测补全时长,确定基于所述新数据对其关联信息进行处理的完成统计更新。
CN201610507732.9A 2016-06-29 2016-06-29 一种信息处理方法及服务器 Active CN106202280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610507732.9A CN106202280B (zh) 2016-06-29 2016-06-29 一种信息处理方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610507732.9A CN106202280B (zh) 2016-06-29 2016-06-29 一种信息处理方法及服务器

Publications (2)

Publication Number Publication Date
CN106202280A true CN106202280A (zh) 2016-12-07
CN106202280B CN106202280B (zh) 2020-06-23

Family

ID=57464471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610507732.9A Active CN106202280B (zh) 2016-06-29 2016-06-29 一种信息处理方法及服务器

Country Status (1)

Country Link
CN (1) CN106202280B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038218A (zh) * 2017-03-17 2017-08-11 腾讯科技(深圳)有限公司 报表处理方法和系统
CN107682249A (zh) * 2017-09-22 2018-02-09 阿里巴巴集团控股有限公司 群聊场景下的人员统计、加入群组方法、装置及设备
CN109558432A (zh) * 2017-09-27 2019-04-02 北京国双科技有限公司 数据处理方法及装置
CN110019355A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 独立数据计算方法及装置
CN110457649A (zh) * 2018-05-07 2019-11-15 华为技术有限公司 数据批量选择的方法和装置
CN111221698A (zh) * 2018-11-26 2020-06-02 北京京东金融科技控股有限公司 任务数据采集方法与装置
CN112328688A (zh) * 2020-11-09 2021-02-05 广州虎牙科技有限公司 数据存储方法、装置、计算机设备及存储介质
CN113516536A (zh) * 2021-07-21 2021-10-19 福建天晴数码有限公司 一种分布式处理订单大数据的方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059205A1 (en) * 2004-08-17 2006-03-16 Shah Vipul M Diagnosing database performance problems using a plurality of wait classes
US20060294058A1 (en) * 2005-06-28 2006-12-28 Microsoft Corporation System and method for an asynchronous queue in a database management system
CN102880676A (zh) * 2012-09-10 2013-01-16 新浪网技术(中国)有限公司 统计用户行为数据的方法及用户行为数据统计系统
CN102946319A (zh) * 2012-09-29 2013-02-27 焦点科技股份有限公司 网络用户行为信息分析系统及其分析方法
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
CN104199945A (zh) * 2014-09-10 2014-12-10 北京国双科技有限公司 数据存储方法和装置
CN104598551A (zh) * 2014-12-31 2015-05-06 华为软件技术有限公司 一种数据统计方法及装置
CN104822156A (zh) * 2015-04-01 2015-08-05 中国联合网络通信集团有限公司 一种用户行为分析的方法及装置
CN105094305A (zh) * 2014-05-22 2015-11-25 华为技术有限公司 识别用户行为的方法、用户设备及行为识别服务器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060059205A1 (en) * 2004-08-17 2006-03-16 Shah Vipul M Diagnosing database performance problems using a plurality of wait classes
US20060294058A1 (en) * 2005-06-28 2006-12-28 Microsoft Corporation System and method for an asynchronous queue in a database management system
CN102880676A (zh) * 2012-09-10 2013-01-16 新浪网技术(中国)有限公司 统计用户行为数据的方法及用户行为数据统计系统
CN102946319A (zh) * 2012-09-29 2013-02-27 焦点科技股份有限公司 网络用户行为信息分析系统及其分析方法
CN103366020A (zh) * 2013-08-06 2013-10-23 刘临 用户行为分析系统及方法
CN105094305A (zh) * 2014-05-22 2015-11-25 华为技术有限公司 识别用户行为的方法、用户设备及行为识别服务器
CN104199945A (zh) * 2014-09-10 2014-12-10 北京国双科技有限公司 数据存储方法和装置
CN104598551A (zh) * 2014-12-31 2015-05-06 华为软件技术有限公司 一种数据统计方法及装置
CN104822156A (zh) * 2015-04-01 2015-08-05 中国联合网络通信集团有限公司 一种用户行为分析的方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038218A (zh) * 2017-03-17 2017-08-11 腾讯科技(深圳)有限公司 报表处理方法和系统
CN107038218B (zh) * 2017-03-17 2023-11-17 腾讯科技(深圳)有限公司 报表处理方法和系统
CN107682249A (zh) * 2017-09-22 2018-02-09 阿里巴巴集团控股有限公司 群聊场景下的人员统计、加入群组方法、装置及设备
CN107682249B (zh) * 2017-09-22 2021-05-04 创新先进技术有限公司 群聊场景下的人员统计、加入群组方法、装置及设备
CN109558432A (zh) * 2017-09-27 2019-04-02 北京国双科技有限公司 数据处理方法及装置
CN110019355A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 独立数据计算方法及装置
CN110457649A (zh) * 2018-05-07 2019-11-15 华为技术有限公司 数据批量选择的方法和装置
CN110457649B (zh) * 2018-05-07 2021-05-04 华为技术有限公司 数据批量选择的方法、装置和计算机存储介质
CN111221698A (zh) * 2018-11-26 2020-06-02 北京京东金融科技控股有限公司 任务数据采集方法与装置
CN112328688A (zh) * 2020-11-09 2021-02-05 广州虎牙科技有限公司 数据存储方法、装置、计算机设备及存储介质
CN112328688B (zh) * 2020-11-09 2023-10-13 广州虎牙科技有限公司 数据存储方法、装置、计算机设备及存储介质
CN113516536A (zh) * 2021-07-21 2021-10-19 福建天晴数码有限公司 一种分布式处理订单大数据的方法及系统

Also Published As

Publication number Publication date
CN106202280B (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN106202280A (zh) 一种信息处理方法及服务器
CN108615119B (zh) 一种异常用户的识别方法及设备
CN109981328B (zh) 一种故障预警方法及装置
CN113765881A (zh) 异常网络安全行为的检测方法、装置、电子设备及存储介质
CN106612216B (zh) 网站访问异常的检测方法及装置
CN104731816A (zh) 一种处理异常业务数据的方法和装置
CN114817425B (zh) 一种冷热数据分类的方法、装置、设备及可读存储介质
CN111476375B (zh) 一种确定识别模型的方法、装置、电子设备及存储介质
CN108696486A (zh) 一种异常操作行为检测处理方法及装置
CN113177050A (zh) 一种数据均衡的方法、装置、查询系统及存储介质
CN105045535B (zh) 一种自动删除过期数据的方法和系统
CN106301979B (zh) 检测异常渠道的方法和系统
CN106487833B (zh) 网络监测中独立用户数的统计方法及装置
CN109726068A (zh) 一种数据检测方法及装置
CN111078413B (zh) 一种定时任务的执行方法、装置、计算机设备及存储介质
CN117333143A (zh) 一种成本科目字典设置方法及系统
CN104166650B (zh) 数据存储装置和数据存储方法
CN105976204A (zh) 从时间维度处理消费数据的方法和装置
CN109062638B (zh) 一种系统组件显示方法、计算机可读存储介质及终端设备
CN109947713B (zh) 一种日志的监控方法及装置
CN114120592B (zh) 用于故障报警的方法及装置、电子设备、存储介质
CN110058811A (zh) 信息处理装置、数据管理系统、方法以及计算机可读介质
CN111737555A (zh) 热点关键词的选取方法、设备和存储介质
CN108537654B (zh) 客户关系网络图的渲染方法、装置、终端设备及介质
CN114328563B (zh) 数据更新的控制方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant