CN105630658B - 数据处理的方法及装置 - Google Patents
数据处理的方法及装置 Download PDFInfo
- Publication number
- CN105630658B CN105630658B CN201510970593.9A CN201510970593A CN105630658B CN 105630658 B CN105630658 B CN 105630658B CN 201510970593 A CN201510970593 A CN 201510970593A CN 105630658 B CN105630658 B CN 105630658B
- Authority
- CN
- China
- Prior art keywords
- software
- data
- calculation processing
- recorded data
- processing result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 172
- 238000000034 method Methods 0.000 title claims abstract description 123
- 238000004364 calculation method Methods 0.000 claims abstract description 88
- 230000008569 process Effects 0.000 claims abstract description 83
- 238000007619 statistical method Methods 0.000 claims abstract description 21
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 claims description 34
- 230000001174 ascending effect Effects 0.000 claims description 10
- 238000013075 data extraction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 7
- 230000008859 change Effects 0.000 description 8
- 230000006854 communication Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000004321 preservation Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000018199 S phase Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
Abstract
本发明提供了一种数据处理的方法及装置,包括:依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据;对去重处理结果进行计算处理,以确定各个软件的统计分析数值;将计算处理结果按照特定顺序保存至存储器。本发明的技术方案能够滤除冗余数据,从而实现对相关数据的准确、高效的统计分析。
Description
技术领域
本发明涉及计算机技术领域,具体而言,本发明涉及一种数据处理的方法及装置。
背景技术
数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理(Data Processing)是对数据的采集、存储、检索、加工、变换和传输的过程。数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于人们有价值、有意义的数据。
数据处理是系统工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度,极大地影响着人类社会发展的进程。例如,如何从包括海量用户使用软件情况的用户日志中提取大量数据,并对大量数据进行相应处理得到具有意义的有用信息的过程就是典型的数据处理过程。而该数据处理过程涉及到庞大且复杂的数据采集、存储、检索、加工、变换和传输等过程,如果没有有效的数据处理方法会导致数据处理过程的低效。
因此,如何进行高效的数据处理是亟待解决的问题。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
本发明的一个实施例提出了一种数据处理的方法,包括:
依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;
对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据;
对去重处理结果进行计算处理,以确定各个软件的统计分析数值;
将计算处理结果按照特定顺序保存至存储器。
优选地,依据预定频率从与多个用户相应的包括多个软件的使用日志中提取原始记录数据,包括:
通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
优选地,对去重处理结果进行计算处理,具体包括:
通过多进程并行处理方式对去重处理结果进行计算处理。
优选地,对同一软件不同进程的多项原始记录数据进行去重处理,具体包括:
保留与主程序相应的进程的原始记录数据,并滤除与非主程序相应的进程的原始记录数据。
优选地,所述原始记录数据至少包括:
在统计时间区间内与各个软件相应的开启次数;
在统计时间区间内与各个软件相应的禁止次数。
优选地,对去重处理结果进行计算处理,以确定各个软件的统计分析数值,包括:
对在统计时间区间内任一软件的开启次数及禁止次数进行计算处理,以确定该软件的开启率和/或禁止率。
优选地,将计算处理结果按照特定顺序保存至存储器,包括以下任一情形:
将计算处理结果按照开启率由大到小的顺序保存至存储器;
将计算处理结果按照禁止率由小到大的顺序保存至存储器;
将计算处理结果按照软件的ID顺序保存至存储器。
本发明的另一实施例提出了一种数据处理的装置,包括:
数据提取模块,用于依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;
数据去重模块,对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据;
数值确定模块,用于对去重处理结果进行计算处理,以确定各个软件的统计分析数值;
结果保存模块,用于将计算处理结果按照特定顺序保存至存储器。
优选地,所述数据提取模块具体用于:通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
优选地,所述数值确定模块具体用于:通过多进程并行处理方式对去重处理结果进行计算处理。
优选地,所述数据去重模块具体用于:对于同一软件不同进程的多项原始记录数据,保留与主程序相应的进程的原始记录数据,并滤除与非主程序相应的进程的原始记录数据。
优选地,所述原始记录数据至少包括:
在统计时间区间内与各个软件相应的开启次数;
在统计时间区间内与各个软件相应的禁止次数。
优选地,所述数值确定模块具体用于:对在统计时间区间内任一软件的开启次数及禁止次数进行计算处理,以确定该软件的开启率和/或禁止率。
优选地,所述结果保存模块具体用于以下任一情形:
将计算处理结果按照开启率由大到小的顺序保存至存储器;
将计算处理结果按照禁止率由小到大的顺序保存至存储器;
将计算处理结果按照软件的ID顺序保存至存储器。
本发明的技术方案解决了如何进行高效的数据处理的问题。首先,依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;接着,对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据,在后续步骤中的统计分析数值如开启次数或禁止次数的计算是针对同一软件进行计算的,如果将属于该软件非主程序的其他进程相关的冗余原始记录数据也统计进入与该软件主程序相关的原始记录数据中,会导致后续基于原始记录数据进行计算获取到的计算结果不准确;在此步骤中将属于同一软件的不同进程的非主程序的冗余原始记录数据去除保证后续计算结果的准确性;随后,对去重处理结果进行计算处理,以确定各个软件的统计分析数值,通过多进程并行处理方式对去重处理结果进行计算处理,以提高计算处理效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的数据处理的方法的流程示意图;
图2为本发明另一实施例的数据处理的装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
图1所示是本发明一个实施例的数据处理的方法的流程示意图。
步骤S110:依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;步骤S120:对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据;步骤S130:对去重处理结果进行计算处理,以确定各个软件的统计分析数值;步骤S140:将计算处理结果按照特定顺序保存至存储器。
需要说明的是,使用日志为服务器端维护的包括采集到的在预定统计时间区间内多个用户对多个软件的设置及使用情况的日志信息。
用户终端设备可以在检测到其自身安装的软件的设置及使用情况发生变化时,在其自身的用户日志相应地记录该变化的数据;或者可以在设置的用户日志更新时间点检测已安装的软件的设置及使用情况是否发生变化;如果是,则在相应的用户日志中记录该变化的数据。接着,服务器端从多个终端设备端获取到多个用户的用户日志,并将多个用户日志进行合并以生成使用日志,该使用日志中包括记录多个用户对各个软件的设置及使用情况的数据。
例如,使用日志记录着在统计时间区间内,如1周内,500万终端用户的对各个软件的设置及使用情况的数据;如用户A安装有10种软件,用户A对10种软件分别设置不同的开机启动/禁止设置。
步骤S110:依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据。
具体地,依据预定的数据处理频率,从使用日志中提取与多个软件相应的多项原始记录数据。
可选地,原始记录数据至少包括:在统计时间区间内与各个软件相应的开启次数;在统计时间区间内与各个软件相应的禁止次数。
例如,使用日志记录着在统计时间区间内,如1周内,500万终端用户的对1000个软件的设置及使用情况的数据;依据预定的数据处理频率,从使用日志中提取与1000个软件相应的在1周内多个用户对各个软件设置的开机开启次数或禁止次数;如,与软件“QQ”相应的在1周内用户对其设置的开机开启次数为450万次,用户对其设置的开机禁止次数为150万次。
例如,当用户M在终端设备W上将开机自启动软件“XX播放器”设置为禁止开机自启动时,终端设备W检测到与软件“XX播放器”相关的设置变化;终端设备W将与软件“XX播放器”相关的开启次数减1,并且将与软件“XX播放器”相关的禁止次数加1;开启次数和禁止次数与软件“XX播放器”相关联地记录在与多个软件相应的用户日志中,终端设备W将用户日志上传至服务器,并更新服务器端的使用日志;设置服务器端以每24小时/次的频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据,则服务器端从使用日志中提取多个用户针对多个软件设置的开启次数和禁止次数,其中包括用户M对软件“XX播放器”的开启次数和禁止次数。
优选地,依据预定频率从与多个用户相应的包括多个软件的使用日志中提取原始记录数据的步骤具体包括:通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
需要说明的是,因为在互联网中存在的设备终端数量庞大,需要从与多个用户相应的包括多个软件的使用日志中提取的原始记录数据也相应地庞大,如果服务器端通过单一进程从与多个用户相应的包括多个软件的使用日志中提取原始记录数据,则提取数据的时间较长,从而导致服务器端执行数据处理任务的效率降低。因此,可以通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
步骤S120:对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据。
需要说明的是,在包括多个用户的与多个软件相应的使用日志中记录的多项原始记录数据并非全是有效的原始记录数据,其中有属于同一软件的不同进程的原始记录数据,若软件的主程序运行在一个进程中,而该软件的相关服务运行在其他三个进程中,则需要将属于同一软件的不同进程的非主程序的原始记录数据作为冗余原始记录数据进行消除操作。在后续步骤中的统计分析数值如开启次数或禁止次数的计算过程是针对同一软件进行计算的过程,因此,针对一个软件,如果将属于该软件非主程序的其他进程相关的冗余原始记录数据也统计进入与该软件主程序相关的原始记录数据中,会导致后续基于原始记录数据进行计算获取到的计算结果不准确;在此步骤中将属于同一软件的不同进程的非主程序的冗余原始记录数据去除保证后续计算结果的准确性。
优选地,对同一软件不同进程的多项原始记录数据进行去重处理的步骤具体包括:保留与主程序相应的进程的原始记录数据,并滤除与非主程序相应的进程的原始记录数据。
例如,在开机启动软件“XX播放器”时,除软件“XX播放器”的用于播放视频的主进程被开启外,与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程也相应地被开启。因此,在与多个软件相应的使用日志中记录的与软件“XX播放器”相应的多项原始记录数据包括与软件“XX播放器”的用于播放视频的主进程相应的开启次数和与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程相应的开启次数。在计算与软件“XX播放器”相关的开启次数或禁止次数时,旨在计算与软件“XX播放器”的用于播放视频的主进程相应的开启次数或禁止次数。因此,滤除与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程相应的开启次数。
步骤S130:对去重处理结果进行计算处理,以确定各个软件的统计分析数值。
优选地,对去重处理结果进行计算处理的步骤具体包括:通过多进程并行处理方式对去重处理结果进行计算处理。
需要说明的是,因为需要确定的各个软件的统计分析数值庞大,对去重处理结果进行计算处理过程的计算压力也相应较大,如果服务器端应用单一进程对去重处理结果进行计算处理,会导致服务器端执行计算任务的效率较低。因此,可以通过多进程并行处理方式对去重处理结果进行计算处理,以提高计算处理效率。
优选地,对去重处理结果进行计算处理,以确定各个软件的统计分析数值的步骤包括:对在统计时间区间内任一软件的开启次数及禁止次数进行计算处理,以确定该软件的开启率和/或禁止率。
例如,服务器端在2015年12月18日7:00AM从包括多个用户的与多个软件相应的使用日志中提取与软件“XX播放器”相应的开启次数和禁止次数。服务器端计算在统计时间区间“2015年12月17日-2015年12月10日”的与软件“XX播放器”相应的开启率和禁止率时,从包括多个用户的与多个软件相应的使用日志中提取与软件“XX播放器”相应的在“2015年12月17日-2015年12月10日”之间的开启次数和禁止次数;接着,在与软件“XX播放器”相应的开启次数和禁止次数中滤除与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程相应的开启次数和禁止次数;随后,统计与主程序相应的进程的开启次数为“82,635,776次”,与主程序相应的进程的禁止次数为“23,307,526次”,则总的开启次数与禁止次数为“105,943,302次”;最后,计算与主程序相应的进程的开启次数“82,635,776次”除以总的开启次数与禁止次数“105,943,302次”得到开启率“78%”,并且计算与主程序相应的进程的禁止次数“23,307,526次”除以总的开启次数与禁止次数“105,943,302次”得到禁止率“22%”。
步骤S140:将计算处理结果按照特定顺序保存至存储器。
优选地,将计算处理结果按照特定顺序保存至存储器,包括以下任一情形:将计算处理结果按照开启率由大到小的顺序保存至存储器;将计算处理结果按照禁止率由小到大的顺序保存至存储器;将计算处理结果按照软件的ID顺序保存至存储器。
其中,将计算处理结果按照开启率由大到小的顺序保存至存储器和将计算处理结果按照禁止率由小到大的顺序保存至存储器的步骤便于向用户推荐软件:推荐排序在前的预定阈值的与由大到小的顺序保存的开启率相应的软件给用户或者推荐排序在后的预定阈值的与由小到大的顺序保存保存的开启率相应的软件给用户。按照用户的习惯,用户常用的功能强大的软件的开启率较高,所以当将开启率较高的软件推荐给其他用户时,推荐采纳率也随之较高。
此外,将计算处理结果按照软件的ID顺序保存至存储器的步骤便于服务器端基于软件ID查询软件开启率的过程。
本发明的技术方案解决了如何进行高效的数据处理的问题。首先,依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;接着,对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据,在后续步骤中的统计分析数值如开启次数或禁止次数的计算是针对同一软件进行计算的,如果将属于该软件非主程序的其他进程相关的冗余原始记录数据也统计进入与该软件主程序相关的原始记录数据中,会导致后续基于原始记录数据进行计算获取到的计算结果不准确;在此步骤中将属于同一软件的不同进程的非主程序的冗余原始记录数据去除保证后续计算结果的准确性;随后,对去重处理结果进行计算处理,以确定各个软件的统计分析数值,通过多进程并行处理方式对去重处理结果进行计算处理,以提高计算处理效率。
图2所示是本发明一个实施例的数据处理的装置的结构示意图。
数据提取模块210依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;数据去重模块220用于对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据;数值确定模块230对去重处理结果进行计算处理,以确定各个软件的统计分析数值;结果保存模块240将计算处理结果按照特定顺序保存至存储器。
需要说明的是,使用日志为服务器端维护的包括采集到的在预定统计时间区间内多个用户对多个软件的设置及使用情况的日志信息。
用户终端设备可以在检测到其自身安装的软件的设置及使用情况发生变化时,在其自身的用户日志相应地记录该变化的数据;或者可以在设置的用户日志更新时间点检测已安装的软件的设置及使用情况是否发生变化;如果是,则在相应的用户日志中记录该变化的数据。接着,服务器端从多个终端设备端获取到多个用户的用户日志,并将多个用户日志进行合并以生成使用日志,该使用日志中包括记录多个用户对各个软件的设置及使用情况的数据。
例如,使用日志记录着在统计时间区间内,如1周内,500万终端用户的对各个软件的设置及使用情况的数据;如用户A安装有10种软件,用户A对10种软件分别设置不同的开机启动/禁止设置。
数据提取模块210依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据。
具体地,依据预定的数据处理频率,从使用日志中提取与多个软件相应的多项原始记录数据。
可选地,原始记录数据至少包括:在统计时间区间内与各个软件相应的开启次数;在统计时间区间内与各个软件相应的禁止次数。
例如,使用日志记录着在统计时间区间内,如1周内,500万终端用户的对1000个软件的设置及使用情况的数据;依据预定的数据处理频率,从使用日志中提取与1000个软件相应的在1周内多个用户对各个软件设置的开机开启次数或禁止次数;如,与软件“QQ”相应的在1周内用户对其设置的开机开启次数为450万次,用户对其设置的开机禁止次数为150万次。
例如,当用户M在终端设备W上将开机自启动软件“XX播放器”设置为禁止开机自启动时,终端设备W检测到与软件“XX播放器”相关的设置变化;终端设备W将与软件“XX播放器”相关的开启次数减1,并且将与软件“XX播放器”相关的禁止次数加1;开启次数和禁止次数与软件“XX播放器”相关联地记录在与多个软件相应的用户日志中,终端设备W将用户日志上传至服务器,并更新服务器端的使用日志;设置服务器端以每24小时/次的频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据,则服务器端从使用日志中提取多个用户针对多个软件设置的开启次数和禁止次数,其中包括用户M对软件“XX播放器”的开启次数和禁止次数。
优选地,数据提取模块210具体用于:通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
需要说明的是,因为在互联网中存在的设备终端数量庞大,需要从与多个用户相应的包括多个软件的使用日志中提取的原始记录数据也相应地庞大,如果服务器端通过单一进程从与多个用户相应的包括多个软件的使用日志中提取原始记录数据,则提取数据的时间较长,从而导致服务器端执行数据处理任务的效率降低。因此,可以通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
数据去重模块220用于对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据。
需要说明的是,在包括多个用户的与多个软件相应的使用日志中记录的多项原始记录数据并非全是有效的原始记录数据,其中有属于同一软件的不同进程的原始记录数据,若软件的主程序运行在一个进程中,而该软件的相关服务运行在其他三个进程中,则需要将属于同一软件的不同进程的非主程序的原始记录数据作为冗余原始记录数据进行消除操作。在后续统计分析数值的过程如开启次数或禁止次数的计算过程是针对同一软件进行计算的过程,因此,针对一个软件,如果将属于该软件非主程序的其他进程相关的冗余原始记录数据也统计进入与该软件主程序相关的原始记录数据中,会导致后续基于原始记录数据进行计算获取到的计算结果不准确;在此步骤中将属于同一软件的不同进程的非主程序的冗余原始记录数据去除保证后续计算结果的准确性。
优选地,数据去重模块220具体用于:保留与主程序相应的进程的原始记录数据,并滤除与非主程序相应的进程的原始记录数据。
例如,在开机启动软件“XX播放器”时,除软件“XX播放器”的用于播放视频的主进程被开启外,与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程也相应地被开启。因此,在与多个软件相应的使用日志中记录的与软件“XX播放器”相应的多项原始记录数据包括与软件“XX播放器”的用于播放视频的主进程相应的开启次数和与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程相应的开启次数。在计算与软件“XX播放器”相关的开启次数或禁止次数时,旨在计算与软件“XX播放器”的用于播放视频的主进程相应的开启次数或禁止次数。因此,滤除与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程相应的开启次数。
数值确定模块230对去重处理结果进行计算处理,以确定各个软件的统计分析数值。
优选地,数值确定模块230具体用于:通过多进程并行处理方式对去重处理结果进行计算处理。
需要说明的是,因为需要确定的各个软件的统计分析数值庞大,对去重处理结果进行计算处理过程的计算压力也相应较大,如果服务器端应用单一进程对去重处理结果进行计算处理,会导致服务器端执行计算任务的效率较低。因此,可以通过多进程并行处理方式对去重处理结果进行计算处理,以提高计算处理效率。
优选地,数值确定模块230具体用于:对在统计时间区间内任一软件的开启次数及禁止次数进行计算处理,以确定该软件的开启率和/或禁止率。
例如,服务器端在2015年12月18日7:00AM从包括多个用户的与多个软件相应的使用日志中提取与软件“XX播放器”相应的开启次数和禁止次数。服务器端计算在统计时间区间“2015年12月17日-2015年12月10日”的与软件“XX播放器”相应的开启率和禁止率时,从包括多个用户的与多个软件相应的使用日志中提取与软件“XX播放器”相应的在“2015年12月17日-2015年12月10日”之间的开启次数和禁止次数;接着,在与软件“XX播放器”相应的开启次数和禁止次数中滤除与软件“XX播放器”相应的用于检测互联网中是否存在软件“XX播放器”更新数据的辅助自动更新的进程相应的开启次数和禁止次数;随后,统计与主程序相应的进程的开启次数为“82,635,776次”,与主程序相应的进程的禁止次数为“23,307,526次”,则总的开启次数与禁止次数为“105,943,302次”;最后,计算与主程序相应的进程的开启次数“82,635,776次”除以总的开启次数与禁止次数“105,943,302次”得到开启率“78%”,并且计算与主程序相应的进程的禁止次数“23,307,526次”除以总的开启次数与禁止次数“105,943,302次”得到禁止率“22%”。
结果保存模块240将计算处理结果按照特定顺序保存至存储器。
优选地,结果保存模块240具体用于以下任一情形:将计算处理结果按照开启率由大到小的顺序保存至存储器;将计算处理结果按照禁止率由小到大的顺序保存至存储器;将计算处理结果按照软件的ID顺序保存至存储器。
其中,将计算处理结果按照开启率由大到小的顺序保存至存储器和将计算处理结果按照禁止率由小到大的顺序保存至存储器的步骤便于向用户推荐软件:推荐排序在前的预定阈值的与由大到小的顺序保存的开启率相应的软件给用户或者推荐排序在后的预定阈值的与由小到大的顺序保存保存的开启率相应的软件给用户。按照用户的习惯,用户常用的功能强大的软件的开启率较高,所以当将开启率较高的软件推荐给其他用户时,推荐采纳率也随之较高。
此外,将计算处理结果按照软件的ID顺序保存至存储器的步骤便于服务器端基于软件ID查询软件开启率的过程。
本发明的技术方案解决了如何进行高效的数据处理的问题。首先,依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;接着,对同一软件不同进程的多项原始记录数据进行去重处理,以消除冗余原始记录数据,在后续步骤中的统计分析数值如开启次数或禁止次数的计算是针对同一软件进行计算的,如果将属于该软件非主程序的其他进程相关的冗余原始记录数据也统计进入与该软件主程序相关的原始记录数据中,会导致后续基于原始记录数据进行计算获取到的计算结果不准确;在此步骤中将属于同一软件的不同进程的非主程序的冗余原始记录数据去除保证后续计算结果的准确性;随后,对去重处理结果进行计算处理,以确定各个软件的统计分析数值,通过多进程并行处理方式对去重处理结果进行计算处理,以提高计算处理效率。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种数据处理的方法,包括:
依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;
对同一软件不同进程的多项原始记录数据进行去重处理,保留与主程序相应的进程的原始记录数据,并滤除与非主程序相应的进程的原始记录数据,以消除冗余原始记录数据;
对去重处理结果进行计算处理,以确定各个软件的统计分析数值;
将计算处理结果按照特定顺序保存至存储器。
2.根据权利要求1所述的方法,其中,依据预定频率从与多个用户相应的包括多个软件的使用日志中提取原始记录数据,包括:
通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
3.根据权利要求1所述的方法,对去重处理结果进行计算处理,具体包括:
通过多进程并行处理方式对去重处理结果进行计算处理。
4.根据权利要求1所述的方法,其中,所述原始记录数据至少包括:
在统计时间区间内与各个软件相应的开启次数;
在统计时间区间内与各个软件相应的禁止次数。
5.根据权利要求4所述的方法,对去重处理结果进行计算处理,以确定各个软件的统计分析数值,包括:
对在统计时间区间内任一软件的开启次数及禁止次数进行计算处理,以确定该软件的开启率和/或禁止率。
6.根据权利要求5所述的方法,其中,将计算处理结果按照特定顺序保存至存储器,包括以下任一情形:
将计算处理结果按照开启率由大到小的顺序保存至存储器;
将计算处理结果按照禁止率由小到大的顺序保存至存储器;
将计算处理结果按照软件的ID顺序保存至存储器。
7.一种数据处理的装置,包括:
数据提取模块,用于依据预定频率从包括多个用户的与多个软件相应的使用日志中提取多项原始记录数据;
数据去重模块,用于对同一软件不同进程的多项原始记录数据进行去重处理,保留与主程序相应的进程的原始记录数据,并滤除与非主程序相应的进程的原始记录数据,以消除冗余原始记录数据;
数值确定模块,用于对去重处理结果进行计算处理,以确定各个软件的统计分析数值;
结果保存模块,用于将计算处理结果按照特定顺序保存至存储器。
8.根据权利要求7所述的装置,其中,所述数据提取模块具体用于:通过多进程并行处理方式依据预定频率从包括多个用户的与多个软件相应的使用日志中提取原始使用数据。
9.根据权利要求7所述的装置,其中,所述数值确定模块具体用于:通过多进程并行处理方式对去重处理结果进行计算处理。
10.根据权利要求7所述的装置,其中,所述原始记录数据至少包括:
在统计时间区间内与各个软件相应的开启次数;
在统计时间区间内与各个软件相应的禁止次数。
11.根据权利要求10所述的装置,其中,所述数值确定模块具体用于:对在统计时间区间内任一软件的开启次数及禁止次数进行计算处理,以确定该软件的开启率和/或禁止率。
12.根据权利要求11所述的装置,其中,所述结果保存模块具体用于以下任一情形:
将计算处理结果按照开启率由大到小的顺序保存至存储器;
将计算处理结果按照禁止率由小到大的顺序保存至存储器;
将计算处理结果按照软件的ID顺序保存至存储器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510970593.9A CN105630658B (zh) | 2015-12-22 | 2015-12-22 | 数据处理的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510970593.9A CN105630658B (zh) | 2015-12-22 | 2015-12-22 | 数据处理的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105630658A CN105630658A (zh) | 2016-06-01 |
CN105630658B true CN105630658B (zh) | 2018-10-09 |
Family
ID=56045631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510970593.9A Active CN105630658B (zh) | 2015-12-22 | 2015-12-22 | 数据处理的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105630658B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107948738B (zh) * | 2016-10-13 | 2020-10-20 | 北京国双科技有限公司 | 一种网络电视去重用户数的计算方法及装置 |
CN107832406B (zh) * | 2017-11-03 | 2020-09-11 | 北京锐安科技有限公司 | 海量日志数据的去重入库方法、装置、设备及存储介质 |
CN114253745B (zh) * | 2021-12-16 | 2023-06-20 | 北京金堤科技有限公司 | 一种消息去重处理方法、装置、存储介质和电子设备 |
CN114443319A (zh) * | 2021-12-30 | 2022-05-06 | 北京金堤科技有限公司 | 消息去重处理方法、装置、存储介质和电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020845A (zh) * | 2012-12-14 | 2013-04-03 | 百度在线网络技术(北京)有限公司 | 一种移动应用的推送方法及系统 |
CN103338223A (zh) * | 2013-05-27 | 2013-10-02 | 清华大学 | 一种移动应用的推荐方法、客户端及服务器 |
CN103761296A (zh) * | 2014-01-20 | 2014-04-30 | 北京集奥聚合科技有限公司 | 移动终端用户网络行为分析方法及系统 |
CN104252532A (zh) * | 2014-09-11 | 2014-12-31 | 北京优特捷信息技术有限公司 | 一种统计网站信息的方法及装置 |
CN104503910A (zh) * | 2014-12-22 | 2015-04-08 | 合一网络技术(北京)有限公司 | 通过监测用户使用行为对产品进行测试的方法 |
CN104572962A (zh) * | 2014-12-31 | 2015-04-29 | 浙江大学 | 一种app推荐的方法和系统 |
CN105049287A (zh) * | 2015-07-28 | 2015-11-11 | 小米科技有限责任公司 | 日志处理方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2712442A1 (en) * | 2011-05-09 | 2014-04-02 | Google, Inc. | Recommending applications for mobile devices based on installation histories |
US8484226B2 (en) * | 2011-07-09 | 2013-07-09 | Yahoo! Inc. | Media recommendations for a social-software website |
-
2015
- 2015-12-22 CN CN201510970593.9A patent/CN105630658B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020845A (zh) * | 2012-12-14 | 2013-04-03 | 百度在线网络技术(北京)有限公司 | 一种移动应用的推送方法及系统 |
CN103338223A (zh) * | 2013-05-27 | 2013-10-02 | 清华大学 | 一种移动应用的推荐方法、客户端及服务器 |
CN103761296A (zh) * | 2014-01-20 | 2014-04-30 | 北京集奥聚合科技有限公司 | 移动终端用户网络行为分析方法及系统 |
CN104252532A (zh) * | 2014-09-11 | 2014-12-31 | 北京优特捷信息技术有限公司 | 一种统计网站信息的方法及装置 |
CN104503910A (zh) * | 2014-12-22 | 2015-04-08 | 合一网络技术(北京)有限公司 | 通过监测用户使用行为对产品进行测试的方法 |
CN104572962A (zh) * | 2014-12-31 | 2015-04-29 | 浙江大学 | 一种app推荐的方法和系统 |
CN105049287A (zh) * | 2015-07-28 | 2015-11-11 | 小米科技有限责任公司 | 日志处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105630658A (zh) | 2016-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105630658B (zh) | 数据处理的方法及装置 | |
US10817621B2 (en) | Anonymization processing device, anonymization processing method, and program | |
CN106250424B (zh) | 一种日志上下文内容的搜索方法、装置及系统 | |
CN111339436B (zh) | 一种数据识别方法、装置、设备以及可读存储介质 | |
CN103282903B (zh) | 话题提取装置及其方法 | |
CN110896488B (zh) | 一种直播间的推荐方法以及相关设备 | |
CN107678800B (zh) | 后台应用清理方法、装置、存储介质及电子设备 | |
CN104079960A (zh) | 文件推荐方法和装置 | |
CN106356077B (zh) | 一种笑声检测方法及装置 | |
CN104270605B (zh) | 一种视频监控数据的处理方法及装置 | |
CN107402804B (zh) | 后台进程管控方法、装置、存储介质及电子设备 | |
CN105701135A (zh) | 一种应用推荐的方法和装置 | |
CN102737093A (zh) | 数据存储装置和数据存储方法 | |
Bauwe et al. | Impact of climate change on tree-ring growth of Scots pine, common beech and pedunculate oak in northeastern Germany | |
CN108802282A (zh) | 有害气体浓度预测的方法、装置、设备及可读存储介质 | |
CN103442270B (zh) | 一种采集用户的收视数据的方法及装置 | |
CN103500163B (zh) | 识别事件关键进展的方法和设备 | |
KR102312685B1 (ko) | 데이터 분석 지원 시스템 및 데이터 분석 지원 방법 | |
CN105590026A (zh) | 基于主成分分析的卫星遥测回归方法 | |
CN116187285A (zh) | 遥测数据处理方法、装置、设备及存储介质 | |
CN110287255A (zh) | 基于用户行为的数据共享方法、装置及计算机设备 | |
CN106201841A (zh) | 一种应用程序运行数据的统计方法和装置 | |
Zhao et al. | Sportsense: Real-time detection of NFL game events from Twitter | |
CN103853933B (zh) | 面向Android数字取证的用户行为分析方法及系统 | |
CN106484773B (zh) | 确定多媒体资源的关键词的权重的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220725 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |
|
TR01 | Transfer of patent right |