CN106776802A

CN106776802A - 一种数据处理方法和装置

Info

Publication number: CN106776802A
Application number: CN201611049735.9A
Authority: CN
Inventors: 王洪添; 刘全志
Original assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Current assignee: Shandong Inspur Cloud Service Information Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-05-31

Abstract

本发明提供了一种数据处理方法和装置，该方法通过获取至少一个记录文件，确定每一个记录文件的客户端开始记录时间，根据客户端开始记录时间，对至少一个记录文件进行分组，针对每一组记录文件，确定当前组中客户端开始记录时间最大的目标记录文件，获取当前组的目标记录文件对应的当前系统时间，根据当前系统时间和当前组的记录文件的数量，计算当前组的标准开始记录时间，根据当前组的标准开始记录时间，描述当前组。该方法通过对客户端开始记录时间进行修正，排除记录文件录制时间的影响，得到更加准确的记录时间，进而提高数据分析的准确度。

Description

一种数据处理方法和装置

技术领域

本发明涉及数据处理技术领域，特别涉及一种数据处理方法和装置。

背景技术

互联网作为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。例如，对于产品开发者而言，根据采集到的信息，可以分析得到用户的行为习惯，进而对产品的开发进行相应的调整。

目前，服务器中记录文件的记录时间，是客户端开始记录的时间，但是该时间包含记录文件的录制时间，并不能准确反映服务器采集到的记录的准确记录时间，降低了数据分析的准确度。

发明内容

本发明实施例提供了一种数据处理方法和装置，可以得到更加准确的数据。

一方面，本发明实施例提供了一种数据处理方法，包括：

获取至少一个记录文件；

确定每一个记录文件的客户端开始记录时间；

根据所述客户端开始记录时间，对所述至少一个记录文件进行分组；

针对每一组记录文件，确定当前组中所述客户端开始记录时间最大的目标记录文件，获取所述当前组的所述目标记录文件对应的当前系统时间，根据所述当前系统时间和所述当前组的记录文件的数量，计算所述当前组的标准开始记录时间，根据所述当前组的标准开始记录时间，描述所述当前组。

优选地，

进一步包括：预先设定单个记录文件的录制时间；

所述根据所述当前系统时间和所述当前组的记录文件的数量，计算所述当前组的标准开始记录时间，包括：

根据所述当前系统时间、所述当前组的记录文件的数量和所述单个记录文件的录制时间，按照第一公式，计算所述当前组的标准开始记录时间；

所述第一公式包括：

T_R＝T_S-C×T_H

其中，T_R用于表征所述当前组的标准开始记录时间；T_S用于表征所述当前系统时间；C用于表征所述当前组的记录文件的数量；T_H用于表征所述单个记录文件的录制时间。

优选地，

进一步包括：获取所述每一组记录文件开始记录时对应的第一服务器时间；

所述根据所述当前组的标准开始记录时间，描述所述当前组，包括：

利用所述当前组的标准开始记录时间和所述目标记录文件的所述客户端开始记录时间，根据第二公式，计算时间间隔；

利用所述时间间隔和所述第一服务器时间，根据所述第三公式，对所述第一服务器时间进行修正，获得第二服务器时间；

利用所述第二服务器时间，描述所述当前组；

其中，所述第二公式包括：

ΔT＝T_R-T_K

其中，ΔT用于表征所述时间间隔；T_R用于表征所述当前组的标准开始记录时间；T_K用于表征所述目标记录文件的所述客户端开始记录时间；

所述第三公式包括：

T_M＝T_N+ΔT

其中，T_M用于表征所述第二服务器时间；T_N用于表征所述第一服务器时间；ΔT用于表征所述时间间隔。

优选地，

在所述根据所述当前组的标准开始记录时间，描述所述当前组之后，进一步包括：

删除所述当前组中除所述目标记录文件外的其他记录文件。

优选地，

预先设置记录文件的类型；

预先设置所述类型与分数之间的对应关系；

确定所述目标记录文件的目标类型；

根据所述对应关系，确定所述目标类型对应的目标分数；

根据所述目标分数，描述所述当前组。

另一方面，本发明实施例提供了一种数据处理装置，包括：

确定单元，用于获取至少一个记录文件，确定每一个记录文件的客户端开始记录时间；

划分单元，用于根据所述确定单元确定的所述客户端开始记录时间，对所述至少一个记录文件进行分组；

处理单元，用于针对每一组记录文件，确定当前组中所述客户端开始记录时间最大的目标记录文件，获取所述当前组的所述目标记录文件对应的当前系统时间，根据所述当前系统时间和所述当前组的记录文件的数量，计算所述当前组的标准开始记录时间，根据所述当前组的标准开始记录时间，描述所述当前组。

优选地，

设置单元，用于设定单个记录文件的录制时间；

所述处理单元，用于根据所述当前系统时间、所述当前组的记录文件的数量和所述设置单元设置的所述单个记录文件的录制时间，按照第一公式，计算所述当前组的标准开始记录时间；

所述第一公式包括：

T_R＝T_S-C×T_H

优选地，

获取单元，用于获取所述每一组记录文件开始记录时对应的第一服务器时间；

所述处理单元，用于利用所述当前组的标准开始记录时间和所述目标记录文件的所述客户端开始记录时间，根据第二公式，计算时间间隔；利用所述时间间隔和所述获取单元获取的所述第一服务器时间，根据所述第三公式，对所述第一服务器时间进行修正，获得第二服务器时间；利用所述第二服务器时间，描述所述当前组；

其中，所述第二公式包括：

ΔT＝T_R-T_K

所述第三公式包括：

T_M＝T_N+ΔT

优选地，

删除单元，用于接收所述处理单元的触发，删除所述当前组中除所述目标记录文件外的其他记录文件。

优选地，

描述单元，用于接收所述处理单元的触发，设置记录文件的类型，设置所述类型与分数之间的对应关系，确定所述目标记录文件的目标类型，根据所述对应关系，确定所述目标类型对应的目标分数；根据所述目标分数，描述所述当前组。

本发明实施例提供了一种数据处理方法和装置，该方法通过获取至少一个记录文件，确定每一个记录文件的客户端开始记录时间，根据客户端开始记录时间，对至少一个记录文件进行分组，针对每一组记录文件，确定当前组中客户端开始记录时间最大的目标记录文件，获取当前组的目标记录文件对应的当前系统时间，根据当前系统时间和当前组的记录文件的数量，计算当前组的标准开始记录时间，根据当前组的标准开始记录时间，描述当前组。该方法通过对客户端开始记录时间进行修正，排除记录文件录制时间的影响，得到更加准确的记录时间，进而提高数据分析的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种数据处理方法流程图；

图2是本发明一个实施例提供的另一种数据处理方法流程图；

图3是本发明一个实施例提供的一种数据处理装置结构示意图；

图4是本发明一个实施例提供的另一种数据处理装置结构示意图；

图5是本发明一个实施例提供的又一种数据处理装置结构示意图；

图6是本发明一个实施例提供的再一种数据处理装置结构示意图；

图7是本发明另一个实施例提供的一种数据处理装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种数据处理方法，该方法可以包括以下步骤：

步骤101：获取至少一个记录文件；

步骤102：确定每一个记录文件的客户端开始记录时间；

步骤103：根据客户端开始记录时间，对至少一个记录文件进行分组；

步骤104：针对每一组记录文件，确定当前组中客户端开始记录时间最大的目标记录文件，获取当前组的目标记录文件对应的当前系统时间，根据当前系统时间和当前组的记录文件的数量，计算当前组的标准开始记录时间，根据当前组的标准开始记录时间，描述当前组。

在图1所示的实施例中，通过获取至少一个记录文件，确定每一个记录文件的客户端开始记录时间，根据客户端开始记录时间，对至少一个记录文件进行分组，针对每一组记录文件，确定当前组中客户端开始记录时间最大的目标记录文件，获取当前组的目标记录文件对应的当前系统时间，根据当前系统时间和当前组的记录文件的数量，计算当前组的标准开始记录时间，根据当前组的标准开始记录时间，描述当前组。该方法通过对客户端开始记录时间进行修正，排除记录文件录制时间的影响，得到更加准确的记录时间，进而提高数据分析的准确度。

在本发明的一个实施例中，为了确定当前组的标准开始记录时间，该方法还包括：预先设定单个记录文件的录制时间；步骤104包括：根据当前系统时间、当前组的记录文件的数量和单个记录文件的录制时间，按照式(1)，计算当前组的标准开始记录时间；

T_R＝T_S-C×T_H (1)

其中，T_R用于表征当前组的标准开始记录时间；T_S用于表征当前系统时间；C用于表征当前组的记录文件的数量；T_H用于表征单个记录文件的录制时间。

在本实施例中，每单个记录文件的录制时间是相同的。当前组的标准开始记录时间是相对于接收端的开始时间。例如，当前系统时间T_S为10:00，当前组的记录文件的数量C为10，单个记录文件的录制时间T_H为1分钟，则当前组的标准开始记录时间T_R为9:50。

在本发明的一个实施例中，为了对当前组的标准开始记录时间进行修正，并利用修正后的当前组的标准开始记录时间来描述当前组，该方法还包括：获取每一组记录文件开始记录时对应的第一服务器时间；步骤104包括：利用当前组的标准开始记录时间和目标记录文件的客户端开始记录时间，根据式(2)，计算时间间隔；利用时间间隔和第一服务器时间，根据式(3)，对第一服务器时间进行修正，获得第二服务器时间；利用第二服务器时间，描述当前组；

ΔT＝T_R-T_K (2)

其中，ΔT用于表征时间间隔；T_R用于表征当前组的标准开始记录时间；T_K用于表征目标记录文件的客户端开始记录时间；

T_M＝T_N+ΔT (3)

其中，T_M用于表征第二服务器时间；T_N用于表征第一服务器时间；ΔT用于表征时间间隔。

其中，第一服务器时间是客户端的服务器时间，第二服务器时间是服务端，也就是接收端的服务器时间。例如，当前组的标准开始记录时间T_R为9:50，目标记录文件的客户端开始记录时间T_K为9:20，第一服务器时间T_N为9:25，则时间间隔ΔT为30分钟，第二服务器时间T_M为9:55。利用第二服务器时间描述当前组，即为利用第二服务器时间表征当前组，例如，修正前，当前组中包括：记录名称，第一服务器时间；修正后，当前组中包括：记录名称，第二服务器时间。

在本发明的一个实施例中，为了对当前组中记录文件进行去燥，在步骤104之后，还包括：删除当前组中除目标记录文件外的其他记录文件。

在本发明的一个实施例中，为了对记录文件进行标记，突出重要的记录，在步骤104之后，还包括：预先设置记录文件的类型；预先设置类型与分数之间的对应关系；确定目标记录文件的目标类型；根据对应关系，确定目标类型对应的目标分数；根据目标分数，描述当前组。

例如，预先设置的记录文件的类型有：娱乐、邮箱、搜索。其中，娱乐、邮箱、搜索分别对应的分数为1、2、3。如果，目标记录文件的目标类型为娱乐，则目标分数为1。因此，当前组可以描述为：记录名称、目标分数。

下面以学生进行网络学习时，产生的10个记录文件为例，展开说明数据处理方法，如图2所示，该方法可以包括如下步骤：

步骤201：预先设定单个记录文件的录制时间。

录制时间是指，记录录制到服务端的时间，设定每单个记录文件的录制时间是相同的。在本实施例中，录制时间设定为1分钟。

步骤202：获取10个记录文件。

获取在使用客户端进行学习时，产生的10个记录文件。

步骤203：确定每一个记录文件的客户端开始记录时间。

确定10个记录文件的客户端开始记录时间分别为9:00，9:10，9:20，9:30，9:40，9:50，10:00，10:10，10:20，10:30。

步骤204：根据客户端开始记录时间，对10个记录文件进行分组。

按照客户端开始记录时间每隔40分钟为一组，将10个记录文件分成A、B两组，A组记录文件对应的客户端开始记录时间分别为a1＝9:00，a2＝9:10，a3＝9:20，a4＝9:30，a5＝9:40；B组记录文件对应的客户端开始记录时间分别为b1＝9:50，b2＝10:00，b3＝10:10，b4＝10:20，b5＝10:30。

步骤205：针对每一组记录文件，确定当前组中客户端开始记录时间最大的目标记录文件。

针对A组记录文件，确定客户端开始记录时间最大为9:00，对应的目标记录文件为a1。针对B组记录文件，确定客户端开始记录时间最大为9:50，对应的目标记录文件为b1。

在本实施例中，以A组记录文件为当前组进行说明。

步骤206：获取当前组的目标记录文件对应的当前系统时间，根据当前系统时间、单个记录文件的录制时间和当前组的记录文件的数量，计算当前组的标准开始记录时间。

根据当前系统时间、当前组的记录文件的数量和单个记录文件的录制时间，按照式(1)，计算当前组的标准开始记录时间；

T_R＝T_S-C×T_H (1)

在本实施例中，A组的目标记录文件a1对应的当前系统时间T_S为9:40，当前组的记录文件的数量C为5，单个记录文件的录制时间T_H为1分钟，根据式(1)，计算得到当前组的标准开始记录时间T_R为9:35。

步骤207：获取每一组记录文件开始记录时对应的第一服务器时间，利用第一服务时间获得第二服务器时间，利用第二服务器时间，描述当前组。

利用当前组的标准开始记录时间和目标记录文件的客户端开始记录时间，根据式(2)，计算时间间隔；利用时间间隔和第一服务器时间，根据式(3)，对第一服务器时间进行修正，获得第二服务器时间；利用第二服务器时间，描述当前组；

ΔT＝T_R-T_K (2)

T_M＝T_N+ΔT (3)

在本实施例中，当前组的标准开始记录时间T_R为9:35，目标记录文件的客户端开始记录时间T_K为9:00，获取的第一服务器时间T_N为9:05，根据式(2)，得到时间间隔ΔT为35分钟，根据式(3)，得到第二服务器时间T_M为9:40。

利用第二服务器时间描述当前组，即为利用第二服务器时间表征当前组，例如，修正前，当前组中包括：记录名称，第一服务器时间；修正后，当前组中包括：记录名称，第二服务器时间。此时，A组记录文件可以用目标记录文件a1进行表示，即为(a1，9:40)。

步骤208：删除当前组中除目标记录文件外的其他记录文件。

删除A组中除了a1以外的其他记录文件a2、a3、a4、a5。

步骤209：预先设置记录文件的类型和类型与分数之间的对应关系。

预先设置的记录文件的类型有：娱乐、邮箱、搜索。其中，娱乐、邮箱、搜索分别对应的分数为1、2、3。

步骤210：确定目标记录文件的目标类型，根据对应关系，确定目标类型对应的目标分数，根据目标分数，描述当前组。

确定a1的目标类型为搜索，对应关系，确定搜索对应的目标分数为3。可以利用记录名称和分数描述当前组，即将A组描述为(a1，3)。

如图3所示，本发明实施例提供了一种数据处理装置，包括：确定单元301，用于获取至少一个记录文件，确定每一个记录文件的客户端开始记录时间；划分单元302，用于根据确定单元301确定的客户端开始记录时间，对至少一个记录文件进行分组；处理单元303，用于针对每一组记录文件，确定当前组中客户端开始记录时间最大的目标记录文件，获取当前组的目标记录文件对应的当前系统时间，根据当前系统时间和当前组的记录文件的数量，计算当前组的标准开始记录时间，根据当前组的标准开始记录时间，描述当前组。

在本发明的一个实施例中，如图4所示，该装置还包括：设置单元304，用于设定单个记录文件的录制时间；处理单元303，用于根据当前系统时间、当前组的记录文件的数量和设置单元304设置的单个记录文件的录制时间，按照式(1)，计算当前组的标准开始记录时间；

T_R＝T_S-C×T_H (1)

在本发明的一个实施例中，如图5所示，还包括获取单元305，用于获取每一组记录文件开始记录时对应的第一服务器时间；处理单元303，用于利用当前组的标准开始记录时间和目标记录文件的客户端开始记录时间，根据式(2)，计算时间间隔；利用时间间隔和获取单元305获取的第一服务器时间，根据式(3)，对第一服务器时间进行修正，获得第二服务器时间；利用第二服务器时间，描述当前组；

ΔT＝T_R-T_K (2)

T_M＝T_N+ΔT (3)

在本发明的一个实施例中，如图6所示，该装置还包括：删除单元306，用于接收处理单元303的触发，删除当前组中除目标记录文件外的其他记录文件。

在本发明的一个实施例中，如图7所示，该装置还包括：描述单元307，用于接收处理单元303的触发，设置记录文件的类型，设置类型与分数之间的对应关系，确定目标记录文件的目标类型，根据对应关系，确定目标类型对应的目标分数；根据目标分数，描述当前组。

综上，本发明各个实施例至少具有如下效果：

1、在本发明实施例中，通过获取至少一个记录文件，确定每一个记录文件的客户端开始记录时间，根据客户端开始记录时间，对至少一个记录文件进行分组，针对每一组记录文件，确定当前组中客户端开始记录时间最大的目标记录文件，获取当前组的目标记录文件对应的当前系统时间，根据当前系统时间和当前组的记录文件的数量，计算当前组的标准开始记录时间，根据当前组的标准开始记录时间，描述当前组。该方法通过对客户端开始记录时间进行修正，排除记录文件录制时间的影响，得到更加准确的记录时间，进而提高数据分析的准确度。

2、在本发明实施例中，通过预先设定的录制时间确定当前组的标准开始时间，并利用当前组的标准开始时间对第一服务器时间进行修正，得到第二服务器时间，利用第二服务器时间对当前组的记录文件进行去燥，删除可能存在异常的记录文。

3、在本发明实施例中，通过设置记录文件的类型与分数的对应关系，为目标记录文件匹配对应的分数，进而利用目标分数，描述当前组。对于一些重要的记录文件，可以通过设置较高的分数，标识记录文件，便于对记录文件进行分析。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取至少一个记录文件；

确定每一个记录文件的客户端开始记录时间；

2.根据权利要求1所述的方法，其特征在于，

进一步包括：预先设定单个记录文件的录制时间；

所述第一公式包括：

T_R＝T_S-C×T_H

3.根据权利要求2所述的方法，其特征在于，

利用所述第二服务器时间，描述所述当前组；

其中，所述第二公式包括：

ΔT＝T_R-T_K

所述第三公式包括：

T_M＝T_N+ΔT

4.根据权利要求1所述的方法，其特征在于，

删除所述当前组中除所述目标记录文件外的其他记录文件。

5.根据权利要求1-4任一所述的方法，其特征在于，

预先设置记录文件的类型；

预先设置所述类型与分数之间的对应关系；

确定所述目标记录文件的目标类型；

根据所述对应关系，确定所述目标类型对应的目标分数；

根据所述目标分数，描述所述当前组。

6.一种数据处理装置，其特征在于，包括：

7.根据权利要求1所述的数据处理装置，其特征在于，进一步包括：

设置单元，用于设定单个记录文件的录制时间；

所述处理单元，用于根据所述当前系统时间、所述当前组的记录文件的数量和所述设置单元设置的所述单个记录文件的录制时间，按照第一公式，计算所述当前组的标准开始记录时间；所述第一公式包括：

T_R＝T_S-C×T_H

8.根据权利要求7所述的数据处理装置，其特征在于，进一步包括：

所述处理单元，用于利用所述当前组的标准开始记录时间和所述目标记录文件的所述客户端开始记录时间，根据第二公式，计算时间间隔；利用所述时间间隔和所述获取单元获取的所述第一服务器时间，根据所述第三公式，对所述第一服务器时间进行修正，获得第二服务器时间；利用所述第二服务器时间，描述所述当前组；其中，所述第二公式包括：

ΔT＝T_R-T_K

所述第三公式包括：

T_M＝T_N+ΔT

9.根据权利要求6所述的数据处理装置，其特征在于，进一步包括：

10.根据权利要求6-9任一所述的数据处理装置，其特征在于，进一步包括：