CN105760492A

CN105760492A - 数据分析方法及装置

Info

Publication number: CN105760492A
Application number: CN201610091664.2A
Authority: CN
Inventors: 刘杰; 闵宇; 汪洋; 李坤祥; 叶浩斌; 张国文
Original assignee: Guangdong Ruijiang Cloud Computing Co Ltd
Current assignee: Guangdong Ruijiang Cloud Computing Co Ltd
Priority date: 2016-02-18
Filing date: 2016-02-18
Publication date: 2016-07-13
Anticipated expiration: 2036-02-18
Also published as: CN105760492B

Abstract

本发明实施例公开了一种数据分析方法及装置。该方法包括：获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表；根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与所述数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对；根据设定统计规则，对所述中间数据对进行统计分析，得到数据分析结果。本发明实施例提供的数据分析方法及装置，以提高数据分析的通用性。

Description

数据分析方法及装置

技术领域

本发明实施例涉及数据分析技术领域，尤其涉及一种数据分析方法及装置。

背景技术

近几年，由于数据在互联网领域的持续增长，各公司都面临海量数据的处理需求。部门内的数据分析主要为公司各部门运维服务，数据分析主要基于各部门的服务器产生的日志来进行分析，目的是基于这些日志对用户访问、数据流量在时间维度、产品线维度、域名维度等有明确的量化数据，从而为公司服务器运维管理、流量分配、预估等提供建议。

在现有的数据分析系统中，针对用户不同的分析需求，需要采用专用的数据分析方法，即针对用户不同的分析需求，都需要设计一套数据分析方法。因此，导致数据分析的效率底下，成本高昂。

发明内容

本发明实施例提供一种数据分析方法及装置，以提高数据分析的通用性。

第一方面，本发明实施例提供了一种数据分析方法，该方法包括：

获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表；

根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与所述数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对；

根据设定统计规则，对所述中间数据对进行统计分析，得到数据分析结果。

第二方面，本发明实施例还提供了一种数据分析装置，该装置包括：

获取模块，用于获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表；

分解模块，用于根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与所述数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对；

统计分析模块，用于根据设定统计规则，对所述中间数据对进行统计分析，得到数据分析结果。

本发明通过根据用户分析需要设定数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表，实现对待分析数据的不同需求的分解和提取，提高了数据分析的通用性。

附图说明

图1是本发明实施例一提供的一种数据分析方法的流程图；

图2是本发明实施例二提供的一种数据分析方法的流程图；

图3是本发明实施例三提供的一种数据分析方法的流程图；

图4是本发明实施例四提供的一种数据分析方法的流程图；

图5是本发明实施例五提供的一种数据分析装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种数据分析方法的流程图。本实施例可适用于数据统计分析的情况，该方法可以由数据分析装置来执行，数据分析装置可以由硬件和/或软件的方式实现。参见图1，本实施例提供的数据分析方法具体包括如下：

S110、获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表。

其中，待分析数据为具有分界标志的数据，数据段分解正则表达式为对数据段进行分解的正则表达式，所述数据段分解正则表达式可以根据标点符号进行定义，例如数据段分解正则表达式可以为：姓名：(字符串)，年龄：(数字)岁，身高：(数字)厘米，对应的数据项名称列表可以为：1：姓名，2：年龄，3：身高。获取待分析数据的方式可以是一次全部获取，但为了节省内存空间的占用量，优选是根据设定数据长度获取待分析数据。例如，每次获取待分析数据中的10比特的数据。

S120、根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与所述数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对。

其中，数据段为待分析数据中包含的由边界标志分开的一段数据。数据项值为对应数据项名称的值，数据项名称是对数据的一种标识，可以是年龄和身高等，对应的数据项值可以为20和160。中间数据对为根据数据项值与所述数据项名称列表进行关联形成的，以数据项名称对应数据项值形式存储的数据，例如：年龄：20，身高：160。

S130、根据设定统计规则，对所述中间数据对进行统计分析，得到数据分析结果。

其中，统计规则为执行统计分析的规则，用户可以根据需要设定，例如可以是对部门员工工资的累加，也可以是对年级数学成绩大于一定阈值的学生的统计。

本实施例的技术方案，通过获取根据用户分析需要设定的数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表，并结合设定统计规则，实现对待分析数据的不同需求的分解和统计，提高了数据分析的通用性和数据分析的效率。

实施例二

本实施例在上述实施例的基础上具体提供了一种数据分析方法。图2是本发明实施例二提供的一种数据分析方法的流程图。参见图2，本实施例提供的数据分析的方法具体包括如下：

S210、获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表。

S220、获取边界鉴定正则表达式，并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定，提取出所述待分析数据中的数据段。

其中，边界鉴定正则表达式为用于鉴定获取待分析数据的边界的正则表达式，例如可以是分号、逗号或者其他形式的字符。边界鉴定正则表达式是用户根据待分析数据设定的，对待分析数据执行边界鉴定的方式可以是对待分析数据中固定长度的数据遍历边界标志，遍历到边界标志就将该边界标志对应的数据段提取出来。也可以是遍历全部的待分析数据，利用边界鉴定表达式提取待分析数据中的全部数据段。

S230、根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与所述数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对。

S240、根据设定统计规则，对所述中间数据对进行统计分析，得到数据分析结果。

本实施例技术方案，通过根据获取的边界鉴定正则表达式，实现对具有不同边界标志的待分析数据的边界鉴定，提高数据段提取的准确性，从而提高数据分析的通用性。

实施例三

本实施例是在上述实施例的基础上具体提供的一种数据分析方法。图3是本发明实施例三提供的一种数据分析方法的流程图。参见图3，本实施例提供的数据分析方法具体包括如下：

S310、获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表。

S320、根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与所述数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对。

S330、获取统计分析结果字段表中的结果字段，结果字段包括字段统计公式，所述统计分析结果字段表包括至少一个结果字段。

其中，统计分析结果字段表中可以包括一个或多个结果字段，每个结果字段可以包括一个字段统计公式。结果字段指明对具有设定数据项名称的数据进行统计。

S340、根据字段统计公式，对所述中间数据对中的相应数据进行统计。

字段统计公式可以指明需要对具有设定数据项名称的数据进行统计，将所述中间数据对中的与字段统计公式的数据项名称对应的数据项值带入字段统计公式中进行统计计算，得到数据分析结果。

优选的，所述结果字段还可以包括字段值；根据字段统计公式，对所述中间数据对中的相应数据进行统计，可以包括：将所述中间数据对和字段值代入字段统计公式，计算得到新的字段值；将新的字段值替换所述字段值，并保存至统计分析结果字段表中的对应结果字段中。

字段统计公式中可以包含字段值和中间数据对中的数据项名称，在对数据进行统计之前，可以将字段值赋值为0，字段值表示数据统计的中间结果。在对数据进行统计时，将字段值和与字段统计公式中的中间数据对中数据项名称对应的数据项值代入字段统计公式，计算得出新的字段值。将新的字段值替换所述字段值，并保存至统计分析结果字段表中的对应结果字段中。

本实施例技术方案，通过获取根据用户需要设定的统计分析结果字段表中的结果字段，实现对不同统计规则需求的统计分析，进一步提高数据分析的通用性。

实施例四

本实施例是在上述实施例的基础上提出的一种数据分析方法的具体实例。图4是本发明实施例四提供的一种数据分析方法流程图。参见图4，本实施例提供的数据分析方法具体包括如下：

S410、从数据源中读取一部分数据。

其中，数据源为所述待分析数据，读取一部分数据可以是从待分析数据中获取固定长度的待分析数据。例如，数据源为“姓名：张一山，年龄：20岁，身高：160厘米；姓名：李四，年龄：9岁，身高：100厘米；姓名：王五，年龄：50岁，身高：180厘米”。从数据源中读取25个字符长度的数据，则获取的数据为“姓名：张一山，年龄：20岁，身高：160厘米；姓名”。

S420、获取数据源分段的边界正则表达式，对读取的数据应用边界正则表达式。

其中，边界正则表达式为所述边界鉴定表达式，例如，边界正则表达式为“；”。对获取的数据为“姓名：张一山，年龄：20岁，身高：160厘米；姓名”应用边界正则表达式“；”进行正则匹配。

S430、判断边界正则匹配结果。

其中，边界正则匹配为对读取的数据应用边界正则表达式进行的匹配，如果匹配成功，则生成数据段作为边界正则匹配结果；如果匹配失败，则将返回继续执行S410。例如，在读取的数据“姓名：张一山，年龄：20岁，身高：160厘米；姓名”中匹配到“；”，则将“；”对应的分段数据作为一个数据段，该数据段为“姓名：张一山，年龄：20岁，身高：160厘米”，并将该数据段作为边界正则匹配结果。

S440、如果边界正则匹配成功，则获取数据段分解正则表达式和对应的数据项名称，并对边界正则匹配结果应用数据段分解正则表达式。

其中，对应的数据项名称为所述数据项名称列表中与数据段分解正则表达式对应的数据项的名称，例如，数据段分解表达式可以为：姓名：(字符串)，年龄：(数字)岁，身高：(数字)厘米；对应的数据项名称为：1：姓名，2：年龄，3：身高。同时，将数据段分解表达式应用于边界正则匹配结果中。

S450、判断数据段分解正则匹配结果。

其中，数据段分解正则匹配为，对数据段应用数据段分解正则表达式进行的匹配。如果匹配成功，则生成对应的数据项值作为数据段分解正则匹配结果；如果匹配失败，则返回S410。例如，对数据段为“姓名：张一山，年龄：20岁，身高：160厘米”的数据段分解正则匹配结果为：姓名：(张一山)，年龄：(20)岁，身高：(160)厘米。其中，姓名、年龄和身高为数据项名称，括号内的值为数据项值。

S460、如果匹配成功，将数据段分解正则匹配结果和获取的用户数据项名称对应，产生中间结果集。

其中，中间结果集为所述中间数据对，例如，用户数据项名称可以为：1：姓名，2：年龄，3：身高。将数据段分解正则匹配结果与数据项名称对应，可以产生姓名对应张一山、年龄对应20和身高对应160的中间结果集。

S470、获取需要分析的最终结果字段集，遍历最终结果字段集中的每一个字段，并将中间结果集和最终结果字段集代入到结果字段集相应的字段的公式中计算得到字段的值。

其中，结果字段集为所述统计分析结果字段表，结果字段集中的字段为所述结果字段，结果字段集中可以包括一个或多个字段，每个字段可以包括一个字段的公式和一个字段的值，字段的公式为所述字段统计公式，字段的值为所述字段值。例如，当前遍历到的字段可以为“年龄累加”，该字段的公式可以是“字段的值+年龄”，设定字段的值的初始值为0。将中间结果集中对应数据项名称为“年龄”的数据项值20代入字段的公式为0+20＝20，并将计算结果值20替换原有字段的值保存至结果字段集的“年龄累加”字段的字段的值中，该结果字段集作为下次统计计算的最终结果字段集。

S480、判断数据源是否读取完毕。

其中，如果没有读取完毕，则将返回步骤S410继续依次执行。

S490、如果读取完毕，则将结果字段集输出并显示。

本实施例的技术方案，通过获取的根据用户需要设定的边界鉴定正则表达式、数据段分解正则表达式、对应数据段分解正则表达式的数据项名称列表和统计分析结果字段表，实现对不同边界标志、不同分析需求和不同统计规则的统计分析，进一步提高数据分析的通用性。

实施例五

图5是本发明实施例五提供的一种数据分析装置的结构示意图。本实施例是在上述实施例的基础上提供的一种数据分析装置。参见图5，本实施例提供的数据分析装置包括：获取模块10、分解模块20和统计分析模块30。

其中，获取模块10，用于获取待分析数据、数据段分解正则表达式和与所述数据段分解正则表达式对应的数据项名称列表；分解模块20，用于根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与所述数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对；统计分析模块30，用于根据设定统计规则，对所述中间数据对进行统计分析，得到数据分析结果。

进一步的，所述装置还可以包括：边界鉴定模块，用于在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前，获取边界鉴定正则表达式，并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定，提取出所述待分析数据中的数据段。

具体的，所述统计分析模块可以包括：结果字段单元，用于获取统计分析结果字段表中的结果字段，结果字段包括字段统计公式，所述统计分析结果字段表包括至少一个结果字段；统计单元，用于根据字段统计公式，对所述中间数据对中的相应数据进行统计。

优选的，所述结果字段还可以包括字段值；所述统计单元可以包括：字段值计算器，用于将所述中间数据对和字段值代入字段统计公式，计算得到新的字段值；字段值存储器，用于将新的字段值替换所述字段值，并保存至统计分析结果字段表中的对应结果字段中。

可选的，所述获取待分析数据可以包括：根据设定数据长度获取待分析数据。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前，还包括：

获取边界鉴定正则表达式，并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定，提取出所述待分析数据中的数据段。

3.根据权利要求1或2所述的方法，其特征在于，对所述中间数据对进行统计分析，得到数据分析结果，包括：

获取统计分析结果字段表中的结果字段，结果字段包括字段统计公式，所述统计分析结果字段表包括至少一个结果字段；

根据字段统计公式，对所述中间数据对中的相应数据进行统计。

4.根据权利要求3所述的方法，其特征在于，所述结果字段还包括字段值；

根据字段统计公式，对所述中间数据对中的相应数据进行统计，包括：

将所述中间数据对和字段值代入字段统计公式，计算得到新的字段值；

将新的字段值替换所述字段值，并保存至统计分析结果字段表中的对应结果字段中。

5.根据权利要求1或2所述的方法，其特征在于，所述获取待分析数据，包括：

根据设定数据长度获取待分析数据。

6.一种数据分析装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

边界鉴定模块，用于在根据所述数据段分解正则表达式对所述待分析数据中的数据段进行数据分解之前，获取边界鉴定正则表达式，并对所述待分析数据应用所述边界鉴定正则表达式进行边界鉴定，提取出所述待分析数据中的数据段。

8.根据权利要求6或7所述的装置，其特征在于，所述统计分析模块，包括：

结果字段单元，用于获取统计分析结果字段表中的结果字段，结果字段包括字段统计公式，所述统计分析结果字段表包括至少一个结果字段；

统计单元，用于根据字段统计公式，对所述中间数据对中的相应数据进行统计。

9.根据权利要求8所述的装置，其特征在于，所述结果字段还包括字段值；

所述统计单元，包括：

字段值计算器，用于将所述中间数据对和字段值代入字段统计公式，计算得到新的字段值；

字段值存储器，用于将新的字段值替换所述字段值，并保存至统计分析结果字段表中的对应结果字段中。

10.根据权利要求6或7所述的装置，其特征在于，所述获取待分析数据，包括：

根据设定数据长度获取待分析数据。