CN112749201A

CN112749201A - 结构化数据处理方法及系统

Info

Publication number: CN112749201A
Application number: CN201911042792.8A
Authority: CN
Inventors: 许振加
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2021-05-04

Abstract

本发明实施例提供一种结构化数据处理方法及系统，属于计算机技术领域。所述结构化数据处理方法包括：建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系；获取语言执行脚本或函数及其所需的目标标记信息；根据所述对应关系，获取所述多维原始结构化数据集中的每一子集的与所述目标标记信息对应的每一维度的目标数据；以及获取基于所述语言执行脚本或函数处理所述每一子集的每一维度的目标数据的处理结果数据。所述结构化数据处理方法实现了多场景下的语言调用并处理数据。

Description

结构化数据处理方法及系统

技术领域

本发明涉及计算机技术领域，具体地涉及一种结构化数据处理方法、系统、存储介质及处理器。

背景技术

随着企业数据总量的提升，对于现有数据总量中有价值结构化数据的挖掘变得越来越重要，相关技术中，为了实现有价值结构化数据的挖掘，需要建立私有的商业智能(BI，Business Intelligence)系统或使用云端BI产品，上述的BI系统或产品均采用面向服务的技术架构开发，且均无法原生的支持专注于数据处理的语言集成。其中，所述BI产品是一套完整的解决方案，用于将企业不同部门或者系统的数据进行高效整合分析，以强有力的数据支撑，为企业经营者提供更理智的企业决策或商业方案。

在相关技术中可以通过本地搭建语言运行固定环境(语言脚本、函数、参数个数、顺序、所述语言脚本的执行逻辑、代理服务返回值的处理方式均固定)，再使用命令行的方式动态执行语言脚本及函数，该相关技术虽然间接达成集成语言的目的，但是其也仅能够在已知单一场景下执行语言脚本、函数及所需参数数据的调用，当使用场景增加，语言脚本、函数及其参数需求均改变时，相关技术便无法满足需要。

发明内容

本发明实施例的目的是提供一种结构化数据处理方法及系统，该结构化数据处理方法及系统实现了多场景下的语言调用并处理数据。

为了实现上述目的，本发明实施例提供一种结构化数据处理方法，该结构化数据处理方法包括：建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系；获取用于进行结构化数据处理的语言执行脚本或函数及其进行所述结构化数据处理所需的目标标记信息；根据所述对应关系，获取所述多维原始结构化数据集中的每一子集的与所述目标标记信息对应的每一维度的目标数据；以及获取基于所述语言执行脚本或函数处理所述每一子集的每一维度的目标数据而得到的相应处理结果数据。

优选地，所述获取所述多维原始结构化数据集中与所述目标标记信息对应的每一维度的目标数据包括：获取预设定的目标子集个数及子集获取顺序；以及根据所述子集获取顺序，获取所述多维原始结构化数据集的每一子集中的与所述目标标记信息对应的每一维度的目标数据；其中，每获取到一个所述目标数据，确定当前所获取到的子集个数，并判断所确定的子集个数与所述预设定的目标子集个数是否相等，若相等，则确定获取到所有子集的目标数据，否则继续获取下一个所述目标数据，直到所确定的子集个数与所述预设定的目标子集个数相等。

优选地，在所述获取所述多维原始结构化数据集中与所述目标标记信息对应的每一维度的目标数据之后，该结构化数据处理方法还包括：获取所述多维原始结构化数据集中每一维度的剩余数据，其中所述剩余数据被配置为所述多维原始结构化数据集中除每一维度的目标数据之外的所有数据；以及基于所述每一维度的剩余数据及预设定的合并条件，建立满足所述合并条件的维度组，其中所述合并条件用于实现存在相同的所述剩余数据的合并；并且，所述获取基于所述语言执行脚本或函数处理所述每一维度的目标数据的处理结果数据包括：针对所建立的维度组，获取基于所述语言执行脚本或函数分别处理所述维度组的每一目标数据的处理结果数据；或针对单个维度，获取基于所述语言执行脚本或函数处理所述单个维度的目标数据的处理结果数据。

优选地，在所述获取基于所述语言执行脚本处理所述每一维度的目标数据的处理结果数据之后，该结构化数据处理方法还包括：获取每一所述处理结果数据对应的目标数据所在所述多维原始结构化数据集中的子集；将每一所述处理结果数据填充至其对应的目标数据所在所述多维原始结构化数据集的子集中。

另外，本实施例还提供一种结构化数据处理系统，该结构化数据处理系统包括：关系建立单元，用于建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系；标记信息获取单元，获取语言执行脚本及其所需的目标标记信息；目标数据获取单元，用于根据所述对应关系，获取所述多维原始结构化数据集中的每一子集的与所述目标标记信息对应的每一维度的目标数据；以及结果数据获取单元，用于获取基于所述语言执行脚本处理所述每一子集的每一维度的目标数据的处理结果数据。

优选地，所述目标数据获取单元包括：原始维度信息获取模块，用于获取预设定的目标子集个数及子集获取顺序；以及目标数据获取模块，用于根据所述子集获取顺序，获取所述多维原始结构化数据集中的每一子集中的与所述目标标记信息对应的每一维度的目标数据；其中，每获取到一个所述目标数据，确定所获取到的子集个数，并判断所确定的子集个数与所述目标子集个数是否相等，若相等，则确定获取到所有子集的目标数据，否则继续获取下一个所述目标数据，直到所确定的子集个数与所述预设定的目标子集个数相等。

优选地，该结构化数据处理系统还包括：剩余数据获取单元，用于在所述获取所述多维原始结构化数据集中与所述目标标记信息对应的每一维度的目标数据之后，获取所述多维原始结构化数据集中每一维度的剩余数据，其中所述剩余数据被配置为所述多维原始结构化数据集中除每一维度的目标数据之外的所有数据；以及维度组建立单元，用于基于所述每一维度的剩余数据及预设定的合并条件，建立满足所述合并条件的维度组，其中所述合并条件用于实现存在相同的所述剩余数据的合并；并且，所述结果数据获取单元包括：维度组结果获得模块，用于针对所建立的维度组，获取基于所述语言执行脚本分别处理所述维度组的每一目标数据的处理结果数据；或单个维度结果获得模块，用于针对单个维度，获取基于所述语言执行脚本处理所述单个维度的目标数据的处理结果数据。

优选地，该结构化数据处理系统还包括：维度获取单元，用于在所述获取基于所述语言执行脚本处理所述每一维度的目标数据的处理结果数据之后，获取每一所述处理结果数据对应的目标数据所在所述多维原始结构化数据集中的子集；以及数据填充单元，用于将每一所述处理结果数据填充至其对应的目标数据所在所述多维原始结构化数据集的子集中。

另外，本实施例还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行上述的结构化数据处理方法。

另外，本实施例还提供一种处理器，用于运行程序，其中，所述程序被运行时用于执行：如上述的结构化数据处理方法。

通过上述技术方案，本发明在需求场景下利用获取的每一维度的每一数据与用于标记数据类型的标记信息的对应关系可以获知任意数据类型对应的具体数据，另外由于该执行脚本和函数所需数据参数需要从多维原始结构化数据集中获得，通过所获取的语言执行脚本或函数所需的目标标记信息对应出多维原始结构化数据集中的目标数据，在获取到语言执行脚本或函数及其所需的每一维度的目标数据之后，便可以在每一维度基于语言执行脚本或函数处理所述每一维度的目标数据以获得每一维度的处理结果数据，从而满足不同场景下的多维结构化数据的调用及处理，更灵活的完成脚本的执行。

本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施例，但并不构成对本发明实施例的限制。在附图中：

图1是实施例1的一种结构化数据处理方法的流程图；

图2是实施例2的一种结构化数据处理方法的流程图；以及

图3是实施例3的一种结构化数据处理系统的模块框图。

附图标记说明

1 关系建立单元 2 标记信息获取单元

3 目标数据获取单元 4 结果数据获取单元

41 维度组结果获得模块 42 单个维度结果获得模块

5 剩余数据获取单元 6 维度组建立单元

7 维度获取单元 8 数据填充单元

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

在详细描述本发明之前，先简单介绍下现有相关技术。在相关技术中，采用语言脚本、函数、参数个数、顺序、所述语言脚本的执行逻辑、代理服务返回值的处理方式均固定的方式对结构化数据进行处理，上述的方式主要存在以下几种问题：1、场景相对单一，无法适用于多场景的使用；2、对于部分有一定语言函数基础的高级用户上述的相关技术显得不是很友好。采用上述相关技术，若业务规模扩大，场景成倍增加之后，需要执行下述的机构步骤：1、与业务使用方沟通语言执行脚本或函数；2、调整所述语言执行脚本或函数等，上述方式耗时费力，很不灵活。

需要说明的是，申请人针对上述相关技术的描述仅为了让公众更便于了解和熟悉本发明技术方案的宗旨，且申请人不认为上述针对相关技术的描述是在申请日以前已经公开的现有技术。下面将以R语言为例结合多个实施例来详细描述本发明的技术方案，其中，所述R语言中R是S语言的一个开源实现，作为一种脚本语言，尤其擅长数据分析，统计以及绘图。

实施例1

图1是实施例1的一种结构化数据处理方法的流程图。

如图1所示，一种结构化数据处理方法包括：

S101，建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系。

换句话来说，将一个维度的所有数据分别采用不同的标记信息来进行描述，从而获取到多维原始结构化数据集中每一维度的数据的标记信息。

其中，所述多维原始结构化数据集包括多维原始结构化的数据。以国内城市针对某产品的销量及利润为例，所述多维原始结构化数据集中的数据可以包括：

|2018-01-01|华北|北京|5000|80000|

|2018-02-01|华北|北京|1000|45000|

|2018-01-01|华东|上海|1000|50000|

|2018-02-01|华东|上海|2000|60000|

|2018-01-01|华南|成都|1000|30000|

|2018-02-01|华南|成都|2000|70000|

其中，每列表示一个维度的数据，其例如可以表示为“|华北|华东|华南”，其余维度以此逐个往下类推，在此不再赘述。

其中，用户配置端可以主动配置所述标记信息，然后，从用户配置端直接获取所述标记信息，所述标记信息可以包括：日期、地区、城市、销量、利润。

结合上述示例的每一维度的数据及配置的标记信息，两者之间所述的对应关系可以表示为：

|日期|地区|城市|销量|利润|

|2018-01-01|华北|北京|5000|80000|

|2018-02-01|华北|北京|1000|45000|

|2018-01-01|华东|上海|1000|50000|

|2018-02-01|华东|上海|2000|60000|

|2018-01-01|华南|成都|1000|30000|

|2018-02-01|华南|成都|2000|70000|。

S102，获取用于进行结构化数据处理的语言执行脚本或函数及其进行所述结构化数据处理所需的目标标记信息。

其中，所述语言执行脚本或函数可以为R语言的执行脚本或函数，具体地，同样以上述关于城市针对某产品的销量和利润为例，所述语言执行脚本或函数及其所需的目标标记信息可以是：

{

rScript：

“train＝data.frame(.arg1，.arg2)；fit＝lm(.arg1～.arg2，train)；predict(fit，train)；”//代表传入2个参数，每2个参数均是一维数据，经过一定的算法得出一维数组

params：[“sales”，“profit”]

}

其中，所述train表示一个本地变量，它暂存了data.frame()函数的运算结果；data.frame()表示初始化一个数据框，可以理解成一个具有行和列的二维数组，其值是从第一个参数.arg1和第二个参数.arg2中获取到的参数值；fit表示一个本地变量，它暂存了lm函数的运算结果；lm：R表示语言内置函数，通过它可以执行线性回归算法并得到一种关系模型；predict():表示R语言内置函数，通过它可以根据关系模型计算给定数据的预测值。本脚本的含义是通过R语言内置的线性回归函数lm以及预测函数predict，基于销售额‘sales’预测各地区城市不同时间的“profit”。

其中，“sales”，“profit”分别表示销量和利润，“params：[“sales”，“profit”]”表示目标标记信息为按照销量和利润的顺序调用多维原始结构化数据集中每一维度的销量和利润的数据。

S103，根据所述对应关系，获取所述多维原始结构化数据集中的每一子集的与所述目标标记信息对应的每一维度的目标数据。

其中，所述目标数据可以包括一个数据或多个数据。例如，所述目标标记信息包括销量和利润，根据所述多维原始结构化数据集，可以获取每一子集的销量和利润的数据，具体地，以上述的多维原始结构化数据集为例，每一子集为所述多维原始结构化数据集的每一行数据，第一子集的目标数据为[5000，80000]；第二子集的目标数据为[1000，45000]；第三子集的目标数据为[1000，50000]；第四子集的目标数据为[2000，60000]；第五子集的目标数据为[1000，30000]；第六子集的目标数据为[2000，70000]。

其中，所有目标数据形成一个统一的参数列表，以供后续使用。

进一步优选地，本实施例确定获取到所有维度的目标数据的方法包括：

A1)获取预设定的目标子集个数及子集获取顺序；例如，在本实施例中，所述目标子集个数为6个，子集获取顺序为从第一子集到第六子集。A2)根据所述子集获取顺序，获取所述多维原始结构化数据集中的每一子集中的与所述目标标记信息对应的每一维度的目标数据。

其中，每获取到一个所述目标数据，确定所获取到的维度个数，并判断所确定的维度个数与所述目标维度个数是否相等，若所确定的维度个数与所述目标维度个数相等即所确定的子集个数达到6个，则确定获取到所有子集的目标数据，否则继续获取下一个所述目标数据，直到所确定的子集个数与所述预设定的目标子集个数相等。确定所获取到的子集个数可以根据获取每一子集的目标数据的个数来确定，可以在每获取到一组目标数据即将子集个数加一，直至所述子集个数达到6个，则认定获取到所有子集的目标数据。

S104，获取基于所述语言执行脚本或函数处理所述每一子集的每一维度的目标数据而得到的相应处理结果数据。

其中，基于所述语言执行脚本或函数处理所述每一维度的目标数据包括：向解析R语言的服务传递R脚本内容或函数及每一维度的目标数据形成的参数列表，从而可以获得处理结果数据。以第一维度的目标数据及第二维度的目标数据为例，两者获取的处理结果数据均为6000。其中，所述向解析R语言的服务传递R脚本内容或函数及参数列表为实现已经定义好的处理规则，解析R语言的服务可以直接根据所述R脚本内容或函数及参数列表实现每一维度的处理。

其中，解析R语言的服务是一种通过Http协议获取R语言执行脚本以及所需参数，动态的执行R语言脚本的应用服务，其通过开放web服务，以让合法的调用者可以通过http请求完成R脚本的解析并获取处理结果数据。

进一步优选地，在所述获取基于所述语言执行脚本处理所述每一维度的目标数据的处理结果数据之后，该结构化数据处理方法还包括：

B1)获取每一所述处理结果数据对应的目标数据所在所述多维原始结构化数据集中的子集。B2)将每一所述处理结果数据填充至其对应的目标数据所在所述多维原始结构化数据集的子集中。

其中，由于每一所述处理结果数据都是基于所述语言执行脚本或函数处理所述每一维度的目标数据后得到的，因此每一所述处理结果数据都有其唯一的维度。基于此，通过上述B1)、B2)的方式可以实现处理结果数据与原始多维原始结构化数据集的整合。例如，以第一维度的目标数据及第二维度的目标数据为例，整合填充后的数据如下所示：

|日期|地区|城市|销量|利润|result|

|2018-01-01|华北|北京|5000|80000|6000|

|2018-02-01|华北|北京|1000|45000|6000|。

其中，上述填充的位置为“result”所表示的数据列，且所述处理结果数据最终填充至多维原始结构化数据集中每一所述处理结果数据所在维度的最后。

通过上述的实施例，可以建立多维原始结构化数据集中的每一维度的每一数据与标记信息的对应关系，从而将多维原始结构化数据进行名描述规则进行划分，接着获取语言执行脚本或函数及其所需的目标标记信息以实现语言的编辑并能够将所需的目标确定下来，然后根据所述对应关系及目标标记信息，可以获取到每一维度的目标数据。在获得了语言执行脚本及目标数据之后可以基于R语言执行服务获取处理结果数据，由于事先约定了解析R语言服务的传递规则即传递至R语言执行服务的R脚本内容或函数及是否达到目标维度个数的参数列表，灵活应对不同用户不同场景对R语言所执行脚本或函数的个性化使用。

实施例2

图2是实施例2的一种结构化数据处理方法的流程图。

如图2所示，该结构化数据处理方法包括：

S201，建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系。

S202，获取用于进行结构化数据处理的语言执行脚本或函数及其进行所述结构化数据处理所需的目标标记信息。

S203，根据所述对应关系，获取所述多维原始结构化数据集中对应的目标数据与所述目标标记信息对应的每一维度的目标数据。

S204，获取所述多维原始结构化数据集中每一维度的剩余数据。

其中，所述剩余数据被配置为所述多维原始结构化数据集的子集中除每一维度的目标数据之外的所有数据。换句话说，所述每一维度的剩余数据与目标数据相加等于所述多维原始结构化数据集中该维度的所有数据。例如，所述多维原始结构化数据集包括：

|日期|地区|城市|销量|利润|

|2018-01-01|华北|北京|5000|80000|

|2018-02-01|华北|北京|1000|45000|

|2018-01-01|华东|上海|1000|50000|

|2018-02-01|华东|上海|2000|60000|

|2018-01-01|华南|成都|1000|30000|

|2018-02-01|华南|成都|2000|70000|；

其中，所述“日期”、“销量”及“利润”所对应的列数据为目标数据，剩余数据包括：“地区”、“城市”对应的列数据。

S205，基于所述每一维度的剩余数据及预设定的合并条件，建立满足所述合并条件的维度组。

其中，所述合并条件用于实现存在相同的所述剩余数据的合并。所述维度组可以包括多个维度，该步骤主要用于将能够合并的剩余数据进行合并，以方便后续的使用。例如，在执行S205步骤之后，所建立的维度组包括：

|地区|城市|

|华北|北京|

|华东|上海|

|华南|成都|；

S206，针对所建立的维度组，获取基于所述语言执行脚本或函数分别处理所述维度组的每一目标数据的处理结果数据或针对单个维度，获取基于所述语言执行脚本或函数处理所述单个维度的目标数据的处理结果数据。

其中，建立所述维度组的目的在于，以维度组为单元，在后续执行基于所述语言执行脚本分别处理所述维度组的每一目标数据的过程中，只需要调用一次语言执行脚本或函数。当然，对于不能合并的维度，依然按照单个维度的调用规则进行调用，每个单个维度调用依次语言执行脚本或函数。

B1)获取每一所述处理结果数据对应的目标数据所在所述多维原始结构化数据集中的子集。B2)将每一所述处理结果数据对应的目标数据填充至其所在所述多维原始结构化数据集的子集中。

通过上述的实施例，可以减少获取基于所述语言执行脚本或函数处理所述每一维度的目标数据的处理结果数据语言执行脚本过程中，对所述语言执行脚本或函数的调用，提高数据的处理速度，避免步骤的重复。

实施例3

图3是实施例3的一种结构化数据处理系统的模块框图。

如图3所示，所述结构化数据处理系统包括：关系建立单元1，用于建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系；标记信息获取单元2，获取用于进行结构化数据处理的语言执行脚本及其进行所述结构化数据处理所需的目标标记信息；目标数据获取单元3，用于根据所述对应关系，获取所述多维原始结构化数据集中的每一子集的与所述目标标记信息对应的每一维度的目标数据；以及结果数据获取单元4，用于获取基于所述语言执行脚本处理所述每一子集的每一维度的目标数据而得到的相应处理结果数据。

优选地，所述目标数据获取单元3包括：原始子集信息获取模块(图中并未示出)，用于获取预设定的目标子集个数及子集获取顺序；以及目标数据获取模块(图中并未示出)，用于根据所述子集获取顺序，获取所述多维原始结构化数据集的每一子集中的与所述目标标记信息对应的每一维度的目标数据；其中，每获取到一个所述目标数据，确定当前所获取到的子集个数，并判断所确定的子集个数与所述预设定的目标子集个数是否相等，若相等，则确定获取到所有子集的目标数据，否则继续获取下一个所述目标数据，直到所确定的子集个数与所述预设定的目标子集个数相等。

优选地，该结构化数据处理系统还包括：剩余数据获取单元5，用于在所述获取所述多维原始结构化数据集中与所述目标标记信息对应的每一维度的目标数据之后，获取所述多维原始结构化数据集中每一维度的剩余数据，其中所述剩余数据被配置为所述多维原始结构化数据集中除每一维度的目标数据之外的所有数据；以及维度组建立单元6，用于基于所述每一维度的剩余数据及预设定的合并条件，建立满足所述合并条件的维度组，其中所述合并条件用于实现存在相同的所述剩余数据的合并；并且，所述结果数据获取单元4包括：维度组结果获得模块41，用于针对所建立的维度组，获取基于所述语言执行脚本分别处理所述维度组的每一目标数据的处理结果数据；或单个维度结果获得模块42，用于针对单个维度，获取基于所述语言执行脚本处理所述单个维度的目标数据的处理结果数据。

优选地，该结构化数据处理系统还包括：维度获取单元7，用于在所述获取基于所述语言执行脚本处理所述每一维度的目标数据的处理结果数据之后，获取每一所述处理结果数据对应的目标数据所在所述多维原始结构化数据集中的子集；以及数据填充单元8，用于将每一所述处理结果数据填充至其对应的目标数据所在所述多维原始结构化数据集的子集中。

其中，所述结构化数据处理系统对于获取到不同语言执行脚本或函数及其所需的目标标记信息的各个系统，可以减小各个系统之间的耦合，最大限度让各个系统能够只关注自己的业务，不被无休止的场景变更所影响。另外，实施例3与现有技术相比具有和实施例1、2相同的区别技术方案及技术效果，在此不再赘述。

此外，本发明除了可以用于R语言的调用处理外，还可以用于所有结构化的数据的人工智能平台。

例如，可以按照下面的规则来定义调用的人工智能平台以及所需要的参数：

1，`ai({platform},{main function}，[params])`；

其中：`ai(xxx)`表示数据集应该执行人工智能平台的函数调用；`platform`表示调用平台的地址；`main function`表示调用`platform`平台的执行的脚本或函数；`params`表示执行的函数或者脚本所需参数应该来自结构化的数据集的标记信息。

其中，调用方应该存储`platform`对应的请求地址，如果该平台不同的函数调用有自己的参数格式，也需要将其保存下来。

2，基于以上已经定义好的参数，调用方在接收到带有`ai`请求命令后执行：

解析`platform`,`main function`以及`params`；根据`platform`和`mainfunction`查找对应的请求地址和参数格式；按照`params`定义至数据集中取出所需的真正参数，按照参数格式重新组织这部分数据；向`platform`的服务地址发起请求；获取到结果后，按照一定的规则将其放置在原始数据集中。

通过上述的方式可以实现人工智能平台的结构化数据的调用及处理，提高处理的效率，可以扩展至多种调用数据的平台，灵活完成脚本的调用及执行。

所述结构化数据处理装置包括处理器和存储器，上述关系建立单元、标记信息获取单元、目标数据获取单元、结果数据获取单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来结构化数据的处理。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述结构化数据处理方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述结构化数据处理方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：(方法权项步骤，独权+从权)。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有实施例1、2中的步骤的程序。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种结构化数据处理方法，其特征在于，该结构化数据处理方法包括：

建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系；

获取用于进行结构化数据处理的语言执行脚本或函数及其进行所述结构化数据处理所需的目标标记信息；

根据所述对应关系，获取所述多维原始结构化数据集中的每一子集的与所述目标标记信息对应的每一维度的目标数据；以及

获取基于所述语言执行脚本或函数处理所述每一子集的每一维度的目标数据而得到的相应处理结果数据。

2.根据权利要求1所述的结构化数据处理方法，其特征在于，

所述获取所述多维原始结构化数据集中与所述目标标记信息对应的每一维度的目标数据包括：

获取预设定的目标子集个数及子集获取顺序；以及

根据所述子集获取顺序，获取所述多维原始结构化数据集的每一子集中的与所述目标标记信息对应的每一维度的目标数据；其中，每获取到一个所述目标数据，确定当前所获取到的子集个数，并判断所确定的子集个数与所述预设定的目标子集个数是否相等，若相等，则确定获取到所有子集的目标数据，否则继续获取下一个所述目标数据，直到所确定的子集个数与所述预设定的目标子集个数相等。

3.根据权利要求1所述的结构化数据处理方法，其特征在于，

在所述获取所述多维原始结构化数据集中与所述目标标记信息对应的每一维度的目标数据之后，该结构化数据处理方法还包括：

获取所述多维原始结构化数据集中每一维度的剩余数据，其中所述剩余数据被配置为所述多维原始结构化数据集中除每一维度的目标数据之外的所有数据；以及

基于所述每一维度的剩余数据及预设定的合并条件，建立满足所述合并条件的维度组，其中所述合并条件用于实现存在相同的所述剩余数据的合并；

并且，所述获取基于所述语言执行脚本或函数处理所述每一维度的目标数据而得到的处理结果数据包括：

针对所建立的维度组，获取基于所述语言执行脚本或函数分别处理所述维度组的每一目标数据的处理结果数据；或

针对单个维度，获取基于所述语言执行脚本或函数处理所述单个维度的目标数据的处理结果数据。

4.根据权利要求1所述的结构化数据处理方法，其特征在于，

在所述获取基于所述语言执行脚本处理所述每一维度的目标数据的处理结果数据之后，该结构化数据处理方法还包括：

获取每一所述处理结果数据对应的目标数据所在所述多维原始结构化数据集中的子集；

将每一所述处理结果数据填充至其对应的目标数据所在所述多维原始结构化数据集的子集中。

5.一种结构化数据处理系统，其特征在于，该结构化数据处理系统包括：

关系建立单元，用于建立多维原始结构化数据集中每一维度的数据与用于标记数据类型的标记信息的对应关系；

标记信息获取单元，获取用于进行结构化数据处理的语言执行脚本及其进行所述结构化数据处理所需的目标标记信息；

目标数据获取单元，用于根据所述对应关系，获取所述多维原始结构化数据集中的每一子集的与所述目标标记信息对应的每一维度的目标数据；以及

结果数据获取单元，用于获取基于所述语言执行脚本处理所述每一子集的每一维度的目标数据而得到的相应处理结果数据。

6.根据权利要求5所述的结构化数据处理系统，其特征在于，

所述目标数据获取单元包括：

原始维度信息获取模块，用于获取预设定的目标子集个数及子集获取顺序；以及

目标数据获取模块，用于根据所述子集获取顺序，获取所述多维原始结构化数据集中的每一子集中的与所述目标标记信息对应的每一维度的目标数据；其中，每获取到一个所述目标数据，确定当前所获取到的子集个数，并判断所确定的子集个数与所述预设定的目标子集个数是否相等，若相等，则确定获取到所有子集的目标数据，否则继续获取下一个所述目标数据，直到所确定的子集个数与所述预设定的目标子集个数相等。

7.根据权利要求5所述的结构化数据处理系统，其特征在于，

该结构化数据处理系统还包括：

剩余数据获取单元，用于在所述获取所述多维原始结构化数据集中与所述目标标记信息对应的每一维度的目标数据之后，获取所述多维原始结构化数据集中每一维度的剩余数据，其中所述剩余数据被配置为所述多维原始结构化数据集中除每一维度的目标数据之外的所有数据；以及

维度组建立单元，用于基于所述每一维度的剩余数据及预设定的合并条件，建立满足所述合并条件的维度组，其中所述合并条件用于实现存在相同的所述剩余数据的合并；

并且，所述结果数据获取单元包括：

维度组结果获得模块，用于针对所建立的维度组，获取基于所述语言执行脚本分别处理所述维度组的每一目标数据的处理结果数据；或

单个维度结果获得模块，用于针对单个维度，获取基于所述语言执行脚本处理所述单个维度的目标数据的处理结果数据。

8.根据权利要求5所述的结构化数据处理系统，其特征在于，该结构化数据处理系统还包括：

维度获取单元，用于在所述获取基于所述语言执行脚本处理所述每一维度的目标数据的处理结果数据之后，获取每一所述处理结果数据对应的目标数据所在所述多维原始结构化数据集中的子集；以及

数据填充单元，用于将每一所述处理结果数据填充至其对应的目标数据所在所述多维原始结构化数据集的子集中。

9.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行权利要求书1-4中任意一项所述的结构化数据处理方法。

10.一种处理器，其特征在于，用于运行程序，其中，所述程序被运行时用于执行：如权利要求1-4中任意一项所述的结构化数据处理方法。