CN107729349B

CN107729349B - 一种基于元数据的特征数据集自动生成方法及装置

Info

Publication number: CN107729349B
Application number: CN201710742328.4A
Authority: CN
Inventors: 田春华; 张�浩; 魏昕路; 蒋绵
Original assignee: Kunlun Intellectual Exchange Data Technology Beijing Co ltd
Current assignee: Kunlun Intellectual Exchange Data Technology Beijing Co ltd
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2022-06-07
Anticipated expiration: 2037-08-25
Also published as: CN107729349A

Abstract

本发明提供一种基于元数据的特征数据集自动生成方法及装置，所述特征数据集自动生成方法包括以下步骤：S11，对元数据模型和目标对象进行解析；S12，根据解析后的元数据模型和目标对象构建关联路径树；S13，将算子库插入所述关联路径树构建关联语法树；S14，将实例数据填入所述关联语法树，以生成实例数据关联语法树；S15，将所述实例数据关联语法树中的特征数据集抽取出来，以得到所述特征数据集。本发明的基于元数据的特征数据集自动生成方法及装置能够处理多个关联关系，并且本发明的基于元数据的特征数据集自动生成方法及装置具有非侵入式特性。

Description

一种基于元数据的特征数据集自动生成方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于元数据的特征数据集自动生成方法及装置。

背景技术

特征变量是很多数据挖掘问题成功的关键因素。在现有技术中，一般通过人工加工和深度学习生成特征变量。人工加工具有以下缺陷：根据对数据和问题的了解，手动变成加工特征，工作量通常占数据分析项目40～50％的时间；深度学习具有以下缺陷：针对图像、时间序列等结构化数据，自动构建层次化特征，但深度学习不能作用与多个数据对象，针对图像和时间序列也是仅仅考虑空间/时序近邻过程而加工特征。

元数据(Metadata)，又称中介数据、中继数据，为描述数据的数据(data aboutdata)，主要是描述数据属性(property)的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录，为了达到编制目录的目的，必须在描述并收藏数据的内容或特色，进而达成协助数据检索的目的。

元数据是数据的数据，具体指描述数据及其环境的数据。

元数据模型以反映信息结构的某种形式对数据组织描述，其指明元数据的属性、结构和内在关系。

元数据管理系统为大数据平台绘制数据地图、统一数据口径、标明数据方位、分析数据关系、管理模型变更及精确到字段级别的影响分析。打通上下游数据继承关系断层，为数据质量维护和业务逻辑可视化打下坚实基础。

非侵入式技术体现为：允许在应用系统中自由选择和组装Spring框架的各个功能模块，并且不强制要求应用系统的类必须从Spring框架的系统API的某个类来继承或者实现某个接口。

现有技术中，专利申请号为CN200510067375.0，专利名称为“目标变量的自动数据透视生成”，该专利处理数据仓库透视图的自动生成问题，它确定并分析对给定目标变量的最佳目标变量预测符，利用它们来便于将有关目标变量的信息传递给用户，该发明自动离散化用作目标变量预测符的连续的和离散的变量，以建立它们的粒度(Granularity)，并加强对用户的信息传递。没有解决数据挖掘中通过原始变量生成特征变量的问题。

因此，需要一种能够处理多个关联关系且具有非侵入式特性的基于元数据的特征数据集自动生成方法及装置。

发明内容

本发明的一个方面，提供了一种基于元数据的特征数据集自动生成方法，包括以下步骤：

S11，对元数据模型和目标对象进行解析；

S12，根据解析后的元数据模型和目标对象构建关联路径树；

S13，将算子库插入关联路径树构建关联语法树；

S14，将实例数据填入关联语法树，以生成实例数据关联语法树；

S15，将实例数据关联语法树中的特征数据集抽取出来，以得到特征数据集。

在步骤S11中，元数据模型包括数据对象、数据对象之间的关系和数据对象内部数据记录之间的关系。

数据对象之间的关系包括主键关系和关联关系，关联关系包括1:1、1:n、n:1、1:{0…n}的关系。

数据对象内部数据记录之间的关系包括独立关系、序关系和层次关系。

在步骤S12中，关联路径树的构建包括以下步骤：

检查元数据的合法性；

根据目标对象确定根节点；

根据广度或深度优先确定关联对象和叶子节点对象。

在步骤S13中，算子库分为对象间算子库和对象内算子库。

对象间算子库包括对象集合算子和对象序列算子；对象内算子库包括领域特征变量算子(例如，旋转设备故障诊断领域的各种振动时域、频域、时频特征量)和变量变换算子，变量变换算子包括标量变换算子(比如振幅是加速度量的绝对值)、单变量集合算子(比如，5分钟内的最大振幅)、单变量序列算子(比如，加速度时间序列的主频率)和多变量算子(比如，减震效果是上下平台加速度的比值)。

在步骤S13中，关联语法树实现以下过程：叶子节点对象通过算子加工并回溯至关联对象，关联对象通过算子加工并回溯至目标对象。

本发明的另一个方面，提供了一种基于元数据的特征数据集自动生成装置，包括：

元模型解析器，用于对元数据模型和目标对象进行解析；

关联路径构建器，用于根据解析后的元数据模型和目标对象构建关联路径树；

关联语法树生成器，用于将算子库插入关联路径树构建关联语法树；

实例数据填入器，用于将实例数据填入关联语法树，以生成实例数据关联语法树；

特征数据集抽取器，用于将实例数据关联语法树中的特征数据集抽取出来，以得到特征数据集。

在关联路径构建器中，关联路径树的构建包括以下步骤：

检查元数据的合法性；

根据目标对象确定根节点；

根据广度或深度优先确定关联对象和叶子节点对象。

本发明实施例提供的基于元数据的特征数据集自动生成方法及装置能够根据元数据解析对象间的多个关联关系和对象内部数据记录间的关系、对可能的组合关系进行迭代并根据预置的算子库进行特征变量的自动加工，以方便后期的数据挖掘，另外，本发明实施例提供的基于元数据的特征数据集自动生成方法及装置具有非侵入式特性，广泛用于不同环境下的数据处理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例的一种基于元数据的特征数据集自动生成方法的流程图；

图2为本发明实施例的关联路径树的示意图；

图3为本发明实施例以广度优先的迭代过程；

图4为本发明实施例的算子库的示意图；

图5为本发明实施例的一种基于元数据的特征数据集自动生成装置的结构示意图；

图6为关联语法树生成器的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

图1为本发明实施例的一种基于元数据的特征数据集自动生成方法的流程图，如图1所示，本发明的基于元数据的特征数据集自动生成方法，包括以下步骤：S11，对元数据模型和目标对象进行解析，元数据模型是根据领域知识外生建立的(类似UML类图)，以票房预测为例，元数据指的是电影基本信息、演员列表、演员豆瓣评分等基本概念及其关系，例如，在元数据模型中，以票房预测目标对象，所有电影演员的社会影响力的加权为50％，导演所有执导电影最近3年的平均票房的加权为50％，女主演的社会影响力的加权为25％，男主演的社会影响力的加权为25％，女主演的得奖数的加权为10％，女主演的浏览量的加权为10％，女主演的豆瓣的加权为5％，男主演的得奖数的加权为10％，男主演的浏览量的加权为10％，男主演的豆瓣的加权为5％，可以按照以上元数据模型对目标对象票房进行预测；S12，根据解析后的元数据模型和目标对象构建关联路径树；S13，将算子库插入关联路径树构建关联语法树；S14，将实例数据填入关联语法树，以生成实例数据关联语法树，实例数据(以电影基本信息为例)是指具体影片的信息；S15，将实例数据关联语法树中的特征数据集抽取出来，以得到特征数据集。

例如，数据对象为一个二维数据表，有若干行或若干列。其中，若干行也称为Record记录，若干列也称为Column、变量、字段和属性。

数据对象之间的关系包括主键关系和关联关系，主键关系可以人工定义或者通过软件工具从实例数据中建立，关联关系包括1:1、1:n、n:1、1:{0…n}的关系，不能存在n:m的关系即多对多的关系，当对象之间存在多对多的关系时，插入一个连接对象来解决或者通过软件在后台自动实现，另外，在1:n的关系中，如果子对象间存在序的关系例如电影演员列表等，也需要插入一个连接对象来解决，其中，对象中的一个字段表示序号，将对象序的关系转化为数据记录序的关系。

数据对象内部数据记录之间的关系包括独立关系、序关系和层次关系。其中，独立关系不需要另外指定，序关系需要指定序列(Sequence)字段，层次关系可以通过增加对象以将层次关系转化为1:n的关系。

目标对象为数据分析中需要预测或分类的变量例如PM2.5预测中PM2.5浓度、配件需求预测中的配件销售量等等。其中，目标对象可以通过用户根据业务问题指定。预测变量范围选定如下：默认所有对象的变量都可以作为预测变量，用户可以指定哪些变量作为预测变量。

对元数据模型和目标对象进行解析之后，元数据模型和目标对象的数据格式一致。

在步骤S12中，关联路径树的构建包括以下步骤：

检查元数据的合法性；

根据目标对象确定根节点；

根据广度或深度优先确定关联对象和叶子节点对象。

图2为本发明实施例的关联路径树的示意图，如图2所示，以目标对象为关联路径树的根节点，关联对象为特征变量，叶子节点对象为原始变量，从叶子节点对象回溯至关联对象，然后从关联对象回溯至目标对象，叶子节点对象111和叶子节点对象112回溯至关联对象11，叶子节点对象12和关联对象11回溯至关联对象1，叶子节点对象211和叶子节点对象212回溯至关联对象21，关联对象21回溯至关联对象2，关联对象1和关联对象2回溯至目标对象。

在步骤S13中，叶子节点对象211通过叶子算子加工并回溯至关联对象21，叶子节点对象12通过叶子算子加工并回溯至关联对象1，关联对象11通过中间算子加工并回溯至关联对象1，关联对象21通过中间算子加工并回溯至关联对象2，关联对象1和关联对象2通过入口算子加工并回溯至目标对象，因而，在步骤S13中，关联语法树实现以下过程：叶子节点对象通过算子加工并回溯至关联对象，关联对象通过算子加工并回溯至目标对象。因此，关联路径树为从原始变量生成特征变量的过程结构树。回溯迭代过程可以采用广度优先或深度优先的策略。图3为本发明实施例以广度优先的迭代过程，如图3所示，假设对象关系树有K层，第k层有M_k个节点，i为关联对象的数量，其中，k为自然数，K和i为正整数。本发明实施例以广度优先的迭代过程如下：层赋值单元对k赋值为K，即从最后一层回溯迭代；层判决单元判断k是否小于1，当k不小于1时，进行下一步；关联对象赋值单元对i赋值为1，即从最后一层的第一个关联对象回溯迭代；关联对象判决单元判断i是否小于(M_k+1)，当i小于(M_k+1)时，进行下一步；关联对象算子生成单元生成第i个关联对象的算子；关联对象循环单元从最后一层的第i+1个关联对象回溯迭代，直到i不小于(M_k+1)，完成第k层的回溯迭代；层循环单元在层间循环，当i不小于(M_k+1)时，从k-1层回溯迭代，直到k小于1，输出算子列表，完成整个关联语法树的生成；算子列表输出单元输出算子列表。

图4为本发明实施例的算子库的示意图，如图4所示，在步骤S13中，算子库分为对象间算子库和对象内算子库。

对象间算子库包括对象集合算子和对象序列算子；对象内算子库包括领域特征变量算子(例如，旋转设备故障诊断领域的各种振动时域、频域、时频特征量)和变量变换算子，变量变换算子包括标量变换算子(比如振幅是加速度量的绝对值)、单变量集合算子(比如，5分钟内的最大振幅)、单变量序列算子(比如，加速度时间序列的主频率)和多变量算子(比如，减震效果是上下平台加速度的比值)。以上算子可以单独使用，例如，对象集合算子可以计算一个风场所有风机的最大功率、最小功率，等等。以上算子也可以组合使用，例如对象序列算子可以组合集合算子使用，例如计算最近10分钟的平均风速或者以5分钟为时间窗口进行振动分析以获得倍频的振幅。变量变换算子可以采用语法树的形式描述，然而，变量变换算子的描述形式不限于此，只要能够实现变量变换即可。变量间算子表示多个变量的组合运算，例如压缩机的压缩比是输出气体体积与输入气体体积相除的结果，变量间算子也可以采用上下文无关文法树(context-free grammars，以下简称CFG)去描述可能的组合关系。

算子为数据间的函数计算，输出为一个向量或数据集。算子通过算子表达式列表实现，根据算子表达式列表或从文件解析的算子表达式对象，进行解释执行，得到相应的特征变量数据集。为支持重用，算子表达式列表也可以序列化为文件存储，甚至编译成二进制代码，以提高效率。算子分为三类：操作算子、领域特征变量算子和数据集算子。

在语法路径树中，如果有子节点，先利用对象间的操作算子将子节点的算子变量进行加工，形成本节点的变量，领域特征变量算子直接加入语法路径树中，对于其他算子，从语法路径树的表达式树节点开始，遍历所有可能，直到目标对象。另外，特征变量可以根据实例数据进行选择，以消减特征变量的数量。变量可以用数据表名+列名的方式作为变量的识别符，新生成的变量可以采用序列编号方式命名。

本发明的基于元数据的特征数据集自动生成方法可以用于不同环境以及不同领域下的数据处理，例如，票房预测、压缩机能耗预测以及集装箱流量预测等等。

以票房预测为例，具体地，当预测某一电影的票房时，电影票房为目标对象，所有电影演员的社会影响力为关联对象1，导演所有执导电影最近3年的平均票房为关联对象2，女主演的社会影响力为关联对象11，男主演的社会影响力为关联对象12，女主演的得奖数为叶子节点对象111，女主演的浏览量为叶子节点对象112，女主演的豆瓣为叶子节点对象113，男主演的得奖数为叶子节点对象121，男主演的浏览量为叶子节点对象122，男主演的豆瓣为叶子节点对象123。通过叶子算子分别加工叶子节点对象111、叶子节点对象112和叶子节点对象113并将加工结果回溯至关联对象11，同理，通过叶子算子分别加工叶子节点对象121、叶子节点对象122和叶子节点对象123并将加工结果回溯至关联对象12；通过中间算子分别加工关联对象11和关联对象12并将加工结果回溯至关联对象1；通过入口算子分别加工关联对象1和关联对象2并将加工结果回溯至目标对象。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图5为本发明实施例的一种基于元数据的特征数据集自动生成装置的结构示意图，如图5所示，本发明提供的基于元数据的特征数据集自动生成装置，包括：元模型解析器，用于对元数据模型和目标对象进行解析；关联路径构建器，用于根据解析后的元数据模型和目标对象构建关联路径树；关联语法树生成器，用于将算子库插入关联路径树构建关联语法树；实例数据填入器，用于将实例数据填入关联语法树，以生成实例数据关联语法树；特征数据集抽取器，用于将实例数据关联语法树中的特征数据集抽取出来，以得到特征数据集。

元数据解析器对元数据数据文件或对象进行读取、校验等工作，其实现方式与元数据数据对象、文件格式相关。元数据文件可以以XML、Jason、自定义文本格式甚至二进制格式存储。

在关联路径构建器中，关联路径树的构建包括以下步骤：检查元数据的合法性；根据目标对象确定根节点；根据广度或深度优先确定关联对象和叶子节点对象。

图6为关联语法树生成器的结构示意图，如图6所示，关联语法树生成器包括以下单元：层赋值单元，用于对k赋值为K，即从最后一层回溯迭代；层判决单元，用于判断k是否小于1，当k不小于1时，进行下一步；关联对象赋值单元，用于对i赋值为1，即从最后一层的第一个关联对象回溯迭代；关联对象判决单元，用于判断i是否小于(M_k+1)，当i小于(M_k+1)时，进行下一步；关联对象算子生成单元，用于生成第i个关联对象的算子；关联对象循环单元，用于从最后一层的第i+1个关联对象回溯迭代，直到i不小于(M_k+1)，完成第k层的回溯迭代；层循环单元，用于当i不小于(M_k+1)时，从k-1层回溯迭代，直到k小于1，输出算子列表，完成整个关联语法树的生成；算子列表输出单元，用于输出算子列表。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

此外，本发明另一实施例还提供了一种电子设备，所述电子设备包括：壳体、处理器、存储器、电路板和电源电路，其中，所述电路板安置在所述壳体围成的空间内部，所述处理器和所述存储器设置在所述电路板上；所述电源电路，用于为所述电子设备的各个电路或器件供电；所述存储器用于存储可执行程序代码；所述处理器通过读取所述存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行如上述任一实施例所述的基于元数据的特征数据集自动生成方法。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于元数据的特征数据集自动生成方法，其特征在于，包括以下步骤：

S11，对元数据模型和目标对象进行解析；

S12，根据解析后的元数据模型和目标对象构建关联路径树；

S13，将算子库插入所述关联路径树构建关联语法树；

S14，将实例数据填入所述关联语法树，以生成实例数据关联语法树；

S15，将所述实例数据关联语法树中的特征数据集抽取出来，以得到所述特征数据集，在步骤S11中，所述元数据模型包括数据对象、数据对象之间的关系和数据对象内部数据记录之间的关系，所述数据对象之间的关系包括主键关系和关联关系，所述关联关系包括1:1、1:n、n:1、1:{0...n}的关系，所述关联路径树的构建包括以下步骤：

检查元数据的合法性；

根据目标对象确定根节点；

根据广度或深度优先确定关联对象和叶子节点对象，在步骤S13中，所述算子库分为对象间算子库和对象内算子库，所述对象间算子库包括对象集合算子和对象序列算子；所述对象内算子库包括领域特征变量算子和变量变换算子，所述变量变换算子包括标量变换算子、单变量集合算子、单变量序列算子和多变量算子，在步骤S13中，所述关联语法树实现以下过程：

所述叶子节点对象通过算子加工并回溯至所述关联对象，所述关联对象通过算子加工并回溯至所述目标对象；

关联语法树实现过程具体如下：层赋值单元，用于对k赋值为K，即从最后一层回溯迭代；层判决单元，用于判断k是否小于1，当k不小于1时，进行下一步；关联对象赋值单元，用于对i赋值为1，即从最后一层的第一个关联对象回溯迭代；关联对象判决单元，用于判断i是否小于(M_k+1)，当i小于(M_k+1)时，进行下一步；关联对象算子生成单元，用于生成第i个关联对象的算子；关联对象循环单元，用于从最后一层的第i+1个关联对象回溯迭代，直到i不小于(M_k+1)，完成第k层的回溯迭代；层循环单元，用于当i不小于(M_k+1)时，从k-1层回溯迭代，直到k小于1，输出算子列表，完成整个关联语法树的生成；算子列表输出单元，用于输出算子列表。

2.根据权利要求1所述的基于元数据的特征数据集自动生成方法，其特征在于，所述数据对象内部数据记录之间的关系包括独立关系、序关系和层次关系。

3.一种基于元数据的特征数据集自动生成装置，其特征在于，包括:

元模型解析器，用于对元数据模型和目标对象进行解析；

关联语法树生成器，用于将算子库插入所述关联路径树构建关联语法树；

实例数据填入器，用于将实例数据填入所述关联语法树，以生成实例数据关联语法树；

特征数据集抽取器，用于将所述实例数据关联语法树中的特征数据集抽取出来，以得到所述特征数据集，在所述关联路径构建器中，所述关联路径树的构建包括以下步骤：

检查元数据的合法性；

根据目标对象确定根节点；

根据广度或深度优先确定关联对象和叶子节点对象；

关联语法树生成器包括以下单元：层赋值单元，用于对k赋值为K，即从最后一层回溯迭代；层判决单元，用于判断k是否小于1，当k不小于1时，进行下一步；关联对象赋值单元，用于对i赋值为1，即从最后一层的第一个关联对象回溯迭代；关联对象判决单元，用于判断i是否小于(M_k+1)，当i小于(M_k+1)时，进行下一步；关联对象算子生成单元，用于生成第i个关联对象的算子；关联对象循环单元，用于从最后一层的第i+1个关联对象回溯迭代，直到i不小于(M_k+1)，完成第k层的回溯迭代；层循环单元，用于当i不小于(M_k+1)时，从k-1层回溯迭代，直到k小于1，输出算子列表，完成整个关联语法树的生成；算子列表输出单元，用于输出算子列表。