CN108280230A

CN108280230A - 一种分析数据的方法、装置、设备及存储介质

Info

Publication number: CN108280230A
Application number: CN201810161777.4A
Authority: CN
Inventors: 伍应标; 刘铁雷; 王能
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2018-02-27
Filing date: 2018-02-27
Publication date: 2018-07-13

Abstract

本申请公开了一种分析数据的方法，包括利用数据仓库获取原始数据；并根据原始数据定义出分析视图；然后在接收到查询指令后，利用数据仓库获取查询指令对应的计算资源；再利用计算资源对分析视图进行分析处理，得到分析结果。相较于现有技术，减少了将模型数据从数据仓库大规模同步到分析平台以便进行分析处理的过程，使得分析数据时更加便捷，从而提高了数据分析的效率。本申请还公开了一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种分析数据的方法、装置、设备及存储介质

技术领域

本发明涉及数据处理领域，特别涉及一种分析数据的方法、装置、设备及计算机可读存储介质。

背景技术

随着科技的发展和社会的进步，大数据及相关技术持续发展，使得基于大规模的原始数据进行分析成为可能。

现有技术对大数据的分析过程主要为：通过数据仓库获取原始数据，并对原始数据进行屏蔽数据细节的操作，得到模型数据，然后将模型数据同步到分析平台，通过分析平台定义模型数据的分析视图并对模型数据的分析视图进行分析处理，从而得到分析结果。但是，由于数据传输的软硬件条件的限制，不能直接将原始数据进行大规模的同步，因此这种数据分析的过程必须先将原始数据通过数据仓库进行预处理得到模型数据，再将模型数据从数据仓库同步到分析平台，而将原始数据进行预处理以得到模型数据并将模型数据从数据仓库同步到分析平台的过程，不仅浪费大量的资源进行建模操作，而且数据传输过程也需要消耗大量的网络宽带资源。

因此，如何提高数据分析的效率是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种分析数据的方法，能够提高数据分析的效率；本发明的另一目的是提供一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种分析数据的方法，包括：

利用数据仓库获取原始数据；

根据所述原始数据定义出分析视图；

在接收到查询指令后，利用所述数据仓库获取所述查询指令对应的计算资源；

利用所述计算资源对所述分析视图进行分析处理，得到分析结果。

优选地，所述利用所述数据仓库获取所述查询指令对应的计算资源具体包括：

检测所述查询指令的权限范围；

根据所述权限范围将所述查询指令提交至预先设置的队列；

利用所述队列按照预先设置的分配规则为所述查询指令分配所述计算资源。

优选地，所述利用数据仓库获取原始数据具体包括：

按照预先设置的数据存储规则设置数据模板；

根据所述数据模板获取所述原始数据。

优选地，在所述根据所述数据模板获取所述原始数据之后进一步包括：

判断所述原始数据的数据源的信息是否发生变更；

若是，则获取变更情况并根据所述变更情况调整所述数据模板。

优选地，在所述利用所述计算资源对所述分析视图进行分析处理，得到分析结果之后进一步包括：

获取操作指令，根据所述操作指令和所述分析结果得到分析需求；

利用所述分析需求并结合所述原始数据进行整合，得到数据模型。

优选地，在所述利用所述分析需求并结合所述原始数据进行整合，得到数据模型之后进一步包括：

通过数据推送和/或文件推送和/或接口查询的方式输出所述数据模型。

优选地，进一步包括：

通过报表工具和/或自助分析工具展现所述分析视图。

为解决上述技术问题，本发明还提供一种分析数据的装置，包括：

数据获取模块，用于利用数据仓库获取原始数据；

定义视图模块，用于根据所述原始数据定义出分析视图；

资源获取模块，用于在接收到查询指令后，利用所述数据仓库获取所述查询指令对应的计算资源；

分析处理模块，用于利用所述计算资源对所述分析视图进行分析处理，得到分析结果。

为解决上述技术问题，本发明还提供一种分析数据的设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种分析数据的方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种分析数据的方法的步骤。

本发明提供的分析数据的方法，通过利用数据仓库获取原始数据；并根据原始数据定义出分析视图；然后在接收到查询指令后，利用数据仓库获取查询指令对应的计算资源；再利用计算资源对分析视图进行分析处理，得到分析结果。相较于现有技术，本方法是利用数据仓库获取原始数据并利用数据仓库进行数据的分析处理，因此不需要先对原始数据进行预处理得到模型数据，且减少了将模型数据从数据仓库大规模同步到分析平台以便进行分析处理的过程，使得分析数据时更加便捷，从而提高了数据分析的效率。

为解决上述技术问题，本发明还提供了一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种分析数据的方法的流程图；

图2为图1所示的分析数据的方法S30中利用数据仓库获取查询指令对应的计算资源的具体流程图；

图3为图1所示的分析数据的方法S10中利用数据仓库获取原始数据的具体流程图；

图4为本发明实施例提供的另一种分析数据的方法的流程图；

图5为本发明实施例提供的一种分析数据的装置的结构图；

图6为本发明实施例提供的一种分析数据的设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种分析数据的方法，能够提高数据分析的效率；本发明的另一核心是提供一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

请参考图1，图1为本发明实施例提供的一种分析数据的方法的流程图，包括：

S10：利用数据仓库获取原始数据。

需要说明的是，数据仓库是一种为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库。在进行数据分析时，必不可少地要用到数据仓库，而Hadoop生态圈及其相关技术已成为当下数据分析、数据仓库的实施标准，因此，本实施例提供的分析数据的方法是基于Hadoop体系及技术的背景下展开。需要说明的是，Hadoop是一款源自Apache的开源软件，能在多台物理服务器组成的集群模式下处理大规模数据。

利用数据仓库获取原始数据，具体的，原始数据为需要进行数据分析的数据，本实施例对原始数据的数据源不做限定，即对原始数据的数据库类型以及表类型等均不做限定。

S20：根据原始数据定义出分析视图。

需要说明的是，对原始数据进行定义得到分析视图，即对原始数据进行变换，通过分析视图的形式展示原始数据。具体的，可以通过预先设置定义规则，然后利用定义规则对原始数据进行定义处理，在输出时显示原始数据的另一种表现形式。例如，原始数据为姓名“张三”，设置定义规则为“隐藏名字中的名”，具体的隐藏方式为用符号“*”代替名字隐藏内容，则“张*”为分析视图的输出形式。

S30：在接收到查询指令后，利用数据仓库获取查询指令对应的计算资源。

具体的，在接收到操作者发送的查询指令后，数据仓库根据查询指令的信息获取对应的计算资源。也就是说，查询指令的信息将“告诉”数据仓库需要做哪些事情，数据仓库则分析出做这些事情需要用到哪些计算资源。需要说明的是，计算资源指的是分布于同一集群中的不同的CPU、内存等资源，一般存储于分析平台中。更具体的，对应的计算资源包括计算资源的类型、计算资源的数量以及计算资源的优先级等。

S40：利用计算资源对分析视图进行分析处理，得到分析结果。

具体的，在数据仓库获取到计算资源之后，利用计算资源对分析视图进行分析处理，从而得到分析结果。分析处理即采用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论而对数据加以详细研究和概括总结的过程，根据实际的分析需求采用适当的分析处理方式，在此不做限定。

本实施例提供的分析数据的方法，通过利用数据仓库获取原始数据；并根据原始数据定义出分析视图；然后在接收到查询指令后，利用数据仓库获取查询指令对应的计算资源；再利用计算资源对分析视图进行分析处理，得到分析结果。相较于现有技术，本方法是利用数据仓库获取原始数据并利用数据仓库进行数据的分析处理，因此不需要先对原始数据进行预处理得到模型数据，且减少了将模型数据从数据仓库大规模同步到分析平台以便进行分析处理的过程，使得分析数据时更加便捷，从而提高了数据分析的效率。

图2为图1所示的分析数据的方法S30中利用数据仓库获取查询指令对应的计算资源的具体流程图。在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，如图2所示，利用数据仓库获取查询指令对应的计算资源具体包括：

S11：检测查询指令的权限范围；

S12：根据权限范围将查询指令提交至预先设置的队列；

S13：利用队列按照预先设置的分配规则为查询指令分配计算资源。

具体的，预先以队列的形式将集群计算资源进行划分，则提交到不同队列的查询指令能够分配到相应的计算资源。更具体的，还可以将计算资源设置优先级，以便根据优先级调用计算资源，使得分析计算的过程按照优先级进行，更加具有层次化。

需要说明的是，在本实施例中，预先将整个集群的计算资源分为两个队列：olap(联机分析处理)队列和dwh(数据仓库)队列，这两个队列均挂接在root队列(根队列)，根队列表示集群中的所有计算资源总和。根据预先设置的各队列的权重，也即分别为两个队列设置计算资源的数量。例如，olap队列和dwh队列各分得了集群50％的计算资源，即在实际使用中，集群有50％的计算资源用于数据仓库跑批任务，50％的计算资源用于完成分析用户提交的分析查询。需要说明的是，olap队列用于接收权限范围为分析查询的查询指令的队列；dwh队列用于接收权限范围为查询的查询指令的队列。

更进一步的，可以通过kerberos组件实现对查询指令的认证，使用sentry组件实现对查询指令的授权。即在检测到查询指令之后，还可以先对查询指令进行用户认证，判断查询指令是否有查询权限，若用户认证不通过，将直接退出流程，即不再进行检测查询指令的权限范围的步骤。通过进一步增加对查询指令的用户认证过程，可以避免非认证用户访问平台资源或认证用户过度使用。

通过检测查询指令的权限范围并根据权限范围将查询指令提交至预先设置的队列，然后按照预先设置的分配规则为查询指令分配计算资源的步骤，能够在数据分析过程中的数据抢占而使功能受到影响。

图3为图1所示的分析数据的方法S10中利用数据仓库获取原始数据的具体流程图。在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，利用数据仓库获取原始数据具体包括：

S21：按照预先设置的数据存储规则设置数据模板；

S22：根据数据模板获取原始数据。

需要说明的是，按数据格式区分，原始数据可分为结构化数据采集(通常是关系数据库)、非结构化数据采集(如nosql数据、日志数据、xml json数据等)；按采集方式区分，原始数据可分为批量数据采集、实时数据采集等。在Hadoop体系下，一般的都有相应的组件来实现数据采集，以获得原始数据，如使用sqoop组件实现批量结构化数据采集、使用flume组件实现实时数据的采集。

作为优选的实施方式，在利用数据仓库获取原始数据时，可以按照预先设置的数据存储规则设置数据模板，然后根据数据模板获取原始数据。也即按照预先设置的数据存储规则设置数据模板，该数据存储规则一般根据实际需求设置，也可以统一设置为相同的格式，本实施例对此不做限定。在获取原始数据的过程中，按照数据模板获取原始数据。数据模板可以包括数据源、数据集、采集字段、采集方式(增量或全量)、输出定义等，对此不做限定。

更具体的，可以是采用sqoop、flume等基础组件、结合数据仓库的定制开发来获取原始数据。本实施例对获取原始数据的组件工具不做限定。

可见，通过按照预先设置的数据存储规则设置数据模板，然后根据数据模板获取原始数据，使得获取到的原始数据按照预先设置的数据模板进行存储，从而避免在获取原始数据后需要再消耗人力物力对原始数据进行整理，进一步提高分析数据的效率。

需要注意的是，采集数据的组件通常只实现了数据采集功能，但不能跟踪监控源数据的变化，比如：数据源由于产品迭代新增了表、字段，或者是某个字段新增了一种取值等，这样将需要对数据模板进行更新。而如果仅依靠上线流程和人来完成变更的跟踪，那无疑是巨大的消耗。

因此，在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，在根据数据模板获取原始数据之后进一步包括：

S23：判断原始数据的数据源的信息是否发生变更；

S24：若是，则获取变更情况并根据变更情况调整数据模板。

具体的，判断原始数据的数据源的信息是否发生变更，即获取原始数据的数据源的当前信息以及下一时刻的信息，并将这两个时刻获取的信息进行比较，判断是否相同；若不相同，即原始数据的数据源的信息发生了变更；因此根据两个时刻的信息的比较情况得出信息变更的情况，并根据变更的情况调整数据模板，以便能够及时根据调整后的数据模板获取原始数据。

也就是说，对原始数据的数据源、数据集实施变更监控，监控内容包括但不限于数据集的新增、删除，数据集下字段、主键、索引等信息变更的监控与记录通知，以便对变更做出相应的处理。具体为监控原始数据Schema的变更情况，Schema是用于描述和规范XML文档的逻辑结构的一种语言。

通过对原始数据的数据源信息进行监控，在数据源的信息发生变更时及时对数据模板进行调整，可以提高获取原始数据的效率和准确度。

图4为本发明实施例提供的另一种分析数据的方法的流程图。请参考图4，在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，在利用计算资源对分析视图进行分析处理，得到分析结果之后进一步包括：

S31：获取操作指令，根据操作指令和分析结果得到分析需求。

具体的，在利用计算资源对原始数据进行分析处理，得到分析视图之后，若获取到操作指令，即具体的操作需求时，则进一步根据操作指令和分析结果进行得出分析需求。在具体实施中，分析需求可以是一个或者多个，本实施例对此不做限定。

S32：利用分析需求并结合原始数据进行整合，得到数据模型。

具体的，可以根据数据模型的迭代周期，利用分析需求并结合原始数据逐步将分析需求整合进数据模型中，原始数据包括但不限于FDL(整合数据层)、ADL(汇总数据层)、APP(应用数据层)。具体的，数据模型是一种抽象化数据的表现形式。

另外，作为优选的实施方式，还可以设置查询分析视图的权限，例如在获取数据模型后，取消所有查询指令的对业务视图的查询权限。

更进一步的，在得到数据模型之后，在获取到新的分析需求时，还可以利用新的分析需求并结合数据模型再次进行整合，更新数据模型，从而使数据模型能够容纳越来越多的分析需求，进一步提高分析数据的效率。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，在利用分析需求并结合原始数据进行整合，得到数据模型之后进一步包括：

通过数据推送和/或文件推送和/或接口查询的方式输出数据模型。

可以理解的是，数据分析的目的不仅仅是反映业务运行情况，还可以是反馈并指导业务的执行方向。因此，可以设置数据模型与各系统进行数据交互。具体的，数据交互的方式可以是通过数据推送，例如数据库推送，也可以是通过文件推送，或查询接口等方式。更具体的，可以输出数据模型也可以是根据配置的方式进行输出，提高输出的效率。可见，本实施例可以增加分析数据的利用率。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，进一步包括：

通过报表工具和/或自助分析工具展现分析视图。

需要说明的是，报表工具即将分析视图用表格、图表等格式来动态显示的工具，主要实现一些逻辑固化、结构复杂的报表展现工作，本实施例对报表工具的具体类型不做限定。自助分析工具是一种能够快速产出分析结果，并结合线下的excel等工具做出分析报表的工具。

可见，进一步通过报表工具和/或自助分析工具展现分析视图，使得在数据分析之后能够利用分析视图进行利用，提升分析数据得出的分析视图的使用价值。

上文对于本发明提供的一种分析数据的方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的分析数据的装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图5为本发明实施例提供的一种分析数据的装置的结构图，如图5所示，分析数据的装置具体包括：

数据获取模块51，用于利用数据仓库获取原始数据；

定义视图模块52，用于根据原始数据定义出分析视图；

资源获取模块53，用于在接收到查询指令后，利用数据仓库获取查询指令对应的计算资源；

分析处理模块54，用于利用计算资源对分析视图进行分析处理，得到分析结果。

本实施例提供的分析数据的装置，具有上述分析数据的方法的有益效果。

图6为本发明实施例提供的一种分析数据的设备的结构图，如图6所示，分析数据的设备包括：

存储器61，用于存储计算机程序；

处理器62，用于执行计算机程序时实现如下步骤：

利用数据仓库获取原始数据；

根据原始数据定义出分析视图；

在接收到查询指令后，利用数据仓库获取查询指令对应的计算资源；

利用计算资源对分析视图进行分析处理，得到分析结果。

本实施例提供的分析数据的设备，具有上述分析数据的方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现下步骤：

利用数据仓库获取原始数据；

根据原始数据定义出分析视图；

利用计算资源对分析视图进行分析处理，得到分析结果。

本实施例提供的计算机可读存储介质，具有上述分析数据的方法的有益效果。

以上对本发明所提供的分析数据的方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种分析数据的方法，其特征在于，包括：

利用数据仓库获取原始数据；

根据所述原始数据定义出分析视图；

2.根据权利要求1所述的方法，其特征在于，所述利用所述数据仓库获取所述查询指令对应的计算资源具体包括：

检测所述查询指令的权限范围；

根据所述权限范围将所述查询指令提交至预先设置的队列；

3.根据权利要求1所述的方法，其特征在于，所述利用数据仓库获取原始数据具体包括：

按照预先设置的数据存储规则设置数据模板；

根据所述数据模板获取所述原始数据。

4.根据权利要求3所述的方法，其特征在于，在所述根据所述数据模板获取所述原始数据之后进一步包括：

判断所述原始数据的数据源的信息是否发生变更；

5.根据权利要求1所述的方法，其特征在于，在所述利用所述计算资源对所述分析视图进行分析处理，得到分析结果之后进一步包括：

6.根据权利要求5所述的方法，其特征在于，在所述利用所述分析需求并结合所述原始数据进行整合，得到数据模型之后进一步包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，进一步包括：

通过报表工具和/或自助分析工具展现所述分析视图。

8.一种分析数据的装置，其特征在于，包括：

数据获取模块，用于利用数据仓库获取原始数据；

定义视图模块，用于根据所述原始数据定义出分析视图；

9.一种分析数据的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的分析数据的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的分析数据的方法的步骤。