CN107256264A

CN107256264A - 自助取数工具和取数方法

Info

Publication number: CN107256264A
Application number: CN201710447532.3A
Authority: CN
Inventors: 李望红; 闵军; 张亮
Original assignee: Shanghai Looking For Steel Network Information Polytron Technologies Inc
Current assignee: Shanghai Looking For Steel Network Information Polytron Technologies Inc
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2017-10-17

Abstract

本发明提出了一种自助取数工具和取数方法，自助取数工具从集成的数据仓库中的数据出发，通过已构建的多维数据模型对信息从多种可能的角度进行快速读取；基于开源的大数据处理技术hive+presto搭建数据存储执行引擎，能高效完成清单级数据的查看以及汇总级数据的多维度实时聚合；通过可视化处理技术以及自助取数引擎封装，使用语义层技术将数据执行的技术语言转化为业务人员日常使用的业务语言，用户在Web访问界面上进行拖拉拽就能轻松灵活地自助完成企业数据的提取。

Description

自助取数工具和取数方法

技术领域

本发明涉及企业数据处理领域，尤其涉及一种自助取数工具和取数方法。

背景技术

企业的运营及业务分析人员由于专业的限制，不能随时的对企业在商业运营过程中产生的大量复杂数据进行整合、提取，往往需要技术人员协助，提出大量的紧急取数需求，从而导致数据获取周期长、数据使用成本较高、效率低，难以及时利用企业数据进行分析决策帮助企业在竞争中赢得优势；数据开发人员日常工作被这些可复用性低的紧急临时取数需求所填充，难以发挥更高的工作价值。

自助取数工具提供了一种企业数据自助提取分析的解决方案，很好的解决了业务运营人员使用企业数据的障碍问题；让重复、简单的取数工作通过工具实现，使数据开发人员从繁忙的日常取数工作中释放出来去做更有挑战性的工作；同时提供一套数据安全管理策略，达到了取数方便性和安全性的平衡

发明内容

本发明的目的在于提供一种自助取数工具和取数方法，能够轻松便捷获取数据，降低数据的使用门槛，提高企业数据使用效率而研发的数据产品。

为了实现上述目的，本发明提出了一种自助取数工具，包括：数据存储/执行层、语义定义/存储层、自助取数引擎、Web访问控制层及后台管理，其中，所述数据存储/执行层从源数据库中抽取数据；所述语义定义/存储层为建立在数据库之上的业务逻辑层，通过对数据库中的有关数据项定义，把数据库中的数据定义成为相应的业务名称；所述Web访问控制层包括自助取数和模版取数；所述自助取数或模版取数通过所述自助取数引擎查看数据范围，选择结果字段，在提交查询后显示出数据列表；所述后台管理包括数据内容配置管理和数据安全管理，数据内容配置管理能简单灵活地完成数据的扩充；数据安全管理使用用户、角色和权限的权限控制模型，对权限管控细分为模块访问权限管控、字段访问权限管控、数据行级权限管控和敏感数据权限管控。

进一步的，在所述的自助取数工具中，所述数据存储/执行层使用分布式大数据数据仓库工具和分布式大数据执行引擎。

在本发明中，还提出了一种自助取数方法，包括步骤：

数据存储/执行层从源数据库中抽取数据；

语义定义/存储层通过对数据库中的有关数据项定义，把数据库中的数据定义成为相应的业务名称；

Web访问控制层的自助取数或模版取数通过自助取数引擎进行取数；

所述取数包括步骤如下：

第一步：设置过滤条件，限定查看的数据范围；

第二步：选择结果字段；

第三步：提交查询；

第四步：显示列表。

进一步的，在所述的自助取数方法中，所述数据存储/执行层使用分布式大数据数据仓库工具和分布式大数据执行引擎，所述分布式大数据数据仓库工具从源数据库中抽取数据，针对业务主题对数据进行清洗、转化及集成，统一指标模型，确保数据口径一致。

进一步的，在所述的自助取数方法中，将取数步骤和取数条件保存为模板。

进一步的，在所述的自助取数方法中，通过所述Web访问控制层对所述模板进行增加、删除、修改及复制。

进一步的，在所述的自助取数方法中，所述自助取数引擎根据Web访问界面中用户的操作，读取语义层定义，将用户的查询转换成一个或多个星型模型，并根据星型模型关系自动构建聚合SQL，并提交至分布式大数据执行引擎进行执行，获取执行结果数据集，并返回至Web访问应用界面。

与现有技术相比，本发明的有益效果主要体现在：自助取数工具从集成的数据仓库中的数据出发，通过已构建的多维数据模型对信息从多种可能的角度进行快速读取；基于开源的大数据处理技术hive+presto搭建数据存储执行引擎，能高效完成清单级数据的查看以及汇总级数据的多维度实时聚合；通过可视化处理技术以及自助取数引擎封装，使用语义层技术将数据执行的技术语言转化为业务人员日常使用的业务语言，用户在Web访问界面上进行拖拉拽就能轻松灵活地自助完成企业数据的提取；通过配置化的后台数据内容管理工具，让开发人员通过简单的配置即可简单的完成数据内容的扩展，此工作无附加开发成本，且对用户透明；通过覆盖全方位的数据权限管控策略，加上可视化的数据权限管控配置界面，让系统管理人员可轻松实现模块级、字段级、数据行级以及敏感信息的管控配置，保障数据的使用安全。

附图说明

图1为本发明一实施例中自助取数工具的结构框图；

图2为本发明一实施例中自助取数方法的流程图；

图3为本发明一实施例中的数据权限管理策略图。

具体实施方式

下面将结合示意图对本发明的自助取数工具和取数方法进行更详细的描述，其中表示了本发明的优选实施例，应该理解本领域技术人员可以修改在此描述的本发明，而仍然实现本发明的有利效果。因此，下列描述应当被理解为对于本领域技术人员的广泛知道，而并不作为对本发明的限制。

为了清楚，不描述实际实施例的全部特征。在下列描述中，不详细描述公知的功能和结构，因为它们会使本发明由于不必要的细节而混乱。应当认为在任何实际实施例的开发中，必须做出大量实施细节以实现开发者的特定目标，例如按照有关系统或有关商业的限制，由一个实施例改变为另一个实施例。另外，应当认为这种开发工作可能是复杂和耗费时间的，但是对于本领域技术人员来说仅仅是常规工作。

在下列段落中参照附图以举例方式更具体地描述本发明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

自助取数工具是一种基于数据仓库的企业数据提取分析的解决方案，有助于解决业务分析人员和数据开发技术人员在数据模型上的知识鸿沟，融合双方的价值，将数据仓库的价值最大化。

具体的，自助取数工具的基本架构由四层结构组成：数据存储/执行层、语义定义/存储层、自助取数引擎、Web访问控制层及后台管理，如图1所示。

所述数据存储/执行层使用分布式大数据数据仓库工具Hive和分布式大数据执行引擎presto。分布式大数据数据仓库工具Hive从源数据库中抽取数据，针对业务主题对数据进行清洗、转化及集成，统一指标模型，保证数据口径一致，使原始数据不再杂乱无章，基于优化查询的组织形式，有效提高数据获取、统计和分析的效率，数据仓库拥有业务数据库所无法拥有的高效的数据组织形式，更加完整的数据体系，清晰的数据分类和分层机制，实现各种不同数据的关联并使多维分析更加方便，为从多角度多层次地数据分析和决策制定提供的可能。

所述语义定义/存储层是建立在数据库之上的业务逻辑层，通过对数据库里的有关数据项定义，把数据库中的数据定义成有明确的业务含义的名称。业务人员所面对的不再是表、字段和它们之间复杂的关联、计算关系，而是业务人员所熟悉的业务术语和指标名称。

所述后台管理包括数据内容配置管理和数据安全管理，数据内容配置管理能简单灵活地完成数据的扩充；数据安全管理使用用户、角色和权限的权限控制模型，对权限管控细分为模块访问权限管控、字段访问权限管控、数据行级权限管控和敏感数据权限管控。

请参考图2，在本实施例中，还包括一种自助取数方法，包括步骤：

数据存储/执行层从源数据库中抽取数据；

所述取数包括步骤如下：

第一步：设置过滤条件，限定查看的数据范围；

第二步：选择结果字段；

第三步：提交查询；

第四步：显示列表。

具体的，所述Web访问控制层目前包含两个模块：自助取数和模版取数。

其中，自助取数通过四步完成取数：

第一步，选择条件，用于设置过滤条件，限定查看的数据范围；第二步，选择结果字段，确定最终结果需要的字段，确定在限定的范围内具体看哪些数据，既可设置结果字段的展示顺序，也可指定结果数据的排序字段；第三步，提交查询，确认选择条件和结果正确后，提交查询；第四步，查看列表，可预览100条数据记录，完整数据通过导出结果查看，可查看生成数据的SQL脚本，可将取数操作保存为模版。

所述模版取数通过预先保存好的模版进行取数，方便周期性的取数，模版取数模块还包含对模版的管理，能对模版进行增加、删除、修改、复制，还能将模版分享给其他的用户，以达到知识共享传承的目的。

所述自助取数引擎根据Web访问界面中用户的操作，读取语义层定义，将用户的查询转换成一个至多个星型模型，并根据星型模型关系自动构建聚合SQL，并提交到数据执行引擎presto执行，获取presto执行结果数据集，返回至Web访问应用界面。

所述自助取数工具从集成的数据仓库中的数据出发，通过已构建的多维数据模型对信息从多种可能的角度进行快速读取；基于开源的大数据处理技术hive+presto搭建数据存储执行引擎，能高效完成清单级数据的查看以及汇总级数据的多维度实时聚合；通过可视化处理技术以及自助取数引擎封装，使用语义层技术将数据执行的技术语言转化为业务人员日常使用的业务语言，用户在web访问界面上进行拖拉拽就能轻松灵活地自助完成企业数据的提取。

例如，以“2016年热卷事业部各个区域的商城销售情况，包含订单数、客户数、联系人数、预提重量、预提金额”为例。

第一步、选择结果字段：

选择查看的结果字段，分别为“下单年份”、“交易员所在事业部”、“交易员所在城市”、“订单数”、“客户数”、“联系人数”、“预提重量”、“预提金额”。在左侧选择结果栏中分别将这些字段选中，然后点击下一步。

第二步、选择条件：

限制“下单年份”为“2016”，“交易员所在的事业部”为“热卷事业部”，“订单类型”为“商城”，限制完成后点击下一步。

第三步、提交查询：

核对已选条件和已选结果，提交查询。

第四步、查看列表：

结果预览只查询100条记录，完整的数据通过“导出结果”导出到文件查看。可将取数保存为模版，下次直接点击模版名称就可以查询。

将常用业务场景固化为模版，方便周期性提取数据。

在“我的模板”中查看保存的模板。点击“模版名称”就能使用模版进行查询。

可以对模版进行复制、修改、删除、分享，也可增加一个新模版。

(1)新增：新增模版与从自助取数保存模版流程一样；

(2)复制：选择需要复制的模版，点击“复制”。

(3)修改：选中需要修改的模版，点击“修改”。对“2016年热卷事业部各个区域的商城销售情况”的取数修改为“2016年热卷事业部各个区域的商城每个月的销售情况”，需要在结果列表中把下单年月也添加进去。点击上一步，返回到“step1选择结果字段”，增加“下单年月”，然后提交查询，点击“step4查看列表”中的“修改模板”，完成模板的修改。

(4)删除：选中需要删除的模版，点击“删除”。

(5)共享：选中需要共享的模版，点击“共享”。可将模板共享给多人。

后台配置化实现数据字段内容的扩充，后续增加字段内容时，无需做二次开发，成本低廉；自助取数降低了数据提取门槛，带来的是数据安全的风险。为此，实现了模块级别、字段级别、数据行级别和敏感数据的独立管控，以求达到方便易用和数据安全的平衡；上述所有工作均通过权限管理模型，通过配置简单完成。

请参考图3，在本实施例中，还可以设置权限管控，例如模块权限设置，可以设置销售权限；数据列(字段)权限设置，可以限制订单数字段权限；数据行权限，可以限制某个客户的数据权限；敏感数据权限设置，限制客户一些敏感数据权限等。

自助取数是个极度重视数据处理的工具，需要依据企业现状提供企业数据解决方案，很多功能需要根据企业数据的特点量身定做，自助取数强调关联查询的实时分析能力，传统的自助取数工具基于IOE，性能和可扩展性的瓶颈很难解决，不能适应海量数据对计算能力的巨大需求。找钢网自助取数工具主要是面向业务运营，实现取数工具化，满足业务人员可自助的进行数据探索和分析。基于开源的大数据处理技术，使用hadoop集群+presto计算架构，搭建自助取数计算引擎,能高效完成清单级和汇总级的取数查询；通过对钢铁产业链业务和数据的深入理解，建立面向B2B电商业务取数数据模型，做好业务和数据的映射，使用可视化处理技术和SQL拼接计算,将数据执行的技术语言转化为业务人员日常使用的业务语言,使用户能轻松灵活地自助完成企业数据的提取和分析；通过后台数据配置快速完成数据内容的扩充，无需任何二次开发成本；在保证业务人员取数便利性的同时，通过数据模块访问权限、字段访问权限管控、数据行级权限管控和敏感数据权限管控来保证企业数据安全可控。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种自助取数工具，其特征在于，包括：数据存储/执行层、语义定义/存储层、自助取数引擎、Web访问控制层及后台管理，其中，所述数据存储/执行层从源数据库中抽取数据；所述语义定义/存储层为建立在数据库之上的业务逻辑层，通过对数据库中的有关数据项定义，把数据库中的数据定义成为相应的业务名称；所述Web访问控制层包括自助取数和模版取数；所述自助取数或模版取数通过所述自助取数引擎查看数据范围，选择结果字段，在提交查询后显示出数据列表；所述后台管理包括数据内容配置管理和数据安全管理，数据内容配置管理能简单灵活地完成数据的扩充；数据安全管理使用用户、角色和权限的权限控制模型，对权限管控细分为模块访问权限管控、字段访问权限管控、数据行级权限管控和敏感数据权限管控。

2.如权利要求1所述的自助取数工具，其特征在于，所述数据存储/执行层使用分布式大数据数据仓库工具和分布式大数据执行引擎。

3.一种自助取数方法，其特征在于，包括步骤：

数据存储/执行层从源数据库中抽取数据；

所述取数包括步骤如下：

第一步：设置过滤条件，限定查看的数据范围；

第二步：选择结果字段；

第三步：提交查询；

第四步：显示列表。

4.如权利要求3所述的自助取数方法，其特征在于，所述数据存储/执行层使用分布式大数据数据仓库工具和分布式大数据执行引擎，所述分布式大数据数据仓库工具从源数据库中抽取数据，针对业务主题对数据进行清洗、转化及集成，统一指标模型，确保数据口径一致。

5.如权利要求3所述的自助取数方法，其特征在于，将取数步骤和取数条件保存为模板。

6.如权利要求5所述的自助取数方法，其特征在于，通过所述Web访问控制层对所述模板进行增加、删除、修改及复制。

7.如权利要求3所述的自助取数方法，其特征在于，所述自助取数引擎根据Web访问界面中用户的操作，读取语义层定义，将用户的查询转换成一个或多个星型模型，并根据星型模型关系自动构建聚合SQL，并提交至分布式大数据执行引擎进行执行，获取执行结果数据集，并返回至Web访问应用界面。