CN108520015A

CN108520015A - 一种用于创建可视化数据树的方法和装置

Info

Publication number: CN108520015A
Application number: CN201810235327.5A
Authority: CN
Inventors: 胡长建
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-09-11
Anticipated expiration: 2038-03-21
Also published as: CN108520015B

Abstract

本申请提供一种用于创建可视化数据树的方法和装置。所述方法包括：按照预设条件获得并保存实时数据集合的离线数据集合；根据离线数据集合生成并保存字段关系数据集合；根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；分析字段关系数据集合和维度字典集合的对应关系生成维度关系数据集合；根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树。在数据源和数据可视化工具之间建立多维数据模型，对数据进行预计算，作为数据管理层，提升数据获取的效率，特别是提取对可视化所需数据的访问速度，改善可视化工具实际使用的用户体验。

Description

一种用于创建可视化数据树的方法和装置

技术领域

本申请涉及数据库领域，具体涉及用于创建可视化数据树的方法，以及用于创建可视化数据树的装置。

背景技术

数据可视化，是对数据视觉表现形式的研究。其中，这种数据的视觉表现形式被定义为：以某种概要形式抽提出来的信息，包括相应信息单位的各种属性和变量。

数据可视化主要是利用图形、图像处理、计算机视觉以及用户界面，通过表达、建模以及对立体、表面、属性以及动画的形式，对数据加以可视化解释。与立体建模之类的特殊技术方法相比，数据可视化所涵盖的技术方法要广泛得多。

数据可视化主要目的使借助于图形化手段，清晰有效地传达与沟通信息。通过直观地传达关键的方面与特征，从而帮助实现对复杂数据集了解。

目前存在一些数据可视化工具。这些工具架构在关系数据库或者分布式数据仓库之上。但是，随着移动办公的兴起，以及数据源的多样化，即时交互成为数据可视化最迫切的需求。相应的，需要在数据可视化工具和后台数据源之间构建一层面向数据可视化的数据管理层，快速建模和数据管理，提升可视化的用户体验。

发明内容

本申请提供一种用于创建可视化数据树的方法，一种用于创建可视化数据树的装置。以解决数据可视化工具和后台数据源之间响应慢的问题。

为了解决上述技术问题，本申请实施例提供了如下的技术方案：

本申请提供一种用于创建可视化数据树的方法，包括：

按照预设条件获得并保存实时数据集合的离线数据集合；

根据离线数据集合生成并保存字段关系数据集合；

根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；

分析字段关系数据集合和维度字典集合的对应关系生成维度关系数据集合；

根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树。

可选的，所述字段关系数据集合，至少包括：主字段名称，主字段类型，主字段值，与主字段值相对应的从属字段值。

进一步的，所述根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；包括：

提取所述字段关系数据集合中主字段类型为数值型且主字段值为连续数值的主字段值生成序列字典集合；

提取所述字段关系数据集合中主字段类型具有字符特征的主字段值生成维度字典集合；

根据序列字典集合和/或维度字典集合，对所述字段关系数据集合进行数据聚合计算，并将计算结果保存在测量字典集合中。

进一步的，其特征在于，所述聚合计算，至少包括以下计算之一：计算数据的和，计算数据的最大值，计算数据的最小值，计算数据的平均值，计算数据的中间值。

可选的，所述维度关系数据集合，至少包括：主维度，与主维度具有关联关系的从属维度。

进一步的，所述与主维度具有关联关系的从属维度，主维度与从属维度至少包括以下关系之一：一对一关系，一对多关系，多对多关系。

可选的，所述根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树，包括：

将序列字典集合中的数据作为根节点的第一层节点；

根据维度关系集合中维度的逻辑层级关系生成第一层节点的后续节点，形成可视化数据树；

根据测量字典集合与可视化数据树各节点的关联关系，将测量字典集合中的聚合结果关联可视化数据树的相应节点。

进一步的，所述可视化数据树的叶子节点，还关联离线数据集合的存储位置以及压缩的数据集合数据。

综上所述，将可视化数据树放入缓存。

本申请还提供一种用于创建可视化数据树的装置，其特征在于，包括：

获得离线数据集单元：配置为按照预设条件获得并保存实时数据集合的离线数据集合；

生成字段关系数据集合单元：配置为根据离线数据集合生成并保存字段关系数据集合；

生成字典集合单元：配置为根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；

生成维度关系数据集合单元：配置为分析字段关系数据集合和维度字典集合的对应关系生成维度关系数据集合；

生成可视化数据树单元：配置为根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树。

基于上述实施例的公开可以获知，本申请实施例具备如下的有益效果：

本申请提供一种用于创建可视化数据树的方法和装置。所述方法包括：按照预设条件获得并保存实时数据集合的离线数据集合；根据离线数据集合生成并保存字段关系数据集合；根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；分析字段关系数据集合和维度字典集合的对应关系生成维度关系数据集合；根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树。在数据源和数据可视化工具之间建立多维数据模型，对数据进行预计算，作为数据管理层，提升数据获取的效率，特别是提取对可视化所需数据的访问速度，改善可视化工具实际使用的用户体验。进一步的，发展为面向可视化的数据库解决方案，提升数据可视化工具的响应能力，提高用户体验。同时，根据用户的调整修正环境和实现自学习，闭环机制提高系统的适应性；对减少了对原始数据源访问次数，降低了对源数据以及相关系统的压力，具有较强的实用性。

附图说明

图1为本申请实施例的用于创建可视化数据树的方法的流程图；

图2为第一实施例中的树；

图3为本申请实施例的用于创建可视化数据树的装置的单元框图。

具体实施方式

下面，结合附图对本申请的具体实施例进行详细的描述，但不作为本申请的限定。

应理解的是，可以对此处公开的实施例做出各种修改。因此，上述说明书不应该视为限制，而仅是作为实施例的范例。本领域的技术人员将想到在本申请的范围和精神内的其他修改。

包含在说明书中并构成说明书的一部分的附图示出了本申请的实施例，并且与上面给出的对本申请的大致描述以及下面给出的对实施例的详细描述一起用于解释本申请的原理。

通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本申请的这些和其它特性将会变得显而易见。

还应当理解，尽管已经参照一些具体实例对本申请进行了描述，但本领域技术人员能够确定地实现本申请的很多其它等效形式，它们具有如权利要求所述的特征并因此都位于借此所限定的保护范围内。

当结合附图时，鉴于以下详细说明，本申请的上述和其他方面、特征和优势将变得更为显而易见。

此后参照附图描述本申请的具体实施例；然而，应当理解，所公开的实施例仅仅是本申请的实例，其可采用多种方式实施。熟知和/或重复的功能和结构并未详细描述以避免不必要或多余的细节使得本申请模糊不清。因此，本文所公开的具体的结构性和功能性细节并非意在限定，而是仅仅作为权利要求的基础和代表性基础用于教导本领域技术人员以实质上任意合适的详细结构多样地使用本申请。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本申请的相同或不同实施例中的一个或多个。

本申请提供一种用于创建可视化数据树的方法；本申请还提供一种用于创建可视化数据树的装置。在下面的实施例中逐一进行详细说明。

对本申请提供的第一种实施例，即一种用于创建可视化数据树的方法的实施例。

下面结合图1对本实施例进行详细说明，其中，图1为一种用于创建可视化数据树的方法的流程图。

步骤S101，按照预设条件获得并保存实时数据集合的离线数据集合。

数据集合，又称为资料集、数据集或资料集合，是一种由数据所组成的集合。数据集合有多种存在形式：一种是保存在硬盘的数据文件中，所述数据文件，至少包括以下文件形式的一种：数据库文件、电子表格文件、文本文件、配置文件；数据文件保存着一个或多个数据集合；而数据集合是由一个或多个数据表组成。还有一种是保存在内存中的，当需要使用文件中的数据集合时，通过预设条件将保存在数据文件中的数据集合的信息调用到内存中保存。

实时数据集合，是在某事发生、发展过程中的同一时间中所得信息的载体，是用于表示客观事物的未经加工的的原始素材。本实施例是指保存实时采集数据的数据集合。

智能数据分析，是指运用统计学、模式识别、机器学习、数据抽象等数据分析工具从数据中发现知识的分析方法。所以智能数据分析需要大数据支撑。占用资源大，消耗时间长。

而实时数据集合的数据随时都可能发生，为了避免因智能数据分析占据实时数据集合，而导致实时数据无法记录在实时数据集合中，在实际应用中便出现了离线数据集合。

离线数据集合，与实时数据集合相对应的。通常是实时数据集合中预设时间段内实时数据的镜像数据，保存在离线数据集合中。在智能数据分析时，将离线数据集合作为数据源，使实时采集数据与智能数据分析分别为两个不同的数据源，避免了相互干扰。由于当前智能数据分析需要大数据的支持，实时数据集合数据往往分布在不同服务器中，为方便管理，离线数据集合数据页保存在不同服务器中。

数据源，就是数据的来源，是提供某种所需要数据的器件或原始媒体。在数据库中，就是数据库应用程序所使用的数据库或者数据库服务器。

所述按照预设条件获得并保存实时数据集合的离线数据集合，就是按照预设条件调取实时数据集合中的原始数据，并将调取的原始数据保存在作为实时数据集合的镜像集合的离线数据集合中。例如，所述预设条件是指预设时间段，即将开始时间和结束时间作为预设时间段，也就是借助于已有的或自制的数据导入工具按照预设时间段调取实时数据集合中的原始数据，并将调取的原始数据保存在作为实时数据集合的镜像集合的离线数据集合中。

步骤S102，根据离线数据集合生成并保存字段关系数据集合。

本实施例中，数据集合是由一个或多个数据表组成，分别调用数据集合中的每个数据表，并为所有数据表的每个字段建立新的统一的数据集合，即字段关系数据集合。

所述字段关系数据集合，至少包括：主字段名称，主字段类型，主字段值，与主字段值相对应的从属字段值。

在数据库中，大多数时，数据表的列称为字段，每个字段包含某一专题的信息。

例如，销售额数据表为：

年份	大区	省市	业务代表	性别	销售额
						1990	东北	黑龙江	张三	男	100
1990	东北	黑龙江	赵莹	女	300
						1990	东北	辽宁	李强	男	35.4
1991	西北	甘肃	王五	男	60.3
						……

成本数据表为

年份	省市	业务代表	成本
				1990	黑龙江	张三	59.3
1990	辽宁	李强	12.8
				1991	甘肃	王五	45.3
……

在数据库的数据表中，“年份”、“大区”、“省市”、“业务代表”、“性别”、“销售额”、“成本”这些都是表中所有行共有的属性，所以把这些列称为“年份”字段和“大区”字段，以此类推。“年份”字段的主字段名称为“年份”；“年份”字段的主字段类型为“时间类型”；主字段值为“1990”、“1991”……；其中，与主字段值“1990”相对应的从属字段值为“东北”、“黑龙江”、“张三”、“男”、“100”、“59.3”……。“省市”字段的主字段名称为“省市”；“省市”字段的主字段类型为“字符类型”；主字段值为“黑龙江”、“辽宁”、“甘肃”……；其中，与主字段值“黑龙江”相对应的从属字段值为“张三”、“男”、“100”、“59.3”……。

步骤S103，根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合。

字典，是为字词提供音韵、意思解释、例句、用法等等的工具书。为查询内容方便，字典都提供一定规律的查询方法。借鉴这个概念，数据集合的内容按照一定规律排列，以方便按照所述规律快速查找的相应内容。这样的数据集合被称为字典集合。字典集合的特点是字段少。

所述根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；包括：

步骤S103-1，提取所述字段关系数据集合中主字段类型为数值型且主字段值为连续数值的主字段值生成序列字典集合。

例如，提取“年份”主字段生成的序列字典集合。

步骤S103-2，提取所述字段关系数据集合中主字段类型具有字符特征的主字段值生成维度字典集合。

维，是人们观察数据的特定角度，是考虑问题时的一类属性，属性集合构成一个维。例如，时间维、地理维等。

维度：提供了分类描述，表示一类分析角度，用户通过维度分析度量数据。

例如，提取“大区”和/或“省市”和/或“业务代表”和/或“性别”等主字段生成的维度字典集合。

步骤S103-3，根据序列字典集合和/或维度字典集合，对所述字段关系数据集合进行数据聚合计算，并将计算结果保存在测量字典集合中。

所述聚合计算，至少包括以下计算之一：计算数据的和，计算数据的最大值，计算数据的最小值，计算数据的平均值，计算数据的中间值。

计算数据的和，也就是按照预设条件获得的同一数值型字段的字段值并计算出所述字段值的和。

计算数据的最大值，也就是按照预设条件获得的同一数值型字段的字段值并计算出所述字段值的最大值。

计算数据的最小值，也就是按照预设条件获得的同一数值型字段的字段值并计算出所述字段值的最小值。

计算数据的平均值，也就是按照预设条件获得的同一数值型字段的字段值并计算出所述字段值的平均值。

计算数据的中间值，也就是按照预设条件获得的同一数值型字段的字段值并计算出所述字段值的中间值。如果不存在中间值，则以最靠近平均值的值作为中间值；如果两个值与平均值的差相同，则取两值中最小值。

例如，“1990”“东北”的“黑龙江”的“销售额”的和为400，“销售额”的最大值为300，“销售额”的最小值为100，“销售额”的平均值为200，“销售额”的中间值为100。

“1990”“东北”的“销售额”的和为435.4，“销售额”的最大值为300，“销售额”的最小值为35.4，“销售额”的平均值为145.1，“销售额”的中间值为100。

“1990”“黑龙江”的“成本”的和为59.3，“成本”的最大值为59.3，“成本”的最小值为59.3，“成本”的平均值为59.3，“成本”的中间值为59.3。

步骤S104，分析字段关系数据集合和维度字典集合的对应关系生成维度关系数据集合。

所述维度关系数据集合，至少包括：主维度，与主维度具有关联关系的从属维度。

所述与主维度具有关联关系的从属维度，主维度与从属维度至少包括以下关系之一：一对一关系，一对多关系，多对多关系。

例如，以上述销售额数据表和成本数据表为例。不存在一对一关系；“大区”与“省市”与“业务代表”之间存在一对多关系，“省市”与“业务代表”之间也存在一对多关系；“大区”与“性别”之间存在多对多的关系。

在多对多关系中只建立顶层映射，也就是说“性别”和“省市”，“性别”和“业务代表”也是多对多关系，但是由于“大区”，“省市”和“业代”存在对应的层次关系，所以只保留大区和性别的映射。同时，建立对应维度的层次。

步骤S105，根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树。

本实施例中，树，是数据结构的概念，是n(n大于或等于零)个节点的有限集。

在任意一棵非空树中：

(1)有且仅有一个特定的称为根(Root)的结点；

(2)当n>1时，其余结点可分为m(m>0)个互不相交的有限集T1，T2，……， Tn，其中每个集合本身又是一棵树，并称为根的子树(SubTree)。

树的结点，包含一个数据元素及若干指向其子树的分支。请参照图2。

(1)度

结点拥有的子树数称为结点的度(Degree)。例如，图2中A的度为3，C 的度为1，F的度为0。

度为0的结点称为叶子(Leaf)或终端结点。例如，图2中K，L，F，G，M，I，J都是树的叶子

度不为0的结点称为非终端结点或分支结点。例如，图2中A，B，C，D， E，H。

树的度是树内各节点的度的最大值。例如，图2中树的度为3。

(2)结点

结点的子树的根称为该结点的孩子(Child)，相应地，该结点称为孩子的双亲(Parent)。例如，图2中D是A的孩子，A是D的双亲。

同一个双亲的孩子叫兄弟(Sibling)。例如，图2中H，I，J互为兄弟

其双亲在同一层的结点互为堂兄弟。例如，图2中G与E、F、H、I、J互为堂兄弟

结点的祖先是从根到该结点所经分支上的所有结点。例如，图2中M的祖先为A、D、H。

(3)层次，深度

结点的层次(Level)从根开始定义起，根为第一层，根的孩子为第二层，以此类推。

树中结点的最大层次成为树的深度(Depth)或高度。例如，图2中树的深度为4。

本实施例，所述可视化数据树，是一个多层交叉分块模型，其中序列为首层，而维度放到中间层，度量则放到最底层，形成一个内部冗余交叉的树状结构，最终保存到数据结构中。

所述根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树，包括：

步骤S105-1，将序列字典集合中的数据作为根节点的第一层节点。

根节点的第一层节点的维度层次大于1。

例如，将“1990”、“1991”……作为根节点的第一层节点。

步骤S105-2，根据维度关系集合中维度的逻辑层级关系生成第一层节点的后续节点，形成可视化数据树。包括以下步骤：

步骤S105-2-1，通过维度关系集合中的一对一或一对多关系生成，初级可视化数据树；

步骤S105-2-2，将维度关系集合中的多对多关系添加到初级可视化数据树的叶子节点上，生成可视化数据树。

例如，将“东北”、“西北”作为第一层节点“1990”的的后续节点；将“黑龙江”、“辽宁”作为“东北”的后续节点，以此类推，生成初级可视化树。初级可视化树的叶子节点包括：张三、赵莹、李强、王五……。然后，将多对多关系“大区-性别”关系添加到叶子节点中，生成可视化树。

步骤S105-3，根据测量字典集合与可视化数据树各节点的关联关系，将测量字典集合中的聚合结果关联可视化数据树的相应节点。

例如，“1990”“东北”“黑龙江”的“销售额”的和为400，“销售额”的最大值为300，“销售额”的最小值为100，“销售额”的平均值为200，“销售额”的中间值为100。

“1990”“东北”“黑龙江”的“成本”的和为59.3，“成本”的最大值为59.3，“成本”的最小值为59.3，“成本”的平均值为59.3，“成本”的中间值为59.3。

所述可视化数据树的叶子节点，还关联离线数据集合的存储位置以及压缩的数据集合数据。

由于离线数据集合的数据分布在不同服务器中，当生成可视化数据树后，将离线数据集合的数据压缩保存，同时，在可视化数据树的叶子节点记录相应数据的保存位置。

所述关联的数据以数据结构的形式保存在缓存中，数据结构至少包括：查询，查询结果，创建时间，最后一次使用时间，启动次数。

将可视化数据树放入缓存。

为了加快对可视化数据树的读取速度，将常用的数据放入缓存中。

在用户使用过程中，可以根据实际使用的情况对数据模型进行微调。

考虑到对于字段分析的不完整性，本实施例，提供用户调整接口，允许用户对维度与测量进行切换、序列标示，进而引发对应的结构重构，另外记录用户检索的语句，对于特定维度进行调整，比如对于结构树的底层进行节点和节点的切换，加快对应的速度，逐步修正系统，最终整体提高提示整个体验，提高系统的适应性。

与本申请提供的第一种实施例相对应，本申请还提供第二种实施例，即一种用于创建可视化数据树的装置的实施例。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关的部分请参见方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。

图3示出了本申请提供的一种用于创建可视化数据树的装置的实施例。图3 为一种用于创建可视化数据树的装置的单元框图。

请参考图3，本申请提供一种用于创建可视化数据树的装置，包括：

可选的，生成字段关系数据集合单元中所述字段关系数据集合，至少包括：主字段名称，主字段类型，主字段值，与主字段值相对应的从属字段值。

进一步的，生成字典集合单元中，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；包括：

生成序列字典集合子单元，配置为提取所述字段关系数据集合中主字段类型为数值型且主字段值为连续数值的主字段值生成序列字典集合；

生成维度字典集合子单元，配置为提取所述字段关系数据集合中主字段类型具有字符特征的主字段值生成维度字典集合；

生成测量字典集合子单元，配置为根据序列字典集合和/或维度字典集合，对所述字段关系数据集合进行数据聚合计算，并将计算结果保存在测量字典集合中。

进一步的，生成测量字典集合子单元中所述聚合计算，至少包括以下计算之一：计算数据的和，计算数据的最大值，计算数据的最小值，计算数据的平均值，计算数据的中间值。

可选的，生成维度字典集合子单元中所述维度关系数据集合，至少包括：主维度，与主维度具有关联关系的从属维度。

在多对多关系中只建立顶层映射。

可选的，生成可视化数据树单元，包括：

生成第一层节点子单元，配置为将序列字典集合中的数据作为根节点的第一层节点。

根节点的第一层节点的维度层次大于1。

形成可视化数据树子单元，配置为根据维度关系集合中维度的逻辑层级关系生成第一层节点的后续节点，形成可视化数据树。包括：

初级可视化数据树子单元，配置为通过维度关系集合中的一对一或一对多关系生成，初级可视化数据树；

多对多关系可视化数据树子单元，配置为将维度关系集合中的多对多关系添加到初级可视化数据树的叶子节点上，生成可视化数据树。

添加聚合结果子单元，配置为根据测量字典集合与可视化数据树各节点的关联关系，将测量字典集合中的聚合结果关联可视化数据树的相应节点。

综上所述，将可视化数据树放入缓存。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的数据处理方法所应用于的电子设备，可以参考前述产品实施例中的对应描述，在此不再赘述。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种用于创建可视化数据树的方法，其特征在于，包括：

按照预设条件获得并保存实时数据集合的离线数据集合；

根据离线数据集合生成并保存字段关系数据集合；

2.根据权利要求1所述的方法，其特征在于，所述字段关系数据集合，至少包括：主字段名称，主字段类型，主字段值，与主字段值相对应的从属字段值。

3.根据权利要求2所述的方法，其特征在于，所述根据字段关系数据集合分类生成字典集合，所述字典集合类型至少包括：序列字典集合，维度字典集合，测量字典集合；包括：

4.根据权利要求3所述的方法，其特征在于，所述聚合计算，至少包括以下计算之一：计算数据的和，计算数据的最大值，计算数据的最小值，计算数据的平均值，计算数据的中间值。

5.根据权利要求1所述的方法，其特征在于，所述维度关系数据集合，至少包括：主维度，与主维度具有关联关系的从属维度。

6.根据权利要求5所述的方法，其特征在于，所述与主维度具有关联关系的从属维度，主维度与从属维度至少包括以下关系之一：一对一关系，一对多关系，多对多关系。

7.根据权利要求1所述的方法，其特征在于，所述根据序列字典集合和维度关系集合和测量字典集合的对应关系生成可视化数据树，包括：

将序列字典集合中的数据作为根节点的第一层节点；

8.根据权利要求7所述的方法，其特征在于，所述可视化数据树的叶子节点，还关联离线数据集合的存储位置以及压缩的数据集合数据。

9.根据权利要求1-8任一项所述的方法，其特征在于，将可视化数据树放入缓存。

10.一种用于创建可视化数据树的装置，其特征在于，包括：