CN112364093B

CN112364093B - 一种学习型大数据可视化方法及系统

Info

Publication number: CN112364093B
Application number: CN202011254681.6A
Authority: CN
Inventors: 李�杰; 孙永健; 宋岩
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2023-04-04
Anticipated expiration: 2040-11-11
Also published as: CN112364093A

Abstract

本发明属于数据可视化的技术领域，具体涉及一种学习型大数据可视化方法及系统，包括前端和后端，前端包括可视化组件，后端包括智能检索模块、统计模块及智能分析模块；智能检索模块，用于在每个数据维度上均创建一个排序索引数组，且在单个维度上的排序索引数组上进行范围查询，并将若干维度的查询结果求交集后得出最终查询结果；统计模块，用于在得到符合查询条件的数据记录后，调用计算机硬件资源进行并行计算，获得可用于前端可视化的统计结果；智能分析模块，基于无监督学习的异常模式发现算法和自动表征算法，用于提示异常模式，优化聚类结果表现形式。本发明能够平衡响应速度和内存开销，以提供更好的可用性。

Description

一种学习型大数据可视化方法及系统

技术领域

本发明属于数据可视化的技术领域，具体涉及一种学习型大数据可视化方法及系统。

背景技术

视觉输入是人脑接收外界信息的主要信号源，且当人类直接面对枯燥的数据时，发现其中存在的模式是耗时且费力的，而将数据转化为可视化图形后，能够提高人脑的信息处理速度。交互式探索工具作为数据和人类专家之间的桥梁，能够帮助专家从纷繁复杂的数据中快速获取隐藏的模式，因此数据专家通常使用交互探索工具进行大数据的挖掘工作。

现有的可视化框架能够为开发者提供丰富的可视化开发组件，但是少有框架融入后端数据检索与分析模型，这就导致现有框架无法进行超大规模数据查询与统计分析任务，且其渲染大数据的效果和速度均存在瓶颈。在这种背景下，开发者为实现数据交互探索任务，只能将可视界面与特定的独立后端数据系统相结合，而这种开发任务往往会带来较大的前后端开发成本。

随着交互探索数据规模的不断增加，尽管现有的数据库系统在不断地提升处理查询请求的能力，但是面对较大的数据集合时仍无法在交互时间内处理请求。为了保证交互的实时性，一种可行的方案是使用数据立方体，这种基于数据结构的预存储策略可以大幅降低交互延迟，将查询时间复杂度限制在常量级。但是数据立方体存储了所有可能的查询结果，当数据量增大，数据维度升高的情况下往往会导致数据立方体的存储开销过大，使得一些服务器无法在内存中维持此类数据结构。

发明内容

本发明的目的之一在于：针对现有技术的不足，提供一种学习型大数据可视化方法，能够平衡响应速度和内存开销，以提供更好的可用性。

为了实现上述目的，本发明采用如下技术方案：

一种学习型大数据可视化方法，包括：

在每个数据维度上均创建一个排序索引数组，且在单个维度上的排序索引数组上进行范围查询，并将若干维度的查询结果求交集后得出最终查询结果；

在计算若干维度的查询结果交集时调用硬件资源加速集合运算；

结合机器学习模型和传统索引结构，并通过训练学习型模型预测数据的位置；

将单个预测模型按照输入范围分为若干个小模型；

在得到预测位置后，将在数据记录上进行局部范围的搜索；

在得到符合查询条件的数据记录后，调用计算机硬件资源进行并行计算，获得可用于前端可视化的统计结果；

在预设数据维度上以用户自定义的统计粒度进行统计计算；

基于无监督学习的异常模式发现算法和自动表征算法，提示异常模式，优化聚类结果表现形式。

本发明的目的之二在于提供一种学习型大数据可视化系统，包括前端和后端，所述前端包括可视化组件，所述后端包括智能检索模块、统计模块及智能分析模块；

所述智能检索模块，用于在每个数据维度上均创建一个排序索引数组，且在单个维度上的排序索引数组上进行范围查询，并将若干维度的查询结果求交集后得出最终查询结果；

所述统计模块，用于在得到符合查询条件的数据记录后，调用计算机硬件资源进行并行计算，获得可用于前端可视化的统计结果；

所述智能分析模块，基于无监督学习的异常模式发现算法和自动表征算法，用于提示异常模式，优化聚类结果表现形式。

作为本发明所述的一种学习型大数据可视化系统的一种改进，所述可视化组件的类型为已封装的接口或标签，所述可视化组件包括热图、散点图、柱状图和折线图，所述接口用于设定所述智能分析模型的相关参数。

本发明的有益效果在于，本发明包括前端和后端，所述前端包括可视化组件，所述后端包括智能检索模块、统计模块及智能分析模块；所述智能检索模块，用于在每个数据维度上均创建一个排序索引数组，且在单个维度上的排序索引数组上进行范围查询，并将若干维度的查询结果求交集后得出最终查询结果；所述统计模块，用于在得到符合查询条件的数据记录后，调用计算机硬件资源进行并行计算，获得可用于前端可视化的统计结果；所述智能分析模块，基于无监督学习的异常模式发现算法和自动表征算法，用于提示异常模式，优化聚类结果表现形式。

本发明提高了大数据交互式可视分析系统的构建效率。与现有的可视化框架相比，本发明将可视化组件与后端的查询分析组件相结合，弥补了其数据分析能力的不足。与现有的数据交互探索技术相比，模块化的构建流程以及和后端查询模块的紧密结合使得用户可快速搭建大数据交互式可视分析系统。模块式的构建方式也使得本发明能够轻松地以构件的形式融入到流行的可视化框架中。

本发明权衡了查询速度与存储开销。与现有的基于预存储数据结构的技术相比，本发明在进行多维大数据交互分析时，显著降低了所依赖的数据结构的大小，且将系统反应时延控制在可交互的范围内，完成了查询速度与内存开销的均衡。随着数据分析的发展和普及，将来的可视分析任务将更加独立化和定制化，个体用户的分析需求将更加强烈，而此特性使得分析人员可以在个人电脑中部署交互式大数据可视分析系统，具有广阔的应用前景。

本发明具有高分辨率的精确查询。与现有的基于采样的技术或基于学习算法的技术相比而言，本发明在交互视图方面可提供高分辨率的视图和像素级的显示粒度，而高分辨率的视图和像素级的显示粒度往往意味着较高的查询粒度和查询精度，这对于基于学习算法的技术而言，将加重其训练负担，对于基于采样的算法而言，将增加其采样的复杂度，大大降低其可用性。而在交互式数据探索领域内，较高的查询粒度和细腻的显示粒度往往意味着模式分析结果更加精确，也受到更多业内人士的推崇。

附图说明

下面将参考附图来描述本发明示例性实施方式的特征、优点和技术效果。

图1是本发明系统总体架构图。

图2是可视化组件的示意图。

图3是大数据查询索引与智能分析模型结构图。

图4是系统整体的数据流通图。

图5是用户使用学习型大数据可视化组件前的部署流程图。

图6是属性离散化的示意图。

图7是预测模型的工作原理说明图。

图8是预测模型优化的示意图。

图9是预测模型整体结构图。

图10是预测误差处理示意图。

具体实施方式

如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解，硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语，故应解释成“包含但不限定于”。“大致”是指在可接受的误差范围内，本领域技术人员能够在一定误差范围内解决技术问题，基本达到技术效果。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1～10对本发明作进一步详细说明，但不作为对本发明的限定。

一种学习型大数据可视化方法，包括：

将单个预测模型按照输入范围分为若干个小模型；

在得到预测位置后，将在数据记录上进行局部范围的搜索；

在预设数据维度上以用户自定义的统计粒度进行统计计算；

一种学习型大数据可视化系统，包括前端和后端，前端包括可视化组件，后端包括智能检索模块、统计模块及智能分析模块；

智能检索模块，用于在每个数据维度上均创建一个排序索引数组，且在单个维度上的排序索引数组上进行范围查询，并将若干维度的查询结果求交集后得出最终查询结果；

统计模块，用于在得到符合查询条件的数据记录后，调用计算机硬件资源进行并行计算，获得可用于前端可视化的统计结果；

智能分析模块，基于无监督学习的异常模式发现算法和自动表征算法，用于提示异常模式，优化聚类结果表现形式。

在根据本发明的学习型大数据可视化系统中，可视化组件的类型为已封装的接口或标签，可视化组件包括热图、散点图、柱状图和折线图，接口用于设定智能分析模型的相关参数。

参见图1所示，包括前端和后端两部分。前端为可视化组件，类型为已封装的接口或标签，包括常见的可视化技术，如热图、散点图、柱状图、折线图等，并支持自定义可视化组件。后端为大数据查询索引与智能分析模型，包括智能检索模块、统计模块和智能分析模块。

参见图2所示，可视化组件为一系列可视化视图的模板，其直接与用户接触，是整体架构中数据展示的最后一个环节和用户交互的第一个环节。其以接口的形式出现，供开发者调用以制作可视化系统。其涵盖的可视化视图类型包括常见的热图、散点图、柱状图、折线图等，并支持用户自行制作可视化模板。

参见图3所示，大数据查询索引与智能分析模型负责后端的主要工作逻辑，该部分实现了数据的处理与分析，其中包含三大模块，按照子模块在数据处理中的流程顺序排列，分别为智能检索模块、统计模块和智能分析模块。后端接收用户查询输入后，智能检索模块负责确定用户查询所对应的数据记录，在得到记录后，将记录交至统计模块；统计模块负责在数据记录的特定维度和粒度上计算统计值，在得到统计结果后，将结果交由智能分析模块；智能分析模块负责对统计结果进行异常模式分析，并优化聚类的可视效果。

智能检索模块负责用户查询的数据检索。该模块将学习模型融入索引结构，以学习模型辅助传统数据结构，用于最大限度控制查询的时间开销。其接收用户查询输入后，使用训练好的智能模型进行预测，模型输出结果为符合查询条件的数据记录的位置信息。为了避免智能模型导致的预测误差，该模块在输出位置的临接区域内进行搜索，以找到记录的确切位置。

统计模块负责数据记录的聚合任务。在智能检索模块得到检索结果后，统计模块在自定义维度和粒度上计算统计值，且该模块能够调用硬件资源，加速统计的计算过程，进一步压缩交互时延。

智能分析模块用于对统计结果的分析和优化工作，为用户提供更高层次的指示信息。在得到统计模块的统计结果后，智能分析模块使用基于无监督学习的异常模式发现算法和基于自动表征的优化算法，提示异常模式，优化聚类结果的表现效果，提高分析人员的分析效率。

具体的，系统整体流程如图4所示。首先从前端可视化组件接收用户发送的查询参数与后端模型部分参数设定信息。经过后端大数据查询索引与智能分析模型后，得出统计与分析结果，再交由前端系统进行可视化。

可视化组件使用JavaScript和HTML实现，其将常见的可视化类型的共性特征进行抽象提取，如柱状图中，共性特征即为柱形，数轴，颜色等，并将这些特征参数化，最终以类JSON形式的接口配置方式暴露给开发人员。该组件支持开发人员将自行制作的且符合接口限制条件的模板以文件形式添加进本地库，用以实现系统未提供的可视化视图类型。用户部署流程图如图5所示。用户首先以参数形式确定数据集及数据维度；其次以标签形式确定可视化组件类型，以参数形式确定每一个组件对应的数据维度、数据类型、显示粒度、统计方法等；最后以标签形式确定后端智能分析模型的类型，以参数形式确定模型的部分参数。完成操作后，系统根据配置信息自动生成可视化界面和部署后端模型。

如图2所示。可视化组件提供了若干常见的可视化形式设计，如热图，柱状图，折线图，散点图等。为更加贴合用户的数据探索需求，所有可视化组件类型均添加了相应形式的交互操作。如热力图添加了缩放、拖拽、框选、调整显示粒度等交互，柱状图添加了点击、悬浮等交互，散点图添加了缩放、悬浮、点击等交互，折线图添加了刷选交互等。此类交互设计的主要目的是实现用户的范围查询操作，优化用户的探索体验。每个可视化组件上的显示结果均为其他组件上的范围查询的综合结果。

根据后端模块所负责任务的不同，可将后端模块按职能分为检索、统计、分析三类。根据模块间的工作原理、协作关系与工作流程，进一步将其划分并命名为智能检索模块、统计模块和智能分析模块。

智能检索模块，设D＝(a₁，a₂，...，a_n)是一个有n个属性的数据集。用户查询即可定义为q＝(r₁(a₁)，r₂(a₂)，...，r_n(a_n))，其中r_i()是一个操作，该操作可获取每个属性a_i上的特定范围。属性的取值范围被离散化为若干个子区间(后称之为仓)。如图6所示，地图中标号为B的格，星期图中的天，小时图中的一小时均为一个仓。仓是人为规定的属性值与属性范围选择的最小单位，因此，每个属性范围r_i(a_i)是一个连续的仓区间。在此之上，可将一个查询划分为大量的一维查询，即D＝(q₁，q₂，...，q_n)，其中q_i＝(r_i(a_i))是指定单一属性范围的一维查询。假设rs是满足q的查询结果记录集，rs_i是执行q_i得到的查询结果记录集。显然，

因此，可以通过分别执行所有维度上的一维查询并计算其结果的交集，得到与q相同的结果。该模块遵循了这一思想，目的是避免预先存储大量的属性组合值，且该模块在所有维度上的查询只涉及属性值的下边界和上边界。因此，该模块支持多属性数据集的查询。

该模块所依赖的底层数据结构此处称为单元格，该模块首先将原始数据处理为单元格的形式。每一个单元格c由一个元组(b₁，b₂，...，b_n)标识，其中b_i是c在属性a_i上的仓值。8条原始记录(O₁-O₈)在5个二维单元格(c₁-c₅)中。一个包含原始数据记录的单元格c可能处于两种状态：被选中或未选中。选择的经度和纬度范围分别覆盖了CS₁和CS₂两个单元格集合。单元格的结构有效降低了原始数据的存储空间，相对于存储8条原始记录，系统只需存储5个单元格，对于稀疏数据而言，此方法可以节省更多存储空间。

为在每个维度上更快得找到符合查询条件的单元格，该模块进一步引进了排序数组的概念。每个排序数组存储了某一维度上的所有单元格的索引，且在某一维度的排序数组中，所有单元格根据其在该维度上的属性值进行排序。若在排序数组中进行范围查询，则只需在排序数组中找到符合查询范围两端条件的起始位置与终止位置即可。

预测模型，对于属性值分仓较多的数据维度，如经纬度，为进一步加速检索过程，本发明引入了学习型模型。排序数组上仓与起始位置的键值关系可由曲线来反映，如图7(a)所示。该曲线具有单调上升的趋势。学习型模型的目的即在于拟合该曲线。若给定一个仓值k作为输入，模型可以预测排序数组上的某一位置p，p处应是第一个仓值大于等于k的位置。为了获得属性范围(s，e)内的单元格，模型需要运行两次，将s和e映射到排序数组的两个位置p′和p。这两个位置之间的单元格索引就是要获取的目标，如图7(b)所示。由于每一个属性都被离散化为仓的形式，所以属性值的数量等于在属性上划分的仓数，则其数量是有限的。因此，属性的所有值都被包含在训练集中。对于具有较少分仓的属性，如星期(包含7个仓)和小时(包含24个仓)，则设计一个哈希表以支持查询，从而取代学习型模型以减少存储空间，提高运行效率。每个哈希表将一个属性的所有仓值和该仓值在排序数组上的起始位置的键值关系存储在其中。例如，星期和小时的哈希表分别包含7个和24个键值对。在特定仓值作为输入的情况下，哈希表可立即返回确切的位置信息。

预测模型优化，排序数组体现的键值曲线呈现出非线性和波动的趋势，若用一个学习型模型拟合这个曲线总是会造成较大的预测误差，并且需要较多的模型参数和经历复杂的调优过程，如图8(a)。此外，单个模型的预测方法对于频繁的数据更新而言并不友好，因为数据一旦更新，可能需要重新训练整个模型。因此，本发明提出了平行索引结构，这种结构将整条键值曲线按定义域划分为若干等距的段，并训练一组小模型，每个小模型负责拟合数据曲线的一个分段，如图8(b)。随着曲线分割段数的增加，每段的增长趋势逐渐近似于一条直线。因此每个小模型都可以采取简单的结构，进而减少参数，降低模型调优难度。这同时也更加适合数据频繁更新的应用场景。因为对于影响曲线形状的数据变化，只需要对受影响分段对应的小模型进行重新训练，从而大大降低模型重训成本。这种并行索引结构能够有效提高预测精度，减少计算时间和内存消耗，并保证了较高的数据更新效率。

预测模型结构如图9(a)，其实现为若干小模型(NN₁，...，NN_k)。每个小模型负责一段属性值的预测。如图9(b)，NN₁预测的数据段为(S₁，S₂)为，NN₂预测的数据段为(S₂，S₃)，以此类推。如图9(b)，所有的分段具有相等的属性值范围，即(S₁，S₂)、(S₂，S₃)等分段包括相同的仓数。因此，所有的小模型能够使用统一的结构。此处将“小模型数量”设置为一个超参数，供用户定义以均衡训练时间、预测精度、更新效率等。此外，预测模型还配有一个模型选择器，当给定被查询的属性值，模型选择器将根据该属性值将该查询分配给对应的小模型。

预测误差处理，对于学习型模型而言，无论如何优化模型，预测偏差均是不可避免的，如图10(a)。此处提出混合搜索策略来规避预测偏差。如图10(b)，混合搜索策略首先为模型设置一个初始搜索范围阈值thres，在预测模型得到预测位置p后，本策略利用二分搜索在[p-thres，p+thres]范围内搜索精确位置(排序数组中第一个大于等于查询属性值的位置)。如果精确位置不在区间内，则将thres加倍，进行第二次搜索。此扩大范围的搜索过程重复进行，直到找到精确位置为止。图10(b)展示了查询某一维度属性值“24”的样例。该策略降低了模型的预测精度要求，进而减少了模型的训练时间。

交集运算，在得到每个属性上符合查询条件的单元格后，需计算其交集以得出最终查询结果。此处为加速集合的运算过程，模型将调用系统硬件资源，进行多核心多线程的运算。

统计模块，为支持灵活的统计方式和统计粒度，统计模块以单元格为基本单位，保存每个单元格的基础统计值，如总值，数量等。此类统计值反映了不同统计模式下的统计情况，最终的统计量可根据统计粒度与此类基础统计值进行线性或非线性运算得出。因此，用户可在数据探索过程中灵活切换视图的聚合模式。统计模块将调用系统硬件资源执行此处的变粒度统计运算，多核心多线程的计算方式大大提高了统计模块的计算速度。

智能分析模块使用基于无监督学习的异常模式发现算法和基于自动表征的优化算法。此处异常检测算法采用线性模型，即假设无法进行低维空间投影，或在低维空间投影后表现不佳的数据可认为是离群点。该分析模块接收统计模块的统计输出，在显示粒度上进行模式分析，从而提示异常模式。此处自动表征算法采用神经网络模型，将具有多个统计指标的可视对象表征为统一的向量。若两个可视对象具有部分相似的统计指标，则这两个可视对象的表征向量和可视信息也将相似，从而辅助用户判断可视对象的相关性。智能分析模块返回的分析结果和统计结果相结合，能够提高分析人员的分析效率。

数据更新所涉及到的主要操作类型为数据插入，此处考虑的更新操作均为插入新数据操作。插入数据操作存在两种情况。第一种情况下，新增数据可归类到已存在的单元格中，此时更新算法只需要更新单元格中的统计属性值，无需重新训练任何小模型。第二种情况下，算法将为新增数据添加一个新单元格，并将该单元格插入排序数组中。第二种情况涉及到一个更复杂的更新过程。新插入的单元格在排序数组上将影响大于等于该插入属性值的排序数组的键值关系，所以只需考虑该属性值所对应的小模型以及其之后的若干小模型的键值关系的更新。

该算法从两个方面提高了更新效率。首先，每个小模型都有少量的训练样本，加速了模型重训过程。其次，只有缓冲区满时才会触发重训过程，所以缓冲区可以降低重训频率。

根据上述说明书的揭示和教导，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改。因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作出的任何显而易见的改进、替换或变型均属于本发明的保护范围。此外，尽管本说明书中使用了一些特定的术语，但这些术语只是为了方便说明，并不对本发明构成任何限制。

Claims

1.一种学习型大数据可视化方法，其特征在于，包括：

使用平行索引结构，这种结构将整条键值曲线按定义域划分为若干等距的段，并训练一组小模型，每个小模型负责拟合数据曲线的一个分段，将单个预测模型按照输入范围分为若干个小模型；

在得到预测位置后，将在数据记录上进行局部范围的搜索，在搜索时使用了混合搜索策略，混合搜索策略首先为模型设置一个初始搜索范围阈值thres，在预测模型得到预测位置p后，本策略利用二分搜索在[p-thres，p+thres]范围内搜索精确位置，即排序数组中第一个大于等于查询属性值的位置；

在预设数据维度上以用户自定义的统计粒度进行统计计算；

2.一种学习型大数据可视化系统，其特征在于：使用了权利要求1所述的方法，包括前端和后端，所述前端包括可视化组件，所述后端包括智能检索模块、统计模块及智能分析模块；

3.如权利要求2所述的一种学习型大数据可视化系统，其特征在于：所述可视化组件的类型为已封装的接口或标签，所述可视化组件包括热图、散点图、柱状图和折线图，所述接口用于设定智能分析模型的相关参数。