CN111768870A

CN111768870A - 一种端到端数据可视化分析方法、装置和可读储存介质

Info

Publication number: CN111768870A
Application number: CN202010914926.7A
Authority: CN
Inventors: 李国良; 柴成亮; 沈百强; 唐文升; 骆昱宇; 潘巍巍; 李飞飞; 叶翔; 马亮; 裘炜浩; 孙钢; 杨世旺
Original assignee: Tsinghua University; State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Tsinghua University; State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-10-13

Abstract

本发明公开了一种端到端数据可视化分析方法、装置和可读储存介质，解决了现有技术的不足，分析方法包括以下步骤：步骤1，数据准备层采集多源异构数据，并将多源异构数据进行融合，融合后的多源异构数据构成用于数据分析的数据集；步骤2，数据分析层包括若干个数据分析模型，数据分析层选取数据分析模型对数据集进行分析，并将分析结果发送至用户交互层；步骤3，用户交互层收集数据分析层的分析结果，并将分析结果进行可视化展示。

Description

一种端到端数据可视化分析方法、装置和可读储存介质

技术领域

本发明涉及信息检索技术领域，尤其是指一种端到端数据可视化分析方法、装置和可读储存介质。

背景技术

在大数据时代，面对海量且复杂的数据，有效且快速地进行数据分析才能发挥大数据的价值。数据可视化作为一种结构复杂信息的有效方式之一，已经是数据智能分析和挖掘中不可获取的手段之一。例如，民航局可以通过可视化的方式分析航班公司、航班号、航班起飞延误等数据来发现航班延误和时间的关系，从而进一步改进航班调度等工作方法。电力公司可以分析地区用电量之间的分布特征和用电量随时间的变化趋势，从而调整电力供应策略。卫生部门通过收集和处理各省市新冠肺炎的确诊患者信息，生成疫情可视化分析报告，研判疫情态势、科学抗疫。数据可视化可以将数据以可视化图表的形式呈现，从而帮助数据分析师更加直观地理解和分析数据，进而加速知识发现和数据驱动的决策过程。然而，在现实场景中，进行数据可视化分析可能并不高效。主要有以下的原因：（1）多源数据：用于数据分析的数据可能分散于多个数据源；（2）异构数据：数据可能以不同的格式进行存储和传输；（3）数据错误：数据可能包含诸如缺失值、重复值和异常值等数据错误；（4）数据分析：数据分析模型多种多样，找出能最大程度挖掘出数据价值的分析模型并不容易；（5）分析结果呈现：不能快速且简洁地可视化分析结果；（6）用户交互：缺乏集成多种多样且用户好友的交互操作，用户探索数据分析的结果较为不便。

发明内容

本发明的目的是克服现有技术中的缺点，提供一种端到端数据可视化分析方法、可读储存介质及装置。

本发明的目的是通过下述技术方案予以实现：

一种端到端数据可视化分析方法，基于可视化分析系统，可视化分析系统包括数据准备层、数据分析层和用户交互层，分析方法包括以下步骤：

步骤1，数据准备层采集多源异构数据，并将多源异构数据进行融合，融合后的多源异构数据构成用于数据分析的数据集；

步骤2，数据分析层包括若干个数据分析模型，数据分析层选取数据分析模型对数据集进行分析，并将分析结果发送至用户交互层；

步骤3，用户交互层收集数据分析层的分析结果，并将分析结果进行可视化展示；

所述的步骤1中，在数据准备层对多源异构数据进行融合后，还包括数据清洗步骤，具体为：

步骤1d，数据准备层调用预设的数据清洗模型；

步骤1e，数据准备层通过数据清洗模型对数据集进行检测，检测出数据集D中的错误数据；

步骤1f，数据准备层对错误数据生成候选的修复建议，相关人员根据修复建议手动完成对错误数据的修复或数据准备层根据修复建议自动完成对错误数据的修复。

数据准备层基于人机结合和面向数据分析，可以以低人力成本进行多源异构数据的采集、融合和清洗操作。本方案支持对所述数据集实施面向数据分析的数据清洗操作，所述数据清洗是指只清洗对数据分析结果影响较大的部分数据子集，降低数据清洗的代价。

作为一种优选方案，所述的步骤1中，数据准备层对多源异构数据融合的具体方法为：

步骤1a，数据准备层通过爬虫和API（应用程序接口）的方式获取多个数据源数据D1,D2, D3, …, Dn并进行存储；

步骤1b，数据准备层调用预先设定的统一数据格式和标准，对多个数据源数据D1, D2,D3, …, Dn进行融合；

步骤1c，融合完成后，多个数据源数据D1, D2, D3, …, Dn转换成为数据集D，然后数据集D进行存储作为数据分析的基础。

本方案支持以人机结合的方式进行多源异构数据的融合，基于人机结合的多源异构数据融合涉及到从多个数据源将存储和传输格式不同的数据进行采集、融合和存储的工作。爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，爬虫和API的方式可以快速准确的获取多个数据源数据。

作为一种优选方案，所述的数据清洗模型对数据集进行检测的错误数据包括以下的一种或多种：重复值、别名、缺失值和异常值，每一种错误数据均对应一个数据清洗模型。

多源异构数据在采集和融合的过程中，难免会产生诸如重复值、别名、缺失值和异常值等数据错误。数据错误可能影响数据可视化分析的结果，因此，有效的数据可视化分析必然离不开高质量和高可用的数据集。本发明主要进行面向数据可视化分析的数据清洗，核心是清洗对数据分析结果影响加大的部分数据子集，降低数据清洗的代价，提高数据清洗和数据准备阶段的效率。

系统可以针对所述的数据集D以及用户选择的系统推荐的数据可视化结果V，调用相应的数据清洗模型，检测所述的数据集D中包含的数据错误，并根据这些数据错误对可视化结果的影响程度来生成候选的修复建议。数据清洗的输入是所述的数据集D，输出是清洗之后直接用于支持后续数据分析任务的数据集Dc。

作为一种优选方案，所述的重复值的错误数据对应的数据清洗模型为实体对齐模型，检测的过程具体为：实体对齐模型预测实体对的匹配程度，并给出每一个实体对匹配的概率，对于概率大于设定第一阈值的实体对，数据准备层可以直接进行去重；对于概率小于设定第二阈值的实体对，数据准备层认为不是重复的实体对不进行去重；对于概率小于等于设定第一阈值但是大于等于设定第二阈值的实体对，则需要相关人员进行进一步校对。

作为一种优选方案，所述的别名的错误数据对应的数据清洗模型为实体匹配模型，实体匹配模型为支持重复值检测的实体匹配模型，实体匹配模型根据同一个实体的实体对信息生成实体集，在同一个实体集内的对象自带同一个实体概念，数据准备层通过实体匹配模型检测到不同的别名数据位于同一个实体集内则表明这些数据为同一个实体概念，因此数据准备层将这些数据中一个数据名称作为正确数据，其余数据为别名的错误数据修正为正确数据，完成别名的错误数据清洗。

作为一种优选方案，所述的别名的错误数据对应的数据清洗模型为连接算法匹配模型，连接算法匹配模型采用字符串相似连接算法来查找任意两个别名数据中可能存在的同义词，若相似度大于设定的阈值，则此两个别名数据为同一个实体概念，因此数据准备层将一个数据名称作为正确数据，另一个为别名的错误数据修正为正确数据，完成别名的错误数据清洗。

作为一种优选方案，所述的数据分析模型包括聚集分析模型、相关性分析模型、趋势分析模型、时序分析模型和轨迹分析模型。数据分析层可以轻松地集成和管理多个数据分析模型M，针对所述数据集D和所述数据分析模型M，系统基于所述数据分析模型M自动地推荐有意义的数据可视化结果V。用户可以基于系统推荐的有意义的数据可视化结果V，进行数据分析工作：（1）用户可以通过浏览数据可视化结果V，通过可视化结果进行数据分析工作，得出数据洞察；（2）用户也可以从系统推荐的有意义的数据可视化结果V中选择K个结果组成可视化分析仪表盘，用于可视化分析的结果展示和汇报等。

一种提高数据可视化质量的装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令被所述处理器执行时，实现端到端数据可视化分析方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现端到端数据可视化分析方法。

本发明的有益效果是：

1、本方案通过提出基于人机结合的方式进行多源异构数据的获取、融合和存储，解决了用于数据分析的数据可能分散于多个数据源且数据可能以不同的格式进行存储和传输，数据获取和融合的成本较大的问题。

2、本方案提出了一个低人力成本的面向数据分析的数据清洗框架，核心是只清洗与后续数据分析任务相关的部分数据子集中的数据错误，同时清洗的方法较为简洁，正确率高。

3、本方案通过专家知识，可以集成和管理多类数据分析模型，并基于这些数据模型对数据集自动地进行数据分析。基于数据分析结果，以可视化的方式呈现给用户，并支持用户进行数据分析结果的探索。

附图说明

图1是本发明的一种流程图。

图2是本发明的缺失值错误数据的示意图；

图3是本发明的异常值错误数据的示意图；

图4是本发明的重复值错误数据的示意图。

具体实施方式

下面结合附图和实施例对本发明进一步描述。

实施例1：一种端到端数据可视化分析方法，基于可视化分析系统，可视化分析系统包括数据准备层、数据分析层和用户交互层，分析方法包括以下步骤：

步骤1d，数据准备层调用预设的数据清洗模型；

所述的步骤1中，数据准备层对多源异构数据融合的具体方法为：

步骤1a，数据准备层通过爬虫和API的方式获取多个数据源数据D1, D2, D3, …, Dn并进行存储；

本方案支持以人机结合的方式进行多源异构数据的融合，基于人机结合的多源异构数据融合涉及到从多个数据源将存储和传输格式不同的数据进行采集、融合和存储的工作。

所述的数据清洗模型对数据集进行检测的错误数据包括以下的一种或多种：重复值、别名、缺失值和异常值，每一种错误数据均对应一个数据清洗模型。

如图2所示，在按日对死亡总数进行统计时，发现05/02的数据缺失，可以直接反馈给工作人员进行告警，也可以通过前后两日的数据来对05/02的数据进行补充。如图3所示，在总确诊病例的数据总，日期02/22的数据可能相比其他日期的数据数值较大，可以直接反馈给工作人员进行告警，也可以通过前后两日的数据来对02/22的数据进行修正。

所述的重复值的错误数据对应的数据清洗模型为实体对齐模型，检测的过程具体为：实体对齐模型预测实体对的匹配程度，并给出每一个实体对匹配的概率，对于概率大于设定第一阈值的实体对，数据准备层可以直接进行去重；对于概率小于设定第二阈值的实体对，数据准备层认为不是重复的实体对不进行去重；对于概率小于等于设定第一阈值但是大于等于设定第二阈值的实体对，则需要相关人员进行进一步校对。在本实施例中，概率大于0.8，系统则可以直接进行去重；对于大概率不能匹配成功的实体对，例如概率小于能匹配成功的实体对，例如概率小于0.3，系统则可以不认为实体对是重复；对于那些概率介于[0.3, 0.8]区间的实体对，系统认为这些实体对之间有可能重复也有可能不重复，需要相关人员进行进一步的校对。

如图4所示，在对表格中的数据进行清洗的过程中，通过实体对的匹配程度计算第三行和第五行的数据为重复数据，直接删除其中的一个数据达到了去除重复值的错误数据的目的。

所述的别名的错误数据对应的数据清洗模型为实体匹配模型，实体匹配模型为支持重复值检测的实体匹配模型，实体匹配模型根据同一个实体的实体对信息生成实体集，在同一个实体集内的对象自带同一个实体概念，数据准备层通过实体匹配模型检测到不同的别名数据位于同一个实体集内则表明这些数据为同一个实体概念，因此数据准备层将这些数据中一个数据名称作为正确数据，其余数据为别名的错误数据修正为正确数据，完成别名的错误数据清洗。别名的错误数据主要由于多源数据的融合导致的，同样的数据在不同的系统中可能以不同的命名标准进行存储。例如，US和United States都指代“美国”。本方案引入实体集的概念，在同一个实体集里面的对象，都是指代显示世界中同一个实体概念。因此，如果两个数据是用一个实体，那么它们的属性也必然都是有相同的含义。

所述的数据分析模型包括聚集分析模型、相关性分析模型、趋势分析模型、时序分析模型和轨迹分析模型。数据分析层可以轻松地集成和管理多个数据分析模型M，针对所述数据集D和所述数据分析模型M，系统基于所述数据分析模型M自动地推荐有意义的数据可视化结果V。用户可以基于系统推荐的有意义的数据可视化结果V，进行数据分析工作：（1）用户可以通过浏览数据可视化结果V，通过可视化结果进行数据分析工作，得出数据洞察；（2）用户也可以从系统推荐的有意义的数据可视化结果V中选择K个结果组成可视化分析仪表盘，用于可视化分析的结果展示和汇报等。具体地，用户可以通过在仪表盘中进行交互操作，从而进行数据分析结果之间的关联分析；系统还支持相似性趋势搜索，例如搜索新冠肺炎确诊人数随日期变化相似的地区；已经基于位置的可视化，例如，给定一个坐标点，可视化出其附近1公里范围内新冠肺炎确诊人数的热力图；（b）对于诊断性分析，本系统支持用户与系统交互，通过可视化的方式来验证用户的数据分析猜想；（c）对于指导性分析，用户可以结合系统集成的时序分析模型和趋势分析模型，来进行下一时间点的预测，产出指导性的分析结论。系统会自动根据数据可视化结果推荐给用户可视化分析仪表盘，此外本系统还支持用户基于数据分析的可视化结果组建成可视化分析仪表盘，用于展示数据分析结果以及方便和用户进行交互。基于可视化分析仪表盘，系统集成了多种可视化交互操作，方便用户探索可视化分析结果。例如可视化缩放、下钻、上钻、区域选择和多图联动的交互操作。

实施例2：一种端到端数据可视化分析方法，其原理和实施方法和实施例1基本相同，不同之处在于所述的别名的错误数据对应的数据清洗模型为连接算法匹配模型，连接算法匹配模型采用字符串相似连接算法来查找任意两个别名数据中可能存在的同义词，若相似度大于设定的阈值，则此两个别名数据为同一个实体概念，因此数据准备层将一个数据名称作为正确数据，另一个为别名的错误数据修正为正确数据，完成别名的错误数据清洗。

当同义词不出现在同一个实体集中时，则实施例1中的方法无法解决别名的错误数据清洗的过程，因此，本方案可以对于两个别名数据使用字符串相似连接算法来查找任意两个别名数据中可能存在的同义词，实施例1和实施例2的方法既可以分开单独使用，又可以进行整合进一步提高清洗的正确率。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质（或非暂时性介质）和通信介质（或暂时性介质）。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息（诸如计算机可读指令、数据结构、程序模块或其他数据）的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于 RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims

1.一种端到端数据可视化分析方法，基于可视化分析系统，可视化分析系统包括数据准备层、数据分析层和用户交互层，其特征是，分析方法包括以下步骤：

步骤1d，数据准备层调用预设的数据清洗模型；

2.根据权利要求1所述的一种端到端数据可视化分析方法，其特征是，所述的步骤1中，数据准备层对多源异构数据融合的具体方法为：

3.根据权利要求1所述的一种端到端数据可视化分析方法，其特征是，所述的数据清洗模型对数据集进行检测的错误数据包括以下的一种或多种：重复值、别名、缺失值和异常值，每一种错误数据均对应一个数据清洗模型。

4.根据权利要求3所述的一种端到端数据可视化分析方法，其特征是，所述的重复值的错误数据对应的数据清洗模型为实体对齐模型，检测的过程为：实体对齐模型预测实体对的匹配程度，并给出每一个实体对匹配的概率，对于概率大于设定第一阈值的实体对，数据准备层可以直接进行去重；对于概率小于设定第二阈值的实体对，数据准备层认为不是重复的实体对不进行去重；对于概率小于等于设定第一阈值但是大于等于设定第二阈值的实体对，则需要相关人员进一步校对。

5.根据权利要求3所述的一种端到端数据可视化分析方法，其特征是，所述的别名的错误数据对应的数据清洗模型为实体匹配模型，实体匹配模型为支持重复值检测的实体匹配模型，实体匹配模型根据同一个实体的实体对信息生成实体集，在同一个实体集内的对象自带同一个实体概念，数据准备层通过实体匹配模型检测到不同的别名数据位于同一个实体集内则表明这些数据为同一个实体概念，因此数据准备层将这些数据中一个数据名称作为正确数据，其余数据为别名的错误数据修正为正确数据，完成别名的错误数据清洗。

6.根据权利要求3所述的一种端到端数据可视化分析方法，其特征是，所述的别名的错误数据对应的数据清洗模型为连接算法匹配模型，连接算法匹配模型采用字符串相似连接算法来查找任意两个别名数据中可能存在的同义词，若相似度大于设定的阈值，则此两个别名数据为同一个实体概念，因此数据准备层将一个数据名称作为正确数据，另一个为别名的错误数据修正为正确数据，完成别名的错误数据清洗。

7.根据权利要求1所述的一种端到端数据可视化分析方法，其特征是，所述的数据分析模型包括聚集分析模型、相关性分析模型、趋势分析模型、时序分析模型和轨迹分析模型。

8.一种提高数据可视化质量的装置，包括处理器和计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征是，当所述指令被所述处理器执行时，实现如权利要求1-6任意一项所述的端到端数据可视化分析方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征是，所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的端到端数据可视化分析方法。