CN108846066B

CN108846066B - 一种可视化的数据分析方法及系统

Info

Publication number: CN108846066B
Application number: CN201810576090.7A
Authority: CN
Inventors: 蔡立志; 陈敏刚; 陈文捷; 刘振宇; 胡芸; 吴建华; 宋巍; 陈达丽; 邬斌亮; 凌良合
Original assignee: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Current assignee: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2020-01-24
Anticipated expiration: 2038-06-06
Also published as: CN108846066A; US20190377728A1

Abstract

本发明公开一种可视化的数据分析方法及系统。该分析方法包括：获取待分析数据；获取用户定义的数据格式和查询条件；根据分析数据、用户定义的数据格式和查询条件，生成可视化结果；获取用户定义的第二查询条件和可视化参数；根据可视化结果、用户定义的第二查询条件和可视化参数，生成第二可视化结果；根据历史查询条件采用推荐算法生成推荐查询条件，供用户选择；根据用户选择的推荐查询条件，生成最终可视化结果。采用本发明的分析方法或系统，可以在原有用户查询的基础上生成新的可能感兴趣的查询，引导用户快速了解数据中隐含的知识；分析结果以可视化的方式呈现给用户，更加直观、清晰、易理解，且能够以多种图形显示结果。

Description

一种可视化的数据分析方法及系统

技术领域

本发明涉及数据处理领域，特别是涉及一种可视化的数据分析方法及系统。

背景技术

信息技术的迅速发展，催生了大数据时代的到来，大数据已经成为继人力、资本之后的一种新的非物质生产要素。随着数据规模的扩大，对数据的理解和分析越来越困难。各种形式的数据以各种不同的形式存储，人们很难从这些海量的数据中找到有用的知识，因为以人的精力不可能仔细地审视所有的数据。

数据的可视化技术，能将数据转换成图形或图像在屏幕上显示，可以帮助用户更好地洞察数据，在数据理解的基础上，实现更好的数据分析。因此可视化是数据分析的强有力的辅助手段。一方面大数据的多尺度、异构性、多样性使得数据维度增加，数据重复、缺失等质量问题凸显，数据复杂性变大以至于不能快速准确地发现其中的特征和问题，在遍历和数据呈现上都带来了挑战。另一方面，面对海量数据，用户可能无法精确地表达自己感兴趣的数据。传统数据分析，首先要建立数据模型，然后用样本去调整模型的参数。如果面向的数据很复杂，仅仅通过传统方法很难分析出数据的特点、分布情况、某些属性的关系。而且虽然传统的数据查询可以根据关键字发现用户需要的数据，但无法推测用户的兴趣以发现新的感兴趣的数据。

发明内容

本发明的目的是提供一种可视化的数据分析方法及系统，以解决大规模、高维数据的数据分析问题。

为实现上述目的，本发明提供了如下方案：

一种可视化的数据分析方法，所述分析方法包括：

获取待分析数据；

获取用户定义的数据格式和第一查询条件；

根据所述待分析数据、所述用户定义的数据格式和第一查询条件，生成第一可视化结果；

获取用户定义的第二查询条件和可视化参数；所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸；

根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数，生成第二可视化结果；

根据历史查询条件采用推荐算法生成推荐查询条件，供用户选择；所述历史查询条件为所述第二查询条件之前的查询条件，所述历史查询条件包括所述第一查询条件；

根据所述用户选择的推荐查询条件和所述第二可视化结果，生成最终可视化结果。

可选的，所述根据所述待分析数据、所述用户定义的数据格式和第一查询条件，生成第一可视化结果，具体包括：

根据所述数据格式对所述待分析数据进行字段分割，得到分割后的数据；

对所述分割后的数据进行修正，得到修正后的数据；

根据所述第一查询条件，筛选所述修正后的数据中与所述第一查询条件对应的数据，得到筛选后的数据；

根据所述筛选后的数据，生成第一可视化结果。

可选的，所述第一可视化结果包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图和用户定义的视觉效果。

可选的，所述根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数，生成第二可视化结果，具体包括：

根据所述第二查询条件，筛选所述修正后的数据中与所述第二查询条件对应的数据，得到二次筛选后的数据；

根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。

可选的，所述生成第二可视化结果，之后还包括：

将所述第一查询条件存储至所述历史查询条件的集合中。

可选的，所述根据历史查询条件采用推荐算法生成推荐查询条件，具体包括：

根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R，

其中所述待分析数据的所有属性的集合为(a₁,a₂,…,a_n)，r_ij为属性a_i与属性a_j之间的皮尔逊相关系数，i＝1,2,…,n，j＝1,2,…,n；

根据公式σ_j＝minr_ij计算历史查询中未出现的属性a_j的推荐度σ_j，a_i为所述历史查询中已出现的属性；

依次获得历史查询中所有未出现的属性的推荐度，得到推荐度集合；

将所述推荐度集合中的元素按照数值大小排序，获得数值最小的元素；

将所述数值最小的元素对应的未出现的属性确定为推荐属性；

将所述推荐属性添加至所述第二查询条件，生成推荐查询条件。

一种可视化的数据分析系统，所述分析系统包括：

待分析数据获取模块，用于获取待分析数据；

用户定义数据获取模块，用于获取用户定义的数据格式和第一查询条件；

第一可视化结果生成模块，用于根据所述待分析数据、所述用户定义的数据格式和第一查询条件，生成第一可视化结果；

用户交互模块，用于获取用户定义的第二查询条件和可视化参数；所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸；

第二可视化结果生成模块，用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数，生成第二可视化结果；

推荐查询条件生成模块，用于根据历史查询条件采用推荐算法生成推荐查询条件，供用户选择；所述历史查询条件为所述第二查询条件之前的查询条件，所述历史查询条件包括所述第一查询条件；

最终可视化生成模块，用于根据所述用户选择的推荐查询条件和所述第二可视化结果，生成最终可视化结果。

可选的，所述第一可视化结果生成模块，具体包括：

分割单元，用于根据所述数据格式对所述待分析数据进行字段分割，得到分割后的数据；

修正单元，用于对所述分割后的数据进行修正，得到修正后的数据；

筛选单元，用于根据所述第一查询条件，筛选所述修正后的数据中与所述第一查询条件对应的数据，得到筛选后的数据；

第一可视化结果生成单元，用于根据所述筛选后的数据，生成第一可视化结果。

可选的，所述第二可视化结果生成模块，具体包括：

二次筛选单元，用于根据所述第二查询条件，筛选所述修正后的数据中与所述第二查询条件对应的数据，得到二次筛选后的数据；

第二可视化结果生成单元，用于根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。

可选的，所述推荐查询条件生成模块，具体包括：

相关性矩阵获取单元，用于根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R，

推荐度计算单元，用于根据公式σ_j＝minr_ij计算历史查询中未出现的属性a_j的推荐度σ_j，a_i为所述历史查询中已出现的属性；

推荐度集合获取单元，用于依次获得历史查询中所有未出现的属性的推荐度，得到推荐度集合；

排序单元，用于将所述推荐度集合中的元素按照数值大小排序，获得数值最小的元素；

推荐属性确定单元，用于将所述数值最小的元素对应的未出现的属性确定为推荐属性；

推荐查询条件生成单元，用于将所述推荐属性添加至所述第二查询条件，生成推荐查询条件。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明利用分布式存储、分布式内存计算，能够对大规模、高维数据进行可视化探索式分析，并且支持用户的历史查询，且能根据用户的历史查询推测用户的兴趣，在原有用户查询的基础上生成新的用户可能感兴趣的查询，引导用户快速了解数据中隐含的知识，解决了大规模、高维数据的数据探索分析问题。分析结果以可视化的方式呈现给用户，相较于数值计算结果更加直观、清晰、易理解，且能够以多种图形显示结果，还可以自定义可视化的参数，帮助用户从多个角度观察、理解数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明可视化的数据分析方法的流程示意图；

图2为本发明可视化的数据分析系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明可视化的数据分析方法的流程示意图。如图1所示，所述分析方法包括以下步骤：

步骤100：获取待分析数据。用户可以将待分析数据直接导入分析的系统中进行存储。待分析数据可以为结构化数据，也可以是文本型非结构化数据。

步骤200：获取用户定义的数据格式和第一查询条件。

步骤300：根据待分析数据、用户定义的数据格式和第一查询条件，生成第一可视化结果。根据数据格式、第一查询条件，对用户导入的待分析数据进行分析处理，生成合适的视觉模型，然后将数据可视化的结果呈现给用户，此处定义为第一可视化结果。其中，视觉模型包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图，以及用户自定义的视觉模型。

具体过程如下：

(1)根据数据格式，对用户导入的待分析数据进行字段分割，得到分割后的数据。其中数据格式规定了字段分割的方式，可以通过分隔符或正则表达式的方式分割。

(2)对字段分割后的数据进行数据修正，得到修正后的数据。具体与分割的方式对应，如果采用分隔符进行的分割，此处采用去除数据中分隔符不正确的部分进行修正；如果采用正则表达式的方式分割，此处采用去除正则表达式不匹配的部分进行修正，并将修正后的数据进行存储。

(3)对修正后的数据，按照用户给出的第一查询条件，筛选出与查询条件相符的数据，得到筛选后的数据。

(4)对筛选后的数据，以绘制表格或图形或其他方式呈现可视化的结果。

步骤400：获取用户定义的第二查询条件和可视化参数。所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸。此步骤实现用户交互的功能，接收用户新的查询条件和定义的可视化参数，以生成新的可视化效果。

步骤500：根据第一可视化结果、用户定义的第二查询条件和可视化参数，生成第二可视化结果。同时将用户本次查询之前的历史查询条件进行存储，生成历史查询集合，集合中包括第一查询条件。具体包括以下步骤：

(1)对于存储的修正后的数据，根据用户输入的第二查询条件(即新查询条件)，筛选出与第二查询条件相符的数据，得到二次筛选后的数据。

(2)对二次筛选后的数据，根据用户输入的可视化参数，绘制相应的图表以呈现可视化的结果，得到第二可视化结果。

(3)将用户输入的第二查询条件及可视化参数进行存储。

步骤600：根据历史查询条件采用推荐算法生成推荐查询条件，供用户选择。根据存储的用户的历史查询条件，利用推荐算法预测用户可能感兴趣的内容，从而生成用户可能会感兴趣的查询条件进行推荐，供用户选择。然后返回到步骤400，重新获取用户新的查询条件和可视化参数，此处的查询条件为用户选择的推荐查询条件或者为用户自定义的查询条件。整个过程可循环往复进行，直到用户得到满意的数据分析结果。具体生成推荐查询条件的过程如下：

(1)根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R，

其中所述待分析数据的所有属性的集合为(a₁,a₂,…,a_n)，r_ij为属性a_i与属性a_j之间的皮尔逊相关系数，r_ij∈[0,1]，i＝1,2,…,n，j＝1,2,…,n。设待分析数据中有n个属性(a₁,a₂,…,a_n)，这n个属性的集合记为A。其中a_i对应的列向量为x_i，a_j对应的列向量为x_j，则属性a_i和a_j的皮尔逊相关系数为：

其中，

为列向量x_i的均值，

为列向量x_j的均值，“·”代表向量的内积。如果属性a_i与属性a_j完全相关，则r_ij为1，如果属性a_i与属性a_j完全独立则r_ij为0。

(2)根据公式σ_j＝minr_ij计算历史查询中未出现的属性a_j的推荐度σ_j，a_i为所述历史查询中已出现的属性。设历史查询中已出现的属性集合为A_e，A_e∈A，则历史查询中未出现的属性集合A_u＝A-A_e，对于每一个a_j∈A_u。

(3)依次获得历史查询中所有未出现的属性的推荐度，得到推荐度集合。

(4)将所述推荐度集合中的元素按照数值大小排序，获得数值最小的元素，及数值最小的推荐度。

(5)将所述数值最小的元素对应的未出现的属性确定为推荐属性。

(6)将所述推荐属性添加至所述第二查询条件，生成推荐查询条件。

步骤700：根据所述用户选择的推荐查询条件和所述第二可视化结果，生成最终可视化结果。

图2为本发明可视化的数据分析系统的结构示意图。如图2所示，所述分析系统包括：

待分析数据获取模块201，用于获取待分析数据。

用户定义数据获取模块202，用于获取用户定义的数据格式和第一查询条件。

用户通过HTTP协议与待分析数据获取模块201和用户定义数据获取模块202通信，待分析数据获取模块201和用户定义数据获取模块202以网页的形式呈现在用户面前，提供一个提交数据的页面。用户提交的数据可以是结构化数据或非结构化数据，可以以文件的形成上传数据，也可以提供一个在线数据的访问地址；用户提交的数据格式包括数据中各字段的名称及类型信息，或以正则表达式描述的数据格式信息，以XML或JSON格式的配置文件形式提交。用户提交的查询条件以SQL格式的查询文件形式提交。

第一可视化结果生成模块203，用于根据所述分析数据、所述用户定义的数据格式和第一查询条件，生成第一可视化结果。

用户交互模块204，用于获取用户定义的第二查询条件和可视化参数。所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸。此模块用于提供交互功能，接收用户对于视觉模型的反馈，包括接收用户新的查询条件、图形类型的选择、图形显示数据范围的选择、图形色彩、尺寸的选择。

第二可视化结果生成模块205，用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数，生成第二可视化结果。

推荐查询条件生成模块206，用于根据历史查询条件采用推荐算法生成推荐查询条件，供用户选择。所述历史查询条件为所述第二查询条件之前的查询条件，所述历史查询条件包括所述第一查询条件。本模块用于根据查询历史数据库中存储的用户历史查询，利用推荐算法预测用户感兴趣的内容，从而生成用户可能会感兴趣的查询条件。查询历史数据库，用于存储用户的历史查询信息。历史查询信息包括SQL格式的查询文件及以XML或JSON格式的配置文件形式保存的可视化参数。

推荐查询条件生成模块206支持基于查询内容的推荐，根据用户已有的历史查询，预测用户可能感兴趣的属性，生成新的查询。推荐查询时，推荐查询条件生成模块206根据以往的查询历史，找出用户以往查询中使用过的属性集合。然后采用基于属性相关性的推荐方法，从用户未使用过的属性集合中找出与使用过的属性相关性最小的属性，加入到查询条件，从而生成新的查询。相关性最小的属性值中可能包含用户先前未注意到的有价值的信息，所以虽然推荐查询条件生成模块206给出的结果可能不属于用户原始查询的结果，但有可能是他们感兴趣的，这就允许用户获得他们可能还未意识到的但确实感兴趣的信息。

最终可视化生成模块207，用于根据所述用户选择的推荐查询条件和所述第二可视化结果，生成最终可视化结果。

所述第一可视化结果生成模块203，具体包括：

所述第二可视化结果生成模块205，具体包括：

所述推荐查询条件生成模块206，具体包括：

本发明的分析系统提供数据的分布式存储、分布式计算功能。包括由多台计算机组成的局域网，并且每台计算机均安装Linux操作系统。计算机集群中部署了基于内存计算的大数据分布式存储、分布式计算套件，以适应大规模数据并行计算的需要。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种可视化的数据分析方法，其特征在于，所述分析方法包括：

获取待分析数据；所述待分析数据为结构化数据或文本型非结构化数据；

获取用户定义的数据格式和第一查询条件；用户提交的数据格式包括数据中各字段的名称及类型信息，或以正则表达式描述的数据格式信息，以XML或JSON格式的配置文件形式提交；用户提交的查询条件以SQL格式的查询文件形式提交；

根据所述待分析数据、所述用户定义的数据格式和第一查询条件，生成第一可视化结果；所述根据所述待分析数据、所述用户定义的数据格式和第一查询条件，生成第一可视化结果，具体包括：

对所述分割后的数据进行修正，得到修正后的数据；

根据所述筛选后的数据，生成第一可视化结果；

根据历史查询条件采用推荐算法生成推荐查询条件，供用户选择；所述历史查询条件为所述第二查询条件之前的查询条件，所述历史查询条件包括所述第一查询条件；所述根据历史查询条件采用推荐算法生成推荐查询条件，具体包括：

将所述推荐属性添加至所述第二查询条件，生成推荐查询条件；

2.根据权利要求1所述的分析方法，其特征在于，所述第一可视化结果包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图和用户定义的视觉效果。

3.根据权利要求1所述的分析方法，其特征在于，所述根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数，生成第二可视化结果，具体包括：

4.根据权利要求1所述的分析方法，其特征在于，所述生成第二可视化结果，之后还包括：

将所述第一查询条件存储至所述历史查询条件的集合中。

5.一种可视化的数据分析系统，其特征在于，所述分析系统包括：

待分析数据获取模块，用于获取待分析数据；所述待分析数据为结构化数据或文本型非结构化数据；

用户定义数据获取模块，用于获取用户定义的数据格式和第一查询条件；用户提交的数据格式包括数据中各字段的名称及类型信息，或以正则表达式描述的数据格式信息，以XML或JSON格式的配置文件形式提交；用户提交的查询条件以SQL格式的查询文件形式提交；

第一可视化结果生成模块，用于根据所述待分析数据、所述用户定义的数据格式和第一查询条件，生成第一可视化结果；所述第一可视化结果生成模块，具体包括：

第一可视化结果生成单元，用于根据所述筛选后的数据，生成第一可视化结果；

推荐查询条件生成模块，用于根据历史查询条件采用推荐算法生成推荐查询条件，供用户选择；所述历史查询条件为所述第二查询条件之前的查询条件，所述历史查询条件包括所述第一查询条件；所述推荐查询条件生成模块，具体包括：

推荐查询条件生成单元，用于将所述推荐属性添加至所述第二查询条件，生成推荐查询条件；

6.根据权利要求5所述的分析系统，其特征在于，所述第二可视化结果生成模块，具体包括：