CN108846066B - 一种可视化的数据分析方法及系统 - Google Patents
一种可视化的数据分析方法及系统 Download PDFInfo
- Publication number
- CN108846066B CN108846066B CN201810576090.7A CN201810576090A CN108846066B CN 108846066 B CN108846066 B CN 108846066B CN 201810576090 A CN201810576090 A CN 201810576090A CN 108846066 B CN108846066 B CN 108846066B
- Authority
- CN
- China
- Prior art keywords
- data
- query condition
- visualization
- user
- recommendation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24539—Query rewriting; Transformation using cached or materialised query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种可视化的数据分析方法及系统。该分析方法包括:获取待分析数据;获取用户定义的数据格式和查询条件;根据分析数据、用户定义的数据格式和查询条件,生成可视化结果;获取用户定义的第二查询条件和可视化参数;根据可视化结果、用户定义的第二查询条件和可视化参数,生成第二可视化结果;根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;根据用户选择的推荐查询条件,生成最终可视化结果。采用本发明的分析方法或系统,可以在原有用户查询的基础上生成新的可能感兴趣的查询,引导用户快速了解数据中隐含的知识;分析结果以可视化的方式呈现给用户,更加直观、清晰、易理解,且能够以多种图形显示结果。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种可视化的数据分析方法及系统。
背景技术
信息技术的迅速发展,催生了大数据时代的到来,大数据已经成为继人力、资本之后的一种新的非物质生产要素。随着数据规模的扩大,对数据的理解和分析越来越困难。各种形式的数据以各种不同的形式存储,人们很难从这些海量的数据中找到有用的知识,因为以人的精力不可能仔细地审视所有的数据。
数据的可视化技术,能将数据转换成图形或图像在屏幕上显示,可以帮助用户更好地洞察数据,在数据理解的基础上,实现更好的数据分析。因此可视化是数据分析的强有力的辅助手段。一方面大数据的多尺度、异构性、多样性使得数据维度增加,数据重复、缺失等质量问题凸显,数据复杂性变大以至于不能快速准确地发现其中的特征和问题,在遍历和数据呈现上都带来了挑战。另一方面,面对海量数据,用户可能无法精确地表达自己感兴趣的数据。传统数据分析,首先要建立数据模型,然后用样本去调整模型的参数。如果面向的数据很复杂,仅仅通过传统方法很难分析出数据的特点、分布情况、某些属性的关系。而且虽然传统的数据查询可以根据关键字发现用户需要的数据,但无法推测用户的兴趣以发现新的感兴趣的数据。
发明内容
本发明的目的是提供一种可视化的数据分析方法及系统,以解决大规模、高维数据的数据分析问题。
为实现上述目的,本发明提供了如下方案:
一种可视化的数据分析方法,所述分析方法包括:
获取待分析数据;
获取用户定义的数据格式和第一查询条件;
根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;
获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;
根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
可选的,所述根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果,具体包括:
根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
对所述分割后的数据进行修正,得到修正后的数据;
根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
根据所述筛选后的数据,生成第一可视化结果。
可选的,所述第一可视化结果包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图和用户定义的视觉效果。
可选的,所述根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果,具体包括:
根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
可选的,所述生成第二可视化结果,之后还包括:
将所述第一查询条件存储至所述历史查询条件的集合中。
可选的,所述根据历史查询条件采用推荐算法生成推荐查询条件,具体包括:
根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
将所述数值最小的元素对应的未出现的属性确定为推荐属性;
将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
一种可视化的数据分析系统,所述分析系统包括:
待分析数据获取模块,用于获取待分析数据;
用户定义数据获取模块,用于获取用户定义的数据格式和第一查询条件;
第一可视化结果生成模块,用于根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;
用户交互模块,用于获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
第二可视化结果生成模块,用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
推荐查询条件生成模块,用于根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;
最终可视化生成模块,用于根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
可选的,所述第一可视化结果生成模块,具体包括:
分割单元,用于根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
修正单元,用于对所述分割后的数据进行修正,得到修正后的数据;
筛选单元,用于根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
第一可视化结果生成单元,用于根据所述筛选后的数据,生成第一可视化结果。
可选的,所述第二可视化结果生成模块,具体包括:
二次筛选单元,用于根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
第二可视化结果生成单元,用于根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
可选的,所述推荐查询条件生成模块,具体包括:
相关性矩阵获取单元,用于根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
推荐度计算单元,用于根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
推荐度集合获取单元,用于依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
排序单元,用于将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
推荐属性确定单元,用于将所述数值最小的元素对应的未出现的属性确定为推荐属性;
推荐查询条件生成单元,用于将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明利用分布式存储、分布式内存计算,能够对大规模、高维数据进行可视化探索式分析,并且支持用户的历史查询,且能根据用户的历史查询推测用户的兴趣,在原有用户查询的基础上生成新的用户可能感兴趣的查询,引导用户快速了解数据中隐含的知识,解决了大规模、高维数据的数据探索分析问题。分析结果以可视化的方式呈现给用户,相较于数值计算结果更加直观、清晰、易理解,且能够以多种图形显示结果,还可以自定义可视化的参数,帮助用户从多个角度观察、理解数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明可视化的数据分析方法的流程示意图;
图2为本发明可视化的数据分析系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明可视化的数据分析方法的流程示意图。如图1所示,所述分析方法包括以下步骤:
步骤100:获取待分析数据。用户可以将待分析数据直接导入分析的系统中进行存储。待分析数据可以为结构化数据,也可以是文本型非结构化数据。
步骤200:获取用户定义的数据格式和第一查询条件。
步骤300:根据待分析数据、用户定义的数据格式和第一查询条件,生成第一可视化结果。根据数据格式、第一查询条件,对用户导入的待分析数据进行分析处理,生成合适的视觉模型,然后将数据可视化的结果呈现给用户,此处定义为第一可视化结果。其中,视觉模型包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图,以及用户自定义的视觉模型。
具体过程如下:
(1)根据数据格式,对用户导入的待分析数据进行字段分割,得到分割后的数据。其中数据格式规定了字段分割的方式,可以通过分隔符或正则表达式的方式分割。
(2)对字段分割后的数据进行数据修正,得到修正后的数据。具体与分割的方式对应,如果采用分隔符进行的分割,此处采用去除数据中分隔符不正确的部分进行修正;如果采用正则表达式的方式分割,此处采用去除正则表达式不匹配的部分进行修正,并将修正后的数据进行存储。
(3)对修正后的数据,按照用户给出的第一查询条件,筛选出与查询条件相符的数据,得到筛选后的数据。
(4)对筛选后的数据,以绘制表格或图形或其他方式呈现可视化的结果。
步骤400:获取用户定义的第二查询条件和可视化参数。所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸。此步骤实现用户交互的功能,接收用户新的查询条件和定义的可视化参数,以生成新的可视化效果。
步骤500:根据第一可视化结果、用户定义的第二查询条件和可视化参数,生成第二可视化结果。同时将用户本次查询之前的历史查询条件进行存储,生成历史查询集合,集合中包括第一查询条件。具体包括以下步骤:
(1)对于存储的修正后的数据,根据用户输入的第二查询条件(即新查询条件),筛选出与第二查询条件相符的数据,得到二次筛选后的数据。
(2)对二次筛选后的数据,根据用户输入的可视化参数,绘制相应的图表以呈现可视化的结果,得到第二可视化结果。
(3)将用户输入的第二查询条件及可视化参数进行存储。
步骤600:根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择。根据存储的用户的历史查询条件,利用推荐算法预测用户可能感兴趣的内容,从而生成用户可能会感兴趣的查询条件进行推荐,供用户选择。然后返回到步骤400,重新获取用户新的查询条件和可视化参数,此处的查询条件为用户选择的推荐查询条件或者为用户自定义的查询条件。整个过程可循环往复进行,直到用户得到满意的数据分析结果。具体生成推荐查询条件的过程如下:
(1)根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,rij∈[0,1],i=1,2,…,n,j=1,2,…,n。设待分析数据中有n个属性(a1,a2,…,an),这n个属性的集合记为A。其中ai对应的列向量为xi,aj对应的列向量为xj,则属性ai和aj的皮尔逊相关系数为:
(2)根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性。设历史查询中已出现的属性集合为Ae,Ae∈A,则历史查询中未出现的属性集合Au=A-Ae,对于每一个aj∈Au。
(3)依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合。
(4)将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素,及数值最小的推荐度。
(5)将所述数值最小的元素对应的未出现的属性确定为推荐属性。
(6)将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
步骤700:根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
图2为本发明可视化的数据分析系统的结构示意图。如图2所示,所述分析系统包括:
待分析数据获取模块201,用于获取待分析数据。
用户定义数据获取模块202,用于获取用户定义的数据格式和第一查询条件。
用户通过HTTP协议与待分析数据获取模块201和用户定义数据获取模块202通信,待分析数据获取模块201和用户定义数据获取模块202以网页的形式呈现在用户面前,提供一个提交数据的页面。用户提交的数据可以是结构化数据或非结构化数据,可以以文件的形成上传数据,也可以提供一个在线数据的访问地址;用户提交的数据格式包括数据中各字段的名称及类型信息,或以正则表达式描述的数据格式信息,以XML或JSON格式的配置文件形式提交。用户提交的查询条件以SQL格式的查询文件形式提交。
第一可视化结果生成模块203,用于根据所述分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果。
用户交互模块204,用于获取用户定义的第二查询条件和可视化参数。所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸。此模块用于提供交互功能,接收用户对于视觉模型的反馈,包括接收用户新的查询条件、图形类型的选择、图形显示数据范围的选择、图形色彩、尺寸的选择。
第二可视化结果生成模块205,用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果。
推荐查询条件生成模块206,用于根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择。所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件。本模块用于根据查询历史数据库中存储的用户历史查询,利用推荐算法预测用户感兴趣的内容,从而生成用户可能会感兴趣的查询条件。查询历史数据库,用于存储用户的历史查询信息。历史查询信息包括SQL格式的查询文件及以XML或JSON格式的配置文件形式保存的可视化参数。
推荐查询条件生成模块206支持基于查询内容的推荐,根据用户已有的历史查询,预测用户可能感兴趣的属性,生成新的查询。推荐查询时,推荐查询条件生成模块206根据以往的查询历史,找出用户以往查询中使用过的属性集合。然后采用基于属性相关性的推荐方法,从用户未使用过的属性集合中找出与使用过的属性相关性最小的属性,加入到查询条件,从而生成新的查询。相关性最小的属性值中可能包含用户先前未注意到的有价值的信息,所以虽然推荐查询条件生成模块206给出的结果可能不属于用户原始查询的结果,但有可能是他们感兴趣的,这就允许用户获得他们可能还未意识到的但确实感兴趣的信息。
最终可视化生成模块207,用于根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
所述第一可视化结果生成模块203,具体包括:
分割单元,用于根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
修正单元,用于对所述分割后的数据进行修正,得到修正后的数据;
筛选单元,用于根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
第一可视化结果生成单元,用于根据所述筛选后的数据,生成第一可视化结果。
所述第二可视化结果生成模块205,具体包括:
二次筛选单元,用于根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
第二可视化结果生成单元,用于根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
所述推荐查询条件生成模块206,具体包括:
相关性矩阵获取单元,用于根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
推荐度计算单元,用于根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
推荐度集合获取单元,用于依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
排序单元,用于将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
推荐属性确定单元,用于将所述数值最小的元素对应的未出现的属性确定为推荐属性;
推荐查询条件生成单元,用于将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
本发明的分析系统提供数据的分布式存储、分布式计算功能。包括由多台计算机组成的局域网,并且每台计算机均安装Linux操作系统。计算机集群中部署了基于内存计算的大数据分布式存储、分布式计算套件,以适应大规模数据并行计算的需要。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种可视化的数据分析方法,其特征在于,所述分析方法包括:
获取待分析数据;所述待分析数据为结构化数据或文本型非结构化数据;
获取用户定义的数据格式和第一查询条件;用户提交的数据格式包括数据中各字段的名称及类型信息,或以正则表达式描述的数据格式信息,以XML或JSON格式的配置文件形式提交;用户提交的查询条件以SQL格式的查询文件形式提交;
根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;所述根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果,具体包括:
根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
对所述分割后的数据进行修正,得到修正后的数据;
根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
根据所述筛选后的数据,生成第一可视化结果;
获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;所述根据历史查询条件采用推荐算法生成推荐查询条件,具体包括:
根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
将所述数值最小的元素对应的未出现的属性确定为推荐属性;
将所述推荐属性添加至所述第二查询条件,生成推荐查询条件;
根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
2.根据权利要求1所述的分析方法,其特征在于,所述第一可视化结果包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图和用户定义的视觉效果。
3.根据权利要求1所述的分析方法,其特征在于,所述根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果,具体包括:
根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
4.根据权利要求1所述的分析方法,其特征在于,所述生成第二可视化结果,之后还包括:
将所述第一查询条件存储至所述历史查询条件的集合中。
5.一种可视化的数据分析系统,其特征在于,所述分析系统包括:
待分析数据获取模块,用于获取待分析数据;所述待分析数据为结构化数据或文本型非结构化数据;
用户定义数据获取模块,用于获取用户定义的数据格式和第一查询条件;用户提交的数据格式包括数据中各字段的名称及类型信息,或以正则表达式描述的数据格式信息,以XML或JSON格式的配置文件形式提交;用户提交的查询条件以SQL格式的查询文件形式提交;
第一可视化结果生成模块,用于根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;所述第一可视化结果生成模块,具体包括:
分割单元,用于根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
修正单元,用于对所述分割后的数据进行修正,得到修正后的数据;
筛选单元,用于根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
第一可视化结果生成单元,用于根据所述筛选后的数据,生成第一可视化结果;
用户交互模块,用于获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
第二可视化结果生成模块,用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
推荐查询条件生成模块,用于根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;所述推荐查询条件生成模块,具体包括:
相关性矩阵获取单元,用于根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
推荐度计算单元,用于根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
推荐度集合获取单元,用于依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
排序单元,用于将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
推荐属性确定单元,用于将所述数值最小的元素对应的未出现的属性确定为推荐属性;
推荐查询条件生成单元,用于将所述推荐属性添加至所述第二查询条件,生成推荐查询条件;
最终可视化生成模块,用于根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
6.根据权利要求5所述的分析系统,其特征在于,所述第二可视化结果生成模块,具体包括:
二次筛选单元,用于根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
第二可视化结果生成单元,用于根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576090.7A CN108846066B (zh) | 2018-06-06 | 2018-06-06 | 一种可视化的数据分析方法及系统 |
US16/246,906 US20190377728A1 (en) | 2018-06-06 | 2019-01-14 | Method and system for data analysis with visualization |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810576090.7A CN108846066B (zh) | 2018-06-06 | 2018-06-06 | 一种可视化的数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108846066A CN108846066A (zh) | 2018-11-20 |
CN108846066B true CN108846066B (zh) | 2020-01-24 |
Family
ID=64210400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810576090.7A Active CN108846066B (zh) | 2018-06-06 | 2018-06-06 | 一种可视化的数据分析方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20190377728A1 (zh) |
CN (1) | CN108846066B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110825805B (zh) * | 2019-11-12 | 2022-07-19 | 望海康信(北京)科技股份公司 | 一种数据的可视化方法及装置 |
CN111259213B (zh) * | 2020-01-07 | 2023-06-30 | 中国联合网络通信集团有限公司 | 数据可视化的处理方法及装置 |
CN111324659B (zh) * | 2020-02-27 | 2023-05-02 | 西安交通大学 | 一种针对时序医疗数据的可视化推荐方法及系统 |
CN111522867B (zh) * | 2020-03-23 | 2023-11-10 | 西南科技大学 | 炸药配方快速筛选与推荐方法及其系统 |
CN113779231B (zh) * | 2020-06-09 | 2024-04-26 | 中科云谷科技有限公司 | 基于知识图谱的大数据可视化分析方法、装置及设备 |
JP7232232B2 (ja) * | 2020-11-19 | 2023-03-02 | Tvs Regza株式会社 | 情報処理装置、表示装置及び視聴量分析システム |
US20220342873A1 (en) * | 2021-04-21 | 2022-10-27 | Virtualitics, Inc. | Systems and Methods for Natural Language Querying |
CN113553630B (zh) * | 2021-06-15 | 2023-06-23 | 西安电子科技大学 | 基于无监督学习的硬件木马检测系统和信息数据处理方法 |
CN116186150B (zh) * | 2023-03-16 | 2023-08-22 | 广州市神推网络科技有限公司 | 一种移动用户数据可视化系统及方法 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208985B1 (en) * | 1997-07-09 | 2001-03-27 | Caseventure Llc | Data refinery: a direct manipulation user interface for data querying with integrated qualitative and quantitative graphical representations of query construction and query result presentation |
US6006225A (en) * | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6757646B2 (en) * | 2000-03-22 | 2004-06-29 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
US7999809B2 (en) * | 2006-04-19 | 2011-08-16 | Tableau Software, Inc. | Computer systems and methods for automatic generation of models for a dataset |
US7765176B2 (en) * | 2006-11-13 | 2010-07-27 | Accenture Global Services Gmbh | Knowledge discovery system with user interactive analysis view for analyzing and generating relationships |
US20140258032A1 (en) * | 2007-11-14 | 2014-09-11 | Panjiva, Inc. | Transaction facilitating marketplace platform |
US9898767B2 (en) * | 2007-11-14 | 2018-02-20 | Panjiva, Inc. | Transaction facilitating marketplace platform |
US20100205238A1 (en) * | 2009-02-06 | 2010-08-12 | International Business Machines Corporation | Methods and apparatus for intelligent exploratory visualization and analysis |
US8150814B2 (en) * | 2009-04-07 | 2012-04-03 | Business Objects Software Ltd. | System and method of data cleansing using rule based formatting |
US8582802B2 (en) * | 2009-10-09 | 2013-11-12 | Edgenet, Inc. | Automatic method to generate product attributes based solely on product images |
US20150019537A1 (en) * | 2012-09-07 | 2015-01-15 | Splunk Inc. | Generating Reports from Unstructured Data |
US9563663B2 (en) * | 2012-09-28 | 2017-02-07 | Oracle International Corporation | Fast path evaluation of Boolean predicates |
US9449062B2 (en) * | 2012-09-28 | 2016-09-20 | Sap Se | Data exploration combining visual inspection and analytic search |
CN103177121B (zh) * | 2013-04-12 | 2016-06-08 | 天津大学 | 加入皮尔逊相关系数的局部保持投影方法 |
US20140330821A1 (en) * | 2013-05-06 | 2014-11-06 | Microsoft Corporation | Recommending context based actions for data visualizations |
CN103246434A (zh) * | 2013-05-08 | 2013-08-14 | 中国科学院光电研究院 | 一种基于ArcGIS Engine及OpenGL的多星资源可视化系统 |
US10372302B2 (en) * | 2013-08-29 | 2019-08-06 | Sui Yan | Dimension based dynamic determination of visual analytics |
WO2015054841A1 (zh) * | 2013-10-16 | 2015-04-23 | 范煜 | 一种多维数据可视化查询方法 |
US10127596B1 (en) * | 2013-12-10 | 2018-11-13 | Vast.com, Inc. | Systems, methods, and devices for generating recommendations of unique items |
CN104199858A (zh) * | 2014-08-14 | 2014-12-10 | 中国科学技术信息研究所 | 专利文件的检索方法和可视化专利检索系统 |
US10380770B2 (en) * | 2014-09-08 | 2019-08-13 | Tableau Software, Inc. | Interactive data visualization user interface with multiple interaction profiles |
WO2016039741A1 (en) * | 2014-09-10 | 2016-03-17 | Accuweather, Inc. | Customizable weather analysis system |
US10452658B2 (en) * | 2014-12-23 | 2019-10-22 | Teradata Us, Inc. | Caching methods and a system for entropy-based cardinality estimation |
US9335911B1 (en) * | 2014-12-29 | 2016-05-10 | Palantir Technologies Inc. | Interactive user interface for dynamic data analysis exploration and query processing |
US20180039399A1 (en) * | 2014-12-29 | 2018-02-08 | Palantir Technologies Inc. | Interactive user interface for dynamically updating data and data analysis and query processing |
US10614056B2 (en) * | 2015-03-24 | 2020-04-07 | NetSuite Inc. | System and method for automated detection of incorrect data |
US10410258B2 (en) * | 2015-05-29 | 2019-09-10 | Nanigans, Inc. | Graphical user interface for high volume data analytics |
CN105868255A (zh) * | 2015-12-25 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 查询推荐方法及装置 |
US10394802B1 (en) * | 2016-01-31 | 2019-08-27 | Splunk, Inc. | Interactive location queries for raw machine data |
CN106202353A (zh) * | 2016-07-06 | 2016-12-07 | 郑州大学 | 一种时间序列数据的可视化表示方法 |
US10831800B2 (en) * | 2016-08-26 | 2020-11-10 | International Business Machines Corporation | Query expansion |
US10776350B1 (en) * | 2016-09-26 | 2020-09-15 | Splunk Inc. | Field analyzer for event search screen |
CN107679055B (zh) * | 2017-06-25 | 2021-04-27 | 平安科技(深圳)有限公司 | 信息检索方法、服务器及可读存储介质 |
US10747756B2 (en) * | 2017-09-28 | 2020-08-18 | Oracle International Corporation | Recommending fields for a query based on prior queries |
US11620315B2 (en) * | 2017-10-09 | 2023-04-04 | Tableau Software, Inc. | Using an object model of heterogeneous data to facilitate building data visualizations |
US11361018B2 (en) * | 2017-11-28 | 2022-06-14 | Adobe Inc. | Automatically curated image searching |
-
2018
- 2018-06-06 CN CN201810576090.7A patent/CN108846066B/zh active Active
-
2019
- 2019-01-14 US US16/246,906 patent/US20190377728A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
CN108846066A (zh) | 2018-11-20 |
US20190377728A1 (en) | 2019-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846066B (zh) | 一种可视化的数据分析方法及系统 | |
US8380727B2 (en) | Information processing device and method, program, and recording medium | |
US20180173372A1 (en) | Collaborative data analytics application | |
US20180032890A1 (en) | Method and system for improving content searching in a question and answer customer support system by using a crowd-machine learning hybrid predictive model | |
US11417232B2 (en) | Method, apparatus, and computer program for operating machine-learning framework | |
EP2437158A1 (en) | User-to-user recommender | |
US20150170372A1 (en) | Systems and methods for initially plotting mathematical functions | |
US20200175076A1 (en) | Training and implementing an audit generation model | |
CN113688310B (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
JP2009157899A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
Wang et al. | Interactive browsing via diversified visual summarization for image search results | |
CN111159563A (zh) | 用户兴趣点信息的确定方法、装置、设备及存储介质 | |
JP7423998B2 (ja) | 二部ネットワーク内のミッシングリンクを理解するための視覚分析フレームワーク、方法、プログラム、装置、およびシステム | |
CN110085292A (zh) | 药品推荐方法、装置及计算机可读存储介质 | |
CN111782764B (zh) | 一种交互式nl2sql模型的可视理解与诊断方法 | |
CN112258285A (zh) | 一种内容推荐方法及装置、设备、存储介质 | |
CN114968246B (zh) | 数据分析组件生成方法、设备及计算机可读存储介质 | |
JP2020502710A (ja) | ウェブページメイン画像認識方法及び装置 | |
US20160321259A1 (en) | Network insights | |
JP2020149498A (ja) | データ処理装置、表示制御システム、データ処理方法およびプログラム | |
US20220309428A1 (en) | Generating and presenting an interactive audit report | |
US20220391727A1 (en) | Analysis apparatus, control method, and program | |
Alnjar | Data visualization metrics between theoretic view and real implementations: A review | |
US20050154750A1 (en) | Methods and apparatus for generating automated graphics using stored graphics examples | |
CN112269871A (zh) | 基于lda话题生成模型的数据可视化分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |