CN108846066A - 一种可视化的数据分析方法及系统 - Google Patents

一种可视化的数据分析方法及系统 Download PDF

Info

Publication number
CN108846066A
CN108846066A CN201810576090.7A CN201810576090A CN108846066A CN 108846066 A CN108846066 A CN 108846066A CN 201810576090 A CN201810576090 A CN 201810576090A CN 108846066 A CN108846066 A CN 108846066A
Authority
CN
China
Prior art keywords
data
user
condition
recommendation
querying condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810576090.7A
Other languages
English (en)
Other versions
CN108846066B (zh
Inventor
蔡立志
陈敏刚
陈文捷
刘振宇
胡芸
吴建华
宋巍
陈达丽
邬斌亮
凌良合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Original Assignee
SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY filed Critical SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority to CN201810576090.7A priority Critical patent/CN108846066B/zh
Publication of CN108846066A publication Critical patent/CN108846066A/zh
Priority to US16/246,906 priority patent/US20190377728A1/en
Application granted granted Critical
Publication of CN108846066B publication Critical patent/CN108846066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24539Query rewriting; Transformation using cached or materialised query results

Abstract

本发明公开一种可视化的数据分析方法及系统。该分析方法包括:获取待分析数据;获取用户定义的数据格式和查询条件;根据分析数据、用户定义的数据格式和查询条件,生成可视化结果;获取用户定义的第二查询条件和可视化参数;根据可视化结果、用户定义的第二查询条件和可视化参数,生成第二可视化结果;根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;根据用户选择的推荐查询条件,生成最终可视化结果。采用本发明的分析方法或系统,可以在原有用户查询的基础上生成新的可能感兴趣的查询,引导用户快速了解数据中隐含的知识;分析结果以可视化的方式呈现给用户,更加直观、清晰、易理解,且能够以多种图形显示结果。

Description

一种可视化的数据分析方法及系统
技术领域
本发明涉及数据处理领域,特别是涉及一种可视化的数据分析方法及系统。
背景技术
信息技术的迅速发展,催生了大数据时代的到来,大数据已经成为继人力、资本之后的一种新的非物质生产要素。随着数据规模的扩大,对数据的理解和分析越来越困难。各种形式的数据以各种不同的形式存储,人们很难从这些海量的数据中找到有用的知识,因为以人的精力不可能仔细地审视所有的数据。
数据的可视化技术,能将数据转换成图形或图像在屏幕上显示,可以帮助用户更好地洞察数据,在数据理解的基础上,实现更好的数据分析。因此可视化是数据分析的强有力的辅助手段。一方面大数据的多尺度、异构性、多样性使得数据维度增加,数据重复、缺失等质量问题凸显,数据复杂性变大以至于不能快速准确地发现其中的特征和问题,在遍历和数据呈现上都带来了挑战。另一方面,面对海量数据,用户可能无法精确地表达自己感兴趣的数据。传统数据分析,首先要建立数据模型,然后用样本去调整模型的参数。如果面向的数据很复杂,仅仅通过传统方法很难分析出数据的特点、分布情况、某些属性的关系。而且虽然传统的数据查询可以根据关键字发现用户需要的数据,但无法推测用户的兴趣以发现新的感兴趣的数据。
发明内容
本发明的目的是提供一种可视化的数据分析方法及系统,以解决大规模、高维数据的数据分析问题。
为实现上述目的,本发明提供了如下方案:
一种可视化的数据分析方法,所述分析方法包括:
获取待分析数据;
获取用户定义的数据格式和第一查询条件;
根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;
获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;
根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
可选的,所述根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果,具体包括:
根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
对所述分割后的数据进行修正,得到修正后的数据;
根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
根据所述筛选后的数据,生成第一可视化结果。
可选的,所述第一可视化结果包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图和用户定义的视觉效果。
可选的,所述根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果,具体包括:
根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
可选的,所述生成第二可视化结果,之后还包括:
将所述第一查询条件存储至所述历史查询条件的集合中。
可选的,所述根据历史查询条件采用推荐算法生成推荐查询条件,具体包括:
根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
将所述数值最小的元素对应的未出现的属性确定为推荐属性;
将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
一种可视化的数据分析系统,所述分析系统包括:
待分析数据获取模块,用于获取待分析数据;
用户定义数据获取模块,用于获取用户定义的数据格式和第一查询条件;
第一可视化结果生成模块,用于根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;
用户交互模块,用于获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
第二可视化结果生成模块,用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
推荐查询条件生成模块,用于根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;
最终可视化生成模块,用于根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
可选的,所述第一可视化结果生成模块,具体包括:
分割单元,用于根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
修正单元,用于对所述分割后的数据进行修正,得到修正后的数据;
筛选单元,用于根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
第一可视化结果生成单元,用于根据所述筛选后的数据,生成第一可视化结果。
可选的,所述第二可视化结果生成模块,具体包括:
二次筛选单元,用于根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
第二可视化结果生成单元,用于根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
可选的,所述推荐查询条件生成模块,具体包括:
相关性矩阵获取单元,用于根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
推荐度计算单元,用于根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
推荐度集合获取单元,用于依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
排序单元,用于将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
推荐属性确定单元,用于将所述数值最小的元素对应的未出现的属性确定为推荐属性;
推荐查询条件生成单元,用于将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明利用分布式存储、分布式内存计算,能够对大规模、高维数据进行可视化探索式分析,并且支持用户的历史查询,且能根据用户的历史查询推测用户的兴趣,在原有用户查询的基础上生成新的用户可能感兴趣的查询,引导用户快速了解数据中隐含的知识,解决了大规模、高维数据的数据探索分析问题。分析结果以可视化的方式呈现给用户,相较于数值计算结果更加直观、清晰、易理解,且能够以多种图形显示结果,还可以自定义可视化的参数,帮助用户从多个角度观察、理解数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明可视化的数据分析方法的流程示意图;
图2为本发明可视化的数据分析系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明可视化的数据分析方法的流程示意图。如图1所示,所述分析方法包括以下步骤:
步骤100:获取待分析数据。用户可以将待分析数据直接导入分析的系统中进行存储。待分析数据可以为结构化数据,也可以是文本型非结构化数据。
步骤200:获取用户定义的数据格式和第一查询条件。
步骤300:根据待分析数据、用户定义的数据格式和第一查询条件,生成第一可视化结果。根据数据格式、第一查询条件,对用户导入的待分析数据进行分析处理,生成合适的视觉模型,然后将数据可视化的结果呈现给用户,此处定义为第一可视化结果。其中,视觉模型包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图,以及用户自定义的视觉模型。
具体过程如下:
(1)根据数据格式,对用户导入的待分析数据进行字段分割,得到分割后的数据。其中数据格式规定了字段分割的方式,可以通过分隔符或正则表达式的方式分割。
(2)对字段分割后的数据进行数据修正,得到修正后的数据。具体与分割的方式对应,如果采用分隔符进行的分割,此处采用去除数据中分隔符不正确的部分进行修正;如果采用正则表达式的方式分割,此处采用去除正则表达式不匹配的部分进行修正,并将修正后的数据进行存储。
(3)对修正后的数据,按照用户给出的第一查询条件,筛选出与查询条件相符的数据,得到筛选后的数据。
(4)对筛选后的数据,以绘制表格或图形或其他方式呈现可视化的结果。
步骤400:获取用户定义的第二查询条件和可视化参数。所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸。此步骤实现用户交互的功能,接收用户新的查询条件和定义的可视化参数,以生成新的可视化效果。
步骤500:根据第一可视化结果、用户定义的第二查询条件和可视化参数,生成第二可视化结果。同时将用户本次查询之前的历史查询条件进行存储,生成历史查询集合,集合中包括第一查询条件。具体包括以下步骤:
(1)对于存储的修正后的数据,根据用户输入的第二查询条件(即新查询条件),筛选出与第二查询条件相符的数据,得到二次筛选后的数据。
(2)对二次筛选后的数据,根据用户输入的可视化参数,绘制相应的图表以呈现可视化的结果,得到第二可视化结果。
(3)将用户输入的第二查询条件及可视化参数进行存储。
步骤600:根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择。根据存储的用户的历史查询条件,利用推荐算法预测用户可能感兴趣的内容,从而生成用户可能会感兴趣的查询条件进行推荐,供用户选择。然后返回到步骤400,重新获取用户新的查询条件和可视化参数,此处的查询条件为用户选择的推荐查询条件或者为用户自定义的查询条件。整个过程可循环往复进行,直到用户得到满意的数据分析结果。具体生成推荐查询条件的过程如下:
(1)根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,rij∈[0,1],i=1,2,…,n,j=1,2,…,n。设待分析数据中有n个属性(a1,a2,…,an),这n个属性的集合记为A。其中ai对应的列向量为xi,aj对应的列向量为xj,则属性ai和aj的皮尔逊相关系数为:
其中,为列向量xi的均值,为列向量xj的均值,“·”代表向量的内积。如果属性ai与属性aj完全相关,则rij为1,如果属性ai与属性aj完全独立则rij为0。
(2)根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性。设历史查询中已出现的属性集合为Ae,Ae∈A,则历史查询中未出现的属性集合Au=A-Ae,对于每一个aj∈Au
(3)依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合。
(4)将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素,及数值最小的推荐度。
(5)将所述数值最小的元素对应的未出现的属性确定为推荐属性。
(6)将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
步骤700:根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
图2为本发明可视化的数据分析系统的结构示意图。如图2所示,所述分析系统包括:
待分析数据获取模块201,用于获取待分析数据。
用户定义数据获取模块202,用于获取用户定义的数据格式和第一查询条件。
用户通过HTTP协议与待分析数据获取模块201和用户定义数据获取模块202通信,待分析数据获取模块201和用户定义数据获取模块202以网页的形式呈现在用户面前,提供一个提交数据的页面。用户提交的数据可以是结构化数据或非结构化数据,可以以文件的形成上传数据,也可以提供一个在线数据的访问地址;用户提交的数据格式包括数据中各字段的名称及类型信息,或以正则表达式描述的数据格式信息,以XML或JSON格式的配置文件形式提交。用户提交的查询条件以SQL格式的查询文件形式提交。
第一可视化结果生成模块203,用于根据所述分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果。
用户交互模块204,用于获取用户定义的第二查询条件和可视化参数。所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸。此模块用于提供交互功能,接收用户对于视觉模型的反馈,包括接收用户新的查询条件、图形类型的选择、图形显示数据范围的选择、图形色彩、尺寸的选择。
第二可视化结果生成模块205,用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果。
推荐查询条件生成模块206,用于根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择。所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件。本模块用于根据查询历史数据库中存储的用户历史查询,利用推荐算法预测用户感兴趣的内容,从而生成用户可能会感兴趣的查询条件。查询历史数据库,用于存储用户的历史查询信息。历史查询信息包括SQL格式的查询文件及以XML或JSON格式的配置文件形式保存的可视化参数。
推荐查询条件生成模块206支持基于查询内容的推荐,根据用户已有的历史查询,预测用户可能感兴趣的属性,生成新的查询。推荐查询时,推荐查询条件生成模块206根据以往的查询历史,找出用户以往查询中使用过的属性集合。然后采用基于属性相关性的推荐方法,从用户未使用过的属性集合中找出与使用过的属性相关性最小的属性,加入到查询条件,从而生成新的查询。相关性最小的属性值中可能包含用户先前未注意到的有价值的信息,所以虽然推荐查询条件生成模块206给出的结果可能不属于用户原始查询的结果,但有可能是他们感兴趣的,这就允许用户获得他们可能还未意识到的但确实感兴趣的信息。
最终可视化生成模块207,用于根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
所述第一可视化结果生成模块203,具体包括:
分割单元,用于根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
修正单元,用于对所述分割后的数据进行修正,得到修正后的数据;
筛选单元,用于根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
第一可视化结果生成单元,用于根据所述筛选后的数据,生成第一可视化结果。
所述第二可视化结果生成模块205,具体包括:
二次筛选单元,用于根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
第二可视化结果生成单元,用于根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
所述推荐查询条件生成模块206,具体包括:
相关性矩阵获取单元,用于根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
推荐度计算单元,用于根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
推荐度集合获取单元,用于依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
排序单元,用于将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
推荐属性确定单元,用于将所述数值最小的元素对应的未出现的属性确定为推荐属性;
推荐查询条件生成单元,用于将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
本发明的分析系统提供数据的分布式存储、分布式计算功能。包括由多台计算机组成的局域网,并且每台计算机均安装Linux操作系统。计算机集群中部署了基于内存计算的大数据分布式存储、分布式计算套件,以适应大规模数据并行计算的需要。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种可视化的数据分析方法,其特征在于,所述分析方法包括:
获取待分析数据;
获取用户定义的数据格式和第一查询条件;
根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;
获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;
根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
2.根据权利要求1所述的分析方法,其特征在于,所述根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果,具体包括:
根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
对所述分割后的数据进行修正,得到修正后的数据;
根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
根据所述筛选后的数据,生成第一可视化结果。
3.根据权利要求1所述的分析方法,其特征在于,所述第一可视化结果包括柱状图、饼图、折线图、面积图、散点图、条形图、气泡图、曲线拟合图、箱型图、琴型图、矩阵图、地图、平行坐标图、雷达图、词云图和用户定义的视觉效果。
4.根据权利要求2所述的分析方法,其特征在于,所述根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果,具体包括:
根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
5.根据权利要求1所述的分析方法,其特征在于,所述生成第二可视化结果,之后还包括:
将所述第一查询条件存储至所述历史查询条件的集合中。
6.根据权利要求1所述的分析方法,其特征在于,所述根据历史查询条件采用推荐算法生成推荐查询条件,具体包括:
根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
将所述数值最小的元素对应的未出现的属性确定为推荐属性;
将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
7.一种可视化的数据分析系统,其特征在于,所述分析系统包括:
待分析数据获取模块,用于获取待分析数据;
用户定义数据获取模块,用于获取用户定义的数据格式和第一查询条件;
第一可视化结果生成模块,用于根据所述待分析数据、所述用户定义的数据格式和第一查询条件,生成第一可视化结果;
用户交互模块,用于获取用户定义的第二查询条件和可视化参数;所述可视化参数包括可视化类型、可视化数据显示范围、可视化色彩、可视化尺寸;
第二可视化结果生成模块,用于根据所述第一可视化结果、所述用户定义的第二查询条件和可视化参数,生成第二可视化结果;
推荐查询条件生成模块,用于根据历史查询条件采用推荐算法生成推荐查询条件,供用户选择;所述历史查询条件为所述第二查询条件之前的查询条件,所述历史查询条件包括所述第一查询条件;
最终可视化生成模块,用于根据所述用户选择的推荐查询条件和所述第二可视化结果,生成最终可视化结果。
8.根据权利要求7所述的分析系统,其特征在于,所述第一可视化结果生成模块,具体包括:
分割单元,用于根据所述数据格式对所述待分析数据进行字段分割,得到分割后的数据;
修正单元,用于对所述分割后的数据进行修正,得到修正后的数据;
筛选单元,用于根据所述第一查询条件,筛选所述修正后的数据中与所述第一查询条件对应的数据,得到筛选后的数据;
第一可视化结果生成单元,用于根据所述筛选后的数据,生成第一可视化结果。
9.根据权利要求8所述的分析系统,其特征在于,所述第二可视化结果生成模块,具体包括:
二次筛选单元,用于根据所述第二查询条件,筛选所述修正后的数据中与所述第二查询条件对应的数据,得到二次筛选后的数据;
第二可视化结果生成单元,用于根据所述二次筛选后的数据和所述可视化参数生成所述第二可视化结果。
10.根据权利要求7所述的分析系统,其特征在于,所述推荐查询条件生成模块,具体包括:
相关性矩阵获取单元,用于根据皮尔逊相关系数算法获得所述待分析数据中所有属性之间的相关性矩阵R,其中所述待分析数据的所有属性的集合为(a1,a2,…,an),rij为属性ai与属性aj之间的皮尔逊相关系数,i=1,2,…,n,j=1,2,…,n;
推荐度计算单元,用于根据公式σj=minrij计算历史查询中未出现的属性aj的推荐度σj,ai为所述历史查询中已出现的属性;
推荐度集合获取单元,用于依次获得历史查询中所有未出现的属性的推荐度,得到推荐度集合;
排序单元,用于将所述推荐度集合中的元素按照数值大小排序,获得数值最小的元素;
推荐属性确定单元,用于将所述数值最小的元素对应的未出现的属性确定为推荐属性;
推荐查询条件生成单元,用于将所述推荐属性添加至所述第二查询条件,生成推荐查询条件。
CN201810576090.7A 2018-06-06 2018-06-06 一种可视化的数据分析方法及系统 Active CN108846066B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810576090.7A CN108846066B (zh) 2018-06-06 2018-06-06 一种可视化的数据分析方法及系统
US16/246,906 US20190377728A1 (en) 2018-06-06 2019-01-14 Method and system for data analysis with visualization

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810576090.7A CN108846066B (zh) 2018-06-06 2018-06-06 一种可视化的数据分析方法及系统

Publications (2)

Publication Number Publication Date
CN108846066A true CN108846066A (zh) 2018-11-20
CN108846066B CN108846066B (zh) 2020-01-24

Family

ID=64210400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810576090.7A Active CN108846066B (zh) 2018-06-06 2018-06-06 一种可视化的数据分析方法及系统

Country Status (2)

Country Link
US (1) US20190377728A1 (zh)
CN (1) CN108846066B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825805A (zh) * 2019-11-12 2020-02-21 北京东软望海科技有限公司 一种数据的可视化方法及装置
CN111259213A (zh) * 2020-01-07 2020-06-09 中国联合网络通信集团有限公司 数据可视化的处理方法及装置
CN111324659A (zh) * 2020-02-27 2020-06-23 西安交通大学 一种针对时序医疗数据的可视化推荐方法及系统
CN113553630A (zh) * 2021-06-15 2021-10-26 西安电子科技大学 基于无监督学习的硬件木马检测系统和信息数据处理方法
WO2022105402A1 (zh) * 2020-11-19 2022-05-27 海信视像科技股份有限公司 信息处理装置、显示装置以及收看量分析系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522867B (zh) * 2020-03-23 2023-11-10 西南科技大学 炸药配方快速筛选与推荐方法及其系统
CN116186150B (zh) * 2023-03-16 2023-08-22 广州市神推网络科技有限公司 一种移动用户数据可视化系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177121A (zh) * 2013-04-12 2013-06-26 天津大学 加入皮尔逊相关系数的局部保持投影方法
CN104199858A (zh) * 2014-08-14 2014-12-10 中国科学技术信息研究所 专利文件的检索方法和可视化专利检索系统
CN105868255A (zh) * 2015-12-25 2016-08-17 乐视网信息技术(北京)股份有限公司 查询推荐方法及装置
CN107679055A (zh) * 2017-06-25 2018-02-09 平安科技(深圳)有限公司 信息检索方法、服务器及可读存储介质
US20180060421A1 (en) * 2016-08-26 2018-03-01 International Business Machines Corporation Query expansion

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6208985B1 (en) * 1997-07-09 2001-03-27 Caseventure Llc Data refinery: a direct manipulation user interface for data querying with integrated qualitative and quantitative graphical representations of query construction and query result presentation
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US7999809B2 (en) * 2006-04-19 2011-08-16 Tableau Software, Inc. Computer systems and methods for automatic generation of models for a dataset
US7765176B2 (en) * 2006-11-13 2010-07-27 Accenture Global Services Gmbh Knowledge discovery system with user interactive analysis view for analyzing and generating relationships
US20140258032A1 (en) * 2007-11-14 2014-09-11 Panjiva, Inc. Transaction facilitating marketplace platform
US9898767B2 (en) * 2007-11-14 2018-02-20 Panjiva, Inc. Transaction facilitating marketplace platform
US20100205238A1 (en) * 2009-02-06 2010-08-12 International Business Machines Corporation Methods and apparatus for intelligent exploratory visualization and analysis
US8150814B2 (en) * 2009-04-07 2012-04-03 Business Objects Software Ltd. System and method of data cleansing using rule based formatting
WO2011044497A2 (en) * 2009-10-09 2011-04-14 Edgenet, Inc. Automatic method to generate product attributes based solely on product images
US20150019537A1 (en) * 2012-09-07 2015-01-15 Splunk Inc. Generating Reports from Unstructured Data
US9449062B2 (en) * 2012-09-28 2016-09-20 Sap Se Data exploration combining visual inspection and analytic search
US9563663B2 (en) * 2012-09-28 2017-02-07 Oracle International Corporation Fast path evaluation of Boolean predicates
US20140330821A1 (en) * 2013-05-06 2014-11-06 Microsoft Corporation Recommending context based actions for data visualizations
CN103246434A (zh) * 2013-05-08 2013-08-14 中国科学院光电研究院 一种基于ArcGIS Engine及OpenGL的多星资源可视化系统
US10372302B2 (en) * 2013-08-29 2019-08-06 Sui Yan Dimension based dynamic determination of visual analytics
WO2015054841A1 (zh) * 2013-10-16 2015-04-23 范煜 一种多维数据可视化查询方法
US10127596B1 (en) * 2013-12-10 2018-11-13 Vast.com, Inc. Systems, methods, and devices for generating recommendations of unique items
US10380770B2 (en) * 2014-09-08 2019-08-13 Tableau Software, Inc. Interactive data visualization user interface with multiple interaction profiles
KR20170046796A (ko) * 2014-09-10 2017-05-02 애큐웨더 아이엔씨. 사용자-지정된 알림 임계치들을 위한 커스터마이즈 가능한 기상 분석 시스템
US10452658B2 (en) * 2014-12-23 2019-10-22 Teradata Us, Inc. Caching methods and a system for entropy-based cardinality estimation
US9335911B1 (en) * 2014-12-29 2016-05-10 Palantir Technologies Inc. Interactive user interface for dynamic data analysis exploration and query processing
US20180039399A1 (en) * 2014-12-29 2018-02-08 Palantir Technologies Inc. Interactive user interface for dynamically updating data and data analysis and query processing
US10614056B2 (en) * 2015-03-24 2020-04-07 NetSuite Inc. System and method for automated detection of incorrect data
US20160364772A1 (en) * 2015-05-29 2016-12-15 Nanigans, Inc. Graphical user interface for high volume data analytics
US10394802B1 (en) * 2016-01-31 2019-08-27 Splunk, Inc. Interactive location queries for raw machine data
CN106202353A (zh) * 2016-07-06 2016-12-07 郑州大学 一种时间序列数据的可视化表示方法
US10776350B1 (en) * 2016-09-26 2020-09-15 Splunk Inc. Field analyzer for event search screen
US10747756B2 (en) * 2017-09-28 2020-08-18 Oracle International Corporation Recommending fields for a query based on prior queries
US11620315B2 (en) * 2017-10-09 2023-04-04 Tableau Software, Inc. Using an object model of heterogeneous data to facilitate building data visualizations
US11361018B2 (en) * 2017-11-28 2022-06-14 Adobe Inc. Automatically curated image searching

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177121A (zh) * 2013-04-12 2013-06-26 天津大学 加入皮尔逊相关系数的局部保持投影方法
CN104199858A (zh) * 2014-08-14 2014-12-10 中国科学技术信息研究所 专利文件的检索方法和可视化专利检索系统
CN105868255A (zh) * 2015-12-25 2016-08-17 乐视网信息技术(北京)股份有限公司 查询推荐方法及装置
US20180060421A1 (en) * 2016-08-26 2018-03-01 International Business Machines Corporation Query expansion
CN107679055A (zh) * 2017-06-25 2018-02-09 平安科技(深圳)有限公司 信息检索方法、服务器及可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825805A (zh) * 2019-11-12 2020-02-21 北京东软望海科技有限公司 一种数据的可视化方法及装置
CN110825805B (zh) * 2019-11-12 2022-07-19 望海康信(北京)科技股份公司 一种数据的可视化方法及装置
CN111259213A (zh) * 2020-01-07 2020-06-09 中国联合网络通信集团有限公司 数据可视化的处理方法及装置
CN111324659A (zh) * 2020-02-27 2020-06-23 西安交通大学 一种针对时序医疗数据的可视化推荐方法及系统
WO2022105402A1 (zh) * 2020-11-19 2022-05-27 海信视像科技股份有限公司 信息处理装置、显示装置以及收看量分析系统
CN113553630A (zh) * 2021-06-15 2021-10-26 西安电子科技大学 基于无监督学习的硬件木马检测系统和信息数据处理方法
CN113553630B (zh) * 2021-06-15 2023-06-23 西安电子科技大学 基于无监督学习的硬件木马检测系统和信息数据处理方法

Also Published As

Publication number Publication date
US20190377728A1 (en) 2019-12-12
CN108846066B (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN108846066A (zh) 一种可视化的数据分析方法及系统
CN107451894B (zh) 数据处理方法、装置和计算机可读存储介质
Patro et al. A hybrid action-related K-nearest neighbour (HAR-KNN) approach for recommendation systems
JP6278639B2 (ja) 初期データ可視化に基づいた、データのための代替可視化の決定方法
Li et al. Spectral clustering in heterogeneous information networks
CN108090208A (zh) 融合数据处理方法及装置
WO2007075622A2 (en) User-to-user recommender
Halim et al. Quantifying and optimizing visualization: An evolutionary computing-based approach
CN102163228A (zh) 用于确定资源候选项的排序结果的方法、装置及设备
US8788956B2 (en) Symbolic tree node selector
CN107391577B (zh) 一种基于表示向量的作品标签推荐方法和系统
US20180268082A1 (en) Discriminative clustering
von Landesberger et al. Visual analysis of graphs with multiple connected components
JP5903369B2 (ja) 欠損値予測装置及び方法及びプログラム及び商品推薦装置及び方法及びプログラム
Praneenararat et al. Interactive, multiscale navigation of large and complicated biological networks
CN110377841A (zh) 一种应用在协同过滤方法中的相似度计算方法及系统
Smolander et al. Cell-connectivity-guided trajectory inference from single-cell data
JP2019159920A (ja) クラスタリングプログラム、クラスタリング方法及びクラスタリング装置
CN107577681B (zh) 一种基于社交媒体图片的地域分析、推荐方法及系统
Alnjar Data visualization metrics between theoretic view and real implementations: A review
CN114385804A (zh) 一种基于元学习的异构图注意力神经网络的评论推荐方法
Zolkepli et al. Visualizing fuzzy relationship in bibliographic big data using hybrid approach combining fuzzy c-means and Newman-Girvan algorithm
CN112258285A (zh) 一种内容推荐方法及装置、设备、存储介质
WO2020097480A1 (en) Displaying large data sets in a heat map
Li et al. VSAN: A new visualization method for super-large-scale academic networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant