CN112000761A - 数据分析方法及装置、电子设备、计算机可读存储介质 - Google Patents
数据分析方法及装置、电子设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN112000761A CN112000761A CN202010889880.8A CN202010889880A CN112000761A CN 112000761 A CN112000761 A CN 112000761A CN 202010889880 A CN202010889880 A CN 202010889880A CN 112000761 A CN112000761 A CN 112000761A
- Authority
- CN
- China
- Prior art keywords
- data
- sample data
- sample
- partition
- displaying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000007405 data analysis Methods 0.000 title claims abstract description 39
- 238000005192 partition Methods 0.000 claims abstract description 75
- 238000004458 analytical method Methods 0.000 claims abstract description 33
- 230000009467 reduction Effects 0.000 claims description 22
- 238000012216 screening Methods 0.000 claims description 19
- 230000006835 compression Effects 0.000 claims description 16
- 238000007906 compression Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000000007 visual effect Effects 0.000 description 10
- 238000010219 correlation analysis Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012800 visualization Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000638 solvent extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007794 visualization technique Methods 0.000 description 2
- 229910052729 chemical element Inorganic materials 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据分析方法及装置、电子设备、计算机可读存储介质。其中,该方法包括:获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值;基于数据地理信息,分析每个样本数据所属的数据分区;基于数据属性和数据值,分析样本数据之间的关联关系;展示每个样本数据所属的数据分区以及样本数据之间的关联关系。本发明解决了相关技术中在分析数据时,分析维度较为单一,无法有效查看数据之间的关联关系的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据分析方法及装置、电子设备、计算机可读存储介质。
背景技术
相关技术中,当前的各种数据类型所包含的数据之间关联错综复杂,尤其是数据的属性维度较多时,无法进行有效分析,例如,对于金融数据,当前在分析金融数据时,往往是局限于金融地域区分和单一维度分析,无法有效查看数据之间的关联关系;同时由于能够分析的数据量较少,且分析结果往往与整体/全国的金融数据有较大差异,分析结果往往过于片面化。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据分析方法及装置、电子设备、计算机可读存储介质,以至少解决相关技术中在分析数据时,分析维度较为单一,无法有效查看数据之间的关联关系的技术问题。
根据本发明实施例的一个方面,提供了一种数据分析方法,包括:获取多个样本数据,其中,每个所述样本数据至少包括:数据地理信息、数据属性和数据值;基于所述数据地理信息,分析每个样本数据所属的数据分区;基于所述数据属性和数据值,分析样本数据之间的关联关系;展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
可选地,基于所述数据地理信息,分析每个样本数据所属的数据分区的步骤,包括:基于所述数据地理信息,对所述样本数据进行地域编码,得到与每个样本数据对应的地域标识;基于所述地域标识,分析每个样本数据的空间分布坐标;基于每个样本数据的空间分布坐标,确定每个样本数据所属的数据分区。
可选地,在展示每个样本数据所属的数据分区时,包括:统计每个数据分区中包括的样本数据的数目;确定展示地图的地图参数,其中,所述地图参数至少包括:虚拟高度和虚拟宽度;基于所述地图参数和每个数据分区的样本数据的数目,对每个所述数据分区内的样本数据进行线性压缩;在每个数据分区上展示线性压缩后的样本数据。
可选地,在获取多个样本数据之后,所述数据分析方法还包括:确定每个样本数据的数据属性的属性数量;在所述属性数量大于预设数量阈值时,确定每个数据属性的属性维度;基于每个所述数据属性的属性维度,对所述样本数据进行降维处理。
可选地,展示每个样本数据所属的数据分区以及所有数据之间的关联关系的步骤,包括:采用预设参数调节算法得到所有样本数据的聚合分布特征;基于所述聚合分布特征,选取分布均匀且数据值为非固定值域的样本数据,得到样本数据集合;采用预设值域分类方式,展示多组样本数据集合中所有数据之间的关联关系。
可选地,在展示每个样本数据所属的数据分区以及所有数据之间的关联关系之后,所述数据分析方法还包括:接收坐标点选指令;基于所述坐标点选指令,对所有样本数据进行筛选,得到筛选结果;基于所述筛选结果,确定每个坐标轴下的预设数据显示图的类别比例;展示所述类别比例。
根据本发明实施例的另一方面,还提供了一种数据分析装置,包括:获取单元,用于获取多个样本数据,其中,每个所述样本数据至少包括:数据地理信息、数据属性和数据值;第一分析单元,用于基于所述数据地理信息,分析每个样本数据所属的数据分区;第二分析单元,用于基于所述数据属性和数据值,分析样本数据之间的关联关系;展示单元,用于展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
可选地,所述第一分析单元包括:编码模块,用于基于所述数据地理信息,对所述样本数据进行地域编码,得到与每个样本数据对应的地域标识;第一分析模块,用于基于所述地域标识,分析每个样本数据的空间分布坐标;第一确定模块,用于基于每个样本数据的空间分布坐标,确定每个样本数据所属的数据分区。
可选地,展示单元包括:统计模块,用于统计每个数据分区中包括的样本数据的数目;第二确定模块,用于确定展示地图的地图参数,其中,所述地图参数至少包括:虚拟高度和虚拟宽度;压缩模块,用于基于所述地图参数和每个数据分区的样本数据的数目,对每个所述数据分区内的样本数据进行线性压缩;第一展示模块,用于在每个数据分区上展示线性压缩后的样本数据。
可选地,所述数据分析装置还包括:第三确定模块,用于在获取多个样本数据之后,确定每个样本数据的数据属性的属性数量;第四确定模块,用于在所述属性数量大于预设数量阈值时,确定每个数据属性的属性维度;降维模块,用于基于每个所述数据属性的属性维度,对所述样本数据进行降维处理。
可选地,所述展示单元包括:调节模块,用于采用预设参数调节算法得到所有样本数据的聚合分布特征;选取模块,用于基于所述聚合分布特征,选取分布均匀且数据值为非固定值域的样本数据,得到样本数据集合;第二展示模块,用于采用预设值域分类方式,展示多组样本数据集合中所有数据之间的关联关系。
可选地,所述数据分析装置还包括:接收模块,用于在展示每个样本数据所属的数据分区以及所有数据之间的关联关系之后,接收坐标点选指令;筛选模块,用于基于所述坐标点选指令,对所有样本数据进行筛选,得到筛选结果;第五确定模块,用于基于所述筛选结果,确定每个坐标轴下的预设数据显示图的类别比例;第三展示模块,用于展示所述类别比例。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据分析方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的数据分析方法。
本发明实施例中,获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值,基于数据地理信息,分析每个样本数据所属的数据分区,基于数据属性和数据值,分析样本数据之间的关联关系,展示每个样本数据所属的数据分区以及样本数据之间的关联关系。在该实施例中,可以通过数据地理信息,对数据进行分区处理,并建立各样本数据之间的关联关系,进而向用户展示数据的关联关系和分区情况,能够让用户清楚了解到数据状态,从而解决相关技术中在分析数据时,分析维度较为单一,无法有效查看数据之间的关联关系的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据分析方法的流程图;
图2是根据本发明实施例的一种可选的数据分析装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明下述实施例涉及的数据可以指示金融数据,为了满足数据分析过程中跨区域匹配金融的需求,本发明实施例采用数据分区(即实现金融数据的空间划分,能够基于金融数据的多维度特征对数据进行分类,不局限于地理空间的分布)、数据降维(能够通过可视分析方式,分析各属性维度对数据的影响)、数据相关性分析的方法,对金融数据进行可视化分析,提供了可对金融数据进行探索式空间划分和相关性分析的可视化分析方式,即可以通过降维和数据相关性分析实现金融数据的可视化分析。
根据本发明实施例,提供了一种数据分析方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的数据分析方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值;
步骤S104,基于数据地理信息,分析每个样本数据所属的数据分区;
步骤S106,基于数据属性和数据值,分析样本数据之间的关联关系;
步骤S108,展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
通过上述步骤,可以获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值,基于数据地理信息,分析每个样本数据所属的数据分区,基于数据属性和数据值,分析样本数据之间的关联关系,展示每个样本数据所属的数据分区以及样本数据之间的关联关系。在该实施例中,可以通过数据地理信息,对数据进行分区处理,并建立各样本数据之间的关联关系,进而向用户展示数据的关联关系和分区情况,能够让用户清楚了解到数据状态,从而解决相关技术中在分析数据时,分析维度较为单一,无法有效查看数据之间的关联关系的技术问题。
下面结合上述各步骤来详细说明本发明。
步骤S102,获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值。
可选的,在获取多个样本数据之后,数据分析方法还包括:确定每个样本数据的数据属性的属性数量;在属性数量大于预设数量阈值时,确定每个数据属性的属性维度;基于每个数据属性的属性维度,对样本数据进行降维处理。
以金融数据作为样本数据为例,金融数据的多维属性决定了需要用降维的方法进行数据展示。可选的,本发明实施例中通过矩阵散点图等方式预先展示所有样本数据,然后对样本数据进行区域划分,地域区是按照地理位置对金融范围进行的划分,由于不同地理位置的经纬度、导致了不同地域区的金融具有一定的差别,这也导致不同地域的划分。
可选的,在对样本数据进行降维处理时,可以采用t-SNE降维方法进行降维处理,采用t-SNE降维方法可以较好的保留高维数据概率分布特征,通过保持高维空间和低维空间概率分布不变的方式来克服传统的线性降维方法导致的数据重叠等缺点。
作为本发明可选的实施例,本发明实施例在使用散点图展示样本数据时,散点图采用多边形套索工具实现任意多边形的框选,满足大部分数据集合的选择,便于对降维后的金融数据进行框选分类。
步骤S104,基于数据地理信息,分析每个样本数据所属的数据分区。
作为本发明可选的实施例,基于数据地理信息,分析每个样本数据所属的数据分区的步骤,包括:基于数据地理信息,对样本数据进行地域编码,得到与每个样本数据对应的地域标识;基于地域标识,分析每个样本数据的空间分布坐标;基于每个样本数据的空间分布坐标,确定每个样本数据所属的数据分区。
通过地域编码,可以将降维后的金融数据进行可视化交互,并观察样本数据集合在空间上的分布情况,降维数据的交互可视分析,便于对金融进行快速的筛选、分析和对比。
金融数据受地理位置的影响非常大,不同的地理位置有多个影响因素。通过数据分区展示可以直观的查看金融数据分布的空间特征,实现金融数据的聚类和相关性分析。
步骤S106,基于数据属性和数据值,分析样本数据之间的关联关系。
步骤S108,展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
作为本发明可选的实施例,在展示每个样本数据所属的数据分区时,包括:统计每个数据分区中包括的样本数据的数目;确定展示地图的地图参数,其中,地图参数至少包括:虚拟高度和虚拟宽度;基于地图参数和每个数据分区的样本数据的数目,对每个数据分区内的样本数据进行线性压缩;在每个数据分区上展示线性压缩后的样本数据。
对于每个数据分区的样本数据,可以进行数量统计,得到每个数据分区的样本数据的数量,然后根据地图DOM的地图参数进行线性压缩,防止最高的柱状图超出页面空间。同时在较小值的数据分区,采用最低高度限定,防止较小数值消失,线性压缩对数据的分布可视化最直观,而且不会产生视觉误差。
可选的,本发明实施例在展示时,可以通过多级地图柱状图(空间视图)展示,在Echarts的基础上进行二次开发,实现了支持经纬度定位的三层带阴影模式的多级下钻地图,同时实现了柱状图的动态叠加功能。
本发明实施例中,可实现基于地域编码的降维可视化视图,样本数据按照地域区被划分成了多个数据分区,在划分后,可以通过多种颜色进行标识,例如,用紫色线将数据分区划分开来,然后将每个数据分区分成若干份,用黄色虚线区分不同地域区的分类。每一个聚类的集合表示通过降维算法具有相同属性的样本数据点,根据降维算法的原理,表明这些样本数据点具有相近的分数特征,黄色虚线划分的区域称为“段”。基于该可视化视图,可以进行同段同区、同段异区、异段异区之间的样本数据的进一步分析和可视化。
在本发明实施例中,除了可以实现数据降维可视化,还可以数据对比可视化。可选的,展示每个样本数据所属的数据分区以及所有数据之间的关联关系的步骤,包括:采用预设参数调节算法得到所有样本数据的聚合分布特征;基于聚合分布特征,选取分布均匀且数据值为非固定值域的样本数据,得到样本数据集合;采用预设值域分类方式,展示多组样本数据集合中所有数据之间的关联关系。
以金融数据为例,通过参数调节可以得到金融数据的聚合分布特征,聚合在一起的样本数据点表示特征相近的点,针对这些样本数据点点,设计可视化方法,通过交互快速发现并判定两个聚合点集之间的相似度,用于对比可视化的数据选择分数分布较均匀且数值非固定值域的数据。
两个样本数据集合的相似度主要是取决于集合的整体含量趋势是否一致,尤其是发现两个集合在化学成份上是否具有线性相关性,对比分析化学元素分布趋向于正态分布,本发明实施例设置了强负相关、弱负相关、不相关、弱正相关和强正相关四个值域,用来判定两组数据是否存在关联关系,实现可视化展示。
在展示多组样本数据集合中所有数据之间的关联关系时,可以通过平行坐标、饼状图和表盘图等,统一构成相关性分析视图,分别进行数据展示,例如,通过表盘图实现-1至1的多个数据点的相关性展示。
另一种可选的,本发明实施例还可以实现数据空间分布可视化展示,例如,实现金融数据的多级地图柱状图可视化(空间视图),在Echarts的基础上进行二次开发,实现了支持经纬度定位的三层带阴影模式的多级下钻地图,同时实现了柱状图的动态叠加功能。空间分布可视化数据来源于通过聚类分析后选中的数据的统计值,针对于每一个数据分区的样本数据的数量统计,得到每个地区的数量,然后根据地图DOM的高度进行线性压缩,防止最高的柱状图超出页面空间,在较小的值的地区,采用最低高度限定,防止较小数值消失。线性压缩对数据的分布可视化最直观,而且不会产生视觉误差。
可选的,在展示每个样本数据所属的数据分区以及所有数据之间的关联关系之后,数据分析方法还包括:接收坐标点选指令;基于坐标点选指令,对所有样本数据进行筛选,得到筛选结果;基于筛选结果,确定每个坐标轴下的预设数据显示图的类别比例;展示类别比例。
样本数据在界面上展示时,界面的平行坐标支持多个坐标轴的点选功能,可以对多个坐标值设定范围,实现多条件的数据筛选功能,同时每一个坐标轴下的预设数据显示图(例如,饼状图)可以显示类别比例,并通过鼠标悬浮等方式显示比例数值,在表盘图实时查看相似度值。
通过多个预设数据显示图能够实现样本数据的分析,同时还可以实现多图联动,多图联动方式包括:降维视图用套索工具选择两个样本数据点的集合后,两个集合数据实时传输到相关性分析视图,相关性分析视图对数据在平行坐标中进行分颜色的高亮显示,同时在每一个轴下方显示两类数据在该轴上数据中位数的比例,进一步计算两组数据中位数的相关系数,通过表盘进行可视化,快速呈现当前两组数据的相关性。同时空间视图显示当前选中点集合在各个地区的数量分布。
图2是根据本发明实施例的一种可选的数据分析装置的示意图,如图2所示,该数据分析装置可以包括:获取单元21,第一分析单元23,第二分析单元25,展示单元27,其中,
获取单元21,用于获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值;
第一分析单元23,用于基于数据地理信息,分析每个样本数据所属的数据分区;
第二分析单元25,用于基于数据属性和数据值,分析样本数据之间的关联关系;
展示单元27,用于展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
上述数据分析装置,可以通过获取单元21获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值,通过第一分析单元23基于数据地理信息,分析每个样本数据所属的数据分区,通过第二分析单元25基于数据属性和数据值,分析样本数据之间的关联关系,通过展示单元27展示每个样本数据所属的数据分区以及样本数据之间的关联关系。在该实施例中,可以通过数据地理信息,对数据进行分区处理,并建立各样本数据之间的关联关系,进而向用户展示数据的关联关系和分区情况,能够让用户清楚了解到数据状态,从而解决相关技术中在分析数据时,分析维度较为单一,无法有效查看数据之间的关联关系的技术问题。
可选的,第一分析单元包括:编码模块,用于基于数据地理信息,对样本数据进行地域编码,得到与每个样本数据对应的地域标识;第一分析模块,用于基于地域标识,分析每个样本数据的空间分布坐标;第一确定模块,用于基于每个样本数据的空间分布坐标,确定每个样本数据所属的数据分区。
可选的,展示单元包括:统计模块,用于统计每个数据分区中包括的样本数据的数目;第二确定模块,用于确定展示地图的地图参数,其中,地图参数至少包括:虚拟高度和虚拟宽度;压缩模块,用于基于地图参数和每个数据分区的样本数据的数目,对每个数据分区内的样本数据进行线性压缩;第一展示模块,用于在每个数据分区上展示线性压缩后的样本数据。
另一种可选的,数据分析装置还包括:第三确定模块,用于在获取多个样本数据之后,确定每个样本数据的数据属性的属性数量;第四确定模块,用于在属性数量大于预设数量阈值时,确定每个数据属性的属性维度;降维模块,用于基于每个数据属性的属性维度,对样本数据进行降维处理。
本发明实施例中,展示单元包括:调节模块,用于采用预设参数调节算法得到所有样本数据的聚合分布特征;选取模块,用于基于聚合分布特征,选取分布均匀且数据值为非固定值域的样本数据,得到样本数据集合;第二展示模块,用于采用预设值域分类方式,展示多组样本数据集合中所有数据之间的关联关系。
可选的,数据分析装置还包括:接收模块,用于在展示每个样本数据所属的数据分区以及所有数据之间的关联关系之后,接收坐标点选指令;筛选模块,用于基于坐标点选指令,对所有样本数据进行筛选,得到筛选结果;第五确定模块,用于基于筛选结果,确定每个坐标轴下的预设数据显示图的类别比例;第三展示模块,用于展示类别比例。
上述的数据分析装置还可以包括处理器和存储器,上述获取单元21,第一分析单元23,第二分析单元25,展示单元27等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的数据分析方法。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的数据分析方法。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取多个样本数据,其中,每个样本数据至少包括:数据地理信息、数据属性和数据值;基于数据地理信息,分析每个样本数据所属的数据分区;基于数据属性和数据值,分析样本数据之间的关联关系;展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种数据分析方法,其特征在于,包括:
获取多个样本数据,其中,每个所述样本数据至少包括:数据地理信息、数据属性和数据值;
基于所述数据地理信息,分析每个样本数据所属的数据分区;
基于所述数据属性和数据值,分析样本数据之间的关联关系;
展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
2.根据权利要求1所述的数据分析方法,其特征在于,基于所述数据地理信息,分析每个样本数据所属的数据分区的步骤,包括:
基于所述数据地理信息,对所述样本数据进行地域编码,得到与每个样本数据对应的地域标识;
基于所述地域标识,分析每个样本数据的空间分布坐标;
基于每个样本数据的空间分布坐标,确定每个样本数据所属的数据分区。
3.根据权利要求2所述的数据分析方法,其特征在于,在展示每个样本数据所属的数据分区时,包括:
统计每个数据分区中包括的样本数据的数目;
确定展示地图的地图参数,其中,所述地图参数至少包括:虚拟高度和虚拟宽度;
基于所述地图参数和每个数据分区的样本数据的数目,对每个所述数据分区内的样本数据进行线性压缩;
在每个数据分区上展示线性压缩后的样本数据。
4.根据权利要求1所述的数据分析方法,其特征在于,在获取多个样本数据之后,所述数据分析方法还包括:
确定每个样本数据的数据属性的属性数量;
在所述属性数量大于预设数量阈值时,确定每个数据属性的属性维度;
基于每个所述数据属性的属性维度,对所述样本数据进行降维处理。
5.根据权利要求1所述的数据分析方法,其特征在于,展示每个样本数据所属的数据分区以及所有数据之间的关联关系的步骤,包括:
采用预设参数调节算法得到所有样本数据的聚合分布特征;
基于所述聚合分布特征,选取分布均匀且数据值为非固定值域的样本数据,得到样本数据集合;
采用预设值域分类方式,展示多组样本数据集合中所有数据之间的关联关系。
6.根据权利要求1所述的数据分析方法,其特征在于,在展示每个样本数据所属的数据分区以及所有数据之间的关联关系之后,所述数据分析方法还包括:
接收坐标点选指令;
基于所述坐标点选指令,对所有样本数据进行筛选,得到筛选结果;
基于所述筛选结果,确定每个坐标轴下的预设数据显示图的类别比例;
展示所述类别比例。
7.一种数据分析装置,其特征在于,包括:
获取单元,用于获取多个样本数据,其中,每个所述样本数据至少包括:数据地理信息、数据属性和数据值;
第一分析单元,用于基于所述数据地理信息,分析每个样本数据所属的数据分区;
第二分析单元,用于基于所述数据属性和数据值,分析样本数据之间的关联关系;
展示单元,用于展示每个样本数据所属的数据分区以及样本数据之间的关联关系。
8.根据权利要求7所述的数据分析装置,其特征在于,所述第一分析单元包括:
编码模块,用于基于所述数据地理信息,对所述样本数据进行地域编码,得到与每个样本数据对应的地域标识;
第一分析模块,用于基于所述地域标识,分析每个样本数据的空间分布坐标;
第一确定模块,用于基于每个样本数据的空间分布坐标,确定每个样本数据所属的数据分区。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至6中任意一项所述的数据分析方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述的数据分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010889880.8A CN112000761A (zh) | 2020-08-28 | 2020-08-28 | 数据分析方法及装置、电子设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010889880.8A CN112000761A (zh) | 2020-08-28 | 2020-08-28 | 数据分析方法及装置、电子设备、计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112000761A true CN112000761A (zh) | 2020-11-27 |
Family
ID=73465308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010889880.8A Pending CN112000761A (zh) | 2020-08-28 | 2020-08-28 | 数据分析方法及装置、电子设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112000761A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364009A (zh) * | 2020-12-03 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种用于检索目标对象相似数据的方法 |
CN113842130A (zh) * | 2021-09-24 | 2021-12-28 | 刘明明 | 一种生物组织微循环功能参数数据的同步处理及协同分析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110179066A1 (en) * | 2008-06-20 | 2011-07-21 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
CN105227646A (zh) * | 2015-09-16 | 2016-01-06 | 中国测绘科学研究院 | 一种html5富客户端行政区划地图制图方法 |
CN105512218A (zh) * | 2015-11-30 | 2016-04-20 | 北京工商大学 | 一种关联层次数据的可视化方法和应用 |
CN106874349A (zh) * | 2016-12-26 | 2017-06-20 | 深圳市位和科技有限责任公司 | 基于交互可视化的多维数据分析方法及系统 |
CN304191702S (zh) * | 2017-06-30 | |||
CN109753547A (zh) * | 2018-11-19 | 2019-05-14 | 浙江财经大学 | 基于平行坐标轴排列地理空间多维数据可视分析方法 |
CN110782518A (zh) * | 2019-08-30 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 一种图形显示方法、装置、计算机设备及存储介质 |
-
2020
- 2020-08-28 CN CN202010889880.8A patent/CN112000761A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN304191702S (zh) * | 2017-06-30 | |||
US20110179066A1 (en) * | 2008-06-20 | 2011-07-21 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
CN105227646A (zh) * | 2015-09-16 | 2016-01-06 | 中国测绘科学研究院 | 一种html5富客户端行政区划地图制图方法 |
CN105512218A (zh) * | 2015-11-30 | 2016-04-20 | 北京工商大学 | 一种关联层次数据的可视化方法和应用 |
CN106874349A (zh) * | 2016-12-26 | 2017-06-20 | 深圳市位和科技有限责任公司 | 基于交互可视化的多维数据分析方法及系统 |
CN109753547A (zh) * | 2018-11-19 | 2019-05-14 | 浙江财经大学 | 基于平行坐标轴排列地理空间多维数据可视分析方法 |
CN110782518A (zh) * | 2019-08-30 | 2020-02-11 | 腾讯大地通途(北京)科技有限公司 | 一种图形显示方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
王金茵等: "三维动态柱状图制图表达方法与应用研究", 《长江科学院院报》 * |
靖鲲鹏: "《非常规突发事件应急管理多元信息分层递阶可视化融合研究》", 31 May 2019 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364009A (zh) * | 2020-12-03 | 2021-02-12 | 四川长虹电器股份有限公司 | 一种用于检索目标对象相似数据的方法 |
CN113842130A (zh) * | 2021-09-24 | 2021-12-28 | 刘明明 | 一种生物组织微循环功能参数数据的同步处理及协同分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156791B (zh) | 业务数据分类方法和装置 | |
CN110363387A (zh) | 基于大数据的画像分析方法、装置、计算机设备及存储介质 | |
CN111179230A (zh) | 遥感影像对比变化检测方法、装置、存储介质及电子设备 | |
CN112000761A (zh) | 数据分析方法及装置、电子设备、计算机可读存储介质 | |
CN108256032B (zh) | 一种对时空数据的共现模式进行可视化的方法及装置 | |
US8928663B2 (en) | Visualizing correlations in multi-dimensional data | |
CN111427988B (zh) | 一种生成区域分级渲染图的方法、系统及电子设备 | |
CN114968743A (zh) | 一种异常事件监控方法、装置、设备及介质 | |
CN110737600A (zh) | 崩溃统计数据显示方法、装置、计算机设备及存储介质 | |
CN116994721B (zh) | 一种数字病理切片图的快速处理系统 | |
Evers et al. | Uncertainty‐aware Visualization of Regional Time Series Correlation in Spatio‐temporal Ensembles | |
US8122056B2 (en) | Interactive aggregation of data on a scatter plot | |
Bertini et al. | Improving 2D scatterplots effectiveness through sampling, displacement, and user perception | |
CN115063439A (zh) | 一种基于网格的建筑信息图像化方法及装置 | |
Rushmeier et al. | Case study: Visualizing customer segmentations produced by self organizing maps | |
CN109947803B (zh) | 一种数据处理方法、系统及存储介质 | |
CN114925153A (zh) | 基于业务的地理信息数据质量检测方法、装置和设备 | |
CN110633337B (zh) | 一种特征区域确定方法及装置,电子设备 | |
US11886513B2 (en) | Data analysis system, data analysis method, and computer program product | |
US20190065503A1 (en) | Generating cohorts using automated weighting and multi-level ranking | |
CN117369931A (zh) | 一种图标转换方法、系统及介质 | |
CN112989153A (zh) | 数据处理方法、装置及计算机设备 | |
JP2020126454A (ja) | 分析システム | |
Bau et al. | Visualizing and understanding GANs | |
CN108319715B (zh) | 针对多维整值型数据集的平行坐标改进方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201127 |
|
RJ01 | Rejection of invention patent application after publication |