CN103472979B - 一种基于散点图展示数据的可视化方法及系统 - Google Patents
一种基于散点图展示数据的可视化方法及系统 Download PDFInfo
- Publication number
- CN103472979B CN103472979B CN201310443520.5A CN201310443520A CN103472979B CN 103472979 B CN103472979 B CN 103472979B CN 201310443520 A CN201310443520 A CN 201310443520A CN 103472979 B CN103472979 B CN 103472979B
- Authority
- CN
- China
- Prior art keywords
- data
- scatterplot
- value
- axis
- lattice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- User Interface Of Digital Computer (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明提供一种基于散点图展示数据的可视化方法,该方法包括数据处理和数据展示,数据处理包括:数据源配置、扫描与读取;数据展示包括:采用散点图展示所述处理后的数据;所述散点图展示可以进行上限、下限上单方向的修改与范围的整体拖动。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。另外,本发明还提供一种基于散点图展示数据的可视化系统。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于散点图展示数据的可视化方法及系统。
背景技术
散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形。散点图的特点是能够直观地表现出影响因素和预测对象之间的总体关系趋势,其优点是能够通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度。简单的散点图只能表征少量的数据,在数据特别是超数据中会遇到显示的点太多,响应速度异常慢等一系列问题。同时简单的散点图只是个展示工具,没有交互功能,不能查看数据的具体情况,也不具备数据纠错的能力。
发明内容
因此,本发明为了解决上述缺陷之一。
因而,本发明提供一种基于散点图展示数据的可视化方法及系统,本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
所以,本发明一个实施例提供一种基于散点图展示数据的可视化方法,该方法包括数据处理和数据展示,所述数据处理包括:
数据源配置步骤;
数据源扫描与读取步骤;
所述数据展示包括:
采用散点图展示数据处理后的数据步骤;其中,
散点图展示数据可进行上限、下限上单方向的修改与范围的整体拖动步骤。
优选地,所述数据源配置步骤包括自变量X和因变量Y。
在本发明一个实施例中,所述数据源扫描与读取步骤包括:扫描数据源,获取Y值的分布以及变量X和Y各自的最大值与最小值,并计算出变量X和Y的各自取值区间;依据所述取值区间将所述的变量X和Y的最大值与最小值调整为10的n次方的倍数;将所述X的取值区间划分为一系列等距的Gx,并计算出X轴的4种展示刻度;判断Y值的分布情况,如果Y为离散值则保留原样;否则类同X轴,将对最小值、最大值进行修整,并计算出Y轴的刻度Sy;再次扫描数据源,读取每条记录的X和Y值:x和y,并计算出x和y对应的数据格Gxy;在数据读取完毕后分析存储数据,并修正X轴的展示刻度。
优选地,所述4种展示刻度支持动态识别和相互切换。
在本发明一个实施例中,优选地所述判断Y值的分布情况包括:自动识别Y值的分布情况,如果Y值出现的不同值的个数小于某特定值时,Y将被视为离散值对待,并保留期具体的数值,即Gy的刻度为0;否则Y将作为连续值,将Y轴划分成一系列等距的Gy,并依据取值区间自动识别出Gy的间距刻度sy,使得sy的单位为10的n次方的倍数,使等分后Gy的数量约为100个。
在本发明一个实施例中,所述计算数据格Gxy包括:根据Gx和Gy的刻度值共同计算数据格Gxy的记录数;确定对应的归属数据格后,该数据格记录数加1,所述X轴和Y轴分别加上对应的x值和y值。
在本发明一个实施例中,所述采用散点图展示处理后的数据包括:所述散点图中的某个点对应的是数据格Gxy的记录点集合;所述数据格Gxy只保存G的记录数。
优选地,所述采用散点图展示处理后的数据还包括:鼠标定位到散点图某点时展示对应数据格Gxy的具体信息;所述具体信息至少包括范围和该数据格记录数。
优选地,所述采用散点图展示处理后的数据还包括:鼠标单击散点图某点时将展示对应数据格内数据的详细信息;所述详细信息以列表的形式显示。
优选地,所述展示对应数据格内数据的详细信息可用于异常数据分析。
优选地,展示对应数据格内数据的详细信息可选择一片区域进行显示。
本发明另一个实施例提供一种基于散点图展示数据的可视化系统,包括数据处理单元和数据展示单元,其特征在于,所述数据处理单元包括:数据源配置模块,用于对数据源进行配置;数据源扫描与读取模块,用于对数据源扫描与读取;所述数据展示单元包括:散点图展示模块,用于采用散点图展示数据处理后的数据;其中,散点图调整模块,用于散点图展示数据可进行上限或下限上单方向的修改与范围的整体拖动。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
附图说明
图1是本发明一个实施例中定义的数据格Gxy的示意图。
图2是本发明一个实施例提供的一种基于散点图展示数据的可视化方法的具体流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
本发明提供一种基于散点图展示数据的可视化方法及系统,本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
在本发明实施例中,为了解决简单散点图只能表征少量数据的分布形态,且当简单散点图展示数据量巨大时无法在一个图形中展示出所有的点,因此本发明将对散点图进行扩展,扩展后的散点图中的某一个点将不再对应一个具体的记录点,而是满足{x1<=x<x2,y1<=y<y2}的所有记录点的集合:数据格Gxy。如图1所示,对数据格Gxy进行如下定义:
定义Gx{x1,x2}为G{(x,y)|x1<=x<x2},简称Gx,即所有满足x1<=x<x2的点(x,y);
定义Gy{y1,y2}为G{(x,y)|y1<=y<y2},简称Gy,即所有满足y1<=y<y2的点(x,y);
定义数据格Gxy为G{Gx,Gy},即同时满足Gx和Gy的点。
如图2是本发明一个实施例提供的一种基于散点图展示数据的可视化方法的具体流程示意图,该方法具体步骤如下:
步骤S110:数据处理包括数据源配置步骤和数据源扫描与读取步骤。
步骤S111:数据源配置步骤。
根据上述的数据格Gxy可以看出,本发明实施例中的数据格Gxy并不保存所有满足{x1<=x<x2,y1<=y<y2}的记录点的详细坐标,为了节约存储空间,数据格Gxy只保存属于G的记录数。同时为了展示数据格内数据量大小的差异,点的大小也将动态变化,即数据格内数据越多,对应的点就越大。
本步骤的数据源配置依据自变量X和因变量Y进行,自变量X和因变量Y可以是根据时间定义坐标,也可以根据数据内容进行定义。
步骤S112:数据源扫描与读取步骤。
配置好数据源后进行数据源扫描,获取Y值的分布情况和变量X、Y的最小值和最大值,计算出X、Y的取值区间,依据取值区间对最小值、最大值进行修整。为了友好,方便人的阅读习惯,本系统将依据X轴取值区间对X的最小值、最大值进行修整,使得最小值、最大值为10的n次方(n为整数)的倍数,即Xmin(或Xmax)=m*10^n。如X的实际取值区间为[0.1,983.7],进行修整后X的最小值为0,最大值为1000,即取值区间变为:[0,1000]。
依据X的取值区间计算出X轴的4种展示刻度。本发明将依据修正后的X轴取值区间划分成一系列等距的Gx,Gx的间距刻度Sx将会动态的识别成10的n次方(n为整数),即s=10^n,可能的取值为1、10、100、1000000、0.1、0.01等。同时为了支持缩放功能,本发明将同时支持3种Gx展示刻度,并支持切换(n连续,每切换一次,对应的将放大、缩小10倍)。4种Gx展示刻度将动态识别,识别的标准为使得最大展示刻度时X轴被等分成10-100个Gx,如X数据的分布区间为0到50000,那么本发明支持的Gx的展示刻度将为:1、10、100、1000。
判断Y值的分布情况,如果Y为离散值则保留原样;否则类同X轴,将对最小值、最大值进行修整,并计算出Y轴的刻度Sy。本发明将自动识别Y的数值分布情况,如果Y出现的不同值的个数小于某特定值(如50)时,Y将被作为离散值对待,并保留其具体的数值,即Gy的刻度为0;否则Y将作为连续值,Y轴全范围划分成一系列等距的Gy,并依据其取值区间自动识别出Gy的间距刻度Sy,使得单位为10的n次方,且等分后Gy的数量大约为100个。如Y轴取值区间为0到700,那么Sy将为10。
扫描数据源,取出每条记录的X、Y值x和y,计算出x y对应所处的数据格Gxy。首先对于X轴每个展示刻度,计算x对应数据格的Gx,如x=155.3且X轴刻度为“10”时,155.3/10=15.53,则Gx为Gx{150,160}。如果Y轴为离散值,则Y值相同的对应于同一Gy,否则类同与X轴计算出Gy。Gx、Gy最终决定Gxy。假设Y轴为非离散型,其刻度为“100”,则数据(155.3,2720)和(152.9,2754)同属于数据格Gxy{Gx{150,160},Gy{2700,2800}}。假设Y轴为离散型,这上述2条记录属于不同的数据格:Gxy{Gx{150,160},Gy{2720}}和Gxy{Gx{150,160},Gy{2754}}。确定对应的归属数据格后,该数据格记录数加1,X轴总和加上x值,Y轴总和加上y值。
读取数据完毕后,分析存储的数据,修正X轴展示刻度,如果某个小级别的刻度中有效的Gx数量(Gx中记录数大于0则称该Gx有效)小于上级的有效Gx数量的2倍,则删除该刻度,删除该刻度的原因是当放大到该级别时,信息增加的并不多,实际数据明细并没有得到有效的放大。确定保留的有效展示刻度中最大的为初始展示的刻度。
步骤S120:数据展示包括采用散点图展示数据处理后的数据步骤;其中,散点图展示数据可进行上限或下限上单方向的修改与范围的整体拖动步骤。
步骤S121:采用散点图展示数据处理后的数据。
如图1所示是本发明实施例采用散点图展示数据的可视化示意图。在本步骤中采用散点图展示数据,图中的每一个点代表着一个数据格,对于数据格{[x1,x2),[y1,y2)},点的位置为{(x1+x2)/2,(y1+y2)/2},点的大小依据该数据格内包含的记录数而定。
步骤S122:散点图展示数据可进行上限、下限上单方向的修改与范围的整体拖动。
在本发明一个实施例中,采用散点图展示数据,可根据实际查看需求对坐标上限、下限单方向的修改,亦可在整体范围内对数据格进行拖动。
在本发明一个实施例中,在散点图的右上方有显示X轴上10的n次方的刻度值,鼠标单击可以进行刻度值的相互切换。在散点图中,当鼠标移动到某个点上时,会展示对应数据格的具体信息,具体信息起码包含了数据格范围和该数据格中数据记录数等信息。为了更好的展示数据内容,可以采用鼠标点击散点图中的某点,进而以列表的形式展示对应数据格中的详细信息,便于数据预览、异常数据分析等。
在本发明一个实施例中,支持采用鼠标选取散点图中的某一连续的区域展示这些数据格的详细信息,以列表的形式将这些数据格内的详细信息予以预览。
本发明另一个实施例提供一种基于散点图展示数据的可视化系统,包括数据处理单元和数据展示单元,其特征在于,所述数据处理单元包括:数据源配置模块,用于对数据源进行配置;数据源扫描与读取模块,用于对数据源扫描与读取;所述数据展示单元包括:散点图展示模块,用于采用散点图展示数据处理后的数据;其中,散点图调整模块,用于散点图展示数据可进行上限或下限上单方向的修改与范围的整体拖动。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
Claims (10)
1.一种基于散点图展示数据的可视化方法,包括数据处理和数据展示,其特征在于,所述数据处理包括:
数据源配置步骤;
数据源扫描与读取步骤;
所述数据展示包括:
采用散点图展示数据处理后的数据步骤;其中,
散点图展示可进行上限、下限上单方向的修改与范围的整体拖动步骤;
其中,所述数据源配置步骤包括对自变量X和因变量Y进行配置;
其中,所述数据源扫描与读取步骤包括:
扫描数据源,获取Y值的分布以及变量X和Y各自的最大值与最小值,并计算出变量X和Y的各自取值区间;
依据所述取值区间将所述的变量X和Y的最大值与最小值调整为10的n次方的倍数,其中n为整数;
将所述X的取值区间划分为一系列等距的Gx,并计算出X轴的4种展示刻度,其中,依据修正后的X轴取值区间划分成一系列等距的Gx,Gx的间距刻度Sx将会动态的识别成10的n次方,其中n为整数,即Sx=10n,所述X轴的4种展示刻度分别为10n,10n+1,10n+2,10n+3,其中,10n,10n+1,10n+2和10n+3均在X的取值区间内;
判断Y值的分布情况,如果Y为离散值则保留原样;否则类同X轴,对最小值、最大值进行修整,并计算出Y轴的刻度Sy;
再次扫描数据源,读取每条记录的X和Y值:x和y,并计算出x和y对应的数据格Gxy;
在数据读取完毕后分析存储数据,并修正X轴的展示刻度;
其中,定义Gx{x1,x2}为G{(x,y)|x1<=x<x2},简称Gx,即所有满足x1<=x<x2的点(x,y);
定义Gy{y1,y2}为G{(x,y)|y1<=y<y2},简称Gy,即所有满足y1<=y<y2的点(x,y);
定义数据格Gxy为G{Gx,Gy},即同时满足Gx和Gy的点。
2.根据权利要求1所述的方法,其特征在于,所述4种展示刻度支持动态识别和相互切换。
3.根据权利要求1所述的方法,其特征在于,所述判断Y值的分布情况包括:
自动识别Y值的分布情况,如果Y值出现的不同值的个数小于某特定值时,Y将被视为离散值对待,并保留期具体的数值,即Gy的刻度为0;
否则Y将作为连续值,将Y轴划分成一系列等距的Gy,并依据取值区间自动识别出Gy的间距刻度Sy,使得Sy的单位为10的n次方的倍数,使等分后Gy的数量为100个。
4.根据权利要求1所述的方法,其特征在于,所述计算出x和y对应的数据格Gxy包括:
根据Gx和Gy的刻度值共同计算数据格Gxy的记录数;
确定对应的归属数据格后,该数据格记录数加1,所述X轴和Y轴分别加上对应的x值和y值。
5.根据权利要求1所述的方法,其特征在于,所述采用散点图展示数据处理后的数据步骤包括:
所述散点图中的某个点对应的是数据格Gxy的记录点集合;所述数据格Gxy只保存属于Gxy的记录数。
6.根据权利要求5所述的方法,其特征在于,所述采用散点图展示数据处理后的数据步骤还包括:
鼠标定位到散点图某点时展示对应数据格Gxy的具体信息;
所述具体信息至少包括范围和该数据格记录数。
7.根据权利要求5所述的方法,其特征在于,所述采用散点图展示数据处理后的数据步骤还包括:
鼠标单击散点图某点时将展示对应数据格内数据的详细信息;
所述详细信息以列表的形式显示。
8.根据权利要求7所述的方法,其特征在于,所述展示对应数据格内数据的详细信息用于异常数据分析。
9.根据权利要求7或8所述的方法,其特征在于,展示对应数据格内数据的详细信息选择一片区域进行显示。
10.一种基于散点图展示数据的可视化系统,包括数据处理单元和数据展示单元,其特征在于,所述数据处理单元包括:
数据源配置模块,用于对数据源进行配置;
数据源扫描与读取模块,用于对数据源扫描与读取;
所述数据展示单元包括:
散点图展示模块,用于采用散点图展示数据处理后的数据;其中,
散点图调整模块,用于散点图展示可进行上限或下限上单方向的修改与范围的整体拖动;
其中,所述数据源配置步骤包括对自变量X和因变量Y进行配置;
其中,所述数据源扫描与读取步骤包括:
扫描数据源,获取Y值的分布以及变量X和Y各自的最大值与最小值,并计算出变量X和Y的各自取值区间;
依据所述取值区间将所述的变量X和Y的最大值与最小值调整为10的n次方的倍数,其中n为整数;
将所述X的取值区间划分为一系列等距的Gx,并计算出X轴的4种展示刻度,其中,依据修正后的X轴取值区间划分成一系列等距的Gx,Gx的间距刻度Sx将会动态的识别成10的n次方,其中n为整数,即Sx=10n,所述X轴的4种展示刻度分别为10n,10n+1,10n+2,10n+3,其中,10n,10n+1,10n+2和10n+3均在X的取值区间内;
判断Y值的分布情况,如果Y为离散值则保留原样;否则类同X轴,对最小值、最大值进行修整,并计算出Y轴的刻度Sy;
再次扫描数据源,读取每条记录的X和Y值:x和y,并计算出x和y对应的数据格Gxy;
在数据读取完毕后分析存储数据,并修正X轴的展示刻度;
其中,定义Gx{x1,x2}为G{(x,y)|x1<=x<x2},简称Gx,即所有满足x1<=x<x2的点(x,y);
定义Gy{y1,y2}为G{(x,y)|y1<=y<y2},简称Gy,即所有满足y1<=y<y2的点(x,y);
定义数据格Gxy为G{Gx,Gy},即同时满足Gx和Gy的点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310443520.5A CN103472979B (zh) | 2013-09-26 | 2013-09-26 | 一种基于散点图展示数据的可视化方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310443520.5A CN103472979B (zh) | 2013-09-26 | 2013-09-26 | 一种基于散点图展示数据的可视化方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103472979A CN103472979A (zh) | 2013-12-25 |
CN103472979B true CN103472979B (zh) | 2017-02-01 |
Family
ID=49797858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310443520.5A Active CN103472979B (zh) | 2013-09-26 | 2013-09-26 | 一种基于散点图展示数据的可视化方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103472979B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318061B (zh) * | 2014-09-25 | 2018-02-02 | 北京国双科技有限公司 | 用于散点图的数据展示处理方法及装置 |
CN105574202A (zh) * | 2016-01-06 | 2016-05-11 | 北京金控数据技术股份有限公司 | 运行设施实时数据多曲线展示方法 |
CN106873875B (zh) * | 2017-02-14 | 2020-07-31 | 广州神马移动信息科技有限公司 | 数据的图形化展示方法、装置及计算设备 |
CN106971417B (zh) * | 2017-05-17 | 2019-06-14 | 成都四方伟业软件股份有限公司 | 一种在浏览器中显示三维散点图的方法及系统 |
CN110164516B (zh) * | 2019-05-24 | 2021-09-24 | 山东大学齐鲁医院 | 一种检查单据时间分布图绘制方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100055662A1 (en) * | 2008-08-29 | 2010-03-04 | National Center for the Improvement of Educational Assessment, Inc. | Growth/achievement data visualization system |
-
2013
- 2013-09-26 CN CN201310443520.5A patent/CN103472979B/zh active Active
Non-Patent Citations (1)
Title |
---|
可视化技术在数据挖掘中的研究与应用;王静;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090915(第09期);第I138-418页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103472979A (zh) | 2013-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103472979B (zh) | 一种基于散点图展示数据的可视化方法及系统 | |
CN110675728B (zh) | 热力图的生成方法、装置、设备及计算机可读存储介质 | |
WO2017167284A1 (zh) | 商户配送范围的调整方法和装置 | |
Bell et al. | Forecasting the pattern of urban growth with PUP: a web-based model interfaced with GIS and 3D animation | |
CN110073417A (zh) | 用于在真实世界3d环境中放置增强或混合现实应用的虚拟对象的方法和设备 | |
JP2022519149A (ja) | 展示エリア状態認識方法、装置、電子デバイス、及び記録媒体 | |
CN103390075A (zh) | 在购物体验中比较虚拟和真实图像 | |
US20140176555A1 (en) | Use of dynamic numeric axis to indicate and highlight data ranges | |
EP3166077B1 (en) | 3d rendering and shadow information storing method and apparatus | |
CN102239504A (zh) | 深度图的生成 | |
CN103473473A (zh) | 一种基于散点图的数据质量检测方法及系统 | |
CN102855132A (zh) | 一种图形对象的选取方法及系统 | |
CN106294463A (zh) | 一种动态曲线的数据点更新方法和设备 | |
CN103853809A (zh) | 用于业务对象的有效空间分配 | |
CN102937896A (zh) | 在svg中利用颜色映射技术动态展示二维空间数据的方法 | |
US11232470B2 (en) | Customer flow line and customer flow hot zone determining method and apparatus | |
CN113849848A (zh) | 一种数据权限配置方法及系统 | |
CN110315538B (zh) | 一种在电子地图上显示障碍物的方法、装置及机器人 | |
Wu et al. | A New Quadtree-based Terrain LOD Algorithm. | |
CN110880167A (zh) | 室内效果图描述的生成方法、装置和电子设备 | |
CN107729373B (zh) | 运动轨迹显示方法和装置 | |
CN109388306A (zh) | 信息显示方法及装置 | |
CN103472978B (zh) | 一种基于四分位图展示数据的可视化方法及系统 | |
CN111311169A (zh) | 一种城市室外环境分析方法、系统、存储介质及电子设备 | |
CN108156504B (zh) | 一种视频显示方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: 518057 2203/2204, Building 1, Huide Building, North Station Community, Minzhi Street, Longhua District, Shenzhen, Guangdong Province Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. Address before: 518057 Rooms 713, 715 and 716, 7/F, Software Building, No. 9, High-tech Middle Road, High-tech Zone, Nanshan District, Shenzhen, Guangdong Province Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd. |
|
CP02 | Change in the address of a patent holder |