CN113486003B - 数据可视化时考虑异常值的企业数据集处理方法及系统 - Google Patents
数据可视化时考虑异常值的企业数据集处理方法及系统 Download PDFInfo
- Publication number
- CN113486003B CN113486003B CN202110616591.5A CN202110616591A CN113486003B CN 113486003 B CN113486003 B CN 113486003B CN 202110616591 A CN202110616591 A CN 202110616591A CN 113486003 B CN113486003 B CN 113486003B
- Authority
- CN
- China
- Prior art keywords
- array
- data
- enterprise
- elements
- ordered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013079 data visualisation Methods 0.000 title claims abstract description 40
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000002159 abnormal effect Effects 0.000 title abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 30
- 238000009877 rendering Methods 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 abstract description 3
- 238000012800 visualization Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 6
- 239000003086 colorant Substances 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2291—User-Defined Types; Storage management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Image Generation (AREA)
Abstract
本发明提出一种数据可视化时考虑异常值的企业数据集处理方法及系统,解决了在企业数据可视化时,考虑到异常值,传统处理企业数据集的方法容易造成数据失真,无法兼顾数据可读性与数据保真度的问题,本发明首先对企业待渲染数据集中的数据处理,构建出有序数组,然后对其进行预处理操作得到新的数组,对新数组中的数据进行编号,形成编号对应的数组,编号对应的数组符合理想的均匀分布,能保证最平均的可视化效果,初步对可能存在的异常值进行处理,然后对该数组进行一系列计算,构建最终用于数据可视化的企业渲染数据集数组,失真度小,提高了数据可视化图表的可读性,也进一步提高企业的风险规避能力,有利于企业做出正确的决策。
Description
技术领域
本发明涉及数据处理的技术领域,更具体地,涉及一种数据可视化时考虑异常值的企业数据集处理方法及系统。
背景技术
用数据说话,重视定量分析,逐渐成为科学研究、企业经营、政府决策等过程着重考虑的问题,数据分析有利于数据资料的深度开发利用,可以给企业带来更多的商业价值以及帮助企业规避或者减少风险带来的损失,提高数据质量,为企业解决问题。
企业数据可视化主要是将企业数据分析后的结果通过可视化图表的形式展现出来,突出数据的重点以及数据发展的趋势,将数据进行可视化处理,使得数据能够明确地、有效地传递企业所需要的信息,在做数据可视化时,最常见的做法是将数值与可视化指标(长度、半径、角度、颜色变化)等比例渲染。例如柱状图中柱的高度与对应的值的大小等比例的对应,气泡图中气泡的半径与对应的值的大小等比例对应等。
然而,等比例渲染时可能会遇到企业数据集中存在异常值的问题,例如头部效应显著时,可能一个或少数几个头部个体的指标已经远超越众多的尾部个体的对应指标,在热力图等用色彩表示指标的图中会出现大量的指标都集中在一个很小的色彩范围内,不具备可读性,目前传统用于解决个别异常数据可视化问题的一种做法是自然对数变换,该方法可以降低尾部值与头部值之间的差异,但此种做法仅可用于处理个别极大的数据,无法用于个别极小的指标(例如出错率),而且容易造成失真过度,不利于企业正确决策的做出,甚至可能影响企业的发展。
此外,还有一种解决个别异常值可视化问题的方法:四分距法,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数,四分位距法将三个四分位数和极小、极大五个值分别渲染到可视化的0%,20%,40%,60%,80%,100%处,再在四个区间里面按照线性关系渲染数据。基于此方法,2017年1月3日,中国发明专利(公布号:CN106897941A)中公开了一种基于四分位箱线图的风机异常数据处理方法及装置,在该专利中,判断异常值的标准是以四分位数和四分位距为基础,四分位数具有一定的耐抗性,多达25%的数据可以变得任意远而不会很大地扰动四分位数,因此,异常值无法对这个标准施加影响,然而四分位法并不适用于全部的数据集情况,尤其当数据集中度过大时,例如90%的数据都在数轴的10%的狭窄区间范围时,四分位法可能会造成数据的严重失真,不利于企业对风险的规避。
发明内容
为解决在企业数据可视化时,考虑到异常值,传统处理企业数据集的方法容易造成数据失真,无法兼顾数据可读性与数据保真度的问题,本发明提出一种数据可视化时考虑异常值的企业数据集处理方法及系统,使得数据可视化时能得到更加平均的视觉效果,提高数据可视化图表的可读性,且失真度小,也进一步提高企业的风险规避能力,有利于企业做出正确的决策。
为了达到上述技术效果,本发明的技术方案如下:
一种数据可视化时考虑异常值的企业数据集处理方法,至少包括:
S1.采集待渲染企业数据,确定企业待渲染数据集,将企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组a;
S2.对有序数组a进行预处理操作,得到新的数组a1;
S3.对数组a1中的数据进行编号:确定编号步长,对数组a1中的数据按从大到小进行编号;对应的编号形成数组b;
S4.对数组b进行线性计算,构建与数组a1区间长度匹配的数组c;
S5.利用数组c中的数据与数组a1中的数据进行计算,构建最终用于数据可视化的企业渲染数据集数组d。
优选地,所述有序数组a中的元素为企业数据集中的待渲染企业数据,步骤S2中对有序数组a进行预处理操作的过程为:
设有序数组a中元素的表示为[a1,a2,…,ai,…,an],其中,n表示元素的个数,也指企业数据集中待渲染企业数据的个数,设有序数组a中元素的最小值为amin,将有序数组a中的每一个元素值均减去有序数组a中元素的最小值amin,得到新的数组a1,表示为[a1-amin,a2-amin,…,ai-amin,…,an-amin]。
优选地,新的数组a1中每一个元素均是非负的。
优选地,步骤S3中对数组a1中的数据进行编号时,编号步长为1,对数组a1中的数据按从大到小的顺序进行编号,最小的编号为0,依次递增。
优选地,当数组a1中的相邻数据相同时,相邻数据对应的编号相同,但后续的编号仍继续保持增长,最终对应的编号形成数组b。
优选地,数组b为均匀分布的数组,当数组a1中的两个数据元素相等时,两个数据元素在数据b中对应的编号也相等,此时数组b是一个理想的均匀分布的数组,直接对数组b进行可视化将得到最平均的效果,同时当两个数据元素值在数组a1中相等时,在数组b中也相等,避免了同一个值在可视化的时候出现差异的现象发生。
优选地,设数组b表示为[b1,b2,…,bi,…,bn],步骤S4中所述的对数组b进行线性计算是对数组b中每一个元素进行线性计算,对数组b中的第i个元素bi进行线性计算的表达式为:
ci=bi*(a1max-a1min)/a1length
其中,ci表示对数组b中的第i个元素bi进行线性计算得到对应的数组c中的第i个元素,数组c表示为[c1,c2,…,ci,…,cn];a1max表示数组a1中元素的最大值;a1min表示数组a1中元素的最小值,a1length表示数组a1中元素的个数。
优选地,设数组c中的第i个元素表示为ci,数组a1中的第i个元素表示为ai-amin,利用数组c中的第i个元素与数组a1中的第i个元素进行计算的公式为:
其中,di表示用于数据可视化的企业渲染数据集数组d中的第i个元素数据值。
本发明还提出一种数据可视化时考虑异常值的企业数据集处理系统,所述系统用于实现所述的数据可视化时考虑异常值的企业数据集处理方法,包括:
数据采集模块,用于采集企业待渲染的数据,确定企业待渲染数据集;
第一数组构建模块,用于将企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组a;
预处理模块,用于对有序数组a进行预处理操作,得到数组a1;
第二数组构建模块,对数组a1中的数据进行编号,根据对应的编号形成数组b;
第三数组构建模块,用于对数组b进行线性计算,构建与数组a1区间长度匹配的数组c;
第四数组构建模块,利用数组c中的数据与数组a1中的数据进行计算,构建出最终用于数据可视化的企业渲染数据集数组d。
优选地,所述系统还包括线性计算模块,所述线性计算模块设置于第三数组构建模块上,用于对数组b进行线性计算。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种数据可视化时考虑异常值的企业数据集处理方法及系统,以数据可视化时考虑异常值的情况下,兼顾数据可读性与数据保真度为出发点,首先对企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组,然后对该有序数组进行预处理操作得到新的数组,对新数组中的数据进行编号,形成编号对应的数组,编号对应的数组符合理想的均匀分布,能保证最平均的可视化效果,初步对可能存在的异常值进行处理,然后对该数组进行一系列计算,构建最终用于数据可视化的企业渲染数据集数组,相较于自然对数及四分位数法不受异常值的影响,失真度小,提高数据可视化图表的可读性,也进一步提高企业的风险规避能力,有利于企业做出正确的决策。
附图说明
图1表示本发明实施例中提出的数据可视化时考虑异常值的企业数据集处理方法的流程示意图;
图2表示本发明实施例中提出的最终用于数据可视化的企业渲染数据集数组d的元素几何示意图;
图3表示传统线性渲染方法用于各企业手机品牌数据可视化时的热力图;
图4表示传统自然对数转换方法用于各企业手机品牌数据可视化时的热力图;
图5表示传统四分位数法用于各企业手机品牌数据可视化时的热力图;
图6表示本发明提出的方法用于各企业手机品牌数据可视化时的热力图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;
实施例
异常值的存在使得数据可视化图表不具备可读性,具体的如在做热力图、地图等以色彩作为渲染参数的时候,极大值与极小值对应确定的两个色彩,不同的值在两个色彩中间按线性关系取对应的色值渲染,大量的指标都集中在一个很小的色彩范围内,不具备可读性,容易给用户造成阅读困难。
当前无论是线性渲染、自然对数变换法、四分位数等方法,都很难同时兼顾较好的可读性与较小的失真度。
具体为了解决上述问题,如图1所示,本申请提出一种数据可视化时考虑异常值的企业数据集处理方法,具体流程示意图如图1所示。
参见图1,所述方法包括:
S1.采集待渲染企业数据,确定企业待渲染数据集,将企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组a;所述有序数组a中的元素为企业数据集中的待渲染企业数据。
S2.对有序数组a进行预处理操作,得到新的数组a1;
在本实施例中,步骤S2中对有序数组a进行预处理操作的过程为:
设有序数组a中元素的表示为[a1,a2,…,ai,…,an],其中,n表示元素的个数,也指企业数据集中待渲染企业数据的个数,设有序数组a中元素的最小值为amin,将有序数组a中的每一个元素值均减去有序数组a中元素的最小值amin,得到新的数组a1,表示为[a1-amin,a2-amin,…,ai-amin,…,an-amin],新的数组a1中每一个元素均是非负的。
S3.对数组a1中的数据进行编号:确定编号步长,对数组a1中的数据按从大到小进行编号;对应的编号形成数组b;
具体的,步骤S3中对数组a1中的数据进行编号时,编号步长为1,对数组a1中的数据按从大到小的顺序进行编号,最小的编号为0,依次递增。
例如,设数组a1表示为[0,8,8,9,9,1200],则数组b表示为[0,1,1,3,3,5];
即当数组a1中的相邻数据相同时,相邻数据对应的编号相同,但后续的编号仍继续保持增长,最终对应的编号形成数组b。
数组b为均匀分布的数组,当数组a1中的两个数据元素相等时,两个数据元素在数据b中对应的编号也相等,此时数组b是一个理想的均匀分布的数组,直接对数组b进行可视化将得到最平均的效果,同时当两个数据元素值在数组a1中相等时,在数组b中也相等,避免了同一个值在可视化的时候出现差异的现象发生。
S4.对数组b进行线性计算,构建与数组a1区间长度匹配的数组c;
设数组b表示为[b1,b2,…,bi,…,bn],步骤S4中所述的对数组b进行线性计算是对数组b中每一个元素进行线性计算,对数组b中的第i个元素bi进行线性计算的表达式为:
ci=bi*(a1max-a1min)/a1length
其中,ci表示对数组b中的第i个元素bi进行线性计算得到对应的数组c中的第i个元素,数组c表示为[c1,c2,…,ci,…,cn];a1max表示数组a1中元素的最大值;a1min表示数组a1中元素的最小值,a1length表示数组a1中元素的个数。
S5.利用数组c中的数据与数组a1中的数据进行计算,构建最终用于数据可视化的企业渲染数据集数组d。
设数组c中的第i个元素表示为ci,数组a1中的第i个元素表示为ai-amin,利用数组c中的第i个元素与数组a1中的第i个元素进行计算的公式为:
其中,di表示用于数据可视化的企业渲染数据集数组d中的第i个元素数据值。
具体的利用数组c中的数据与数组a1中的数据进行计算得到的最终用于数据可视化的企业渲染数据集数组d的元素几何示意图如图2所示,参见图2,横坐标表示数组a1的值分布,纵坐标表示数组c的值分布,斜线表示用于数据可视化的企业渲染数据集数组d中的元素数据值的向量图形表示形式,具体在图2中,数组a1的值分布选用了a1m以及a1n作为代表值,m,n表示的是数组a1中元素值的次序,对应数组c的值分布选用了cm、cn作为代表值m,n表示的是数组c中元素的次序,由图2也可以看出,可视化视觉效果更佳平均。
本发明还提出一种数据可视化时考虑异常值的企业数据集处理系统,所述系统用于实现所述的数据可视化时考虑异常值的企业数据集处理方法,包括:
数据采集模块,用于采集企业待渲染的数据,确定企业待渲染数据集;
第一数组构建模块,用于将企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组a;
预处理模块,用于对有序数组a进行预处理操作,得到数组a1;
第二数组构建模块,对数组a1中的数据进行编号,根据对应的编号形成数组b;
第三数组构建模块,用于对数组b进行线性计算,构建与数组a1区间长度匹配的数组c;
第四数组构建模块,利用数组c中的数据与数组a1中的数据进行计算,构建出最终用于数据可视化的企业渲染数据集数组d。
在本实施例中,所述系统还包括线性计算模块,所述线性计算模块设置于第三数组构建模块上,用于对数组b进行线性计算。
综上,本发明提出的数据可视化时考虑异常值的企业数据集处理方法及系统,以数据可视化时考虑异常值的情况下,兼顾数据可读性与数据保真度为出发点,首先对企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组,然后对该数组进行预处理操作得到新的数组,对新数组中的数据进行编号,形成编号对应的数组,该数组符合理想的均匀分布,能保证最平均的可视化效果,初步对可能存在的异常值进行处理,然后对该数组进行一系列计算,构建最终用于数据可视化的企业渲染数据集数组,相较于自然对数及四分位数法不受异常值的影响,失真度小,提高了数据可视化图表的可读性,也进一步提高企业的风险规避能力,有利于企业做出正确的决策。
下面以采集的各企业手机品牌数据的可视化为例,应用本发明所提出的方法进行数据处理,从而验证此方法同时对可读性与较小的失真度的兼顾性,图3~图5分别表示传统线性渲染方法用于各企业手机品牌数据可视化时的热力图、传统自然对数转换方法用于各企业手机品牌数据可视化时的热力图及传统四分位数法用于各企业手机品牌数据可视化时的热力图;
所述的企业手机品牌数据包括华为母品牌数据、小米母品牌数据、苹果母品牌数据及荣耀母品牌数据,考察的是否以人为本、是否有科技感、是否生活化,可视图表以从低到高颜色逐渐加深的方式来分布,采用本发明所提方法做出的可视化热力图如图6所示。
参见图6,在各企业手机品牌数据可视化时,当数据集中存在个别极端值时,利用本发明所提的方法,对极端值和密集区间中的值进行可一个良好的均衡显示,同时兼顾了可视化图表的可读性与可视化的有效性。经过本发明所提的方法处理之后,热力图有了较好的表现,本方法的渲染更能体现强弱层次。
具体的,与图4所示的自然对数转换法相比其优势体现在对于极端值是极小值的情况下,仍然可以有效平衡数据集;与图5所示的四分位数法相比其优势体现在失真程度更小,尤其是当极端值与均值的差值过大的时候,本方法的优势更为明显。
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种数据可视化时考虑异常值的企业数据集处理方法,其特征在于,至少包括:
S1.采集待渲染企业数据,确定企业待渲染数据集,将企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组a;
S2.对有序数组a进行预处理操作,得到新的数组a1;
所述有序数组a中的元素为企业数据集中的待渲染企业数据,步骤S2中对有序数组a进行预处理操作的过程为:
设有序数组a中元素的表示为[a1,a2,…,ai,…,an],其中,n表示元素的个数,也指企业数据集中待渲染企业数据的个数,设有序数组a中元素的最小值为amin,将有序数组a中的每一个元素值均减去有序数组a中元素的最小值amin,得到新的数组a1,表示为[a1-amin,a2-amin,…,ai-amin,…,an-amin];
S3.对数组a1中的数据进行编号:确定编号步长,对数组a1中的数据按从大到小进行编号;对应的编号形成数组b;
当数组a1中的相邻数据相同时,相邻数据对应的编号相同,但后续的编号仍继续保持增长,最终对应的编号形成数组b;
S4.对数组b进行线性计算,构建与数组a1区间长度匹配的数组c;
设数组b表示为[b1,b2,…,bi,…,bn],步骤S4中所述的对数组b进行线性计算是对数组b中每一个元素进行线性计算,对数组b中的第i个元素bi进行线性计算的表达式为:
ci=bi*(a1max-a1min)/a1length
其中,ci表示对数组b中的第i个元素bi进行线性计算得到对应的数组c中的第i个元素,数组c表示为[c1,c2,…,ci,…,cn];a1max表示数组a1中元素的最大值;a1min表示数组a1中元素的最小值,a1length表示数组a1中元素的个数;
S5.利用数组c中的数据与数组a1中的数据进行计算,构建最终用于数据可视化的企业渲染数据集数组d;
设数组c中的第i个元素表示为ci,数组a1中的第i个元素表示为ai-amin,利用数组c中的第i个元素与数组a1中的第i个元素进行计算的公式为:
其中,di表示用于数据可视化的企业渲染数据集数组d中的第i个元素数据值。
2.根据权利要求1所述的数据可视化时考虑异常值的企业数据集处理方法,其特征在于,新的数组a1中每一个元素均是非负的。
3.根据权利要求1所述的数据可视化时考虑异常值的企业数据集处理方法,其特征在于,步骤S3中对数组a1中的数据进行编号时,编号步长为1,对数组a1中的数据按从大到小的顺序进行编号,最小的编号为0,依次递增。
4.根据权利要求1所述的数据可视化时考虑异常值的企业数据集处理方法,其特征在于,数组b为均匀分布的数组,当数组a1中的两个数据元素相等时,两个数据元素在数据b中对应的编号也相等。
5.一种数据可视化时考虑异常值的企业数据集处理系统,其特征在于,所述系统用于实现权利要求1所述的数据可视化时考虑异常值的企业数据集处理方法,包括:
数据采集模块,用于采集企业待渲染的数据,确定企业待渲染数据集;
第一数组构建模块,用于将企业待渲染数据集中的数据在数轴上按从大到小顺序排列,构建出有序数组a;
预处理模块,用于对有序数组a进行预处理操作,得到数组a1;
所述有序数组a中的元素为企业数据集中的待渲染企业数据,对有序数组a进行预处理操作的过程为:
设有序数组a中元素的表示为[a1,a2,…,ai,…,an],其中,n表示元素的个数,也指企业数据集中待渲染企业数据的个数,设有序数组a中元素的最小值为amin,将有序数组a中的每一个元素值均减去有序数组a中元素的最小值amin,得到新的数组a1,表示为[a1-amin,a2-amin,…,ai-amin,…,an-amin];
第二数组构建模块,对数组a1中的数据进行编号,根据对应的编号形成数组b;
当数组a1中的相邻数据相同时,相邻数据对应的编号相同,但后续的编号仍继续保持增长,最终对应的编号形成数组b;
第三数组构建模块,用于对数组b进行线性计算,构建与数组a1区间长度匹配的数组c;
设数组b表示为[b1,b2,…,bi,…,bn],步骤S4中所述的对数组b进行线性计算是对数组b中每一个元素进行线性计算,对数组b中的第i个元素bi进行线性计算的表达式为:
ci=bi*(a1max-a1min)/a1length
其中,ci表示对数组b中的第i个元素bi进行线性计算得到对应的数组c中的第i个元素,数组c表示为[c1,c2,…,ci,…,cn];a1max表示数组a1中元素的最大值;a1min表示数组a1中元素的最小值,a1length表示数组a1中元素的个数;
第四数组构建模块,利用数组c中的数据与数组a1中的数据进行计算,构建出最终用于数据可视化的企业渲染数据集数组d;
设数组c中的第i个元素表示为ci,数组a1中的第i个元素表示为ai-amin,利用数组c中的第i个元素与数组a1中的第i个元素进行计算的公式为:
其中,di表示用于数据可视化的企业渲染数据集数组d中的第i个元素数据值。
6.根据权利要求5所述的数据可视化时考虑异常值的企业数据集处理系统,其特征在于,所述系统还包括线性计算模块,所述线性计算模块设置于第三数组构建模块上,用于对数组b进行线性计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616591.5A CN113486003B (zh) | 2021-06-02 | 2021-06-02 | 数据可视化时考虑异常值的企业数据集处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110616591.5A CN113486003B (zh) | 2021-06-02 | 2021-06-02 | 数据可视化时考虑异常值的企业数据集处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486003A CN113486003A (zh) | 2021-10-08 |
CN113486003B true CN113486003B (zh) | 2024-03-19 |
Family
ID=77934322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110616591.5A Active CN113486003B (zh) | 2021-06-02 | 2021-06-02 | 数据可视化时考虑异常值的企业数据集处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486003B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007098426A2 (en) * | 2006-02-17 | 2007-08-30 | Test Advantage, Inc. | Methods and apparatus for data analysis |
CN104898105A (zh) * | 2015-06-17 | 2015-09-09 | 中国电子科技集团公司第三十八研究所 | 一种情报雷达目标回波的三维显示方法 |
CN105631027A (zh) * | 2015-12-30 | 2016-06-01 | 中国农业大学 | 一种面向企业商务智能的数据可视化分析方法和系统 |
CN106599172A (zh) * | 2016-12-10 | 2017-04-26 | 成都飞机工业(集团)有限责任公司 | 一种海量数据的无损保真可视化优化法 |
CN106897941A (zh) * | 2017-01-03 | 2017-06-27 | 北京国能日新系统控制技术有限公司 | 一种基于四分位箱线图的风机异常数据处理方法及装置 |
CN107967702A (zh) * | 2017-10-20 | 2018-04-27 | 北京建筑大学 | 逆向渲染绘制的热力图可视化方法 |
CN109086299A (zh) * | 2018-06-19 | 2018-12-25 | 北京至信普林科技有限公司 | 分析数据质量方法 |
CN109189521A (zh) * | 2018-07-31 | 2019-01-11 | 郑州向心力通信技术股份有限公司 | 一种大数据分析展示方法及系统 |
CN109727446A (zh) * | 2019-01-15 | 2019-05-07 | 华北电力大学(保定) | 一种用电数据异常值的识别与处理方法 |
CN109783177A (zh) * | 2019-01-18 | 2019-05-21 | 成都新橙北斗智联有限公司 | 一种基于HTML5 Canvas的GIS栅格数据渲染方法 |
CN109933615A (zh) * | 2019-03-01 | 2019-06-25 | 成都新希望金融信息有限公司 | 一种基于差分矩阵的标签向量序列异常检测方法 |
CN110008259A (zh) * | 2019-02-20 | 2019-07-12 | 中科恒运股份有限公司 | 可视化数据分析的方法及终端设备 |
CN111931092A (zh) * | 2020-07-07 | 2020-11-13 | 浙江大学 | 一种基于Scrollytelling技术的数据可视化探索系统 |
CN112686521A (zh) * | 2020-12-25 | 2021-04-20 | 江苏通付盾科技有限公司 | 一种风控规则调优方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100228486A1 (en) * | 2009-03-06 | 2010-09-09 | Wu Renchu | Method and system for seismic data processing |
US10557840B2 (en) * | 2011-08-19 | 2020-02-11 | Hartford Steam Boiler Inspection And Insurance Company | System and method for performing industrial processes across facilities |
US10599669B2 (en) * | 2014-01-14 | 2020-03-24 | Ayasdi Ai Llc | Grouping of data points in data analysis for graph generation |
CN104318340B (zh) * | 2014-09-25 | 2017-07-07 | 中国科学院软件研究所 | 基于文本履历信息的信息可视化方法及智能可视分析系统 |
US11093519B2 (en) * | 2019-05-03 | 2021-08-17 | Accenture Global Solutions Limited | Artificial intelligence (AI) based automatic data remediation |
-
2021
- 2021-06-02 CN CN202110616591.5A patent/CN113486003B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007098426A2 (en) * | 2006-02-17 | 2007-08-30 | Test Advantage, Inc. | Methods and apparatus for data analysis |
CN104898105A (zh) * | 2015-06-17 | 2015-09-09 | 中国电子科技集团公司第三十八研究所 | 一种情报雷达目标回波的三维显示方法 |
CN105631027A (zh) * | 2015-12-30 | 2016-06-01 | 中国农业大学 | 一种面向企业商务智能的数据可视化分析方法和系统 |
CN106599172A (zh) * | 2016-12-10 | 2017-04-26 | 成都飞机工业(集团)有限责任公司 | 一种海量数据的无损保真可视化优化法 |
CN106897941A (zh) * | 2017-01-03 | 2017-06-27 | 北京国能日新系统控制技术有限公司 | 一种基于四分位箱线图的风机异常数据处理方法及装置 |
CN107967702A (zh) * | 2017-10-20 | 2018-04-27 | 北京建筑大学 | 逆向渲染绘制的热力图可视化方法 |
CN109086299A (zh) * | 2018-06-19 | 2018-12-25 | 北京至信普林科技有限公司 | 分析数据质量方法 |
CN109189521A (zh) * | 2018-07-31 | 2019-01-11 | 郑州向心力通信技术股份有限公司 | 一种大数据分析展示方法及系统 |
CN109727446A (zh) * | 2019-01-15 | 2019-05-07 | 华北电力大学(保定) | 一种用电数据异常值的识别与处理方法 |
CN109783177A (zh) * | 2019-01-18 | 2019-05-21 | 成都新橙北斗智联有限公司 | 一种基于HTML5 Canvas的GIS栅格数据渲染方法 |
CN110008259A (zh) * | 2019-02-20 | 2019-07-12 | 中科恒运股份有限公司 | 可视化数据分析的方法及终端设备 |
CN109933615A (zh) * | 2019-03-01 | 2019-06-25 | 成都新希望金融信息有限公司 | 一种基于差分矩阵的标签向量序列异常检测方法 |
CN111931092A (zh) * | 2020-07-07 | 2020-11-13 | 浙江大学 | 一种基于Scrollytelling技术的数据可视化探索系统 |
CN112686521A (zh) * | 2020-12-25 | 2021-04-20 | 江苏通付盾科技有限公司 | 一种风控规则调优方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113486003A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110400275B (zh) | 一种基于全卷积神经网络和特征金字塔的颜色校正方法 | |
CN102184250B (zh) | 基于彩色图像匹配的服装面料样品检索方法 | |
CN110533117B (zh) | 图像比对方法、装置、设备和存储介质 | |
WO2023035531A1 (zh) | 文本图像超分辨率重建方法及其相关设备 | |
CN116682120A (zh) | 基于深度学习的多语种马赛克图像文本识别方法 | |
CN106980689A (zh) | 一种通过语音交互实现数据可视化的方法 | |
CN113657404A (zh) | 一种东巴象形文字的图像处理方法 | |
CN113012265A (zh) | 针式打印字符图像生成方法、装置、计算机设备和介质 | |
CN114546206B (zh) | 异形屏显示方法、装置、计算机设备和存储介质 | |
CN113486003B (zh) | 数据可视化时考虑异常值的企业数据集处理方法及系统 | |
CN112990213B (zh) | 一种基于深度学习的数字万用表字符识别系统和方法 | |
Song et al. | A direction-decoupled non-local attention network for single image super-resolution | |
CN104143203A (zh) | 一种图像编辑传播方法 | |
CN103340600A (zh) | 监护仪上波形失真处理方法及处理系统 | |
CN117333881A (zh) | 基于条件扩散模型的甲骨文辅助破译方法 | |
Yu et al. | Contrast preserving decolorization based on the weighted normalized l1 norm | |
CN104853059A (zh) | 超分辨率图像处理方法及其装置 | |
CN106021228A (zh) | 一种利用知识地形图进行文本分析的方法及系统 | |
WO2022252613A1 (zh) | 基于桌面软件通过函数拟合识别pdf内多类线条的方法 | |
Kang et al. | Optimized color contrast enhancement for dichromats using local and global contrast | |
CN115309988A (zh) | 一种网页搜索内容匹配方法、系统及存储介质 | |
CN114170112A (zh) | 一种修复图像的方法、装置以及存储介质 | |
CN113435480A (zh) | 通道顺序切换自监督提升长尾分布视觉识别能力的方法 | |
CN111739120A (zh) | 纯文本柱状图的绘制方法 | |
CN111581394B (zh) | 一种大规模知识地形图绘制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |