CN116484179A - 一种可交互的数据清洗系统及方法 - Google Patents
一种可交互的数据清洗系统及方法 Download PDFInfo
- Publication number
- CN116484179A CN116484179A CN202310735118.8A CN202310735118A CN116484179A CN 116484179 A CN116484179 A CN 116484179A CN 202310735118 A CN202310735118 A CN 202310735118A CN 116484179 A CN116484179 A CN 116484179A
- Authority
- CN
- China
- Prior art keywords
- space
- data
- cylinder
- volume
- aggregation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004140 cleaning Methods 0.000 title claims abstract description 22
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 13
- 230000002776 aggregation Effects 0.000 claims abstract description 121
- 238000004220 aggregation Methods 0.000 claims abstract description 115
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 238000013506 data mapping Methods 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 239000000203 mixture Substances 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 5
- 238000012800 visualization Methods 0.000 abstract description 3
- 238000013500 data storage Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Image Generation (AREA)
Abstract
本发明提供一种可交互的数据清洗系统及方法,包括展示空间创建模块、数据映射模块、聚集群数量计算模块、聚集群中心定位模块、数据清洗模块;展示空间创建模块用于创建可视化的数据展示空间,数据映射模块将每个数据映射到可视化的数据展示空间中,聚集群数量计算模块用于计算数据聚集群的数量,聚集群中心定位模块用于定位数据的多个聚集群的中心的空间位置,数据清洗模块用于删除各聚集群之间的干扰数据;实现聚集数据群之间干扰数据清洗工作中数据变化和处理的可视化。
Description
技术领域
本发明涉及数据处理领域,特别涉及一种可交互的数据清洗系统及方法。
背景技术
在对具有聚集特征的大量数据如城市人口分布数据、客户群体数据等进行分析时,为了准确分析各聚集数据群之间的关系,需要清洗掉各聚集数据群之间的干扰数据,假如清洗的过程可交互,那么就能够实时查看数据的变化和处理结果,有助于工作人员更便捷地进行数据清洗操作。
发明内容
所以,本发明为了实现聚集数据群之间干扰数据清洗工作中数据变化和处理的可视化,设计了一种可交互的数据清洗系统及方法。
本发明所采用的技术方案是:一种可交互的数据清洗系统:
包括展示空间创建模块、数据映射模块、聚集群数量计算模块、聚集群中心定位模块、数据清洗模块。
所述展示空间创建模块用于创建可视化的数据展示空间,具体方式为:
可视化的数据展示空间为中心轴线竖直的圆柱体空间,可视化的数据展示空间采用HSL圆柱坐标系,在HSL圆柱坐标系中,颜色的表示式为(H,S,L),其中H表示色相,S表示饱和度,L表示亮度;色相表示色彩相貌,在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0~360度,0度和360度的空间位置相重叠;饱和度表示颜色的鲜艳程度,从圆柱体空间的中心轴线处径向水平向外取值0~100%,越大表示颜色越鲜艳,越小表示颜色越灰暗;亮度表示颜色的明暗程度,从圆柱体的底端向上到顶端取值0~100%,越大表示颜色越明亮,越小表示颜色越暗淡。
所述数据映射模块将每个数据映射到可视化的数据展示空间中,具体方式为:
假设数据中最大值为Qmax,最小值为Qmin,那么数据P在可视化的数据展示空间中的位置为(Hp,Sp,Lp),其中Hp=[(P-Qmin)/(Qmax-Qmin)]×360度、Sp=[(P-Qmin)/(Qmax-Qmin)]×100%、Lp=[(P-Qmin)/(Qmax-Qmin)]×100%。
所述聚集群数量计算模块用于计算数据聚集群的数量,具体方式为:
A1,以圆柱体空间的中心轴线为中心,在俯视角度将圆柱体空间分割成中心的1个细圆柱体空间和99个圆环柱体空间,中心细圆柱体空间的半径等于每个圆环柱体空间的径向宽度,设中心的细圆柱体空间的半径和每个圆环柱体的径向宽度均为r,设圆柱体空间的高度为h,那么
中心细圆柱体空间的体积为πr2h;
中心细圆柱体空间外的第1个圆环柱体的体积为π(2r)2h-πr2h=3πr2h;
中心细圆柱体空间外的第2个圆环柱体的体积为π(3r)2h-π(2r)2h=5πr2h;
中心细圆柱体空间外的第3个圆环柱体的体积为π(4r)2h-π(3r)2h=7πr2h;
中心细圆柱体空间外的第4个圆环柱体的体积为π(5r)2h-π(4r)2h=9πr2h;
……
中心细圆柱体空间外的第98个圆环柱体的体积为π(99r)2h-π(98r)2h=197πr2h;
中心细圆柱体空间外的第99个圆环柱体的体积,即最外侧的圆环柱体的体积为π(100r)2h-π(99r)2h=199πr2h;
即中心细圆柱体空间外的第n个圆环柱体的体积为π[(n+1)r)]2h-π(nr)2h=(2n+1)πr2h。
A2,将每个圆环柱体的空间,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成的每个空间体积均为πr2h:
中心细圆柱体空间外的第1个圆环柱体的体积3πr2h均分成3份;
中心细圆柱体空间外的第2个圆环柱体的体积5πr2h均分成5份;
中心细圆柱体空间外的第3个圆环柱体的体积7πr2h均分成7份;
中心细圆柱体空间外的第4个圆环柱体的体积9πr2h均分成9份;
……
中心细圆柱体空间外的第98个圆环柱体的体积197πr2h均分成197份;
中心细圆柱体空间外的第99个圆环柱体,即最外侧的圆环柱体的体积199πr2h均分成199份;
即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr2h,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成(2n+1)份,分割成的每个空间体积均为πr2h。
此时体积为πr2h的空间数量一共有1+3+5+…+197+199=10000个。
A3,再将圆柱体空间从下向上均分成100份,实现将每个体积均为πr2h的空间再细分成100份,最终将整个圆柱体空间分割成体积为(πr2h/100)的1000000个基础空间。
A4,将基础空间逐个进行编号。
A5,统计每个基础空间内的数据个数。
A6,当某基础空间越往外层的基础空间内的数据越少时,判定以此基础空间为中心形成数据聚集。
A7,统计A6情况的数量Z,数量Z即为全部数据聚集群的数量。
进一步讲,基础空间内的更小型的数据聚集情况忽略不计。
所述聚集群中心定位模块用于定位数据的Z个聚集群的中心的空间位置,其方式为:
B1,计算数据聚集中心所在的基础空间内所有数据的平均位置(Hv,Sv,Lv),Hv为此基础空间内所有数据的H值的平均值,Sv为此基础空间内所有数据的S值的平均值,Lv为此基础空间内所有数据的L值的平均值;
B2,计算平均位置(Hv,Sv,Lv)和此基础空间内其他数据之间的距离,找出距离平均位置(Hv,Sv,Lv)最近的数据Pi;数据展示空间内两点(He,Se,Le)和(Hf,Sf,Lf)之间的距离D的计算式为D2=(Hf-He)2+(Sf-Se)2+(Lf-Le)2;
B3,以Pi为中心计算数据Pi和此基础空间内其他数据之间的距离之和Ui,并找出距离数据Pi最近的数据Pj;
B4,以Pj为中心计算数据Pj和此基础空间内其他数据之间的距离之和Uj,并找出距离数据Pj最近的数据Pk;
B5,依照B3、B4的方式,直至计算完此基础空间内每个数据与其他数据之间的距离之和,筛选出最小的距离之和,对应的中心数据的位置即为所在聚集群的中心的空间位置;
B6,按照B1-B5的方法,找出每个聚集群的中心的空间位置。
所述数据清洗模块用于删除各聚集群之间的干扰数据,具体方式为:
C1,设定聚集密度ρd,聚集密度ρ=(球形空间内的数据个数)/(球形空间的体积);以聚集群的中心为球心,以R为球半径,球形空间的体积为(4/3)πR3;R为变量,统计球半径R的球形空间内的数据个数,计算直至聚集密度ρ大于设定的聚集密度ρd为止;在此过程中球形空间外的数值均白色显示,球形空间内的数据还是保持原先色彩;
C2,调整设定的聚集密度ρd,直至Z个聚集群的中心外均形成彩色的聚集球为止;
C3,删除Z个彩色聚集球外的数据。
一种可交互的数据清洗方法:
步骤1,创建可视化的数据展示空间,具体方式为:
可视化的数据展示空间为中心轴线竖直的圆柱体空间,可视化的数据展示空间采用HSL圆柱坐标系,在HSL圆柱坐标系中,颜色的表示式为(H,S,L),其中H表示色相,S表示饱和度,L表示亮度;色相表示色彩相貌,在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0~360度,0度和360度的空间位置相重叠;饱和度表示颜色的鲜艳程度,从圆柱体空间的中心轴线处径向水平向外取值0~100%,越大表示颜色越鲜艳,越小表示颜色越灰暗;亮度表示颜色的明暗程度,从圆柱体的底端向上到顶端取值0~100%,越大表示颜色越明亮,越小表示颜色越暗淡。
步骤2,将每个数据映射到可视化的数据展示空间中,具体方式为:
假设数据中最大值为Qmax,最小值为Qmin,那么数据P在可视化的数据展示空间中的位置为(Hp,Sp,Lp),其中Hp=[(P-Qmin)/(Qmax-Qmin)]×360度、Sp=[(P-Qmin)/(Qmax-Qmin)]×100%、Lp=[(P-Qmin)/(Qmax-Qmin)]×100%。
步骤3,计算数据聚集群的数量,具体方式为:
A1,以圆柱体空间的中心轴线为中心,在俯视角度将圆柱体空间分割成中心的1个细圆柱体空间和99个圆环柱体空间,中心细圆柱体空间的半径等于每个圆环柱体空间的径向宽度,设中心的细圆柱体空间的半径和每个圆环柱体的径向宽度均为r,设圆柱体空间的高度为h,那么
中心细圆柱体空间的体积为πr2h;
中心细圆柱体空间外的第1个圆环柱体的体积为π(2r)2h-πr2h=3πr2h;
中心细圆柱体空间外的第2个圆环柱体的体积为π(3r)2h-π(2r)2h=5πr2h;
中心细圆柱体空间外的第3个圆环柱体的体积为π(4r)2h-π(3r)2h=7πr2h;
中心细圆柱体空间外的第4个圆环柱体的体积为π(5r)2h-π(4r)2h=9πr2h;
……
中心细圆柱体空间外的第98个圆环柱体的体积为π(99r)2h-π(98r)2h=197πr2h;
中心细圆柱体空间外的第99个圆环柱体的体积,即最外侧的圆环柱体的体积为π(100r)2h-π(99r)2h=199πr2h;
即中心细圆柱体空间外的第n个圆环柱体的体积为π[(n+1)r)]2h-π(nr)2h=(2n+1)πr2h。
A2,将每个圆环柱体的空间,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成的每个空间体积均为πr2h:
中心细圆柱体空间外的第1个圆环柱体的体积3πr2h均分成3份;
中心细圆柱体空间外的第2个圆环柱体的体积5πr2h均分成5份;
中心细圆柱体空间外的第3个圆环柱体的体积7πr2h均分成7份;
中心细圆柱体空间外的第4个圆环柱体的体积9πr2h均分成9份;
……
中心细圆柱体空间外的第98个圆环柱体的体积197πr2h均分成197份;
中心细圆柱体空间外的第99个圆环柱体,即最外侧的圆环柱体的体积199πr2h均分成199份;
即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr2h,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成(2n+1)份,分割成的每个空间体积均为πr2h。
此时体积为πr2h的空间数量一共有1+3+5+…+197+199=10000个。
A3,再将圆柱体空间从下向上均分成100份,实现将每个体积均为πr2h的空间再细分成100份,最终将整个圆柱体空间分割成体积为(πr2h/100)的1000000个基础空间。
A4,将基础空间逐个进行编号。
A5,统计每个基础空间内的数据个数。
A6,当某基础空间越往外层的基础空间内的数据越少时,判定以此基础空间为中心形成数据聚集。
A7,统计A6情况的数量Z,数量Z即为全部数据聚集群的数量。
进一步讲,基础空间内的更小型的数据聚集情况忽略不计。
步骤4,定位数据的Z个聚集群的中心的空间位置,其方式为:
B1,计算数据聚集中心所在的基础空间内所有数据的平均位置(Hv,Sv,Lv),Hv为此基础空间内所有数据的H值的平均值,Sv为此基础空间内所有数据的S值的平均值,Lv为此基础空间内所有数据的L值的平均值;
B2,计算平均位置(Hv,Sv,Lv)和此基础空间内其他数据之间的距离,找出距离平均位置(Hv,Sv,Lv)最近的数据Pi;数据展示空间内两点(He,Se,Le)和(Hf,Sf,Lf)之间的距离D的计算式为D2=(Hf-He)2+(Sf-Se)2+(Lf-Le)2;
B3,以Pi为中心计算数据Pi和此基础空间内其他数据之间的距离之和Ui,并找出距离数据Pi最近的数据Pj;
B4,以Pj为中心计算数据Pj和此基础空间内其他数据之间的距离之和Uj,并找出距离数据Pj最近的数据Pk;
B5,依照B3、B4的方式,直至计算完此基础空间内每个数据与其他数据之间的距离之和,筛选出最小的距离之和,对应的中心数据的位置即为所在聚集群的中心的空间位置;
B6,按照B1-B5的方法,找出每个聚集群的中心的空间位置。
步骤5,删除各聚集群之间的干扰数据,具体方式为:
C1,设定聚集密度ρd,聚集密度ρ=(球形空间内的数据个数)/(球形空间的体积);以聚集群的中心为球心,以R为球半径,球形空间的体积为(4/3)πR3;R为变量,统计球半径R的球形空间内的数据个数,计算直至聚集密度ρ大于设定的聚集密度ρd为止;在此过程中球形空间外的数值均白色显示,球形空间内的数据还是保持原先色彩;
C2,调整设定的聚集密度ρd,直至Z个聚集群的中心外均形成彩色的聚集球为止;
C3,删除Z个彩色聚集球外的数据。
本发明一种可交互的数据清洗系统及方法具有如下优点:
(1)将数据映射在HSL圆柱体展示空间中,实现数据的可视化展示;
(2)将HSL圆柱体展示空间划分成1000000个体积相等的基础空间,某基础空间越往外层的基础空间内的数据越少时,判定以此基础空间为中心形成数据聚集,并计算出每个数据聚集群的中心位置,构思新颖;
(3)通过设定聚集密度确定以数据聚集群的中心位置为球心的球半径,在计算过程中球形空间外的数值均白色显示,球形空间内的数据还是保持原先色彩,实现数据清洗工作中数据变化和处理的可视化,具有显著的创造性。
本发明的其他特征和优点将在随后的说明书中阐述,或者通过实施本发明而了解。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1是HSL圆柱坐标系示意图。
图2是中心细圆柱体空间外的第1个圆环柱体的体积3πr2h均分成3份。
图3是本发明的方法流程图。
具体实施方式
以下将结合附图和实施例对本发明一种可交互的数据清洗系统及方法作进一步的详细描述。
本发明所采用的技术方案,一种可交互的数据清洗系统:
包括展示空间创建模块、数据映射模块、聚集群数量计算模块、聚集群中心定位模块、数据清洗模块。
如图1所示,所述展示空间创建模块用于创建可视化的数据展示空间,具体方式为:
可视化的数据展示空间为中心轴线竖直的圆柱体空间,可视化的数据展示空间采用HSL圆柱坐标系,在HSL圆柱坐标系中,颜色的表示式为(H,S,L),其中H表示色相,S表示饱和度,L表示亮度;色相表示色彩相貌,在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0~360度,0度和360度的空间位置相重叠;饱和度表示颜色的鲜艳程度,从圆柱体空间的中心轴线处径向水平向外取值0~100%,越大表示颜色越鲜艳,越小表示颜色越灰暗;亮度表示颜色的明暗程度,从圆柱体的底端向上到顶端取值0~100%,越大表示颜色越明亮,越小表示颜色越暗淡。
所述数据映射模块将每个数据映射到可视化的数据展示空间中,具体方式为:
假设数据中最大值为Qmax,最小值为Qmin,那么数据P在可视化的数据展示空间中的位置为(Hp,Sp,Lp),其中Hp=[(P-Qmin)/(Qmax-Qmin)]×360度、Sp=[(P-Qmin)/(Qmax-Qmin)]×100%、Lp=[(P-Qmin)/(Qmax-Qmin)]×100%。
所述聚集群数量计算模块用于计算数据聚集群的数量,具体方式为:
A1,以圆柱体空间的中心轴线为中心,在俯视角度将圆柱体空间分割成中心的1个细圆柱体空间和99个圆环柱体空间,中心细圆柱体空间的半径等于每个圆环柱体空间的径向宽度,设中心的细圆柱体空间的半径和每个圆环柱体的径向宽度均为r,设圆柱体空间的高度为h,那么
中心细圆柱体空间的体积为πr2h;
中心细圆柱体空间外的第1个圆环柱体的体积为π(2r)2h-πr2h=3πr2h;
中心细圆柱体空间外的第2个圆环柱体的体积为π(3r)2h-π(2r)2h=5πr2h;
中心细圆柱体空间外的第3个圆环柱体的体积为π(4r)2h-π(3r)2h=7πr2h;
中心细圆柱体空间外的第4个圆环柱体的体积为π(5r)2h-π(4r)2h=9πr2h;
……
中心细圆柱体空间外的第98个圆环柱体的体积为π(99r)2h-π(98r)2h=197πr2h;
中心细圆柱体空间外的第99个圆环柱体的体积,即最外侧的圆环柱体的体积为π(100r)2h-π(99r)2h=199πr2h;
即中心细圆柱体空间外的第n个圆环柱体的体积为π[(n+1)r)]2h-π(nr)2h=(2n+1)πr2h。
A2,将每个圆环柱体的空间,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成的每个空间体积均为πr2h:
如图2所示,中心细圆柱体空间外的第1个圆环柱体的体积3πr2h均分成3份;
中心细圆柱体空间外的第2个圆环柱体的体积5πr2h均分成5份;
中心细圆柱体空间外的第3个圆环柱体的体积7πr2h均分成7份;
中心细圆柱体空间外的第4个圆环柱体的体积9πr2h均分成9份;
……
中心细圆柱体空间外的第98个圆环柱体的体积197πr2h均分成197份;
中心细圆柱体空间外的第99个圆环柱体,即最外侧的圆环柱体的体积199πr2h均分成199份;
即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr2h,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成(2n+1)份,分割成的每个空间体积均为πr2h。
此时体积为πr2h的空间数量一共有1+3+5+…+197+199=10000个。
A3,再将圆柱体空间从下向上均分成100份,实现将每个体积均为πr2h的空间再细分成100份,最终将整个圆柱体空间分割成体积为(πr2h/100)的1000000个基础空间。
A4,将基础空间逐个进行编号。
A5,统计每个基础空间内的数据个数。
A6,当某基础空间越往外层的基础空间内的数据越少时,判定以此基础空间为中心形成数据聚集。
A7,统计A6情况的数量Z,数量Z即为全部数据聚集群的数量。
进一步讲,基础空间内的更小型的数据聚集情况忽略不计。
所述聚集群中心定位模块用于定位数据的Z个聚集群的中心的空间位置,其方式为:
B1,计算数据聚集中心所在的基础空间内所有数据的平均位置(Hv,Sv,Lv),Hv为此基础空间内所有数据的H值的平均值,Sv为此基础空间内所有数据的S值的平均值,Lv为此基础空间内所有数据的L值的平均值;
B2,计算平均位置(Hv,Sv,Lv)和此基础空间内其他数据之间的距离,找出距离平均位置(Hv,Sv,Lv)最近的数据Pi;数据展示空间内两点(He,Se,Le)和(Hf,Sf,Lf)之间的距离D的计算式为D2=(Hf-He)2+(Sf-Se)2+(Lf-Le)2;
B3,以Pi为中心计算数据Pi和此基础空间内其他数据之间的距离之和Ui,并找出距离数据Pi最近的数据Pj;
B4,以Pj为中心计算数据Pj和此基础空间内其他数据之间的距离之和Uj,并找出距离数据Pj最近的数据Pk;
B5,依照B3、B4的方式,直至计算完此基础空间内每个数据与其他数据之间的距离之和,筛选出最小的距离之和,对应的中心数据的位置即为所在聚集群的中心的空间位置;
B6,按照B1-B5的方法,找出每个聚集群的中心的空间位置。
所述数据清洗模块用于删除各聚集群之间的干扰数据,具体方式为:
C1,设定聚集密度ρd,聚集密度ρ=(球形空间内的数据个数)/(球形空间的体积);以聚集群的中心为球心,以R为球半径,球形空间的体积为(4/3)πR3;R为变量,统计球半径R的球形空间内的数据个数,计算直至聚集密度ρ大于设定的聚集密度ρd为止;在此过程中球形空间外的数值均白色显示,球形空间内的数据还是保持原先色彩;
C2,调整设定的聚集密度ρd,直至Z个聚集群的中心外均形成彩色的聚集球为止;
C3,删除Z个彩色聚集球外的数据。
如图3所示,一种可交互的数据清洗方法:
步骤1,创建可视化的数据展示空间,具体方式为:
可视化的数据展示空间为中心轴线竖直的圆柱体空间,可视化的数据展示空间采用HSL圆柱坐标系,在HSL圆柱坐标系中,颜色的表示式为(H,S,L),其中H表示色相,S表示饱和度,L表示亮度;色相表示色彩相貌,在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0~360度,0度和360度的空间位置相重叠;饱和度表示颜色的鲜艳程度,从圆柱体空间的中心轴线处径向水平向外取值0~100%,越大表示颜色越鲜艳,越小表示颜色越灰暗;亮度表示颜色的明暗程度,从圆柱体的底端向上到顶端取值0~100%,越大表示颜色越明亮,越小表示颜色越暗淡。
步骤2,将每个数据映射到可视化的数据展示空间中,具体方式为:
假设数据中最大值为Qmax,最小值为Qmin,那么数据P在可视化的数据展示空间中的位置为(Hp,Sp,Lp),其中Hp=[(P-Qmin)/(Qmax-Qmin)]×360度、Sp=[(P-Qmin)/(Qmax-Qmin)]×100%、Lp=[(P-Qmin)/(Qmax-Qmin)]×100%。
步骤3,计算数据聚集群的数量,具体方式为:
A1,以圆柱体空间的中心轴线为中心,在俯视角度将圆柱体空间分割成中心的1个细圆柱体空间和99个圆环柱体空间,中心细圆柱体空间的半径等于每个圆环柱体空间的径向宽度,设中心的细圆柱体空间的半径和每个圆环柱体的径向宽度均为r,设圆柱体空间的高度为h,那么
中心细圆柱体空间的体积为πr2h;
中心细圆柱体空间外的第1个圆环柱体的体积为π(2r)2h-πr2h=3πr2h;
中心细圆柱体空间外的第2个圆环柱体的体积为π(3r)2h-π(2r)2h=5πr2h;
中心细圆柱体空间外的第3个圆环柱体的体积为π(4r)2h-π(3r)2h=7πr2h;
中心细圆柱体空间外的第4个圆环柱体的体积为π(5r)2h-π(4r)2h=9πr2h;
……
中心细圆柱体空间外的第98个圆环柱体的体积为π(99r)2h-π(98r)2h=197πr2h;
中心细圆柱体空间外的第99个圆环柱体的体积,即最外侧的圆环柱体的体积为π(100r)2h-π(99r)2h=199πr2h;
即中心细圆柱体空间外的第n个圆环柱体的体积为π[(n+1)r)]2h-π(nr)2h=(2n+1)πr2h。
A2,将每个圆环柱体的空间,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成的每个空间体积均为πr2h:
如图2所示,中心细圆柱体空间外的第1个圆环柱体的体积3πr2h均分成3份;
中心细圆柱体空间外的第2个圆环柱体的体积5πr2h均分成5份;
中心细圆柱体空间外的第3个圆环柱体的体积7πr2h均分成7份;
中心细圆柱体空间外的第4个圆环柱体的体积9πr2h均分成9份;
……
中心细圆柱体空间外的第98个圆环柱体的体积197πr2h均分成197份;
中心细圆柱体空间外的第99个圆环柱体,即最外侧的圆环柱体的体积199πr2h均分成199份;
即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr2h,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成(2n+1)份,分割成的每个空间体积均为πr2h。
此时体积为πr2h的空间数量一共有1+3+5+…+197+199=10000个。
A3,再将圆柱体空间从下向上均分成100份,实现将每个体积均为πr2h的空间再细分成100份,最终将整个圆柱体空间分割成体积为(πr2h/100)的1000000个基础空间。
A4,将基础空间逐个进行编号。
A5,统计每个基础空间内的数据个数。
A6,当某基础空间越往外层的基础空间内的数据越少时,判定以此基础空间为中心形成数据聚集。
A7,统计A6情况的数量Z,数量Z即为全部数据聚集群的数量。
进一步讲,基础空间内的更小型的数据聚集情况忽略不计。
步骤4,定位数据的Z个聚集群的中心的空间位置,其方式为:
B1,计算数据聚集中心所在的基础空间内所有数据的平均位置(Hv,Sv,Lv),Hv为此基础空间内所有数据的H值的平均值,Sv为此基础空间内所有数据的S值的平均值,Lv为此基础空间内所有数据的L值的平均值;
B2,计算平均位置(Hv,Sv,Lv)和此基础空间内其他数据之间的距离,找出距离平均位置(Hv,Sv,Lv)最近的数据Pi;数据展示空间内两点(He,Se,Le)和(Hf,Sf,Lf)之间的距离D的计算式为D2=(Hf-He)2+(Sf-Se)2+(Lf-Le)2;
B3,以Pi为中心计算数据Pi和此基础空间内其他数据之间的距离之和Ui,并找出距离数据Pi最近的数据Pj;
B4,以Pj为中心计算数据Pj和此基础空间内其他数据之间的距离之和Uj,并找出距离数据Pj最近的数据Pk;
B5,依照B3、B4的方式,直至计算完此基础空间内每个数据与其他数据之间的距离之和,筛选出最小的距离之和,对应的中心数据的位置即为所在聚集群的中心的空间位置;
B6,按照B1-B5的方法,找出每个聚集群的中心的空间位置。
步骤5,删除各聚集群之间的干扰数据,具体方式为:
C1,设定聚集密度ρd,聚集密度ρ=(球形空间内的数据个数)/(球形空间的体积);以聚集群的中心为球心,以R为球半径,球形空间的体积为(4/3)πR3;R为变量,统计球半径R的球形空间内的数据个数,计算直至聚集密度ρ大于设定的聚集密度ρd为止;在此过程中球形空间外的数值均白色显示,球形空间内的数据还是保持原先色彩;
C2,调整设定的聚集密度ρd,直至Z个聚集群的中心外均形成彩色的聚集球为止;
C3,删除Z个彩色聚集球外的数据。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (2)
1.一种可交互的数据清洗系统,其特征在于:
包括展示空间创建模块、数据映射模块、聚集群数量计算模块、聚集群中心定位模块、数据清洗模块;
所述展示空间创建模块用于创建可视化的数据展示空间,具体方式为:
可视化的数据展示空间为中心轴线竖直的圆柱体空间,可视化的数据展示空间采用HSL圆柱坐标系,在HSL圆柱坐标系中,颜色的表示式为(H,S,L),其中H表示色相,S表示饱和度,L表示亮度;色相表示色彩相貌,在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0~360度,0度和360度的空间位置相重叠;饱和度表示颜色的鲜艳程度,从圆柱体空间的中心轴线处径向水平向外取值0~100%,越大表示颜色越鲜艳,越小表示颜色越灰暗;亮度表示颜色的明暗程度,从圆柱体的底端向上到顶端取值0~100%,越大表示颜色越明亮,越小表示颜色越暗淡;
所述数据映射模块将每个数据映射到可视化的数据展示空间中,具体方式为:
假设数据中最大值为Qmax,最小值为Qmin,那么数据P在可视化的数据展示空间中的位置为(Hp,Sp,Lp),其中Hp=[(P-Qmin)/(Qmax-Qmin)]×360度、Sp=[(P-Qmin)/(Qmax-Qmin)]×100%、Lp=[(P-Qmin)/(Qmax-Qmin)]×100%;
所述聚集群数量计算模块用于计算数据聚集群的数量,具体方式为:
A1,以圆柱体空间的中心轴线为中心,在俯视角度将圆柱体空间分割成中心的1个细圆柱体空间和99个圆环柱体空间,中心细圆柱体空间的半径等于每个圆环柱体空间的径向宽度,设中心的细圆柱体空间的半径和每个圆环柱体的径向宽度均为r,设圆柱体空间的高度为h,那么
中心细圆柱体空间的体积为πr2h;
中心细圆柱体空间外的第1个圆环柱体的体积为3πr2h;
中心细圆柱体空间外的第2个圆环柱体的体积为5πr2h;
中心细圆柱体空间外的第3个圆环柱体的体积为7πr2h;
中心细圆柱体空间外的第4个圆环柱体的体积为9πr2h;
……
中心细圆柱体空间外的第98个圆环柱体的体积为197πr2h;
中心细圆柱体空间外的第99个圆环柱体的体积,即最外侧的圆环柱体的体积为199πr2h;
即中心细圆柱体空间外的第n个圆环柱体的体积为(2n+1)πr2h;
A2,将每个圆环柱体的空间,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成的每个空间体积均为πr2h:
中心细圆柱体空间外的第1个圆环柱体的体积3πr2h均分成3份;
中心细圆柱体空间外的第2个圆环柱体的体积5πr2h均分成5份;
中心细圆柱体空间外的第3个圆环柱体的体积7πr2h均分成7份;
中心细圆柱体空间外的第4个圆环柱体的体积9πr2h均分成9份;
……
中心细圆柱体空间外的第98个圆环柱体的体积197πr2h均分成197份;
中心细圆柱体空间外的第99个圆环柱体,即最外侧的圆环柱体的体积199πr2h均分成199份;
即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr2h,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成(2n+1)份,分割成的每个空间体积均为πr2h;
此时体积为πr2h的空间数量一共有10000个;
A3,再将圆柱体空间从下向上均分成100份,实现将每个体积均为πr2h的空间再细分成100份,最终将整个圆柱体空间分割成体积为(πr2h/100)的1000000个基础空间;
A4,将基础空间逐个进行编号;
A5,统计每个基础空间内的数据个数;
A6,当某基础空间越往外层的基础空间内的数据越少时,判定以此基础空间为中心形成数据聚集;
A7,统计A6情况的数量Z,数量Z即为全部数据聚集群的数量;
基础空间内的更小型的数据聚集情况忽略不计;
所述聚集群中心定位模块用于定位数据的Z个聚集群的中心的空间位置,其方式为:
B1,计算数据聚集中心所在的基础空间内所有数据的平均位置(Hv,Sv,Lv),Hv为此基础空间内所有数据的H值的平均值,Sv为此基础空间内所有数据的S值的平均值,Lv为此基础空间内所有数据的L值的平均值;
B2,计算平均位置(Hv,Sv,Lv)和此基础空间内其他数据之间的距离,找出距离平均位置(Hv,Sv,Lv)最近的数据Pi;数据展示空间内两点(He,Se,Le)和(Hf,Sf,Lf)之间的距离D的计算式为D2=(Hf-He)2+(Sf-Se)2+(Lf-Le)2;
B3,以Pi为中心计算数据Pi和此基础空间内其他数据之间的距离之和Ui,并找出距离数据Pi最近的数据Pj;
B4,以Pj为中心计算数据Pj和此基础空间内其他数据之间的距离之和Uj,并找出距离数据Pj最近的数据Pk;
B5,依照B3、B4的方式,直至计算完此基础空间内每个数据与其他数据之间的距离之和,筛选出最小的距离之和,对应的中心数据的位置即为所在聚集群的中心的空间位置;
B6,按照B1-B5的方法,找出每个聚集群的中心的空间位置;
所述数据清洗模块用于删除各聚集群之间的干扰数据,具体方式为:
C1,设定聚集密度ρd,聚集密度ρ=(球形空间内的数据个数)/(球形空间的体积);以聚集群的中心为球心,以R为球半径,球形空间的体积为(4/3)πR3;R为变量,统计球半径R的球形空间内的数据个数,计算直至聚集密度ρ大于设定的聚集密度ρd为止;在此过程中球形空间外的数值均白色显示,球形空间内的数据还是保持原先色彩;
C2,调整设定的聚集密度ρd,直至Z个聚集群的中心外均形成彩色的聚集球为止;
C3,删除Z个彩色聚集球外的数据。
2.一种可交互的数据清洗方法,其特征在于:
步骤1,创建可视化的数据展示空间,具体方式为:
可视化的数据展示空间为中心轴线竖直的圆柱体空间,可视化的数据展示空间采用HSL圆柱坐标系,在HSL圆柱坐标系中,颜色的表示式为(H,S,L),其中H表示色相,S表示饱和度,L表示亮度;色相表示色彩相貌,在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0~360度,0度和360度的空间位置相重叠;饱和度表示颜色的鲜艳程度,从圆柱体空间的中心轴线处径向水平向外取值0~100%,越大表示颜色越鲜艳,越小表示颜色越灰暗;亮度表示颜色的明暗程度,从圆柱体的底端向上到顶端取值0~100%,越大表示颜色越明亮,越小表示颜色越暗淡;
步骤2,将每个数据映射到可视化的数据展示空间中,具体方式为:
假设数据中最大值为Qmax,最小值为Qmin,那么数据P在可视化的数据展示空间中的位置为(Hp,Sp,Lp),其中Hp=[(P-Qmin)/(Qmax-Qmin)]×360度、Sp=[(P-Qmin)/(Qmax-Qmin)]×100%、Lp=[(P-Qmin)/(Qmax-Qmin)]×100%;
步骤3,计算数据聚集群的数量,具体方式为:
A1,以圆柱体空间的中心轴线为中心,在俯视角度将圆柱体空间分割成中心的1个细圆柱体空间和99个圆环柱体空间,中心细圆柱体空间的半径等于每个圆环柱体空间的径向宽度,设中心的细圆柱体空间的半径和每个圆环柱体的径向宽度均为r,设圆柱体空间的高度为h,那么
中心细圆柱体空间的体积为πr2h;
中心细圆柱体空间外的第1个圆环柱体的体积为3πr2h;
中心细圆柱体空间外的第2个圆环柱体的体积为5πr2h;
中心细圆柱体空间外的第3个圆环柱体的体积为7πr2h;
中心细圆柱体空间外的第4个圆环柱体的体积为9πr2h;
……
中心细圆柱体空间外的第98个圆环柱体的体积为197πr2h;
中心细圆柱体空间外的第99个圆环柱体的体积,即最外侧的圆环柱体的体积为199πr2h;
即中心细圆柱体空间外的第n个圆环柱体的体积为(2n+1)πr2h;
A2,将每个圆环柱体的空间,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成的每个空间体积均为πr2h:
中心细圆柱体空间外的第1个圆环柱体的体积3πr2h均分成3份;
中心细圆柱体空间外的第2个圆环柱体的体积5πr2h均分成5份;
中心细圆柱体空间外的第3个圆环柱体的体积7πr2h均分成7份;
中心细圆柱体空间外的第4个圆环柱体的体积9πr2h均分成9份;
……
中心细圆柱体空间外的第98个圆环柱体的体积197πr2h均分成197份;
中心细圆柱体空间外的第99个圆环柱体,即最外侧的圆环柱体的体积199πr2h均分成199份;
即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr2h,从俯视角度按照逆时针方向将360度空间竖直进行切分,分割成(2n+1)份,分割成的每个空间体积均为πr2h;
此时体积为πr2h的空间数量一共有10000个;
A3,再将圆柱体空间从下向上均分成100份,实现将每个体积均为πr2h的空间再细分成100份,最终将整个圆柱体空间分割成体积为(πr2h/100)的1000000个基础空间;
A4,将基础空间逐个进行编号;
A5,统计每个基础空间内的数据个数;
A6,当某基础空间越往外层的基础空间内的数据越少时,判定以此基础空间为中心形成数据聚集;
A7,统计A6情况的数量Z,数量Z即为全部数据聚集群的数量;
基础空间内的更小型的数据聚集情况忽略不计;
步骤4,定位数据的Z个聚集群的中心的空间位置,其方式为:
B1,计算数据聚集中心所在的基础空间内所有数据的平均位置(Hv,Sv,Lv),Hv为此基础空间内所有数据的H值的平均值,Sv为此基础空间内所有数据的S值的平均值,Lv为此基础空间内所有数据的L值的平均值;
B2,计算平均位置(Hv,Sv,Lv)和此基础空间内其他数据之间的距离,找出距离平均位置(Hv,Sv,Lv)最近的数据Pi;数据展示空间内两点(He,Se,Le)和(Hf,Sf,Lf)之间的距离D的计算式为D2=(Hf-He)2+(Sf-Se)2+(Lf-Le)2;
B3,以Pi为中心计算数据Pi和此基础空间内其他数据之间的距离之和Ui,并找出距离数据Pi最近的数据Pj;
B4,以Pj为中心计算数据Pj和此基础空间内其他数据之间的距离之和Uj,并找出距离数据Pj最近的数据Pk;
B5,依照B3、B4的方式,直至计算完此基础空间内每个数据与其他数据之间的距离之和,筛选出最小的距离之和,对应的中心数据的位置即为所在聚集群的中心的空间位置;
B6,按照B1-B5的方法,找出每个聚集群的中心的空间位置;
步骤5,删除各聚集群之间的干扰数据,具体方式为:
C1,设定聚集密度ρd,聚集密度ρ=(球形空间内的数据个数)/(球形空间的体积);以聚集群的中心为球心,以R为球半径,球形空间的体积为(4/3)πR3;R为变量,统计球半径R的球形空间内的数据个数,计算直至聚集密度ρ大于设定的聚集密度ρd为止;在此过程中球形空间外的数值均白色显示,球形空间内的数据还是保持原先色彩;
C2,调整设定的聚集密度ρd,直至Z个聚集群的中心外均形成彩色的聚集球为止;
C3,删除Z个彩色聚集球外的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310735118.8A CN116484179B (zh) | 2023-06-20 | 2023-06-20 | 一种可交互的数据清洗系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310735118.8A CN116484179B (zh) | 2023-06-20 | 2023-06-20 | 一种可交互的数据清洗系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116484179A true CN116484179A (zh) | 2023-07-25 |
CN116484179B CN116484179B (zh) | 2023-09-08 |
Family
ID=87218153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310735118.8A Active CN116484179B (zh) | 2023-06-20 | 2023-06-20 | 一种可交互的数据清洗系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484179B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018719A1 (en) * | 2014-12-01 | 2018-01-18 | Shuhuai CAO | Quality perception information management method and system based on three-dimensional evaluation and time domain tracing |
CN112699921A (zh) * | 2020-12-16 | 2021-04-23 | 重庆邮电大学 | 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法 |
CN113284585A (zh) * | 2020-02-19 | 2021-08-20 | 华为技术有限公司 | 数据展示方法、终端设备及存储介质 |
CN115563522A (zh) * | 2022-12-02 | 2023-01-03 | 湖南工商大学 | 交通数据的聚类方法、装置、设备及介质 |
-
2023
- 2023-06-20 CN CN202310735118.8A patent/CN116484179B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180018719A1 (en) * | 2014-12-01 | 2018-01-18 | Shuhuai CAO | Quality perception information management method and system based on three-dimensional evaluation and time domain tracing |
CN113284585A (zh) * | 2020-02-19 | 2021-08-20 | 华为技术有限公司 | 数据展示方法、终端设备及存储介质 |
CN112699921A (zh) * | 2020-12-16 | 2021-04-23 | 重庆邮电大学 | 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法 |
CN115563522A (zh) * | 2022-12-02 | 2023-01-03 | 湖南工商大学 | 交通数据的聚类方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
中科易研究: "关于数据清洗的常见方式", pages 1 - 8, Retrieved from the Internet <URL:https://www.163.com/dy/article/GL5HCJE20552HOGY.html> * |
张艾丽,熊建萍,杨云飞,冯松,邓辉,季凯帆: "基于聚类的太阳光球亮点的数据清洗", 《天文研究与技术》, vol. 13, no. 2, pages 233 - 241 * |
Also Published As
Publication number | Publication date |
---|---|
CN116484179B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814867B (zh) | 缺陷检测模型的训练方法、缺陷检测方法及相关装置 | |
CN108108761A (zh) | 一种基于深度特征学习的快速交通信号灯检测方法 | |
CN109410168B (zh) | 用于确定图像中的子图块类别的卷积神经网络的建模方法 | |
CN106803257B (zh) | 一种作物病害叶片图像中病斑的分割方法 | |
CN114170228B (zh) | 一种计算机图像边缘检测方法 | |
CN106778682A (zh) | 一种卷积神经网络模型的训练方法及其设备 | |
CN110757804B (zh) | 一种基于纹理贴图三维模型的全彩色分层切片算法 | |
CN115115613B (zh) | 基于机器视觉的喷漆缺陷检测方法及系统 | |
CN104037201A (zh) | 像素阵列、显示器以及将图像呈现于显示器上的方法 | |
CN109712160B (zh) | 基于广义熵结合改进的狮群算法实现图像阈值分割方法 | |
CN116484179B (zh) | 一种可交互的数据清洗系统及方法 | |
CN110782025B (zh) | 一种稻米加工在线工艺检测方法 | |
CN106250933A (zh) | 基于fpga的数据聚类的方法、系统及fpga处理器 | |
CN115620061A (zh) | 一种基于图像识别技术的五金零件缺陷检测方法及系统 | |
CN111127596A (zh) | 一种基于增量Voronoi序列的分层油画笔刷绘制方法 | |
JP3840603B2 (ja) | ワークを液中に浸漬する際のエアポケット発生判定ソフト | |
CN105088595A (zh) | 基于神经网络模型的印染在线配色设备及方法 | |
CN112122175A (zh) | 一种色选机的物料增强特征识别剔选方法 | |
CN115082444A (zh) | 一种基于图像处理的铜管焊缝缺陷检测方法及系统 | |
CN108171683B (zh) | 一种采用软件自动识别的细胞计数方法 | |
US20150276485A1 (en) | System and method for sorting fan deck colors | |
CN112053377A (zh) | 一种药物合成过程控制方法及系统 | |
CN115423746B (zh) | 一种用于计算蒙皮孔位和孔径的图像处理方法 | |
CN116452686A (zh) | 基于自适应聚类和线性规划最优化选点的点画生成方法 | |
CN107919103A (zh) | 多基色转换方法、驱动方法、可读存储介质和显示装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |