CN116484179A

CN116484179A - 一种可交互的数据清洗系统及方法

Info

Publication number: CN116484179A
Application number: CN202310735118.8A
Authority: CN
Inventors: 田瑜基; 王向春; 邱祥峰; 乔志勇; 张宇馨
Original assignee: Xiamen Kingtop Information Technology Co Ltd
Current assignee: Xiamen Kingtop Information Technology Co Ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-07-25
Anticipated expiration: 2043-06-20
Also published as: CN116484179B

Abstract

本发明提供一种可交互的数据清洗系统及方法，包括展示空间创建模块、数据映射模块、聚集群数量计算模块、聚集群中心定位模块、数据清洗模块；展示空间创建模块用于创建可视化的数据展示空间，数据映射模块将每个数据映射到可视化的数据展示空间中，聚集群数量计算模块用于计算数据聚集群的数量，聚集群中心定位模块用于定位数据的多个聚集群的中心的空间位置，数据清洗模块用于删除各聚集群之间的干扰数据；实现聚集数据群之间干扰数据清洗工作中数据变化和处理的可视化。

Description

一种可交互的数据清洗系统及方法

技术领域

本发明涉及数据处理领域，特别涉及一种可交互的数据清洗系统及方法。

背景技术

在对具有聚集特征的大量数据如城市人口分布数据、客户群体数据等进行分析时，为了准确分析各聚集数据群之间的关系，需要清洗掉各聚集数据群之间的干扰数据，假如清洗的过程可交互，那么就能够实时查看数据的变化和处理结果，有助于工作人员更便捷地进行数据清洗操作。

发明内容

所以，本发明为了实现聚集数据群之间干扰数据清洗工作中数据变化和处理的可视化，设计了一种可交互的数据清洗系统及方法。

本发明所采用的技术方案是：一种可交互的数据清洗系统：

包括展示空间创建模块、数据映射模块、聚集群数量计算模块、聚集群中心定位模块、数据清洗模块。

所述展示空间创建模块用于创建可视化的数据展示空间，具体方式为：

可视化的数据展示空间为中心轴线竖直的圆柱体空间，可视化的数据展示空间采用HSL圆柱坐标系，在HSL圆柱坐标系中，颜色的表示式为(H，S，L)，其中H表示色相，S表示饱和度，L表示亮度；色相表示色彩相貌，在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0～360度，0度和360度的空间位置相重叠；饱和度表示颜色的鲜艳程度，从圆柱体空间的中心轴线处径向水平向外取值0～100%，越大表示颜色越鲜艳，越小表示颜色越灰暗；亮度表示颜色的明暗程度，从圆柱体的底端向上到顶端取值0～100%，越大表示颜色越明亮，越小表示颜色越暗淡。

所述数据映射模块将每个数据映射到可视化的数据展示空间中，具体方式为：

假设数据中最大值为Q_max，最小值为Q_min，那么数据P在可视化的数据展示空间中的位置为(H_p，S_p，L_p)，其中H_p=[(P-Q_min)/(Q_max-Q_min)]×360度、S_p=[(P-Q_min)/(Q_max-Q_min)]×100%、L_p=[(P-Q_min)/(Q_max-Q_min)]×100%。

所述聚集群数量计算模块用于计算数据聚集群的数量，具体方式为：

A1，以圆柱体空间的中心轴线为中心，在俯视角度将圆柱体空间分割成中心的1个细圆柱体空间和99个圆环柱体空间，中心细圆柱体空间的半径等于每个圆环柱体空间的径向宽度，设中心的细圆柱体空间的半径和每个圆环柱体的径向宽度均为r，设圆柱体空间的高度为h，那么

中心细圆柱体空间的体积为πr²h；

中心细圆柱体空间外的第1个圆环柱体的体积为π(2r)²h-πr²h=3πr²h；

中心细圆柱体空间外的第2个圆环柱体的体积为π(3r)²h-π(2r)²h=5πr²h；

中心细圆柱体空间外的第3个圆环柱体的体积为π(4r)²h-π(3r)²h=7πr²h；

中心细圆柱体空间外的第4个圆环柱体的体积为π(5r)²h-π(4r)²h=9πr²h；

……

中心细圆柱体空间外的第98个圆环柱体的体积为π(99r)²h-π(98r)²h=197πr²h；

中心细圆柱体空间外的第99个圆环柱体的体积，即最外侧的圆环柱体的体积为π(100r)²h-π(99r)²h=199πr²h；

即中心细圆柱体空间外的第n个圆环柱体的体积为π[(n+1)r)]²h-π(nr)²h=(2n+1)πr²h。

A2，将每个圆环柱体的空间，从俯视角度按照逆时针方向将360度空间竖直进行切分，分割成的每个空间体积均为πr²h：

中心细圆柱体空间外的第1个圆环柱体的体积3πr²h均分成3份；

中心细圆柱体空间外的第2个圆环柱体的体积5πr²h均分成5份；

中心细圆柱体空间外的第3个圆环柱体的体积7πr²h均分成7份；

中心细圆柱体空间外的第4个圆环柱体的体积9πr²h均分成9份；

……

中心细圆柱体空间外的第98个圆环柱体的体积197πr²h均分成197份；

中心细圆柱体空间外的第99个圆环柱体，即最外侧的圆环柱体的体积199πr²h均分成199份；

即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr²h，从俯视角度按照逆时针方向将360度空间竖直进行切分，分割成(2n+1)份，分割成的每个空间体积均为πr²h。

此时体积为πr²h的空间数量一共有1+3+5+…+197+199=10000个。

A3，再将圆柱体空间从下向上均分成100份，实现将每个体积均为πr²h的空间再细分成100份，最终将整个圆柱体空间分割成体积为(πr²h/100)的1000000个基础空间。

A4，将基础空间逐个进行编号。

A5，统计每个基础空间内的数据个数。

A6，当某基础空间越往外层的基础空间内的数据越少时，判定以此基础空间为中心形成数据聚集。

A7，统计A6情况的数量Z，数量Z即为全部数据聚集群的数量。

进一步讲，基础空间内的更小型的数据聚集情况忽略不计。

所述聚集群中心定位模块用于定位数据的Z个聚集群的中心的空间位置，其方式为：

B1，计算数据聚集中心所在的基础空间内所有数据的平均位置(H_v，S_v，L_v)，H_v为此基础空间内所有数据的H值的平均值，S_v为此基础空间内所有数据的S值的平均值，L_v为此基础空间内所有数据的L值的平均值；

B2，计算平均位置(H_v，S_v，L_v)和此基础空间内其他数据之间的距离，找出距离平均位置(H_v，S_v，L_v)最近的数据P_i；数据展示空间内两点(H_e，S_e，L_e)和(H_f，S_f，L_f)之间的距离D的计算式为D²=(H_f-H_e)²+(S_f-S_e)²+(L_f-L_e)²；

B3，以P_i为中心计算数据P_i和此基础空间内其他数据之间的距离之和U_i，并找出距离数据P_i最近的数据P_j；

B4，以P_j为中心计算数据P_j和此基础空间内其他数据之间的距离之和U_j，并找出距离数据P_j最近的数据P_k；

B5，依照B3、B4的方式，直至计算完此基础空间内每个数据与其他数据之间的距离之和，筛选出最小的距离之和，对应的中心数据的位置即为所在聚集群的中心的空间位置；

B6，按照B1-B5的方法，找出每个聚集群的中心的空间位置。

所述数据清洗模块用于删除各聚集群之间的干扰数据，具体方式为：

C1，设定聚集密度ρ_d，聚集密度ρ=(球形空间内的数据个数)/(球形空间的体积)；以聚集群的中心为球心，以R为球半径，球形空间的体积为(4/3)πR³；R为变量，统计球半径R的球形空间内的数据个数，计算直至聚集密度ρ大于设定的聚集密度ρ_d为止；在此过程中球形空间外的数值均白色显示，球形空间内的数据还是保持原先色彩；

C2，调整设定的聚集密度ρ_d，直至Z个聚集群的中心外均形成彩色的聚集球为止；

C3，删除Z个彩色聚集球外的数据。

一种可交互的数据清洗方法：

步骤1，创建可视化的数据展示空间，具体方式为：

步骤2，将每个数据映射到可视化的数据展示空间中，具体方式为：

步骤3，计算数据聚集群的数量，具体方式为：

中心细圆柱体空间的体积为πr²h；

……

此时体积为πr²h的空间数量一共有1+3+5+…+197+199=10000个。

A4，将基础空间逐个进行编号。

A5，统计每个基础空间内的数据个数。

A7，统计A6情况的数量Z，数量Z即为全部数据聚集群的数量。

进一步讲，基础空间内的更小型的数据聚集情况忽略不计。

步骤4，定位数据的Z个聚集群的中心的空间位置，其方式为：

B6，按照B1-B5的方法，找出每个聚集群的中心的空间位置。

步骤5，删除各聚集群之间的干扰数据，具体方式为：

C3，删除Z个彩色聚集球外的数据。

本发明一种可交互的数据清洗系统及方法具有如下优点：

(1)将数据映射在HSL圆柱体展示空间中，实现数据的可视化展示；

(2)将HSL圆柱体展示空间划分成1000000个体积相等的基础空间，某基础空间越往外层的基础空间内的数据越少时，判定以此基础空间为中心形成数据聚集，并计算出每个数据聚集群的中心位置，构思新颖；

(3)通过设定聚集密度确定以数据聚集群的中心位置为球心的球半径，在计算过程中球形空间外的数值均白色显示，球形空间内的数据还是保持原先色彩，实现数据清洗工作中数据变化和处理的可视化，具有显著的创造性。

本发明的其他特征和优点将在随后的说明书中阐述，或者通过实施本发明而了解。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1是HSL圆柱坐标系示意图。

图2是中心细圆柱体空间外的第1个圆环柱体的体积3πr²h均分成3份。

图3是本发明的方法流程图。

具体实施方式

以下将结合附图和实施例对本发明一种可交互的数据清洗系统及方法作进一步的详细描述。

本发明所采用的技术方案，一种可交互的数据清洗系统：

如图1所示，所述展示空间创建模块用于创建可视化的数据展示空间，具体方式为：

中心细圆柱体空间的体积为πr²h；

……

如图2所示，中心细圆柱体空间外的第1个圆环柱体的体积3πr²h均分成3份；

……

此时体积为πr²h的空间数量一共有1+3+5+…+197+199=10000个。

A4，将基础空间逐个进行编号。

A5，统计每个基础空间内的数据个数。

A7，统计A6情况的数量Z，数量Z即为全部数据聚集群的数量。

进一步讲，基础空间内的更小型的数据聚集情况忽略不计。

B6，按照B1-B5的方法，找出每个聚集群的中心的空间位置。

C3，删除Z个彩色聚集球外的数据。

如图3所示，一种可交互的数据清洗方法：

步骤1，创建可视化的数据展示空间，具体方式为：

步骤3，计算数据聚集群的数量，具体方式为：

中心细圆柱体空间的体积为πr²h；

……

此时体积为πr²h的空间数量一共有1+3+5+…+197+199=10000个。

A4，将基础空间逐个进行编号。

A5，统计每个基础空间内的数据个数。

A7，统计A6情况的数量Z，数量Z即为全部数据聚集群的数量。

进一步讲，基础空间内的更小型的数据聚集情况忽略不计。

B6，按照B1-B5的方法，找出每个聚集群的中心的空间位置。

步骤5，删除各聚集群之间的干扰数据，具体方式为：

C3，删除Z个彩色聚集球外的数据。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种可交互的数据清洗系统，其特征在于：

包括展示空间创建模块、数据映射模块、聚集群数量计算模块、聚集群中心定位模块、数据清洗模块；

可视化的数据展示空间为中心轴线竖直的圆柱体空间，可视化的数据展示空间采用HSL圆柱坐标系，在HSL圆柱坐标系中，颜色的表示式为(H，S，L)，其中H表示色相，S表示饱和度，L表示亮度；色相表示色彩相貌，在俯视角度的逆时针方向按照红、橙、黄、绿、青、蓝、紫的次序取值0～360度，0度和360度的空间位置相重叠；饱和度表示颜色的鲜艳程度，从圆柱体空间的中心轴线处径向水平向外取值0～100%，越大表示颜色越鲜艳，越小表示颜色越灰暗；亮度表示颜色的明暗程度，从圆柱体的底端向上到顶端取值0～100%，越大表示颜色越明亮，越小表示颜色越暗淡；

假设数据中最大值为Q_max，最小值为Q_min，那么数据P在可视化的数据展示空间中的位置为(H_p，S_p，L_p)，其中H_p=[(P-Q_min)/(Q_max-Q_min)]×360度、S_p=[(P-Q_min)/(Q_max-Q_min)]×100%、L_p=[(P-Q_min)/(Q_max-Q_min)]×100%；

中心细圆柱体空间的体积为πr²h；

中心细圆柱体空间外的第1个圆环柱体的体积为3πr²h；

中心细圆柱体空间外的第2个圆环柱体的体积为5πr²h；

中心细圆柱体空间外的第3个圆环柱体的体积为7πr²h；

中心细圆柱体空间外的第4个圆环柱体的体积为9πr²h；

……

中心细圆柱体空间外的第98个圆环柱体的体积为197πr²h；

中心细圆柱体空间外的第99个圆环柱体的体积，即最外侧的圆环柱体的体积为199πr²h；

即中心细圆柱体空间外的第n个圆环柱体的体积为(2n+1)πr²h；

……

即中心细圆柱体空间外的第n个圆环柱体的体积(2n+1)πr²h，从俯视角度按照逆时针方向将360度空间竖直进行切分，分割成(2n+1)份，分割成的每个空间体积均为πr²h；

此时体积为πr²h的空间数量一共有10000个；

A3，再将圆柱体空间从下向上均分成100份，实现将每个体积均为πr²h的空间再细分成100份，最终将整个圆柱体空间分割成体积为(πr²h/100)的1000000个基础空间；

A4，将基础空间逐个进行编号；

A5，统计每个基础空间内的数据个数；

A6，当某基础空间越往外层的基础空间内的数据越少时，判定以此基础空间为中心形成数据聚集；

A7，统计A6情况的数量Z，数量Z即为全部数据聚集群的数量；

基础空间内的更小型的数据聚集情况忽略不计；

B6，按照B1-B5的方法，找出每个聚集群的中心的空间位置；

C3，删除Z个彩色聚集球外的数据。

2.一种可交互的数据清洗方法，其特征在于：

步骤1，创建可视化的数据展示空间，具体方式为：

步骤3，计算数据聚集群的数量，具体方式为：

中心细圆柱体空间的体积为πr²h；

中心细圆柱体空间外的第1个圆环柱体的体积为3πr²h；

中心细圆柱体空间外的第2个圆环柱体的体积为5πr²h；

中心细圆柱体空间外的第3个圆环柱体的体积为7πr²h；

中心细圆柱体空间外的第4个圆环柱体的体积为9πr²h；

……

中心细圆柱体空间外的第98个圆环柱体的体积为197πr²h；

即中心细圆柱体空间外的第n个圆环柱体的体积为(2n+1)πr²h；

……

此时体积为πr²h的空间数量一共有10000个；

A4，将基础空间逐个进行编号；

A5，统计每个基础空间内的数据个数；

A7，统计A6情况的数量Z，数量Z即为全部数据聚集群的数量；

基础空间内的更小型的数据聚集情况忽略不计；

B6，按照B1-B5的方法，找出每个聚集群的中心的空间位置；

步骤5，删除各聚集群之间的干扰数据，具体方式为：

C3，删除Z个彩色聚集球外的数据。