CN109766336A

CN109766336A - 基于DataPurge组件的数据自动清洗方法

Info

Publication number: CN109766336A
Application number: CN201910123553.9A
Authority: CN
Inventors: 李晨; 叶静萍
Original assignee: Anhui Dian Dian Science And Technology Development Co Ltd
Current assignee: Anhui Dian Dian Science And Technology Development Co Ltd
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-05-17

Abstract

本发明公开了一种基于DataPurge组件的数据自动清洗方法，包括如下步骤：A)根据实际业务规则，在DataPurge组件中直接使用预定义清洗算法或自定义清洗算法规则，自动执行或执行过程进行人工中断，并生成报告日志或图形图像进行显示；B)根据所述报告日志，使用手工方式或重新更新定义清洗判断规则，修正清洗动作，执行后，再次生成报告日志进行归档；对于无法自动修正的问题，采用人工干预的方式作出适时调整。本发明能自动清洗数据处理的，可接入和解析多种商业数据库、工业实时数据和PLC存储器，自动化程度高，准确性和实效性好，可实现同框架下的其他应用组件的无缝对接，成本可控。

Description

基于DataPurge组件的数据自动清洗方法

技术领域

本发明涉及数据处理领域，特别涉及一种基于DataPurge组件的数据自动清洗方法。

背景技术

通常，数据清洗表示对已知有效数据集合进行查询检验的过程，是发现问题、纠正错误的必要步骤，是为有效数据集合中的数据提供信息一致性和完整性的重要手段。从字面含义上看，数据清洗的重点是“洗”，即将那些不符合规范、不满足实际要求的数据定位识别出来，按照业务流程或某些规范准则将错误数据进行修正或补缺。

在数据清洗过程中，不符合要求的内容多称为“脏数据”，如：错误的异常结果、不完整的数据、停跳数据、重复数据、无效数据等；脏数据的表现形式多种多样，且发生的原因可能也是五花八门，按照某种统一的方式来处理(清洗)脏数据的方式可能并不可行。

比如，现代城市中会有很多停车场，每个车场多会使用感应、射频或车牌识别等方式记录车辆的进出信息，通过配备的管理软件完成车辆的进出记录、收费、设备控制、车辆信息提取等功能。不同停车场可能会使用不同供应商(或生厂商)的产品，即便同一个停车场，随着规模或成本的变更，也可能会使用不同的数据采集方式和异构的数据存储结构来实现相同的停车系统功能。如此，存储不统一、数据标准不一致、应用模式不一样，使得同一个应用系统中的数据就有可能出现各种各样的问题，例如：收费金额异常、入口出口信息不一致、车牌比对不能正确识别等。

传统的数据清洗方式或方法中，如：最简单的人工比对方法也可完成大多数同构或异构的数据检验、更正和补救。但缺点(或问题)往往也同样存在：数据清洗的实际效果不如所愿，需要人工干预且费时费力，清洗规则不是次次有效，清洗支出费用容易超出预算。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种能自动清洗数据处理的，可接入和解析多种商业数据库、工业实时数据和PLC存储器，自动化程度高，准确性和实效性好，可实现同框架下的其他应用组件的无缝对接，成本可控的基于DataPurge组件的数据自动清洗方法。

本发明解决其技术问题所采用的技术方案是：构造一种基于DataPurge组件的数据自动清洗方法，包括如下方式步骤：

A)根据实际业务规则，在DataPurge组件中直接使用预定义清洗算法或单独自定义清洗算法规则，自动执行或执行过程进行人工中断，并生成报告日志或图形图像进行显示；

B)根据所述报告日志，使用手工方式或重新定义清洗判断规则，重新修正清洗动作，执行后，再次生成报告日志进行归档；对于无法自动修正的问题，采用人工干预的方式作出适时调整。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，当相关的数据处于平均的分布状态时，所述DataPurge组件采用分组统计后取平均值的设定常量倍数来判断是否为异常数据。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，对于已经筛选出的异常数据，采用平均值代替异常值、忽略/删除异常值或人工修正的方式进行修正或处理。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，所述DataPurge组件中包含预定义或自定义的重复数据判断规则，所述自定义的重复数据判断规则从分析数据阶段即开始自动运行，采用先定义数据结构再填充实际数据的方式来完成重复数据的筛选。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，所述自定义的重复数据判断规则的执行流程包括如下过程：

A')接入源数据集，解析元数据及关系，定义清洗规则所需的数据结构；

B')获取某段时间内需要清洗的实际数据集合，按照所述数据结构写入中间层；

C')在内存中开辟高速缓冲区，将所述中间层的数据写入内存缓冲区；

D')在获取数据后的内存缓冲区中，通过异常处理、去重、补空值和去除噪点数据后，再一次回写磁盘。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，所述DataPurge组件按照数据清洗配置等级和数据关键性等级，使用全局量补充、配差平、补差法或删除法进行噪点修补或更改为实际数据；所述补差法包括随机补差、平均补差和热补差。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，所述DataPurge组件部署至AtomBaseFrame应用平台后，能无缝对接异构数据接入服务DataInterface和数据扁平化服务DataFormatFrame组件，实现多种商业数据库、工业实时数据和PLC存储器的接入和解析，实现多种异构平台下的数据清洗和诊断。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，所述DataPurge组件清洗数据的方式包括清洗关联性和一致性、清洗缺失值、清洗错误、噪点和重复数据的清洗。

在本发明所述的基于DataPurge组件的数据自动清洗方法中，根据清洗数据集可映射的图形图像输出分析方式至少包括柱形图、条图、折线图和雷达图。

实施本发明的基于DataPurge组件的数据自动清洗方法，具有以下有益效果：可使用预定义或自定义的清洗算法规则，自动执行或执行过程进行人工中断，并生成报告日志或图形图像；自动清洗过程可迭代执行，迭代过程可重新更新定义清洗算法；支持多种格式的商业数据库、工业控制数据库系统和PLC存储器的接入，实现异构平台下的数据清洗和诊断；数据自动清洗方式多样，且支持人工修正和干预，清洗结果和实际接入数据系统物理隔离，在不影响现有应用系统或数据系统的前提下，仍可获取清洗后的中间数据结果集；在系统框架下，支持其他应用组件的无缝连接，清洗规则或过程可在系统框架实现复用，本发明能自动清洗数据处理的，可接入和解析多种商业数据库、工业实时数据和PLC存储器，自动化程度高，准确性和实效性好，可实现同框架下的其他应用组件的无缝对接，成本可控。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于DataPurge组件的数据自动清洗方法一个实施例中DataPurge组件的示意图；

图2为所述实施例中数据自动清洗的框图；

图3为所述实施例中基于DataPurge组件的数据自动清洗方法的流程图；

图4为所述实施例中某停车场停车示例数据的直方图；

图5为所述实施例中某停车场停车示例数据的雷达图；

图6为所述实施例中自定义的重复数据判断规则的执行流程图；

图7为所述实施例中停车场停车数据自动数据清洗的实时运行示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明基于DataPurge组件的数据自动清洗方法实施例中，DataPurge组件的示意图如图1所示。DataPurge组件是数据自动清洗服务组件，是AtomBaseFrame应用框架下用于自动化处理检测数据集中异常数据、无关数据、噪点、空缺等选项的专业组件工具，清理规则自定义，自动清洗处理准确性和实效性较高；DataPurge组件部署至AtomBaseFrame应用平台后，配合异构数据接入服务DataInterface和数据扁平化服务DataFormatFrame，能实现异构数据接入服务DataInterface和数据扁平化服务DataFormatFrame的无缝对接，实现多种商业数据库、工业实时数据和PLC存储器的接入和解析，实现多种异构平台下的数据清洗和诊断，可能的异构数据结构包括：SQL、Sybase、MySQL、PostgreSQL、SQLite、NoSQL、Amazon、Azure、XML、兼容ODBC/JDBC的商业数据系统，主流PLC数据接口(ABB、Siemens、Omron、MUDBUS等)和部分物联网数据接口等。作为AtomBaseFrame整体框架中上层应用的一部分，可实现同框架下的其他应用组件(如第三方BasePlugins)的无缝连接，成本可控。

具体而言，DataPurge组件是通过提取指定范围内的数据集合，依照分析统计、比对规则、补缺失、去异常、去重、去噪点、去空等规则或自定义规范，获取实际有效值、估算值、比对值或人工修正值等，完成不同异构系统数据格式和不同数据结构的自动数据清洗组件。数据自动清洗的框图如图2所示，上述过程，在实际应用中可自动存储至本地或远程“机器学习库”，并应用至下一次的自动清洗作业。

图3为本实施例中基于DataPurge组件的数据自动清洗方法的流程图，图3中，该基于DataPurge组件的数据自动清洗方法包括如下步骤：

步骤S01根据实际业务规则，在DataPurge组件中直接使用预定义清洗算法或单独自定义清洗算法规则，自动执行或执行过程进行人工中断，生成报告日志或图形图像进行显示：本步骤中，根据实际业务规则，在DataPurge组件中直接使用预定义清洗算法(DataPurge组件本身包含清洗算法)或单独自定义清洗算法规则，自动执行或执行过程进行人工中断，生成报告日志或图形图像进行显示，根据清洗数据集可映射的图形图像输出分析方式至少包括柱形图、条图、折线图和雷达图。

例如：某停车场提取了一段时间内的数据(比如，车辆进出记录表)，DataPurge组件会对数据集合进行描述性分析，查看哪些数据是合理的，哪些是不合理的，也以此判断数据的基本情况。如，根据车牌号码，判断某段时间内(如24小时)车辆的进出场记录；并通过作图的方式判断异常车辆(噪点)。

LicensePlate:ARRAY[1..10]of string{'皖AE5520','皖A12345','皖A67890,'皖A13579','皖A24680','皖A54321','皖A09876','皖AC01234','皖AG87654','皖AT02468'}；

Histogram(LicensePlate)；##直方图；

RadarChart(LicensePlate)；##雷达图。

图4为本实施例中某停车场停车示例数据的直方图；图5为本实施例中某停车场停车示例数据的雷达图。从图4和图5的图形中，可清楚的判断出“皖AC01234”处于异常状态(示例为26次)，即“皖AC01234”是需要处理的数据。

当相关的数据处于较平均的分布状态时，DataPurge组件会采用分组统计取平均值的设定倍数来判断是否为异常数据，本实施例中，设定倍数为X倍，比如：COUNT(GROUP(车牌号))*X<＝异常数据；

对于已经筛选出的异常数据，可采用如下三种方式来加以修正或处理：

1)取用平均值代替异常值：此种方式较为简单，且自动化程度高，无需人工参与；

2)忽略异常值(或删除异常值)：当异常数据量较少时，可以采用；但当数据总量较多时，最终会产生统计数据上的误差；

3)人工修正：可在软件配置文件中，赋予人工修改的权限以及修正的项目和范围；对于存储的“非敏感数据”，此方法较为直接，也比较简单；但对于“敏感数据”，例如：收费金额，可根据实际授权级别，来启用或禁止人工修正功能。

步骤S02根据报告日志，使用手工方式或重新定义清洗判断规则，重新修正清洗动作，执行后，再次生成报告日志进行归档；对于无法自动修正的问题，采用人工干预的方式作出适时调整：本步骤中，根据步骤S01中的报告日志，使用手工方式或重新定义清洗判断规则，重新修正清洗动作，执行后，再次生成报告日志进行归档；对于无法自动修正的问题，采用人工干预的方式作出适时调整。本发明自动清洗处理的准确性和实效性较高、可实现同框架下的其他应用组件的无缝连接、成本可控。

将DataPurge组件部署至AtomBaseFrame应用平台后，能实现异构数据接入服务DataInterface和数据扁平化服务DataFormatFrame的无缝对接，实现多种异构平台下的数据清洗和诊断。

在某些数据集合中，重复数据不但需要更多的存储空间，在传输过程中也会占用额外的带宽，当重复数据参与某些计算环境时，还会降低系统性能和交互反应速度。DataPurge组件中包含预定义或自定义的重复数据判断规则DATADEDUPLICATION，简称DD算法；自定义的重复数据判断规则从分析数据阶段即开始自动运行，采用先定义数据结构再填充实际数据的方式来完成重复数据的筛选。

图6为本实施例中自定义的重复数据判断规则的执行流程图，图6中，该自定义的重复数据判断规则的执行流程包括如下步骤：

步骤S01'接入源数据集，解析元数据及关系，定义清洗规则所需的数据结构：本步骤中，接入源数据集，解析元数据及关系，定义清洗规则所需的数据结构：车牌号，车主姓名，入场时间，出场时间；TDateDesc＝CNumber:string；Name:string；ITime:DateTime；OTime:DateTime。

步骤S02'获取某段时间内需要清洗的实际数据集合，按照数据结构写入数据结合中间层：本步骤中，获取某段时间内需要清洗的实际数据集合，按照步骤S01'中定义的数据结构，写入数据结合中间层DDUnion。

dtCount:＝get{SELECT...}；

while dtCount do

Write ddUnion；

Succ(dtCount)。

步骤S03'在内存中开辟缓冲区，将中间层的数据写入缓冲区：本步骤中，在内存中开辟缓冲区，将中间层DDUnion的数据写入缓冲区；

MemBuffer(1024*1024)；

WriteToBuffer(ddUnion)。

步骤S04'将获取的缓冲区备用，通过异常处理、补空值和去除噪点数据后，再回写磁盘：步骤S03'中获取的缓冲区备用，通过其他数据处理后，例如：异常处理、补空值和去除噪点数据后，再回写磁盘；

ExceptionCheck(memBuffer)；

RepairNullCheck(memBuffer)；

RemoveError(memBuffer)；

WriteToDisk(memBuffer)。

一般情况下，噪点的产生具有随机性，例如：地感线圈某个时间点突然失效，没有监测到车辆；阳光反射到车牌，没有检测到车牌号码等。例如，模拟产生一个噪点：

LicensePlate:ARRAY[1..10]of string{'皖AE5520','皖A12345','皖A67890,'皖A13579','皖A24680','皖A54321','皖A09876','皖AC01234'}；

SimulateHotPixel('皖A24680')；

[{'AE5520','A12345','A67890,'A13579',NAN,'A54321','A09876','AC01234'}]；

从上述模拟过程中，可以看出A24680车牌已经更改为NAN，成为一个噪点；

TotalHotPixel(get{HoPixel})；

>>1##返回1。

如何将噪点修补或更改为实际数据，DataPurge组件按照数据清洗配置等级(等级可在配置文件中修改)和数据关键性等级，用全局量补充、配差平、补差法或删除法进行噪点修补或更改为实际数据，具体而言，分为三种方法：

1)使用全局量补充：可定义配置文件，定义某个或某些全局量，当出现噪点时，使用此全局量自动覆盖噪点数据；

2)补差法：又可分为两种方式：

2.1)随机补差：从原有噪点中间库中，随机抽取某个样本，替换噪点数据；

GetHotPixel()；

value:＝RandomFromHotPixelLibary()；

Modify(value,HotPixel)；

2.2)热补差：使用键盘输入的方式对噪点数据进行修正，若噪点数据较为集中，也可使用批量数据导入格式，对噪点进行修正；

3)删除法：直接删除噪点；适合噪点数量较少，删除操作对整体数据影响(数量、比例或精度等)不大的情况。

DataPurge组件作为AtomBaseFrame应用框架下的数据自动清洗服务，支持多种异构平台数据形式的清理，支持多种方式的脏数据规则判断和修正，可自定义清理规则和修改方式，支持手工修正并可保存为自动学习库，并可自动应用至下一次的清洗过程。

DataPurge组件可以清洗数据的方式多种多样，例如：

1)清洗关联性和一致性：关联性表示数据之间的内在联系，如主从关系、层次关系是否强制有效；数据一致性表示是否超出标识范围、数据无效、相同数据是否出现多种表现形式、自定义结构是否冗余等；

2)清洗缺失值：由于各种各样的原因，数据集合中包含缺失值是不可避免的，比如，数据类型错误、精度错误、字段长度超过限制等；对于缺失值的处理规则一般很难做到统一标准，DataPurge组件常用的方法多是在范围内取趋势值、平均值或人工计算等；

3)清洗错误：错误发生的原因可能是软硬件设备设施发生故障，或实际业务流程执行错误，理想的修正方式是重新执行业务流程补救该错误数据，如业务流程不可再次更新，DataPurge组件同样使用获取趋势值、平均值或人工补救的方式；

4)噪点：噪点产生就有随机性，DataPurge组件按照全局补充(AtomBaseFrame应用框架的自定义常量)、人工补充和删除的顺序清洗噪点；

5)重复数据的清洗：有些时候，重复数据可能并非是数据清洗的对象，如，某些历史数据查询系统中，为了提高系统性能而故意为之，DataPurge组件会筛选重复数据样例(样本)，生成日志记录，供使用者参考后，再采用合并或删除的方式加以清洗。

DataPurge组件的清洗过程是一个渐进的过程，使用者在清洗执行过程中可中断，并重新规划清洗规则或自定义新规则，DataPurge组件在执行过程中的日志记录、诊断结果可作为用户的参考依据。

例如：城市停车场停车数据统一平台以AtomBaseFrame应用框架为基础，接入若干停车场系统后，通过统一的数据结构，统一的数据格式，统一的二次开放接口，将多种逻辑数据分离的停车场系统进行整合，并提供了DataPurge组件以用于数据清理流程，可持续对异构环境下的停车场应用系统进行连续的数据收集、配置和清理：1)针对不同停车场供应商的数据，可整合为统一结构和格式的基本数据集；2)对各停车场系统中，有缺陷、有异常的数据自动筛选和修正，同时，修正的方式或方法可存储为“应用规则库”，为下一次的筛选或修正，提供依据；3)停车场停车数据统一平台自动数据清洗模块是实时运行的，运行间隔时间可自定义配置，万条数据记录(测试基准)可实现秒级检测和清理；图7为本实施例中停车场停车数据自动数据清洗的实时运行示意图。

统一平台数据和停车场源数据是物理隔离的，不会主动修改原系统中的数据(修改源数据需要实际用户权限)，对原系统的使用方法、使用流程不会造成任何影响；停车场停车数据统一平台自动数据清洗模块具备“自诊断功能”，可实现日志记录、软硬件故障、数据峰值提示等功能，并可同步至远程数据端。

总之，本实施例中，DataPurge组件是一个将数据消缺、精简、去除，并保持数据统一性、完整性、一致性、有效性的过程。

DataPurge组件从数据分析入手，支持多种异构数据系统的来源接入，可同时对多个异构的数据集合制定不同的清洗规则，实际清洗过程是渐进的、可中断的、可人工干预的，使用者的自定义方式配置灵活，可在任何时候加入清洗学习库，提高清洗精度。

DataPurge组件本身配置的清洗方式多样，如：名称规则、格式规范、错误问题判断、空数据、重复数据、数据的不一致和不合法、噪点数据等；这些方式也可以同时合并使用，如：判断名称，可同时清洗格式字符、长度、唯一性或去空等；DataPurge组件的清洗结果在每次结束后，可以回写实际数据集合(需要权限配置)，也可以将清洗结果保存至历史库，历史库支持多版本，各版本历史库之间可以回溯。

DataPurge组件对于分析或处理的结果，不但可以生成文本日志、比对标签，也可以生产分析图形图像(柱形图、条图、折线图、雷达图等)，查询问题或判断问题的方式更加直观直接。本发明自动清洗处理的准确性和实效性较高、可实现同框架下的其他应用组件的无缝连接、成本可控。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于DataPurge组件的数据自动清洗方法，其特征在于，包括如下步骤：

B)根据所述报告日志，使用手工方式或重新更新定义清洗判断规则，修正清洗动作，执行后，再次生成报告日志进行归档；对于无法自动修正的问题，采用人工干预的方式作出适时调整。

2.根据权利要求1所述的基于DataPurge组件的数据自动清洗方法，其特征在于，当相关的数据处于平均的分布状态时，所述DataPurge组件采用分组统计后取平均值的设定常量倍数来判断是否为异常数据。

3.根据权利要求2所述的基于DataPurge组件的数据自动清洗方法，其特征在于，对于已经筛选出的异常数据，采用平均值代替异常值、忽略/删除异常值或人工修正的方式进行修正或处理。

4.根据权利要求3所述的基于DataPurge组件的数据自动清洗方法，其特征在于，所述DataPurge组件中包含预定义或自定义的重复数据判断规则，所述自定义的重复数据判断规则从分析数据阶段即开始自动运行，采用先定义数据结构再填充实际数据的方式来完成重复数据的筛选。

5.根据权利要求4所述的基于DataPurge组件的数据自动清洗方法，其特征在于，所述自定义的重复数据判断规则的执行流程包括如下过程：

B')获取某段时间内需要清洗的实际数据集合，按照所述数据结构写入数据集合中间层；

6.根据权利要求1至5任意一项所述的基于DataPurge组件的数据自动清洗方法，其特征在于，所述DataPurge组件按照数据清洗配置等级和数据关键性等级，使用全局量补充、配差平、补差法或删除法进行噪点修补或更改为实际数据；所述补差法包括随机补差、平均补差和热补差。

7.根据权利要求1至5任意一项所述的基于DataPurge组件的数据自动清洗方法，其特征在于，所述DataPurge组件部署至AtomBaseFrame应用平台后，能无缝对接异构数据接入服务DataInterface和数据扁平化服务DataFormatFrame组件，实现多种商业数据库、工业实时数据和PLC存储器的接入和解析，实现多种异构平台下的数据清洗和诊断。

8.根据权利要求1所述的基于DataPurge组件的数据自动清洗方法，其特征在于，所述DataPurge组件清洗数据的方式包括清洗关联性和一致性、清洗缺失值、清洗错误、噪点和重复数据的清洗。

9.根据权利要求1所述的基于DataPurge组件的数据自动清洗方法，其特征在于，根据清洗数据集可映射的图形图像输出分析方式至少包括柱形图、条图、折线图和雷达图。