CN106933992B - 基于数据分析的分布式数据清洗系统及方法 - Google Patents

基于数据分析的分布式数据清洗系统及方法 Download PDF

Info

Publication number
CN106933992B
CN106933992B CN201710103779.3A CN201710103779A CN106933992B CN 106933992 B CN106933992 B CN 106933992B CN 201710103779 A CN201710103779 A CN 201710103779A CN 106933992 B CN106933992 B CN 106933992B
Authority
CN
China
Prior art keywords
data
rule
data cleansing
analysis
cleansing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710103779.3A
Other languages
English (en)
Other versions
CN106933992A (zh
Inventor
刘星
张春宏
侯鑫
潘庆东
阳忠平
杨晓斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING HAPH TECHNOLOGIES CO LTD
Original Assignee
BEIJING HAPH TECHNOLOGIES CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HAPH TECHNOLOGIES CO LTD filed Critical BEIJING HAPH TECHNOLOGIES CO LTD
Priority to CN201710103779.3A priority Critical patent/CN106933992B/zh
Publication of CN106933992A publication Critical patent/CN106933992A/zh
Application granted granted Critical
Publication of CN106933992B publication Critical patent/CN106933992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Factory Administration (AREA)

Abstract

本发明属于数据处理技术领域,提供了一种基于数据分析的分布式数据清洗系统及方法。该系统包括:传感器网络,包括多个传感器;数据采集节点,包括数据清洗引擎和数据清洗规则库;数据服务器,包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块。该方法包括:通过传感器网络中的多个传感器采集第一数据;在数据采集节点中根据第一数据生成第二数据;在数据服务器中,根据第二数据,利用数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块完成数据清洗。本发明的系统和方法能够自适应地调整数据清洗规则,提高分布式传感器网络部署的效率,并及时消除新产生的干扰对采集系统的影响。

Description

基于数据分析的分布式数据清洗系统及方法
技术领域
本发明属于数据处理技术领域,特别涉及一种基于数据分析的分布式数据清洗系统及方法。
背景技术
大数据分析系统已经越来越多地被应用到各个领域之中,作为数据分析的基础,数据的准确性和有效性对于分析的过程和结论,无疑将产生直接的影响。因此,如何确保数据的质量已经成为成功应用大数据分析系统所需要解决的首要问题。
发明内容
为了解决现有技术中存在的上述问题,本发明提出了一种基于数据分析的分布式数据清洗系统及方法,应用于物联网中分布式传感器网络的数据采集过程之中。该系统在对以往采集数据的分析基础之上,动态生成数据清洗的方法(规则),并通过网络将清洗的规则分发到不同的数据采集节点,由数据采集节点执行数据清洗规则,从而达到对不同的数据源进行定制化的数据清洗的目的。
本发明提供了一种基于数据分析的分布式数据清洗系统,包括:
传感器网络,包括多个传感器,用于采集第一数据;
数据采集节点,包括数据清洗引擎和数据清洗规则库;所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;
数据服务器,包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块;
所述第二数据传输到并储存于所述数据库中,所述数据有效性分析模块用于对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;
所述数据清洗规则生成模块则依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正;如果需要修正,则根据所述有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;
所述数据清洗规则发布模块将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。
优选地,所述基于数据分析的分布式数据清洗系统包括多个不同的数据采集节点。
优选地,所述传感器为电流传感器,电压传感器,流量传感器,压力传感器和温度传感器中的任意一种或多种。
本发明还提供了一种基于数据分析的分布式数据清洗方法,所述方法包括如下步骤:
通过传感器网络中的多个传感器采集第一数据;
在包括数据清洗引擎和数据清洗规则库的数据采集节点中:
所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;
在包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块的数据服务器中:
将所述第二数据传输并储存于所述数据库中;在所述数据有效性分析模块中,对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;
在所述数据清洗规则生成模块中,依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正,如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;
在所述数据清洗规则发布模块中,将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。
优选地,所述第一数据为电流值,电压值,气体或者液体的压力,温度,流量中的任意一种或多种。
与现有技术相比,本发明的有益效果是:
能够自适应地调整数据清洗规则,不需要在现场逐一地人工进行设置和校验,因而极大地提高了分布式传感器网络部署的效率。
当因传感器周围环境(如电磁环境)发生变化,而对传感器数据采集过程产生干扰时,本发明可以基于对长期数据的分析而产生消除新增干扰的数据清洗规则,从而及时消除新产生的干扰对采集系统的影响。
本发明的其他特征和优点将在如下的具体实施方式部分详细描述。
附图说明
图1为本发明的实施例提供的基于数据分析的分布式数据清洗系统的结构示意图;
图2为本发明的实施例提供的基于数据分析的分布式数据清洗方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
本发明的第一个方面提供了一种基于数据分析的分布式数据清洗系统,包括:
传感器网络,包括多个传感器,用于采集第一数据;
数据采集节点,包括数据清洗引擎和数据清洗规则库;所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;
数据服务器,包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块;所述第二数据传输到并储存于所述数据库中,所述数据有效性分析模块用于对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;所述数据清洗规则生成模块则依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正;如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;所述数据清洗规则发布模块将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。
优选地,上述基于数据分析的分布式数据清洗系统可以包括多个不同的数据采集节点,从而达到对不同的数据源进行定制化的数据清洗的目的。
如图1所示,本发明提供了一种基于数据分析的分布式数据清洗系统,所述系统包括:传感器网络3、数据采集节点1和数据服务器2。
传感器网络3包括多个传感器,用于采集第一数据,基于此,也可以将传感器称为数据源。传感器例如可以为电流传感器,电压传感器,流量传感器,压力传感器和温度传感器等数据源中的任意一种或多种。相应地,第一数据例如可以为电流值,电压值,气体或者液体的压力,温度,流量等数据。
数据采集节点1包括数据清洗引擎11和数据清洗规则库12。数据清洗引擎11根据传感器标识在数据清洗规则库12中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据(即,清洗后的第一数据)。
数据服务器2包括数据库21、数据有效性分析模块22、数据清洗规则生成模块23和数据清洗规则发布模块24。
所述第二数据传输到(例如,可以通过网络传输)并储存于数据库21中。数据库21用于存储这些第二数据,这些存储的第二数据将作为相应的应用系统(如:大数据分析)的数据源使用。
数据有效性分析模块22用于对已经存储在数据库21中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到数据清洗规则生成模块23。
数据清洗规则生成模块23则依据输入的有效性验证分析结果,来判断当前的针对某个数据源(即,传感器)的清洗规则是否需要修正。如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源(传感器)的清洗规则,并将新的数据清洗规则发送给数据清洗规则发布模块24。如果无需修正,数据清洗系统中的清洗规则不发生任何变化,即维持现有的清洗规则不变。
数据清洗规则发布模块24将数据清洗规则生成模块23新产生的清洗规则,发送到相应的数据采集节点1,并更新数据采集节点1中的数据清洗规则库12,从而使得新产生的数据清洗规则能够被数据清洗引擎11所执行,并达到使用新的数据清洗规则完成针对相应数据源(传感器)的数据清洗工作。
本发明的第二个方面提供了一种基于数据分析的分布式数据清洗方法,所述方法包括如下步骤:
通过传感器网络中的多个传感器采集第一数据;
在包括数据清洗引擎和数据清洗规则库的数据采集节点中:所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;
在包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块的数据服务器中:将所述第二数据传输并储存于所述数据库中;在所述数据有效性分析模块中,对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;在所述数据清洗规则生成模块中,依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正,如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;在所述数据清洗规则发布模块中,将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。
如图2所示,本发明的第二个方面提供的基于数据分析的分布式数据清洗方法,包括如下步骤:
步骤41:通过传感器网络采集第一数据。
其中,所述传感器网络可以包括多个传感器。所述传感器例如可以为电流传感器,电压传感器,流量传感器,压力传感器和温度传感器等数据源中的任意一种或多种。相应地,第一数据例如可以为电流值,电压值,气体或者液体的压力,温度,流量等数据中的任意一种或多种。
步骤42:数据清洗引擎根据传感器标识在数据清洗规则库中找到针对不同传感器所设定的数据清洗规则。
步骤43:通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据。
步骤44:将所述第二数据传输并储存于所述数据库中。
步骤45:在所述数据有效性分析模块中,对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块。
其中,典型的自相关的数据有效性验证分析可以为采用时间序列自相关分析,也就是识别数据的时间序列特性。典型的生产过程都具有时间序列特性,例如:每天早晨8:00开始工作,下午5:00结束,这样的生产过程,具有24小时重复的时间序列特性。典型的互相关分析就是根据内在的生产过程,不同的传感器之间的数据具有很强的相关性。例如:工序一和工序二的电机工作具有同步性或者一定的延时同步性。这是由生产工艺或者流程所决定的,因此两个工序的电机之间就存在确定的相关性。
步骤46:在所述数据清洗规则生成模块中,依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正。
步骤47:如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;如果无需修正,数据清洗系统中的清洗规则不发生任何变化,即维持现有的清洗规则不变。
步骤48:在所述数据清洗规则发布模块中,将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作。
与现有技术相比,本发明可以获得如下有益效果:
本发明的基于数据分析的分布式数据清洗系统和基于数据分析的分布式数据清洗方法能够自适应地调整数据清洗规则,不需要在现场逐一地人工进行设置和校验,因而极大地提高了分布式传感器网络部署的效率。而且,当因传感器周围环境(如电磁环境)发生变化,而对传感器数据采集过程产生干扰时,本发明可以基于对长期数据的分析而产生消除新增干扰的数据清洗规则,从而及时消除新产生的干扰对采集系统的影响。
实施例
下面以对电机的工作电流采样为例,说明本发明提供的基于数据分析的分布式数据清洗系统的工作过程。
在对电流数据进行采集的过程中,由于受到周围环境的干扰影响,在电机不工作时电流传感器(即电流计)3的实际采样值并不总是0值。为此,最初在负责接受电流采样数据的数据采集节点1的数据清洗规则库12中,存储了针对该电流计采样数据的清洗规则:如果采样值小于0.1,则输出0。
经过一段时间的数据采样之后,数据服务器2上的数据有效性分析模块22通过对清洗后的采样数据分析,将电机启停频率过高,启停时间间隔过小的分析结果输入给数据清洗规则生成模块23。数据清洗规则生成模块23则根据这些分析结果触发数据清洗规则修订算法,将置0阈值(置0阈值为:当数值为小于阈值的数值时,一律为零;例如,如果置零阈值为0.2,则对于x<0.2的值,则令x=0)提高到0.2,即生成了新的数据清洗规则,并通过数据清洗规则发布模块24将新的数据清洗规则发送到指定的数据采集节点1,保存到该数据采集节点的数据清洗规则库12中。当电机的电流计3将采集的电流数值再传送给数据采集节点1之时,阈值数据清洗引擎11则执行新的数据清洗规则,即:如果采样值<0.2,则输出0。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (5)

1.一种基于数据分析的分布式数据清洗系统,包括:
传感器网络,包括多个传感器,用于采集第一数据;
数据采集节点,包括数据清洗引擎和数据清洗规则库;所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;
数据服务器,包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块;
所述第二数据传输到并储存于所述数据库中,所述数据有效性分析模块用于对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;
所述数据清洗规则生成模块则依据输入的有效性验证分析结果,来判断当前的针对某个传感器的清洗规则是否需要修正;如果需要修正,则根据所述有效性验证分析结果产生新的针对某个传感器的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;
所述数据清洗规则发布模块将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应传感器的数据清洗工作的目的。
2.根据权利要求1所述的基于数据分析的分布式数据清洗系统,其特征在于,所述基于数据分析的分布式数据清洗系统包括多个不同的数据采集节点。
3.根据权利要求1所述的基于数据分析的分布式数据清洗系统,其特征在于,所述传感器为电流传感器,电压传感器,流量传感器,压力传感器和温度传感器中的任意一种或多种。
4.一种基于数据分析的分布式数据清洗方法,所述方法包括如下步骤:
通过传感器网络中的多个传感器采集第一数据;
在包括数据清洗引擎和数据清洗规则库的数据采集节点中:
所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;
在包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块的数据服务器中:
将所述第二数据传输并储存于所述数据库中;在所述数据有效性分析模块中,对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;
在所述数据清洗规则生成模块中,依据输入的有效性验证分析结果,来判断当前的针对某个传感器的清洗规则是否需要修正,如果需要修正,则根据有效性验证分析结果产生新的针对某个传感器的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;
在所述数据清洗规则发布模块中,将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应传感器的数据清洗工作的目的。
5.根据权利要求4所述的基于数据分析的分布式数据清洗方法,其特征在于,所述第一数据为电流值,电压值,气体或者液体的压力,温度,流量中的任意一种或多种。
CN201710103779.3A 2017-02-24 2017-02-24 基于数据分析的分布式数据清洗系统及方法 Active CN106933992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710103779.3A CN106933992B (zh) 2017-02-24 2017-02-24 基于数据分析的分布式数据清洗系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710103779.3A CN106933992B (zh) 2017-02-24 2017-02-24 基于数据分析的分布式数据清洗系统及方法

Publications (2)

Publication Number Publication Date
CN106933992A CN106933992A (zh) 2017-07-07
CN106933992B true CN106933992B (zh) 2018-02-06

Family

ID=59424003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710103779.3A Active CN106933992B (zh) 2017-02-24 2017-02-24 基于数据分析的分布式数据清洗系统及方法

Country Status (1)

Country Link
CN (1) CN106933992B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463639A (zh) * 2017-07-19 2017-12-12 安徽拓通信科技集团股份有限公司 基于人工智能的短信数据清洗方法
CN107433591A (zh) * 2017-08-01 2017-12-05 上海未来伙伴机器人有限公司 多维度交互机器人应用控制系统及方法
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN109033274A (zh) * 2018-07-10 2018-12-18 中国银行股份有限公司 一种数据清洗方法及装置
CN109144989B (zh) * 2018-08-27 2020-05-19 武汉达梦数据库有限公司 一种数据清洗的方法及用于数据清洗的装置
CN110209883B (zh) * 2019-06-06 2020-02-07 王慧斌 一种用户历史数据有效性判断的方法及装置
CN110471978A (zh) * 2019-08-23 2019-11-19 国家气象信息中心 一种基于jbpm调度系统的气象政务数据抽取方法
CN111324600A (zh) * 2020-02-04 2020-06-23 杭州电子科技大学 数据清洗方法及装置
CN112597145A (zh) * 2020-12-29 2021-04-02 恩亿科(北京)数据科技有限公司 实时数据清洗方法、系统、电子设备和存储介质
CN114579548A (zh) * 2022-03-02 2022-06-03 深圳市猫头鹰智慧科技有限公司 一种基于物联网的数据采集用数据清洗系统
CN117493777B (zh) * 2023-12-29 2024-03-15 成都秦川物联网科技股份有限公司 基于物联网的超声波流量计数据清洗方法、系统及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN102542071A (zh) * 2012-01-17 2012-07-04 深圳市同洲视讯传媒有限公司 一种分布式处理数据的系统及方法
CN103473375A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 数据清洗系统和数据清洗方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130014148A1 (en) * 2011-07-06 2013-01-10 Michael Vinson Aggregation-based methods for detection and correction of television viewership aberrations
US8645399B2 (en) * 2012-01-03 2014-02-04 Intelius Inc. Dynamic record blocking
CN105138650A (zh) * 2015-08-28 2015-12-09 成都康赛信息技术有限公司 一种基于孤立点挖掘的Hadoop数据清洗方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101231661A (zh) * 2008-02-19 2008-07-30 上海估家网络科技有限公司 对象级知识挖掘的方法和系统
CN102542071A (zh) * 2012-01-17 2012-07-04 深圳市同洲视讯传媒有限公司 一种分布式处理数据的系统及方法
CN103473375A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 数据清洗系统和数据清洗方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Cleaning Framework for BigData: An Interactive Approach for Data Cleaning";Hong Liu et al.;《2016 IEEE Second International Conference on Big Data Computing Service and Applications》;20160523;全文 *
"交通流数据清洗规则研究";王晓原 等;《计算机工程》;20120118;第37卷(第20期);全文 *

Also Published As

Publication number Publication date
CN106933992A (zh) 2017-07-07

Similar Documents

Publication Publication Date Title
CN106933992B (zh) 基于数据分析的分布式数据清洗系统及方法
CN110890998B (zh) 一种确定阈值的方法及装置
CN102386889B (zh) 基线漂移去除方法、装置及中值滤波器
CN111475921A (zh) 一种基于边缘计算和lstm网络的刀具剩余寿命预测方法
CN103322931A (zh) 点云间隙与断差量测系统及方法
CN114492675B (zh) 一种电容式电压互感器故障原因智能诊断方法
CN109062177A (zh) 一种基于神经网络的机械设备故障诊断方法与系统
Zhang et al. Economic design of cumulative count of conforming charts under inspection by samples
CN114826543B (zh) 一种基于aiot的蒸汽引射泵参数传输系统及方法
CN105954695B (zh) 一种基于同步的同质传感器突变参数识别方法与装置
CN101479613B (zh) 瞬时确定交流电网上的信号畸变率的方法和相关装置
CN105426647B (zh) 基于可靠度先验信息融合的冷备系统可靠度估计方法
CN110632521B (zh) 一种锂离子电池容量的融合估计方法
CN103439646A (zh) 一种模拟电路测试矢量生成方法
EP3164819B1 (en) Acquisition of high frequency data in transient detection
Amiri et al. Identifying time of a monotonic change in the fraction nonconforming of a high-quality process
CN116049632A (zh) 一种风电主轴轴承故障诊断方法、装置及应用
CN106685751B (zh) 网站访问量监测方法和装置
CN109884893B (zh) 一种多工序变量间动态时滞估计方法
CN110968640B (zh) 油井数据处理方法及装置、油井控制系统
CN112073544A (zh) 用于处理传感器数据的方法、计算设备和计算机存储介质
CN116671867B (zh) 一种针对水下作业人员的睡眠质量评测方法及系统
CN110765406A (zh) 一种用于反演识别分析的多响应信息融合方法
CN107991558B (zh) 基于t分布检验法的数字校准方法
CN110989531B (zh) 一种卷烟制丝加工过程的数据质量诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant