CN107633096A

CN107633096A - 数据实时写入去重处理方法

Info

Publication number: CN107633096A
Application number: CN201710952590.1A
Authority: CN
Inventors: 李苏华
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-10-13
Filing date: 2017-10-13
Publication date: 2018-01-26

Abstract

本发明涉及大数据技术。本发明是要解决现有数据去重处理在有数据实时写入时容易导致写入延时甚至锁表的问题，提供了一种数据实时写入去重处理方法，其技术方案可概括为：首先预先确定数据表结构，然后识别该数据表结构中所有重复数据的关键重复字段，再根据关键重复字段设置该数据表结构对应的联合主键规则，在实时数据写入时判断其欲写入的数据表结构，根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复，若是则不进行写入，否则写入。本发明的有益效果是，数据写入无延时，适用于从数据仓库读取数据信息并写入MySQL数据库时。

Description

数据实时写入去重处理方法

技术领域

本发明涉及大数据技术，特别涉及大数据中数据清洗技术。

背景技术

在数据仓库技术中，从数据仓库(Kafka采集端)读取数据信息并写入MySQL数据库，对MySQL表中重复数据的清洗，目前的数据去重处理方式为：第一步，确定重复数据的所有关键重复字段：KEY1、KEY2、KEY3……KEYn；第二步，根据所有关键重复字段(KEY1、KEY2、KEY3……KEYn)，查找符合条件的表数据记录；第三部，对获取的表数据记录，进行分组处理，只获取相同重复记录分组中的一条；第四部，筛选分组处理后的数据，并提取该条数据的唯一索引；第五步，根据获取的唯一索引记录，对表中的重复数据进行其他索引(非唯一索引)记录的删除处理，删除成功后，即可获得去重后的表数据。但是该方法更适用于离线的重复数据处理，对于有实时写入要求的数据表，则会因为去重处理，导致写入延时，并且在数据表写入时，并发执行删除操作，从而造成锁表的现象发生。

发明内容

本发明的目的是要解决目前数据去重处理在有数据实时写入时容易导致写入延时甚至锁表的问题，提供了一种数据实时写入去重处理方法。

本发明解决其技术问题，采用的技术方案是，数据实时写入去重处理方法，其特征在于，包括以下步骤：

步骤1、预先确定数据表结构；

步骤2、识别该数据表结构中所有重复数据的关键重复字段；

步骤3、根据关键重复字段设置该数据表结构对应的联合主键规则；

步骤4、实时数据写入时判断其欲写入的数据表结构，根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复，若是则不进行写入，否则写入。

具体的，步骤1中，所述数据表结构对应各数据表。

进一步的，所述数据表为终端故障日志数据表。

本发明的有益效果是，在本发明方案中，通过上述数据实时写入去重处理方法，可在实时在写入时，已筛选出重复数据信息，且这些重复数据信息不再写入，因此写入后，不需要对MySQL表进行去重处理，数据写入无延时，写入时也不需要执行表的删除操作，避免了锁表现象。

具体实施方式

下面结合实施例，详细描述本发明的技术方案。

本发明所述数据实时写入去重处理方法为：首先预先确定数据表结构，然后识别该数据表结构中所有重复数据的关键重复字段，再根据关键重复字段设置该数据表结构对应的联合主键规则，在实时数据写入时判断其欲写入的数据表结构，根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复，若是则不进行写入，否则写入。

实施例

本发明实施例的数据实时写入去重处理方法，具体包括以下步骤：

步骤1、预先确定数据表结构。每一个数据表结构一般对应同一类数据表，数据表可以为终端故障日志数据表等。

步骤2、识别该数据表结构中所有重复数据的关键重复字段。

步骤3、根据关键重复字段设置该数据表结构对应的联合主键规则。

现在以终端故障日志数据表进行具体举例如下：

步骤1、预先确定数据表结构，终端故障日志数据表结构如表1所示；

表1终端故障日志数据表结构

步骤2、识别该数据表结构中所有重复数据的关键重复字段，该终端故障日志数据表的关键重复字段为：KEY1：mac(MAC地址)；KEY2：barcode(机号条码SN)；KEY3：report_info(故障信息)；KEY4：time(电视端产生日志时间)。

步骤3、根据关键重复字段设置该数据表结构对应的联合主键规则，根据终端故障日志数据表的关键重复字段，设置联合主键规则为：ALTER TABLE TABLE_NAME ADDPRIMARY KEY(`mac`,`barcode`,`report_info`,`time`)，

步骤4、实时数据写入时判断其欲写入的数据表结构，根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复，若是则不进行写入，否则写入。在将数据从数据仓库写入MySQL数据表时，先判断出欲写入的数据表结构为终端故障日志数据表的数据表结构，则数据库系统会根据设定的联合主键规则(`mac`,`barcode`,`report_info`,`time`)，验证将要写入的数据是否为数据表重复数据，如果数据重复，则提示错误信息，不写入数据；如果数据不重复，则提示成功信息，数据写入数据表中。

Claims

1.数据实时写入去重处理方法，其特征在于，包括以下步骤：

步骤1、预先确定数据表结构；

步骤2、识别该数据表结构中所有重复数据的关键重复字段；

2.如权利要求1所述的数据实时写入去重处理方法，其特征在于，步骤1中，所述数据表结构对应各数据表。

3.如权利要求1或2所述的数据实时写入去重处理方法，其特征在于，所述数据表为终端故障日志数据表。