CN107633096A - 数据实时写入去重处理方法 - Google Patents

数据实时写入去重处理方法 Download PDF

Info

Publication number
CN107633096A
CN107633096A CN201710952590.1A CN201710952590A CN107633096A CN 107633096 A CN107633096 A CN 107633096A CN 201710952590 A CN201710952590 A CN 201710952590A CN 107633096 A CN107633096 A CN 107633096A
Authority
CN
China
Prior art keywords
data
write
list structure
real time
duplicate removal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710952590.1A
Other languages
English (en)
Inventor
李苏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201710952590.1A priority Critical patent/CN107633096A/zh
Publication of CN107633096A publication Critical patent/CN107633096A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术。本发明是要解决现有数据去重处理在有数据实时写入时容易导致写入延时甚至锁表的问题,提供了一种数据实时写入去重处理方法,其技术方案可概括为:首先预先确定数据表结构,然后识别该数据表结构中所有重复数据的关键重复字段,再根据关键重复字段设置该数据表结构对应的联合主键规则,在实时数据写入时判断其欲写入的数据表结构,根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复,若是则不进行写入,否则写入。本发明的有益效果是,数据写入无延时,适用于从数据仓库读取数据信息并写入MySQL数据库时。

Description

数据实时写入去重处理方法
技术领域
本发明涉及大数据技术,特别涉及大数据中数据清洗技术。
背景技术
在数据仓库技术中,从数据仓库(Kafka采集端)读取数据信息并写入MySQL数据库,对MySQL表中重复数据的清洗,目前的数据去重处理方式为:第一步,确定重复数据的所有关键重复字段:KEY1、KEY2、KEY3……KEYn;第二步,根据所有关键重复字段(KEY1、KEY2、KEY3……KEYn),查找符合条件的表数据记录;第三部,对获取的表数据记录,进行分组处理,只获取相同重复记录分组中的一条;第四部,筛选分组处理后的数据,并提取该条数据的唯一索引;第五步,根据获取的唯一索引记录,对表中的重复数据进行其他索引(非唯一索引)记录的删除处理,删除成功后,即可获得去重后的表数据。但是该方法更适用于离线的重复数据处理,对于有实时写入要求的数据表,则会因为去重处理,导致写入延时,并且在数据表写入时,并发执行删除操作,从而造成锁表的现象发生。
发明内容
本发明的目的是要解决目前数据去重处理在有数据实时写入时容易导致写入延时甚至锁表的问题,提供了一种数据实时写入去重处理方法。
本发明解决其技术问题,采用的技术方案是,数据实时写入去重处理方法,其特征在于,包括以下步骤:
步骤1、预先确定数据表结构;
步骤2、识别该数据表结构中所有重复数据的关键重复字段;
步骤3、根据关键重复字段设置该数据表结构对应的联合主键规则;
步骤4、实时数据写入时判断其欲写入的数据表结构,根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复,若是则不进行写入,否则写入。
具体的,步骤1中,所述数据表结构对应各数据表。
进一步的,所述数据表为终端故障日志数据表。
本发明的有益效果是,在本发明方案中,通过上述数据实时写入去重处理方法,可在实时在写入时,已筛选出重复数据信息,且这些重复数据信息不再写入,因此写入后,不需要对MySQL表进行去重处理,数据写入无延时,写入时也不需要执行表的删除操作,避免了锁表现象。
具体实施方式
下面结合实施例,详细描述本发明的技术方案。
本发明所述数据实时写入去重处理方法为:首先预先确定数据表结构,然后识别该数据表结构中所有重复数据的关键重复字段,再根据关键重复字段设置该数据表结构对应的联合主键规则,在实时数据写入时判断其欲写入的数据表结构,根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复,若是则不进行写入,否则写入。
实施例
本发明实施例的数据实时写入去重处理方法,具体包括以下步骤:
步骤1、预先确定数据表结构。每一个数据表结构一般对应同一类数据表,数据表可以为终端故障日志数据表等。
步骤2、识别该数据表结构中所有重复数据的关键重复字段。
步骤3、根据关键重复字段设置该数据表结构对应的联合主键规则。
步骤4、实时数据写入时判断其欲写入的数据表结构,根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复,若是则不进行写入,否则写入。
现在以终端故障日志数据表进行具体举例如下:
步骤1、预先确定数据表结构,终端故障日志数据表结构如表1所示;
表1终端故障日志数据表结构
步骤2、识别该数据表结构中所有重复数据的关键重复字段,该终端故障日志数据表的关键重复字段为:KEY1:mac(MAC地址);KEY2:barcode(机号条码SN);KEY3:report_info(故障信息);KEY4:time(电视端产生日志时间)。
步骤3、根据关键重复字段设置该数据表结构对应的联合主键规则,根据终端故障日志数据表的关键重复字段,设置联合主键规则为:ALTER TABLE TABLE_NAME ADDPRIMARY KEY(`mac`,`barcode`,`report_info`,`time`),
步骤4、实时数据写入时判断其欲写入的数据表结构,根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复,若是则不进行写入,否则写入。在将数据从数据仓库写入MySQL数据表时,先判断出欲写入的数据表结构为终端故障日志数据表的数据表结构,则数据库系统会根据设定的联合主键规则(`mac`,`barcode`,`report_info`,`time`),验证将要写入的数据是否为数据表重复数据,如果数据重复,则提示错误信息,不写入数据;如果数据不重复,则提示成功信息,数据写入数据表中。

Claims (3)

1.数据实时写入去重处理方法,其特征在于,包括以下步骤:
步骤1、预先确定数据表结构;
步骤2、识别该数据表结构中所有重复数据的关键重复字段;
步骤3、根据关键重复字段设置该数据表结构对应的联合主键规则;
步骤4、实时数据写入时判断其欲写入的数据表结构,根据该数据表结构的联合主键规则筛选每一个欲写入的数据信息是否重复,若是则不进行写入,否则写入。
2.如权利要求1所述的数据实时写入去重处理方法,其特征在于,步骤1中,所述数据表结构对应各数据表。
3.如权利要求1或2所述的数据实时写入去重处理方法,其特征在于,所述数据表为终端故障日志数据表。
CN201710952590.1A 2017-10-13 2017-10-13 数据实时写入去重处理方法 Pending CN107633096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710952590.1A CN107633096A (zh) 2017-10-13 2017-10-13 数据实时写入去重处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710952590.1A CN107633096A (zh) 2017-10-13 2017-10-13 数据实时写入去重处理方法

Publications (1)

Publication Number Publication Date
CN107633096A true CN107633096A (zh) 2018-01-26

Family

ID=61104350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710952590.1A Pending CN107633096A (zh) 2017-10-13 2017-10-13 数据实时写入去重处理方法

Country Status (1)

Country Link
CN (1) CN107633096A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829543A (zh) * 2018-06-21 2018-11-16 郑州云海信息技术有限公司 一种减小备份Linux系统日志大小的方法
CN109104732A (zh) * 2018-06-13 2018-12-28 珠海格力电器股份有限公司 数据发送方法、装置及智能电器
CN108959395B (zh) * 2018-06-04 2020-11-06 广西大学 一种面向多源异构大数据的层次约减联合清洗方法
CN112463411A (zh) * 2020-12-10 2021-03-09 重庆紫光华山智安科技有限公司 数据处理方法、装置、服务器及存储介质
CN115631866A (zh) * 2022-12-19 2023-01-20 成都瑞华康源科技有限公司 一种针对医疗大数据采集的快速精准去重方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550314A (zh) * 2015-12-14 2016-05-04 Tcl集团股份有限公司 基于联合主键的数据统计方法、装置及系统
US9442941B1 (en) * 2014-03-28 2016-09-13 Emc Corporation Data structure for hash digest metadata component

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9442941B1 (en) * 2014-03-28 2016-09-13 Emc Corporation Data structure for hash digest metadata component
CN105550314A (zh) * 2015-12-14 2016-05-04 Tcl集团股份有限公司 基于联合主键的数据统计方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUKE003: "联合主键重复如何去重???", 《HTTPS://ASK.CSDN.NET/QUESTIONS/386404》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959395B (zh) * 2018-06-04 2020-11-06 广西大学 一种面向多源异构大数据的层次约减联合清洗方法
CN109104732A (zh) * 2018-06-13 2018-12-28 珠海格力电器股份有限公司 数据发送方法、装置及智能电器
CN108829543A (zh) * 2018-06-21 2018-11-16 郑州云海信息技术有限公司 一种减小备份Linux系统日志大小的方法
CN112463411A (zh) * 2020-12-10 2021-03-09 重庆紫光华山智安科技有限公司 数据处理方法、装置、服务器及存储介质
CN115631866A (zh) * 2022-12-19 2023-01-20 成都瑞华康源科技有限公司 一种针对医疗大数据采集的快速精准去重方法

Similar Documents

Publication Publication Date Title
CN107633096A (zh) 数据实时写入去重处理方法
CN103136243B (zh) 基于云存储的文件系统去重方法及装置
CN102937926B (zh) 一种恢复移动终端已删除sqlite文件的方法及装置
CN104217011B (zh) HBase二级索引表的查询方法和装置
CN108664480B (zh) 一种多数据源用户信息整合方法和装置
CN104050269B (zh) 日志压缩方法及装置、解压缩方法及装置
CN103973810B (zh) 基于互联网协议ip盘的数据处理方法和装置
CN106815326B (zh) 一种检测无主键数据表一致性的系统及方法
CN107451831B (zh) 任务推送方法、装置及存储介质
CN103237094B (zh) 一种识别用户的方法及装置
CN103729352B (zh) 分布式文件系统对多个副本数据进行处理的方法及该系统
CN107483381A (zh) 关联账户的监控方法及装置
CN104035991A (zh) 一种新闻标题的显示方法及用于提供新闻页面的服务器
CN104239353B (zh) 一种web分类控制和日志审计的方法
EP3200113A1 (en) Password protection question setting method and device
CN106708841A (zh) 网站访问路径的聚合方法和装置
CN102739812B (zh) 一种推荐好友的方法及装置
SG11201809827RA (en) Method for conducting statistics on insurance type state information of policy, terminal device and storage medium
CN109298978A (zh) 一种指定位置的数据库集群的恢复方法及系统
CN106933919B (zh) 数据表的连接方法及装置
CN106528830B (zh) 一种恢复文件索引目录的方法和装置
CN103997557A (zh) 一种通讯录管理方法及移动终端
CN104750729A (zh) 一种基于日志文件的数据管理方法及数据管理系统
DE112012000305T5 (de) Gemeinsame Wiederherstellung von Datenquellen
CN106973008A (zh) 一种选择性撤回邮件的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180126

RJ01 Rejection of invention patent application after publication