CN111949641B - 一种多级平台间数据清洗与同步方法及系统 - Google Patents

一种多级平台间数据清洗与同步方法及系统 Download PDF

Info

Publication number
CN111949641B
CN111949641B CN202010784073.XA CN202010784073A CN111949641B CN 111949641 B CN111949641 B CN 111949641B CN 202010784073 A CN202010784073 A CN 202010784073A CN 111949641 B CN111949641 B CN 111949641B
Authority
CN
China
Prior art keywords
data
platform
cleaning
field
dirty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010784073.XA
Other languages
English (en)
Other versions
CN111949641A (zh
Inventor
冯晓磊
董志勇
李俊
邱琳
刘之海
纪扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Ligong Guangke Co Ltd
Original Assignee
Wuhan Ligong Guangke Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Ligong Guangke Co Ltd filed Critical Wuhan Ligong Guangke Co Ltd
Priority to CN202010784073.XA priority Critical patent/CN111949641B/zh
Publication of CN111949641A publication Critical patent/CN111949641A/zh
Application granted granted Critical
Publication of CN111949641B publication Critical patent/CN111949641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/275Synchronous replication
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多级平台间数据清洗与同步方法及系统,该方法包括:S1、下级平台的数据库发生变更后,触发下级平台的数据清洗服务及数据同步服务;S2、判断下级平台数据是否有脏数据,若无脏数据,则启动数据同步服务;若有脏数据,则对脏数据进行数据清理,再启动数据同步服务;S3、检测下级平台和上级平台的在线状态,若两平台均为正常在线状态,则进行数据同步;S4、将清洗后的下级平台数据传输至上级平台,上级平台将上传的数据写入数据库,完成两级平台间的数据清洗与同步。本发明能确保数据的可靠有效性,避免下级平台脏数据对上级平台影响;利用数据同步补偿机制,降低网络不通,数据同步失败造成的影响,提高数据同步的时效性和准确性。

Description

一种多级平台间数据清洗与同步方法及系统
技术领域
本发明涉及数据同步领域,尤其涉及一种多级平台间数据清洗与同步方法及系统。
背景技术
随着物联网、互联网、大数据、云计算等新兴技术的发展,各领域的安全监测手段逐渐由单一的系统变为多个系统。然而大大增加了人力运维的成本,同时多个系统间是独立运行的,数据无法共享。为解决数据共享问题,多级平台成为目前常用的方案,相较于开放性的云平台,多级平台的每级平台均可以独立运行,有效降低了整个系统瘫痪的风险。但是数据同步为多级平台运行的一个关键难题。
为解决多级平台间的数据同步问题,本发明通过对下级平台数据的清洗,确保数据源真实有效,然后对清洗后的数据同步至上级平台,保障上级平台数据与下级数据的一致性。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种多级平台间数据清洗与同步方法及系统。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种多级平台间数据清洗与同步方法,用于对下级平台和上级平台之间的数据进行清洗与同步,该方法包括以下步骤:
S1、对存储在下级平台的数据增加平台的唯一标识编号,并按照设定的数据字段形式进行存储;下级平台的数据库发生变更后,触发下级平台的数据清洗服务及数据同步服务;
S2、数据清理服务:根据下级平台数据的唯一标识编号,并通过数据各字段及对应权重计算数据的完整有效性值,判断下级平台数据是否有脏数据,若无脏数据,则启动数据同步服务;若有脏数据,则对脏数据进行数据清理,再启动数据同步服务;
S3、数据同步服务:检测下级平台和上级平台的在线状态,若两平台均为正常在线状态,则进行数据同步;
S4、将清洗后的下级平台数据传输至上级平台,上级平台将上传的数据写入数据库,完成两级平台间的数据清洗与同步。
进一步地,本发明的步骤S1的具体方法为:
在下级平台运行过程中,数据库出现新增、删除、修改、查询的变更操作时,触发本级平台的数据清洗和同步服务,该数据同步服务向上级平台发送同步数据请求,数据清洗服务推送清洗指令给本级平台。
进一步地,本发明的步骤S1中按照设定的数据形式进行存储的具体方法为:
对于物联接入的下级平台的数据表字段包含:设备编号、设备位置、设备状态、设备管理部门、设备有效期、设备新增时间、设备编辑时间、设备编辑人;对每个字段进行编号,分别为1,……8,其中编号排序是根据每个字段的重要程度进行编号,所有字段的必要性权重之和为1。
进一步地,本发明的步骤S2的具体方法为:
通过对数据增加平台的唯一标识编号,进行脏数据初步识别,识别出不是来自下级平台的数据作为脏数据;
对于相同唯一标识编号的数据,即同一个设备数据存在多条时,只保留一条有效数据,其具体方法为:
通过利用冒泡比较法对多条相同唯一标识编号的数据进行比较,在多条相同唯一标识编号的数据中根据数据的字段内容找到包含信息最全面的N条数据;使用者根据实际情况定义每个字段必要性权重,在N条数据中根据每个字段的必要性权重,得到每条数据的有效性值,找到有效性值最大的一条数据,该条数据即为有效数据,除有效性值最大的数据外的其它数据均为脏数据;
对脏数据自动执行删除清洗;脏数据还包括信息不完整、操作时间异常的数据;然后将数据库数据进行打包,准备传送至上级平台。
进一步地,本发明的步骤S2中的冒泡比较法具体为:
当上级平台中查找到的相同唯一标识编号的多条数据:Data1、Data2、Data3、……、Datan时,对多条数据进行内容完整性比较;内容完整性比较过程:
用一条数据Datax={x1,x2,x3,……,x8}的每个字段,与其它所有条数据Data1,……Datax-1,Datax+1,Datan的每个字段进行比较,获取Datax字段xi与其它所有数据Datay字段yi相同的数量,其中x=1,……n;i=1,……,8;y=1,……,x-1,x+1,……n;定义一条数据的完整性值Numx计算公式为:
Numx=Nx1+Nx2+……+Nx8
其中,Nx1,……Nx8是Datax中每个字段与其它条数据对应字段内容相同次数,Nxj计算方式为:
Figure BDA0002621280770000031
其中,j=1,……,8;y=1,……,x-1,x+1,……n;com(xi,yj)表示比较两个字段是否相同,相同为1,不相同为0。
进一步地,本发明的步骤S2中有效性值的具体计算过程为:
使用者根据实际情况定义每个字段必要性权重,在N条数据中根据每个字段的必要性权重,得到每条数据的有效性值,找到有效性值最大的一条数据,该条数据即为有效数据,除有效性值最大的数据外的其它数据均为脏数据。
获取每条数据的完整性值Num后,即n条数据的Num,对比n个Num,根据需要,设定阈值N,取其中最大的N条数据作为备选数据;
然后根据自定义的每个字段的必要性权重,针对N个备选数据的每条数据,进行完整有效性值计算,计算方式为:
True=W1*Nx1+……+W8*Nx8
获取True1,……,TrueN;W1…W8是各字段对应权重,将最大的True对应的一条数据作为完整有效的数据,保留下来,其它数据作为脏数据进行删除。
进一步地,本发明的步骤S3的具体方法为:
S31、同步服务对两级平台的服务器在离线状态、平台的所有服务在离线状态进行获取,当两级平台的服务器状态及所有服务状态均为在线正常工作时,同步服务才能够正常启动;否则同步服务启动失败,提示检测失败的原因;
S32、当下级平台进行修改操作时,上级平台数据库中存在一条数据,其主键与下级平台上传的数据主键一样,用下级平台的数据覆盖上级平台已有的数据;当下级平台进行新增操作时,上级平台中不存在上传的数据时,在上级平台数据库直接新增一条数据;当下级平台进行删除操作时,在上级平台中查找与下级删除数据主键一样的数据,并进行删除。
进一步地,本发明的步骤S4的具体方法为:
上级平台接收到数据同步服务后,开启本级平台的数据同步服务,建立两级平台间数据传输的连接,将下级平台已打包的数据库进行传输,本级平台接收到打包数据后,对本级平台的对应数据库进行重写,重写完成后,即实现两级平台间的数据同步。
本发明提供一种多级平台间数据清洗与同步系统,该系统包括:下级平台、数据清理模块、数据同步模块以及上级平台,其中:
下级平台,用于对存储在下级平台的数据增加平台的唯一标识编号,并按照设定的数据字段形式进行存储;下级平台的数据库发生变更后,触发下级平台的数据清洗服务及数据同步服务;
数据清理模块,用于根据下级平台数据的唯一标识编号,并通过数据各字段及对应权重计算数据的完整有效性值,判断下级平台数据是否有脏数据,若无脏数据,则启动数据同步服务;若有脏数据,则对脏数据进行数据清理,再启动数据同步服务;
数据同步服务,用于检测下级平台和上级平台的在线状态,若两平台均为正常在线状态,则进行数据同步;
上级平台,用于接收清洗后的下级平台数据,上级平台将上传的数据写入数据库,完成两级平台间的数据清洗与同步。
本发明产生的有益效果是:本发明的多级平台间数据清洗与同步方法及系统,通过同步服务建立多级平台数据传输连接,实现多级平台间的数据传输;利用数据清洗服务对下级平台数据进行清洗,确保下级平台数据的可靠有效性,避免下级平台脏数据对上级平台影响;利用数据同步补偿机制,降低网络不通,数据同步失败造成的影响,提高数据同步的时效性和准确性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的多级平台间的数据清洗与同步方法的框图;
图2时本发明实施例的多级平台间数据清洗与同步方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1、图2所示,本发明实施例的多级平台间数据清洗与同步方法,用于对下级平台和上级平台之间的数据进行清洗与同步,该方法包括以下步骤:
S1、对存储在下级平台的数据增加平台的唯一标识编号,并按照设定的数据字段形式进行存储;下级平台的数据库发生变更后,触发下级平台的数据清洗服务及数据同步服务;
对于物联接入的下级平台的数据表字段包含:设备编号、设备位置、设备状态、设备管理部门、设备有效期、设备新增时间、设备编辑时间、设备编辑人;对每个字段进行编号,分别为1,……8,其中编号排序是根据每个字段的重要程度进行编号,所有字段的必要性权重之和为1;
S2、数据清理服务:根据下级平台数据的唯一标识编号,并通过数据各字段及对应权重计算数据的完整有效性值,判断下级平台数据是否有脏数据,若无脏数据,则启动数据同步服务;若有脏数据,则对脏数据进行数据清理,再启动数据同步服务;
步骤S2的具体方法为:
通过对数据增加平台的唯一标识编号,进行脏数据初步识别,识别出不是来自下级平台的数据作为脏数据;
对于相同唯一标识编号的数据,即同一个设备数据存在多条时,只保留一条有效数据,其具体方法为:
通过利用冒泡比较法对多条相同唯一标识编号的数据进行比较,在多条相同唯一标识编号的数据中根据数据的字段内容找到包含信息最全面的N条数据;使用者根据实际情况定义每个字段必要性权重,在N条数据中根据每个字段的必要性权重,得到每条数据的有效性值,找到有效性值最大的一条数据,该条数据即为有效数据,除有效性值最大的数据外的其它数据均为脏数据;
对脏数据自动执行删除清洗;脏数据还包括信息不完整、操作时间异常的数据;然后将数据库数据进行打包,准备传送至上级平台。
步骤S2中的冒泡比较法具体为:
当上级平台中查找到的相同唯一标识编号的多条数据:Data1、Data2、Data3、……、Datan时,对多条数据进行内容完整性比较;内容完整性比较过程:
用一条数据Datax={x1,x2,x3,……,x8}的每个字段,与其它所有条数据Data1,……Datax-1,Datax+1,Datan的每个字段进行比较,获取Datax字段xi与其它所有数据Datay字段yi相同的数量,其中x=1,……n;i=1,……,8;y=1,……,x-1,x+1,……n;定义一条数据的完整性值Numx计算公式为:
Numx=Nx1+Nx2+……+Nx8
其中,Nx1,……Nx8是Datax中每个字段与其它条数据对应字段内容相同次数,Nxj计算方式为:
Figure BDA0002621280770000061
其中,j=1,……,8;y=1,……,x-1,x+1,……n;com(xi,yj)表示比较两个字段是否相同,相同为1,不相同为0。
有效性值的具体计算过程为:
使用者根据实际情况定义每个字段必要性权重,在N条数据中根据每个字段的必要性权重,得到每条数据的有效性值,找到有效性值最大的一条数据,该条数据即为有效数据,除有效性值最大的数据外的其它数据均为脏数据。
获取每条数据的完整性值Num后,即n条数据的Num,对比n个Num,根据需要,设定阈值N,取其中最大的N条数据作为备选数据;
然后根据自定义的每个字段的必要性权重,针对N个备选数据的每条数据,进行完整有效性值计算,计算方式为:
True=W1*Nx1+……+W8*Nx8
获取True1,……,TrueN;W1…W8是各字段对应权重,将最大的True对应的一条数据作为完整有效的数据,保留下来,其它数据作为脏数据进行删除。
S3、数据同步服务:检测下级平台和上级平台的在线状态,若两平台均为正常在线状态,则进行数据同步;
S31、同步服务对两级平台的服务器在离线状态、平台的所有服务在离线状态进行获取,当两级平台的服务器状态及所有服务状态均为在线正常工作时,同步服务才能够正常启动;否则同步服务启动失败,提示检测失败的原因;
S32、当下级平台进行修改操作时,上级平台数据库中存在一条数据,其主键与下级平台上传的数据主键一样,用下级平台的数据覆盖上级平台已有的数据;当下级平台进行新增操作时,上级平台中不存在上传的数据时,在上级平台数据库直接新增一条数据;当下级平台进行删除操作时,在上级平台中查找与下级删除数据主键一样的数据,并进行删除。
S4、将清洗后的下级平台数据传输至上级平台,上级平台将上传的数据写入数据库,完成两级平台间的数据清洗与同步。
上级平台接收到数据同步服务后,开启本级平台的数据同步服务,建立两级平台间数据传输的连接,将下级平台已打包的数据库进行传输,本级平台接收到打包数据后,对本级平台的对应数据库进行重写,重写完成后,即实现两级平台间的数据同步。
本发明实施例的多级平台间数据清洗与同步系统,该系统包括:下级平台、数据清理模块、数据同步模块以及上级平台,其中:
下级平台,用于对存储在下级平台的数据增加平台的唯一标识编号,并按照设定的数据字段形式进行存储;下级平台的数据库发生变更后,触发下级平台的数据清洗服务及数据同步服务;
数据清理模块,用于根据下级平台数据的唯一标识编号,并通过数据各字段及对应权重计算数据的完整有效性值,判断下级平台数据是否有脏数据,若无脏数据,则启动数据同步服务;若有脏数据,则对脏数据进行数据清理,再启动数据同步服务;
数据同步服务,用于检测下级平台和上级平台的在线状态,若两平台均为正常在线状态,则进行数据同步;
上级平台,用于接收清洗后的下级平台数据,上级平台将上传的数据写入数据库,完成两级平台间的数据清洗与同步。
在下级平台模块中,在平台运行过程中,用户开展日常工作时,数据库会出现新增、删除、修改、查询等变化。当下级平台数据库出现变化时,触发本级平台的同步服务,该数据同步服务向上级平台发送同步数据请求。
在清洗模块,本级平台接收到数据清洗指令后,对数据库中数据进行“排外”清洗,将出现的异常数据,比如信息不完整、操作时间异常等数据进行自动删除清洗。然后将数据库数据进行打包,准备传送至上级平台。数据清洗原则为清洗掉不属于本平台的数据,在多级平台系统中,每个平台均有唯一标识的平台ID号,当本平台的数据库中出现其他平台ID对应的数据时,即为本平台的脏数据,也是需要清洗掉的数据。因此当检测到不属于该平台ID的脏数据时,对脏数据自动执行删除清洗。
在同步模块,有上、下级平台的同步服务,当两级间的同步服务均启动的情况下,数据同步才会执行。同步服务对两级平台的服务器在离线状态、平台的所有服务在离线状态进行获取,当服务器状态及所有服务状态均为在线正常工作时,同步服务才能够正常启动;否则同步服务启动失败,提示检测失败的原因。比如,当下级平台的三维GIS服务挂掉后,此时上、下级平台的同步服务状态均为失败,在后台日志中提示“下级平台的三维GIS服务不在线”。其中数据同步方法的策略如下:当下级平台进行修改操作时,上级平台数据库中存在一条数据,其主键与下级平台上传的数据主键一样,用下级平台的数据覆盖上级平台已有的数据;当下级平台进行新增操作时,上级平台中不存在上传的数据时,在上级平台数据库直接新增一条数据;当下级平台进行删除操作时,在上级平台中查找与下级删除数据主键一样的数据,并进行删除。
上级平台接收到数据同步服务后,开启本级平台的数据同步服务,建立两级平台间数据传输的连接,将下级平台已打包的数据库进行传输,本级平台接收到打包数据后,对本级平台的对应数据库进行重写,重写完成后,即实现两级平台间的数据同步。
以上过程均是自动执行,为了确保数据一致可靠性,本发明提供数据清洗和同步工具以及同步补偿机制。在数据清洗和同步工具中,用户通过软件界面进行勾选数据类型,实现选择性清洗和同步,针对部分需要的特殊数据进行手动同步;同步补偿服务检测到4个小时内,没有进行同步,会自动进行一次多级平台间的同步。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (7)

1.一种多级平台间数据清洗与同步方法,其特征在于,用于对下级平台和上级平台之间的数据进行清洗与同步,该方法包括以下步骤:
S1、对存储在下级平台的数据增加平台的唯一标识编号,并按照设定的数据字段形式进行存储;下级平台的数据库发生变更后,触发下级平台的数据清洗服务及数据同步服务;
S2、数据清理服务:根据下级平台数据的唯一标识编号,并通过数据各字段及对应必要性权重计算数据的完整有效性值,判断下级平台数据是否有脏数据,若无脏数据,则启动数据同步服务;若有脏数据,则对脏数据进行数据清理,再启动数据同步服务;
S3、数据同步服务:检测下级平台和上级平台的在线状态,若两平台均为正常在线状态,则进行数据同步;
S4、将清洗后的下级平台数据传输至上级平台,上级平台将上传的数据写入数据库,完成两级平台间的数据清洗与同步;
步骤S1中按照设定的数据形式进行存储的具体方法为:
对于物联接入的下级平台的数据表字段包含:设备编号、设备位置、设备状态、设备管理部门、设备有效期、设备新增时间、设备编辑时间、设备编辑人;对每个字段进行编号,分别为1,……8,其中编号排序是根据每个字段的重要程度进行编号,所有字段的必要性权重之和为1;
步骤S2的具体方法为:
通过对数据增加平台的唯一标识编号,进行脏数据初步识别,识别出不是来自下级平台的数据作为脏数据;
对于相同唯一标识编号的数据,即同一个设备数据存在多条时,只保留一条有效数据,其具体方法为:
通过利用冒泡比较法对多条相同唯一标识编号的数据进行比较,在多条相同唯一标识编号的数据中根据每个字段与其它条数据对应字段内容的相同次数找到包含信息最全面的N条数据;使用者根据实际情况定义每个字段必要性权重,在N条数据中根据每个字段的必要性权重,以及每个字段与其它条数据对应字段内容的相同次数,得到每条数据的完整有效性值,找到完整有效性值最大的一条数据,该条数据即为有效数据,除完整有效性值最大的数据外的其它数据均为脏数据;
对脏数据自动执行删除清洗;脏数据还包括信息不完整、操作时间异常的数据;然后将数据库数据进行打包,准备传送至上级平台。
2.根据权利要求1所述的多级平台间数据清洗与同步方法,其特征在于,步骤S1的具体方法为:
在下级平台运行过程中,数据库出现新增、删除、修改、查询的变更操作时,触发本级平台的数据清洗和同步服务,该数据同步服务向上级平台发送同步数据请求,数据清洗服务推送清洗指令给本级平台。
3.根据权利要求1所述的多级平台间数据清洗与同步方法,其特征在于,步骤S2中的冒泡比较法具体为:
当上级平台中查找到的相同唯一标识编号的多条数据:Data1、Data2、Data3、……、Datan时,对多条数据进行内容完整性比较;内容完整性比较过程:
用一条数据Datax={x1,x2,x3,……,x8}的每个字段,与其它所有条数据Data1,……Datax-1,Datax+1,Datan的每个字段进行比较,获取Datax字段xi与其它所有数据Datay字段yi相同的数量,其中x=1,……n;i=1,……,8;y=1,……,x-1,x+1,……n;定义一条数据的完整性值Numx计算公式为:
Numx=Nx1+Nx2+……+Nx8
其中,Nx1,……Nx8是Datax中每个字段与其它条数据对应字段内容相同次数,Nxj计算方式为:
Figure QLYQS_1
其中,j=1,……,8;y=1,……,x-1,x+1,……n;com(xi,yj)表示比较两个字段是否相同,相同为1,不相同为0。
4.根据权利要求3所述的多级平台间数据清洗与同步方法,其特征在于,步骤S2中完整有效性值的具体计算过程为:
获取每条数据的完整性值Numx后,即n条数据的Numx,对比n个Numx,根据需要,设定阈值N,取其中最大的N条数据作为备选数据;
然后根据自定义的每个字段的必要性权重,针对N个备选数据的每条数据,进行完整有效性值计算,计算方式为:
Figure QLYQS_2
获取
Figure QLYQS_3
,……,/>
Figure QLYQS_4
;W1…W8是各字段对应的必要性权重,将最大的1对应的一条数据作为完整有效的数据,保留下来,其它数据作为脏数据进行删除。
5.根据权利要求1所述的多级平台间数据清洗与同步方法,其特征在于,步骤S3的具体方法为:
S31、通过同步服务获取两级平台的服务器的在离线状态、平台的所有服务的在离线状态,当两级平台的服务器状态及所有服务状态均为在线正常工作时,同步服务才能够正常启动;否则同步服务启动失败,提示检测失败的原因;
S32、当下级平台进行修改操作时,上级平台数据库中存在一条数据,其主键与下级平台上传的数据主键一样,用下级平台的数据覆盖上级平台已有的数据;当下级平台进行新增操作时,上级平台中不存在上传的数据时,在上级平台数据库直接新增一条数据;当下级平台进行删除操作时,在上级平台中查找与下级删除数据主键一样的数据,并进行删除。
6.根据权利要求1所述的多级平台间数据清洗与同步方法,其特征在于,步骤S4的具体方法为:
上级平台接收到数据同步服务后,开启本级平台的数据同步服务,建立两级平台间数据传输的连接,将下级平台已打包的数据库进行传输,本级平台接收到打包数据后,对本级平台的对应数据库进行重写,重写完成后,即实现两级平台间的数据同步。
7.一种多级平台间数据清洗与同步系统,其特征在于,该系统包括:下级平台、数据清理模块、数据同步模块以及上级平台,其中:
下级平台,用于对存储在下级平台的数据增加平台的唯一标识编号,并按照设定的数据字段形式进行存储;下级平台的数据库发生变更后,触发下级平台的数据清洗服务及数据同步服务;按照设定的数据形式进行存储的具体方法为:
对于物联接入的下级平台的数据表字段包含:设备编号、设备位置、设备状态、设备管理部门、设备有效期、设备新增时间、设备编辑时间、设备编辑人;对每个字段进行编号,分别为1,……8,其中编号排序是根据每个字段的重要程度进行编号,所有字段的必要性权重之和为1;
数据清理模块,用于根据下级平台数据的唯一标识编号,并通过数据各字段及对应必要性权重计算数据的完整有效性值,判断下级平台数据是否有脏数据,若无脏数据,则启动数据同步服务;若有脏数据,则对脏数据进行数据清理,再启动数据同步服务;具体方法为:
通过对数据增加平台的唯一标识编号,进行脏数据初步识别,识别出不是来自下级平台的数据作为脏数据;
对于相同唯一标识编号的数据,即同一个设备数据存在多条时,只保留一条有效数据,其具体方法为:
通过利用冒泡比较法对多条相同唯一标识编号的数据进行比较,在多条相同唯一标识编号的数据中根据每个字段与其它条数据对应字段内容的相同次数找到包含信息最全面的N条数据;使用者根据实际情况定义每个字段必要性权重,在N条数据中根据每个字段的必要性权重,以及每个字段与其它条数据对应字段内容的相同次数,得到每条数据的完整有效性值,找到完整有效性值最大的一条数据,该条数据即为有效数据,除完整有效性值最大的数据外的其它数据均为脏数据;
对脏数据自动执行删除清洗;脏数据还包括信息不完整、操作时间异常的数据;然后将数据库数据进行打包,准备传送至上级平台;
数据同步服务,用于检测下级平台和上级平台的在线状态,若两平台均为正常在线状态,则进行数据同步;
上级平台,用于接收清洗后的下级平台数据,上级平台将上传的数据写入数据库,完成两级平台间的数据清洗与同步。
CN202010784073.XA 2020-08-06 2020-08-06 一种多级平台间数据清洗与同步方法及系统 Active CN111949641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010784073.XA CN111949641B (zh) 2020-08-06 2020-08-06 一种多级平台间数据清洗与同步方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010784073.XA CN111949641B (zh) 2020-08-06 2020-08-06 一种多级平台间数据清洗与同步方法及系统

Publications (2)

Publication Number Publication Date
CN111949641A CN111949641A (zh) 2020-11-17
CN111949641B true CN111949641B (zh) 2023-07-14

Family

ID=73331796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010784073.XA Active CN111949641B (zh) 2020-08-06 2020-08-06 一种多级平台间数据清洗与同步方法及系统

Country Status (1)

Country Link
CN (1) CN111949641B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987079B (zh) * 2021-12-27 2022-04-19 四川旷谷信息工程有限公司 一种用于城市轨道交通安防系统的数据同步方法
CN114500568A (zh) * 2022-01-19 2022-05-13 许昌许继软件技术有限公司 一种多级巡视平台间的文件同步方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473375A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 数据清洗系统和数据清洗方法
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法
CN105488212A (zh) * 2015-12-11 2016-04-13 广州精点计算机科技有限公司 一种重复数据的数据质量检测方法及装置
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
CN107301210A (zh) * 2017-06-06 2017-10-27 福建中经汇通有限责任公司 一种数据处理方法
CN108984708A (zh) * 2018-07-06 2018-12-11 蔚来汽车有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器
CN109688224A (zh) * 2018-12-28 2019-04-26 国汽(北京)智能网联汽车研究院有限公司 一种智能网联汽车云控平台架构
CN109857728A (zh) * 2017-11-30 2019-06-07 广州明领基因科技有限公司 针对图书馆的大数据清洗系统
CN110737647A (zh) * 2019-08-20 2020-01-31 广州宏数科技有限公司 一种互联网大数据清洗方法
CN111061709A (zh) * 2019-11-13 2020-04-24 中科曙光南京研究院有限公司 一种相似重复记录的数据清洗自动化方法及系统
CN111159165A (zh) * 2019-12-06 2020-05-15 国网安徽省电力有限公司淮南供电公司 基于云平台的电力井下低功耗边缘计算系统及其方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016111697A1 (en) * 2015-01-09 2016-07-14 Landmark Graphics Corporation Apparatus and methods of data synchronization

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473375A (zh) * 2013-09-29 2013-12-25 方正国际软件有限公司 数据清洗系统和数据清洗方法
CN105183814A (zh) * 2015-08-27 2015-12-23 湖南人文科技学院 一种物联网数据清洗方法
CN105488212A (zh) * 2015-12-11 2016-04-13 广州精点计算机科技有限公司 一种重复数据的数据质量检测方法及装置
CN107301210A (zh) * 2017-06-06 2017-10-27 福建中经汇通有限责任公司 一种数据处理方法
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
CN109857728A (zh) * 2017-11-30 2019-06-07 广州明领基因科技有限公司 针对图书馆的大数据清洗系统
CN108984708A (zh) * 2018-07-06 2018-12-11 蔚来汽车有限公司 脏数据识别方法及装置、数据清洗方法及装置、控制器
CN109688224A (zh) * 2018-12-28 2019-04-26 国汽(北京)智能网联汽车研究院有限公司 一种智能网联汽车云控平台架构
CN110737647A (zh) * 2019-08-20 2020-01-31 广州宏数科技有限公司 一种互联网大数据清洗方法
CN111061709A (zh) * 2019-11-13 2020-04-24 中科曙光南京研究院有限公司 一种相似重复记录的数据清洗自动化方法及系统
CN111159165A (zh) * 2019-12-06 2020-05-15 国网安徽省电力有限公司淮南供电公司 基于云平台的电力井下低功耗边缘计算系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Web数据清洗及其系统框架研究;王琛;;计算机时代(第12期);全文 *
实兵对抗演习评估系统中数据清理方法研究;叶振春;《中国优秀硕士学位论文全文数据库 信息科技辑》(第7期);全文 *

Also Published As

Publication number Publication date
CN111949641A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111949641B (zh) 一种多级平台间数据清洗与同步方法及系统
CN106815326B (zh) 一种检测无主键数据表一致性的系统及方法
CN105872127B (zh) 一种ip地址管理系统
CN105323107A (zh) 网络接口卡信息管理方法及网络接口卡信息管理系统
CN103678583A (zh) 结构化数据比较的方法及系统
CN105989145B (zh) 公交线路的自动更新方法、设备及系统
CN113987427A (zh) 同源代码的溯源方法
CN109262653A (zh) 故障机器人自动恢复方法及装置
CN101364191A (zh) 计算机系统硬件的服务方法、引导解决错误的方法与系统
CN114238474A (zh) 基于排水系统的数据处理方法、装置、设备及存储介质
CN105635155B (zh) 机器人终端中组成设备状态的检测方法和装置
CN112070475A (zh) 基于工程管理的企业业务处理方法及装置
CN105389378A (zh) 一种分离式数据整合系统
CN113468509B (zh) 一种用户认证的迁移方法、装置、设备及存储介质
CN107391551B (zh) 一种基于数据挖掘的web业务数据分析方法及系统
CN115842861A (zh) 边缘连接设备适配方法、装置及计算机可读存储介质
CN113839956A (zh) 数据安全评估方法、装置、设备及存储介质
CN114331785A (zh) 基于以太坊的行程监管方法、系统及可读存储介质
CN113254446A (zh) 数据融合方法、装置、电子设备及介质
CN112860811A (zh) 数据血缘关系的确定方法、装置、电子设备和存储介质
CN111984731A (zh) 大数据平台数仓之间数据同步方法、装置及存储介质
CN113872994A (zh) 组织架构同步方法、装置、计算机设备和存储介质
CN111538750A (zh) 一种信息还原方法、装置、计算机系统及可读存储介质
CN115687527B (zh) 一种基于区块链大数据的存储系统
CN115033647B (zh) 数据同步方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant