CN110955710B - 一种数据交换作业中脏数据的处理方法及装置 - Google Patents

一种数据交换作业中脏数据的处理方法及装置 Download PDF

Info

Publication number
CN110955710B
CN110955710B CN201911171177.7A CN201911171177A CN110955710B CN 110955710 B CN110955710 B CN 110955710B CN 201911171177 A CN201911171177 A CN 201911171177A CN 110955710 B CN110955710 B CN 110955710B
Authority
CN
China
Prior art keywords
data information
dirty data
dirty
working
control node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911171177.7A
Other languages
English (en)
Other versions
CN110955710A (zh
Inventor
陈振洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201911171177.7A priority Critical patent/CN110955710B/zh
Publication of CN110955710A publication Critical patent/CN110955710A/zh
Application granted granted Critical
Publication of CN110955710B publication Critical patent/CN110955710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

本申请提供一种数据交换作业中脏数据的处理方法及装置,该方法可以包括:接收工作节点集合中任意一个或多个工作节点上传的脏数据信息;将脏数据信息添加至脏数据样本集合中,脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;分析脏数据样本集合以获得针对目的数据库的检测规则,检测规则被用于下发至工作节点集合中,以使工作节点集合中的工作节点根据检测规则预测待提供至目的数据库的数据信息中的脏数据信息。通过本申请的技术方案可以实现快速排查脏数据信息,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以提升数据交换过程中对脏数据的处理效率,有效提升数据交换作业的效率。

Description

一种数据交换作业中脏数据的处理方法及装置
技术领域
本公开涉及计算机领域,尤其涉及一种数据交换作业中脏数据的处理方法及装置。
背景技术
ETL(Extract-Transform-Load,数据仓库技术),用来描述将数据从源端经过抽取、转换、加载至目的端的过程。通常情况下,为了提高ETL交换系统的交换能力,支持更多的数据源接入,ETL交换系统通常会采用集群的方式进行部署,由控制节点统一管理一个或多个工作节点,控制节点可以将交换作业分配给一个或多个工作节点,而工作节点可以横向扩展,进行具体的数据交换工作,工作节点连接了源端数据库和目的端数据库。
在现有技术中,ETL交换系统可以通过单线程方式或者多线程并发方式从源端数据库进行数据的抽取和交换,在数据交换的过程中一旦出现脏数据,如与目的数据库目的字段长度不匹配等情况,数据交换作业就会中断,并且需要从源端数据库的海量数据中查找出脏数据,才能继续启动数据交换作业,影响了数据交换作业的效率。
发明内容
有鉴于此,本申请提供一种数据交换作业中脏数据的处理方法及装置,可以预测出数据交换作业过程中的脏数据信息。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种数据交换作业中脏数据的处理方法,应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点;
所述方法包括:
接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息;
将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;
分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。
根据本申请的第二方面,提出了一种数据交换作业中脏数据的处理方法,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;
所述方法包括:
接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;
根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息。
根据本申请的第三方面,提出了一种数据交换作业中脏数据的处理方法,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;
所述方法包括:
根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;
从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;
将所述脏数据信息上传至所述控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则。
根据本申请的第四方面,提出了一种数据交换作业中脏数据的处理装置,应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点;
所述装置包括:
接收单元,用于接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息;
添加单元,用于将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;
分析单元,用于分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。
根据本申请的第五方面,提出了一种数据交换作业中脏数据的处理装置,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;
所述装置包括:
接收单元,用于接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;
预测单元,用于根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息。
根据本申请的第六方面,提出了一种数据交换作业中脏数据的处理装置,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;
所述装置包括:
获取单元,用于根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;
筛选单元,用于从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;
上传单元,用于将所述脏数据信息上传至所述控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则。
根据本申请的第七方面,提供一种电子设备。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第一方面所述的方法。
根据本申请的第八方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
根据本申请的第九方面,提供一种电子设备。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第二方面所述的方法。
根据本申请的第十方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第二方面所述方法的步骤。
根据本申请的第十一方面,提供一种电子设备。所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第三方面所述的方法。
根据本申请的第十二方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第三方面所述方法的步骤。
由以上技术方案可见,本申请通过工作节点将脏数据信息发送给控制节点,控制节点对接收到的脏数据信息进行分析获得针对目的数据库的检测规则,并且由工作节点接收控制节点下发的检测规则,工作节点可以根据检测规则预测出脏数据信息,可以实现快速排查脏数据信息,可以实现对脏数据的提前预测,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以提升数据交换过程中对脏数据的处理效率,有效提升数据交换作业的效率,同时,控制节点可以保留全部的脏数据信息,以便于后续的处理排查。
附图说明
图1是本申请中利用ETL工具进行数据交换作业的示意图。
图2是本申请示出的一种数据交换作业中脏数据的处理方法的流程图。
图3是本申请示出的另一种数据交换作业中脏数据的处理方法的流程图。
图4是本申请示出的另一种数据交换作业中脏数据的处理方法的流程图
图5是本申请一示例性实施例示出的一种数据交换作业中脏数据的处理方法的流程图。
图6是本申请一示例性实施例示出的另一种数据交换作业中脏数据的处理方法的流程图。
图7是本申请一示例性实施例示出的一种电子设备的结构示意图。
图8是本申请一示例性实施例示出的一种数据交换作业中脏数据的处理装置的框图。
图9是本申请一示例性实施例示出的另一种电子设备的结构示意图。
图10是本申请一示例性实施例示出的另一种数据交换作业中脏数据的处理装置的框图。
图11是本申请一示例性实施例示出的另一种电子设备的结构示意图。
图12是本申请一示例性实施例示出的另一种数据交换作业中脏数据的处理装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是利用ETL工具进行数据交换作业的示意图,ETL采用集群的方式进行部署,由控制节点统一管理一个或者多个工作节点,并对多个工作节点进行调度,控制节点可以将数据交换作业分配给一个或者多个工作节点,工作节点连接了源端数据库和目的数据库。其中,工作节点会根据数据交换作业的需要周期性地进行抽取、交互转换和加载。ETL工具可以单线程或者多线程并发地从源端数据库进行数据的抽取和交互转换。
在相关技术中,有大量的数据进行数据交换作业时,一旦出现脏数据,例如与目的数据库字段的长度不匹配等,工作节点的数据交换作业将会中断,需要从源端数据库的大量数据中查找出具体的脏数据,并对该脏数据进行相应的分析处理,才能再次启动数据交换作业,影响了数据交换作业的效率。
因此,本申请通过改进数据交换作业过程中脏数据的处理方式以解决相关技术中存在的上述技术问题。下面结合实施例进行详细说明。
图2是本申请示出的一种数据交换作业中脏数据的处理方法的流程图。如图2所示,该方法应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点;可以包括以下步骤:
步骤201,接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息。
在用户创建数据交换作业后,控制节点将数据交换作业任务下发到工作节点集合中。控制节点可以接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选出的与目的数据库所采用的字段定义不匹配的数据信息。
步骤202,将所述脏数据信息添加至脏数据样本集合中。
控制节点将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合记录了从工作节点集合接收到的所有的脏数据信息。
步骤203,分析所述脏数据样本集合以获得针对目的数据库的检测规则。
在一个实施例中,控制节点可以对脏数据样本集合中的脏数据信息进行分析以获得针对目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。
在另一个实施例中,控制节点可以从接收到的脏数据信息中包括的失败信息中提取出关键字或者控制节点可以从随脏数据信息一并上传至控制节点的失败信息中提取出关键字。控制节点可以根据提取出的关键字从脏数据字典中查找出所述脏数据信息对应的脏数据类型,脏数据字典记录了脏数据类型和关键字的映射关系。若控制节点根据提取出的关键字未从脏数据字典中查找出所述脏数据信息对应的脏数据类型,则在所述脏数据字典中添加脏数据类型。
因而,控制节点可以将所述脏数据信息和对应的脏数据类型添加至脏数据样本集合中,控制节点可以根据脏数据样本集合中记录的脏数据信息和脏数据类型的映射关系,确定出分别属于不同脏数据类型的脏数据信息。控制节点可以对不同类型的脏数据信息进行分析,以获得针对目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。
由以上技术方案可见,本申请通过控制节点对工作节点集合中的工作节点上传的脏数据信息进行分析,从而获得针对目的数据库的检测规则,可以实现控制节点对脏数据信息的记录,并且可以由控制节点将检测规则下发至工作节点集合中,以使得工作节点集合中的工作节点可以根据检测规则提前预测出待提供至所述目的数据库的数据信息中的脏数据信息,可以在控制节点快速定位到所有的脏数据信息并进行相关分析,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以实现对脏数据的提前预测,显著提升了数据交换作业的效率,同时,控制节点可以保留全部的脏数据信息,以便于后续的处理排查。
图3是本申请示出的一种数据交换作业中脏数据的处理方法的流程图。如图3所示,该方法应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;可以包括以下步骤:
步骤301,接收所述控制节点下发的针对目的数据库的检测规则。
工作节点接收控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点根据所述工作集合中的任意一个或多个工作节点上传的不符合目的数据库要求的脏数据信息而获得。
步骤302,根据所述检测规则对待发送至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息。
工作节点可以根据检测规则对待提供至所述目的数据库的数据信息进行预测,将不符合检测规则的数据信息判定为脏数据信息,工作节点可以将所述脏数据信息上传至控制节点进行记录,并在本地丢弃所述脏数据信息;将符合检测规则的数据信息提供至目的数据库。工作节点可以根据检测规则提前预防已出现过的同类型的脏数据信息,从而有效避免了同类型的脏数据信息再次提交至目的数据库。
由以上技术方案可见,本申请通过工作节点接收控制节点下发的针对目的数据库的检测规则,从而工作节点可以根据所述检测规则对待提供至目的数据库的数据信息进行预测,将不符合所述检测规则的数据信息判定为脏数据信息,可以快速排查出待提供至目的数据库的数据信息中的脏数据信息,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以实现对脏数据的提前预测,显著提升了数据交换作业的效率,同时,控制节点可以保留全部的脏数据信息,以便于后续的处理排查。
图4是本申请示出的一种数据交换作业中脏数据的处理方法的流程图。如图4所示,该方法应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;可以包括以下步骤:
步骤401,根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息。
根据所述控制节点下发的数据交换作业任务,工作节点可以获取待提供至目的数据库的数据信息。
步骤402,从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息。
工作节点可以创建数据镜像流资源池,并将所述工作节点向目的数据库提交失败的数据信息添加至所述数据镜像流资源池中。工作节点检测到向目的数据库提交失败的数据信息,可以将所述数据信息存储至所述数据镜像流资源池,而所述工作节点持续进行数据交换作业,即便出现脏数据信息也不会导致数据交换作业的中断。工作节点可以采用二分法对所述数据镜像流资源池中的数据信息再次分批次向目的数据库提交,以筛选出导致提交失败的脏数据信息。当然,工作节点也可以采用其他的算法识别出数据镜像流资源池中的脏数据信息,本申请并不对此进行限制。
步骤403,将所述脏数据信息上传至所述控制节点。
工作节点将筛选出的脏数据信息上传至控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则。
由以上技术方案可见,本申请通过工作节点将不符合目的数据库要求的脏数据信息上传至控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则,可以实现将脏数据信息统一记录在控制节点,有利于快速排查脏数据信息,可以实现快速对脏数据信息进行分析以获得检测规则,可以实现数据交换作业的不间断,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以实现对脏数据的提前预测,显著提升了数据交换作业的效率,同时,控制节点可以保留全部的脏数据信息,以便于后续的处理排查。
为了便于理解,下面结合附图对本申请的技术方案进行进一步说明。请参见图5,图5是本申请一示例性实施例一种数据交换作业中脏数据的处理方法的流程图。如图5所示;可以包括以下步骤:
步骤501,用户创建数据交换作业。
步骤502,下发数据交换作业任务。
在本实施例中,用户在控制节点创建数据交换作业,并设置单次提交的数据量M,用户可以根据实际需要调整M的大小。控制节点将数据交换作业任务下发至工作节点集合中,工作节点集合包括由控制节点进行统一管理的所有工作节点,此处以工作节点1为例。
步骤503,筛选出脏数据信息。
工作节点1根据控制节点下发的数据交换作业任务,可以获取待提供至目的数据库的数据信息。其中,工作节点1可以创建对应的数据镜像流资源池,在所述数据镜像流资源池中记录工作节点1向目的数据库提交失败的数据信息,其中,数据镜像流资源池的大小为工作节点上的数据交换线程数与单次提交数据量M的乘积,数据镜像流资源池可以记录工作节点提交失败的数据信息,对工作节点的正常性能不产生干扰。而在数据镜像流资源池中,最新一次提交失败的数据信息将覆盖前一次提交失败的数据信息。工作节点通过创建数据镜像流资源池可以避免因存在脏数据而导致数据交换作业中途被终止的情况。工作节点检测到向目的数据库提交失败的数据信息,可以将所述数据信息存储至所述数据镜像流资源池,并持续实施针对所述目的数据库的数据交换作业。
进一步地,工作节点1可以对数据镜像流资源池中的数据信息采用二分法分批次向目的数据库进行提交,例如,若有5000条数据信息提交失败,则可以将5000条拆分为2500条再次进行提交,不断进行拆分提交,直至筛选出脏数据信息。
当然,工作节点也可以采用其他的算法识别出数据镜像流资源池中的脏数据信息,本申请并不对此进行限制。
步骤504,将脏数据信息上传至控制节点。
步骤505,将脏数据信息添加至脏数据样本集合中。
工作节点1将筛选出的脏数据信息上传至控制节点,工作节点1持续进行数据交换作业。控制节点将脏数据信息添加至脏数据样本集合中,所述脏数据样本集合记录了从所述工作节点集合接收到的所有的脏数据信息,其中,可以为脏数据样本集合设定阈值,当脏数据样本集合中的脏数据信息数量大于阈值时,表明脏数据信息数量过多,此时,可以丢弃脏数据样本集合中的所有脏数据信息并且后续数据交换过程中也不需要记录脏数据信息至脏数据样本集合中。
步骤506,对脏数据样本集合进行分析获得检测规则。
控制节点可以对脏数据样本集合中记录的脏数据信息进行分析,例如可以根据预先设置的不同类型的脏数据信息的关键字,以及从脏数据信息中的失败信息中提取出的关键字或者从随脏数据信息一并上传的失败信息中提取出关键字,确定出分别属于不同脏数据类型的脏数据信息。控制节点通过对不同类型的脏数据信息进行分析,从而获得针对目的数据库的检测规则。其中,检测规则可以是总结出的目的数据库各个字段的要求,并且脏数据信息的数量越多,则检测规则的准确度越高。
步骤507,下发检测规则。
步骤508,根据检测规则对待提供至目的数据库的数据信息进行预测。
控制节点将检测规则下发到工作节点集合中的任意一个或者多个工作节点。从而工作节点1可以根据检测规则对待提供至目的数据库的数据信息进行预测。若为符合检测规则的数据信息,则工作节点可以将所述数据信息提供至目的数据库;若为不符合检测规则的数据信息,则判定该数据信息为脏数据信息,并将所述脏数据信息上报至控制节点进行记录,而在本地直接丢弃所述脏数据信息,工作节点可以持续进行数据交换作业,避免了采用二分法等其他算法对提交失败的数据信息进行进一步筛选的过程。工作节点可以根据检测规则提前预防已出现过的同类型的脏数据信息,从而有效避免了同类型的脏数据信息再次提交至目的数据库。
待数据交换作业完成后,管理员可以根据相关信息对控制节点记录的脏数据信息进一步业务排查以及补充相关的数据信息完成业务流程等,例如管理员可以对某些数据格式不符合目的数据库要求的数据信息进行修改,使得该部分数据信息可以上传至目的数据库中,管理员还可以查看脏数据信息实际代表的含义进一步进行人工筛选等。
由以上技术方案可见,本申请通过工作节点将脏数据信息发送给控制节点,控制节点对接收到的脏数据信息进行分析获得针对目的数据库的检测规则,并且由工作节点接收控制节点下发的检测规则,工作节点可以根据检测规则预测出脏数据信息,可以实现快速排查脏数据信息,可以实现对脏数据的提前预测,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以提升数据交换过程中对脏数据的处理效率,有效提升数据交换作业的效率,同时,控制节点可以保留全部的脏数据信息,以便于后续的处理排查。
为了便于理解,下面结合附图对本申请的技术方案进行进一步说明。请参见图6,图6是本申请另一示例性实施例一种数据交换作业中脏数据的处理方法的流程图。如图6所示;可以包括以下步骤:
步骤601,用户创建数据交换作业。
步骤602,下发数据交换作业任务。
在本实施例中,用户在控制节点创建数据交换作业,并设置单次提交的数据量M,用户可以根据实际需要调整M的大小。控制节点将数据交换作业任务下发至工作节点集合中,工作节点集合包括由控制节点进行统一管理的所有工作节点,此处以工作节点1为例。
步骤603,筛选出脏数据信息。
工作节点1根据控制节点下发的数据交换作业任务,可以获取待提供至目的数据库的数据信息。其中,工作节点1可以创建对应的数据镜像流资源池,在所述数据镜像流资源池中记录工作节点1向目的数据库提交失败的数据信息,其中,数据镜像流资源池的大小为工作节点上的数据交换线程数与单次提交数据量M的乘积,数据镜像流资源池可以记录工作节点提交失败的数据信息,对工作节点的正常性能不产生干扰。而在数据镜像流资源池中,最新一次提交失败的数据信息将覆盖前一次提交失败的数据信息。工作节点检测到向目的数据库提交失败的数据信息,可以将所述数据信息存储至所述数据镜像流资源池,并持续实施针对所述目的数据库的数据交换作业,从而避免了因存在脏数据而导致数据交换作业中途被终止的情况。
工作节点通过创建数据镜像流资源池可以避免因存在脏数据而导致数据交换作业中途被终止的情况。进一步地,工作节点1可以对数据镜像流资源池中的数据信息采用二分法分批次向目的数据库进行提交,例如,若有5000条数据信息提交失败,则可以将5000条拆分为2500条再次进行提交,不断进行拆分提交,直至筛选出脏数据信息。
当然,工作节点也可以采用其他的算法识别出数据镜像流资源池中的脏数据信息,本申请并不对此进行限制。
步骤604,将脏数据信息上传至控制节点。
步骤605,根据脏数据字典获得脏数据信息对应的脏数据类型。
步骤606,对脏数据样本集合进行分析获得检测规则。
工作节点1将筛选出的脏数据信息上传至控制节点,工作节点1持续进行数据交换作业。
控制节点可以从接收到的脏数据信息的失败信息中提取出关键字或者控制节点可以从随脏数据信息一并上传的失败信息中提取出关键字,例如,解析脏数据信息中的失败信息,查找到关键字如ERROR等信息。而控制节点可以根据提取出的关键字从脏数据字典中查找出脏数据信息对应的脏数据类型。若控制节点根据提取出的关键字无法从脏数据字典中查找出脏数据信息对应的脏数据类型,则可以在所述脏数据字典中添加脏数据类型,并将所述脏数据信息和对应的脏数据类型添加至所述脏数据样本集合中。
脏数据字典记录了预设的脏数据类型和关键字的映射关系,如下表1所示。其中,脏数据类型可以设置为整数自增型,而关键字为字符串类型,关键字记录了具体失败信息的关键字。
表1
脏数据类型 关键字
1 长度错误
2 类型错误
3 格式错误
…… ……
因而,控制节点可以将所述脏数据信息和对应的脏数据类型添加至脏数据样本集合中,脏数据样本集合如下表2所示。
控制节点可以直接根据脏数据样本集合中记录的脏数据信息和脏数据类型的映射关系,确定出分别属于不同脏数据类型的脏数据信息,提升了数据交换过程中对脏数据信息进行分析的效率。
表2
控制节点可以对不同类型的脏数据信息进行分析,以获得针对目的数据库的检测规则。
其中,脏数据样本集合可以预先设定阈值,当脏数据样本集合中的脏数据信息数量大于阈值时,表明脏数据信息数量过多,此时,可以丢弃脏数据样本集合中的所有脏数据信息并且后续数据交换过程中也不需要记录脏数据信息至脏数据样本集合中,仅保留脏数据字典中的内容,从而避免脏数据样本集合中的脏数据信息过多影响资源开销。
同样的,在脏数据字典中也可以预先设定阈值,当脏数据字典中的脏数据类型数量大于阈值时,则表明脏数据类型过多,可能存在业务上的错误,此时,可以直接停止数据交换作业的过程,以对业务逻辑进行相关的排查。
步骤607,下发检测规则。
步骤608,根据检测规则对待提供至目的数据库的数据信息进行预测。
控制节点将检测规则下发到工作节点集合中的任意一个或者多个工作节点。从而工作节点1可以根据检测规则对待提供至目的数据库的数据信息进行预测。若为符合检测规则的数据信息,则工作节点可以将所述数据信息提供至目的数据库;若为不符合检测规则的数据信息,则判定该数据信息为脏数据信息,并将所述脏数据信息上报至控制节点进行记录,而在本地直接丢弃所述脏数据信息,工作节点可以持续进行数据交换作业,避免了采用二分法等其他算法对提交失败的数据信息进行进一步筛选的过程。工作节点可以根据检测规则提前预防已出现过的同类型的脏数据信息,从而有效避免了同类型的脏数据信息再次提交至目的数据库。
待数据交换作业完成后,管理员可以根据相关信息对控制节点记录的脏数据信息进一步业务排查以及补充相关的数据信息完成业务流程等,例如管理员可以对某些数据格式不符合目的数据库要求的数据信息进行修改,使得该部分数据信息可以上传至目的数据库中,管理员还可以查看脏数据信息实际代表的含义进一步进行人工筛选等。
举例而言,假定目的数据库存在“城市代码”字段,字段类型为Number。工作节点1接收到数据交换作业任务后,将对待提交至目的数据库的数据信息进行筛选,获得脏数据信息,并将脏数据信息上传至控制节点。控制节点首先对脏数据信息中的失败信息进行解析,获得脏数据“123456”对应的关键字为“长度错误”,“1234567”对应的关键字为“长度错误”,“abc”对应的关键字为“类型错误”。
控制节点根据获得的脏数据信息对应的关键字在脏数据字典中进行查询,如上表1所示,获得脏数据“123456”对应脏数据类型1,脏数据“1234567”对应脏数据类型1,脏数据“abc”对应脏数据类型2。控制节点将脏数据信息和对应的脏数据类型添加至脏数据样本集合中,如下表3所示。
表3
脏数据类型 脏数据
1 121212
1 123456
1 1234567
2 abc
…… ……
控制节点分别对脏数据样本集合中所有脏数据类型为1的脏数据进行分析,所有脏数据类型为2的脏数据进行分析,假定可以获得针对目的数据库的“城市代码”字段的检测规则为:字段类型为Number,字段长度为小于等于5。当然,脏数据信息的数量越多,获得的检测规则越准确。
控制节点将检测规则下发到工作节点1,工作节点1可以根据检测规则对待提供至目的数据库的数据信息进行预测,例如,当数据信息为“01234”时,工作节点1可以将数据信息提供至目的数据库,当数据信息为“ab123”时,工作节点1可以将“ab123”判定为脏数据信息,并将所述脏数据信息上传至控制节点进行记录,在本地丢弃所述脏数据信息。
由以上的技术方案可见,本申请通过工作节点将脏数据信息发送给控制节点,控制节点通过脏数据字典和脏数据样本集合对脏数据信息进行分析获得针对目的数据库的检测规则,并且由工作节点接收控制节点下发的检测规则,工作节点可以根据检测规则预测出脏数据信息,可以实现快速排查脏数据信息,可以实现对脏数据的提前预测,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以提升数据交换过程中对脏数据的处理效率,有效提升数据交换作业的效率,同时,控制节点可以保留全部的脏数据信息,以便于后续的处理排查。
图7示出了,示出了根据本申请的一示例性实施例的一种电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器701、内部总线702、网络接口703、内存704以及非易失性存储器705,当然还可能包括其他业务所需要的硬件。处理器701从非易失性存储器705中读取对应的计算机程序到内存704中然后运行,在逻辑层面上形成数据交换作业中脏数据的处理装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图8,在软件实施例中,该数据交换作业中脏数据的处理装置可以包括接收单元801、添加单元802、分析单元803,应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点。其中:
接收单元801,用于接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息;
添加单元802,用于将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;
分析单元803,用于分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。
可选的,所述分析单元803具体用于:根据脏数据样本集合中记录的脏数据信息和脏数据类型的映射关系,确定分别属于不同脏数据类型的脏数据信息;分别对不同类型的脏数据信息进行分析,以获得针对所述目的数据库的检测规则。
可选的,还包括:
确定单元804,用于根据脏数据字典中记录的脏数据类型和关键字的映射关系,若所述脏数据信息存在对应匹配的关键字,则确定出所述脏数据信息对应的脏数据类型,并将所述脏数据信息和对应的脏数据类型添加至所述脏数据样本集合中;若所述脏数据信息不存在对应匹配的关键字,则在所述脏数据字典中添加脏数据类型,并将所述脏数据信息和对应的脏数据类型添加至所述脏数据样本集合中。
可选的,所述脏数据信息包括与目的数据库所采用的字段定义不匹配的数据信息。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
图9示出了,示出了根据本申请的一示例性实施例的另一种电子设备的结构示意图。请参考图9,在硬件层面,该电子设备包括处理器901、内部总线902、网络接口903、内存904以及非易失性存储器905,当然还可能包括其他业务所需要的硬件。处理器901从非易失性存储器905中读取对应的计算机程序到内存904中然后运行,在逻辑层面上形成数据交换作业中脏数据的处理装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图10,在软件实施例中,该数据交换作业中脏数据的处理装置可以包括接收单元1001、预测单元1002,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点。其中:
接收单元1001,用于接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;
预测单元1002,用于根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息。
可选的,还包括:
上传单元1003,用于将所述脏数据信息上传至所述控制节点进行记录,并在本地丢弃所述脏数据信息。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
图11示出了,示出了根据本申请的一示例性实施例的另一种电子设备的结构示意图。请参考图11,在硬件层面,该电子设备包括处理器1101、内部总线1102、网络接口1103、内存1104以及非易失性存储器1105,当然还可能包括其他业务所需要的硬件。处理器1101从非易失性存储器1105中读取对应的计算机程序到内存1104中然后运行,在逻辑层面上形成数据交换作业中脏数据的处理装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图12,在软件实施例中,该数据交换作业中脏数据的处理装置可以包括获取单元1201、筛选单元1202、上传单元1203,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点。其中:
获取单元1201,用于根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;
筛选单元1202,用于从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;
上传单元1203,用于将所述脏数据信息上传至所述控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则。
可选的,所述筛选单元1202具体用于创建数据镜像流资源池,所述数据镜像流资源池用于记录所述工作节点向目的数据库提交失败的数据信息;检测到所述向目的数据库提交失败的数据信息,将所述数据信息存储至所述数据镜像流资源池,并持续实施针对所述目的数据库的数据交换作业。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由报文的发送装置的处理器执行以完成上述方法,该方法可以包括:
接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息;
将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;
分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。
可选的,根据脏数据样本集合中记录的脏数据信息和脏数据类型的映射关系,确定分别属于不同脏数据类型的脏数据信息;分别对不同类型的脏数据信息进行分析,以获得针对所述目的数据库的检测规则。
可选的,根据脏数据字典中记录的脏数据类型和关键字的映射关系,若所述脏数据信息存在对应匹配的关键字,则确定出所述脏数据信息对应的脏数据类型,并将所述脏数据信息和对应的脏数据类型添加至所述脏数据样本集合中;若所述脏数据信息不存在对应匹配的关键字,则在所述脏数据字典中添加脏数据类型,并将所述脏数据信息和对应的脏数据类型添加至所述脏数据样本集合中。
可选的,所述脏数据信息包括与目的数据库所采用的字段定义不匹配的数据信息。
其中,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等,本申请并不对此进行限制。
在示例性实施例中,还提供了另一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由报文的发送装置的处理器执行以完成上述方法,该方法可以包括:
接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;
根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息。
可选的,将所述脏数据信息上传至所述控制节点进行记录,并在本地丢弃所述脏数据信息。
其中,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等,本申请并不对此进行限制。
在示例性实施例中,还提供了另一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由报文的发送装置的处理器执行以完成上述方法,该方法可以包括:
根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;
从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;
将所述脏数据信息上传至所述控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则。
可选的,创建数据镜像流资源池,所述数据镜像流资源池用于记录所述工作节点向目的数据库提交失败的数据信息;检测到所述向目的数据库提交失败的数据信息,将所述数据信息存储至所述数据镜像流资源池,并持续实施针对所述目的数据库的数据交换作业。
其中,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等,本申请并不对此进行限制。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (15)

1.一种数据交换作业中脏数据的处理方法,其特征在于,应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点;所述方法包括:
接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息,所述工作节点将检测到的向目的数据库提交失败的数据信息存储至数据镜像流资源池,并持续进行数据交换作业;
将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;
分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息;
所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息,包括:
若所述数据信息为不符合检测规则的脏数据信息,则将所述脏数据信息上报至控制节点进行记录,并在本地丢弃所述脏数据信息,持续进行数据交换作业。
2.根据权利要求1所述的方法,其特征在于,所述分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,包括:
根据脏数据样本集合中记录的脏数据信息和脏数据类型的映射关系,确定分别属于不同脏数据类型的脏数据信息;
分别对不同类型的脏数据信息进行分析,以获得针对所述目的数据库的检测规则。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据脏数据字典中记录的脏数据类型和关键字的映射关系,若所述脏数据信息存在对应匹配的关键字,则确定出所述脏数据信息对应的脏数据类型,并将所述脏数据信息和对应的脏数据类型添加至所述脏数据样本集合中;若所述脏数据信息不存在对应匹配的关键字,则在所述脏数据字典中添加脏数据类型,并将所述脏数据信息和对应的脏数据类型添加至所述脏数据样本集合中。
4.根据权利要求1所述的方法,其特征在于,所述脏数据信息包括与目的数据库所采用的字段定义不匹配的数据信息。
5.一种数据交换作业中脏数据的处理方法,其特征在于,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;所述方法包括:
接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作节点集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;
根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息;
将所述脏数据信息上报至控制节点进行记录,并在本地丢弃所述脏数据信息,持续进行数据交换作业;
在接收所述控制节点下发的针对目的数据库的检测规则之前,所述方法还包括:
将检测到的向目的数据库提交失败的数据信息存储至数据镜像流资源池,并持续进行数据交换作业。
6.根据权利要求5所述的方法,其特征在于,还包括:
将所述脏数据信息上传至所述控制节点进行记录,并在本地丢弃所述脏数据信息。
7.一种数据交换作业中脏数据的处理方法,其特征在于,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;所述方法包括:
根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;
从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;
将所述脏数据信息上传至所述控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则;
所述从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息,包括:将检测到的向目的数据库提交失败的数据信息存储至数据镜像流资源池,并持续进行数据交换作业;
所述方法还包括:
根据所述控制节点下发的检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息,若所述数据信息为不符合检测规则的脏数据信息,则将所述脏数据信息上报至控制节点进行记录,并在本地丢弃所述脏数据信息,持续进行数据交换作业。
8.根据权利要求7所述的方法,其特征在于,所述从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息,包括:
创建数据镜像流资源池,所述数据镜像流资源池用于记录所述工作节点向目的数据库提交失败的数据信息;
检测到所述向目的数据库提交失败的数据信息,将所述数据信息存储至所述数据镜像流资源池,并持续实施针对所述目的数据库的数据交换作业。
9.一种数据交换作业中脏数据的处理装置,其特征在于,应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点;所述装置包括:
接收单元,用于接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息,所述工作节点将检测到的向目的数据库提交失败的数据信息存储至数据镜像流资源池,并持续进行数据交换作业;
添加单元,用于将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;
分析单元,用于分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息;
所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息,包括:
若所述数据信息为不符合检测规则的脏数据信息,则将所述脏数据信息上报至控制节点进行记录,并在本地丢弃所述脏数据信息,持续进行数据交换作业。
10.一种数据交换作业中脏数据的处理装置,其特征在于,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;所述装置包括:
接收单元,用于接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作节点集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;
预测单元,用于根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息;
将所述脏数据信息上报至控制节点进行记录,并在本地丢弃所述脏数据信息,持续进行数据交换作业;
所述装置还包括:
筛选单元,用于将检测到的向目的数据库提交失败的数据信息存储至数据镜像流资源池,并持续进行数据交换作业。
11.一种数据交换作业中脏数据的处理装置,其特征在于,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;所述装置包括:
获取单元,用于根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;
筛选单元,用于从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;
上传单元,用于将所述脏数据信息上传至所述控制节点,以由所述控制节点根据所述工作节点集合中的工作节点上传的脏数据信息分析得到针对所述目的数据库的检测规则;
所述筛选单元具体用于将检测到的向目的数据库提交失败的数据信息存储至数据镜像流资源池,并持续进行数据交换作业;
所述装置还包括:
预测单元,用于根据所述控制节点下发的检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息,若所述数据信息为不符合检测规则的脏数据信息,则将所述脏数据信息上报至控制节点进行记录,并在本地丢弃所述脏数据信息,持续进行数据交换作业。
12.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-4中任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。
14.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求5-8中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求5-8中任一项所述方法的步骤。
CN201911171177.7A 2019-11-26 2019-11-26 一种数据交换作业中脏数据的处理方法及装置 Active CN110955710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911171177.7A CN110955710B (zh) 2019-11-26 2019-11-26 一种数据交换作业中脏数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911171177.7A CN110955710B (zh) 2019-11-26 2019-11-26 一种数据交换作业中脏数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN110955710A CN110955710A (zh) 2020-04-03
CN110955710B true CN110955710B (zh) 2023-12-26

Family

ID=69978443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911171177.7A Active CN110955710B (zh) 2019-11-26 2019-11-26 一种数据交换作业中脏数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN110955710B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966293B (zh) * 2020-12-31 2022-06-03 厦门市美亚柏科信息股份有限公司 数据库脏页面检测方法、装置、计算设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102667761A (zh) * 2009-06-19 2012-09-12 布雷克公司 可扩展的集群数据库
US8832039B1 (en) * 2011-06-30 2014-09-09 Amazon Technologies, Inc. Methods and apparatus for data restore and recovery from a remote data store
CN207742669U (zh) * 2017-12-20 2018-08-17 武汉网盾科技有限公司 一种新型计算机互联网信息安全控制装置
CN109597836A (zh) * 2018-11-29 2019-04-09 武汉大学 一种基于加权矩阵的通信设备告警关联规则挖掘方法
CN109766336A (zh) * 2019-02-18 2019-05-17 安徽典典科技发展有限责任公司 基于DataPurge组件的数据自动清洗方法
CN110245560A (zh) * 2019-05-08 2019-09-17 陈介生 一种基于大数据分析的建筑物垃圾管理系统及其方法
CN110457298A (zh) * 2019-07-10 2019-11-15 广州市巴图鲁信息科技有限公司 一种汽车配件编码汇总发布方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101080077B (zh) * 2006-05-23 2011-07-13 华为技术有限公司 设备管理树的维护方法及终端设备
CN102625486B (zh) * 2012-04-16 2014-12-10 中国科学院声学研究所 一种代理节点、传感器网络数据获取方法及传感器网络
CN103218430B (zh) * 2013-04-11 2016-03-02 华为技术有限公司 控制数据写入的方法、系统及设备
CN105389201B (zh) * 2014-09-03 2018-11-13 中国石油化工股份有限公司 一种基于高性能计算集群的进程管理方法及其系统
CN107943859B (zh) * 2017-11-07 2021-07-30 千寻位置网络有限公司 海量传感器数据收集处理及反馈的系统和方法
CN109753498A (zh) * 2018-12-11 2019-05-14 中科恒运股份有限公司 基于机器学习的数据清洗方法及终端设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102667761A (zh) * 2009-06-19 2012-09-12 布雷克公司 可扩展的集群数据库
US8832039B1 (en) * 2011-06-30 2014-09-09 Amazon Technologies, Inc. Methods and apparatus for data restore and recovery from a remote data store
CN207742669U (zh) * 2017-12-20 2018-08-17 武汉网盾科技有限公司 一种新型计算机互联网信息安全控制装置
CN109597836A (zh) * 2018-11-29 2019-04-09 武汉大学 一种基于加权矩阵的通信设备告警关联规则挖掘方法
CN109766336A (zh) * 2019-02-18 2019-05-17 安徽典典科技发展有限责任公司 基于DataPurge组件的数据自动清洗方法
CN110245560A (zh) * 2019-05-08 2019-09-17 陈介生 一种基于大数据分析的建筑物垃圾管理系统及其方法
CN110457298A (zh) * 2019-07-10 2019-11-15 广州市巴图鲁信息科技有限公司 一种汽车配件编码汇总发布方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Screening and cleaning technology of transformer oil chromatographic on-line monitoring data;Huang Yuncheng 等;《Electric Power Science and Engineering》;37-43 *
基于动态可配置规则的数据清洗方法;朱会娟等;《计算机应用》;第37卷(第4期);1014-1020 *

Also Published As

Publication number Publication date
CN110955710A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
US20220300496A1 (en) Automatic partitioning
US7860319B2 (en) Image management
US10664837B2 (en) Method and system for real-time, load-driven multidimensional and hierarchical classification of monitored transaction executions for visualization and analysis tasks like statistical anomaly detection
JP5390506B2 (ja) ビデオ検出システムおよびビデオ検出方法
GB2554515A (en) Providing relevant video scenes in response to a video search query
CN111258973A (zh) Redis慢日志的存储、展示方法、装置、设备和介质
WO2020143181A1 (zh) 数据存储方法、装置、计算机设备及存储介质
CN110955710B (zh) 一种数据交换作业中脏数据的处理方法及装置
CN109033188A (zh) 一种元数据采集方法、装置、服务器和计算机可读介质
CN107871055B (zh) 一种数据分析方法和装置
CN110795614A (zh) 一种索引自动优化方法及装置
CN111092879B (zh) 日志关联方法及装置、电子设备、存储介质
CN107590233B (zh) 一种文件管理方法及装置
CN107330031B (zh) 一种数据存储的方法、装置及电子设备
CN108229585B (zh) 一种日志的归类方法及系统
CN111817867A (zh) 分布式环境下进行多日志协同分析的方法及系统
CN114116811B (zh) 日志处理方法、装置、设备及存储介质
US20230237049A1 (en) Artifact life tracking storage
CN106569731B (zh) 极限存储方法、装置及设备
CN106777010B (zh) 日志的提供方法、装置以及日志的获取方法、装置和系统
CN108984101B (zh) 在分布式存储系统中确定事件之间关系的方法及装置
EP3828712A1 (en) Data parsing method and device
US8775528B2 (en) Computer readable recording medium storing linking keyword automatically extracting program, linking keyword automatically extracting method and apparatus
US11720591B1 (en) Virtual metrics
CN112714033B (zh) 视频集的特征信息确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant