CN116226112A

CN116226112A - 数据清洗方法、装置、存储介质及电子设备

Info

Publication number: CN116226112A
Application number: CN202310296656.1A
Authority: CN
Inventors: 库生玉; 严晗; 潘登; 陈泽华; 彭一轩; 何幼玲; 郑凤英; 陈凯; 孙三新; 代飞亚; 张冲; 杨华; 陈卫
Original assignee: Yuanguang Software Co Ltd
Current assignee: Yuanguang Software Co Ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-06-06

Abstract

本发明公开了一种数据清洗方法、装置、存储介质及电子设备。其中，该方法包括：响应目标对象对多个操作节点的操作命令，生成第一流程图，其中，每个操作节点用于执行第一流程图对应的目标数据清洗任务的至少一项操作，第一流程图表征多个操作节点的执行顺序；根据第一流程图，确定目标数据清洗任务的清洗规则，其中，清洗规则至少包括多个操作节点的运行规则；基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，其中，目标清洗结果表征数据清洗处理是否成功。本发明解决了现有技术中采用编写代码的方式进行数据清洗，存在数据清洗任务的执行效率低的技术问题。

Description

数据清洗方法、装置、存储介质及电子设备

技术领域

本发明涉及计算机软件控制技术领域，具体而言，涉及一种数据清洗方法、装置、存储介质及电子设备。

背景技术

随着企业各级人员数据意识的提升，传统式面向开发人员的数据准备和报表开发工具耗时长、效率低、响应慢，越来越多的业务人员开始使用自助式分析系统，但是很多时候，原始数据源不能支撑最终分析场景的要求，且大部分自助式商业智能分析工具都不包含数据清洗的功能，仍需要依靠专业的数据工程师通过编写SQL语句和代码来处理，开发成本大，并且会产生大量的沟通成本，数据工程师对代码的调试、实装，业务人员对最终数据校对、反馈等工作也会耗费不少时间，使实时性大打折扣，存在数据清洗任务的执行效率低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据清洗方法、装置、存储介质及电子设备，以至少解决现有技术中采用编写代码的方式进行数据清洗，存在数据清洗任务的执行效率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据清洗方法，包括：响应目标对象对多个操作节点的操作命令，生成第一流程图，其中，每个操作节点用于执行第一流程图对应的目标数据清洗任务的至少一项操作，第一流程图表征多个操作节点的执行顺序；根据第一流程图，确定目标数据清洗任务的清洗规则，其中，清洗规则至少包括多个操作节点的运行规则；基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，其中，目标清洗结果表征数据清洗处理是否成功。

进一步地，基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，包括：确定每个操作节点的节点状态，其中，节点状态为以下之一：未修改状态、已修改状态；从每个操作节点的运行规则中，获取多个目标操作节点的运行规则，生成第一清洗规则，其中，多个目标操作节点的节点状态为已修改状态；基于第一清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果。

进一步地，基于第一清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，包括：基于第一清洗规则，从每个目标操作节点对应的执行命令中确定第一执行命令和第二执行命令，其中，第一执行命令的执行顺序优先于第二执行命令的执行顺序；执行第一执行命令，对目标数据清洗任务对应的源数据集进行数据清洗处理，生成第一数据集；执行第二执行命令，对第一数据集进行数据清洗处理，生成第二数据集，其中，第二数据集的数据标准程度高于第一数据集的数据标准程度；基于第二数据集，生成目标清洗结果。

进一步地，基于第二数据集，生成目标清洗结果，包括：确定第一操作节点的执行状态，其中，执行状态为以下之一：正在执行状态、未执行状态；在执行状态为未执行状态的情况下，将执行状态更新为正在执行状态，并获取第一操作节点的运行规则，其中，第一操作节点的运行规则至少包括第二数据集的输出模式，输出模式为以下之一：第一输出模式、第二输出模式，第二输出模式对应的数据量小于第一输出模式对应的数据量；在第二数据集的输出模式为第一输出模式的情况下，判断第二数据集的数据结构是否发生变化；在第二数据集的数据结构发生变化的情况下，更新第二数据集的数据结构；在更新第二数据集的数据结构之后，或者，在第二数据集的数据结构未发生变化的情况下，创建第一数据表，并从当前数据表中将第二数据集的数据写入第一数据表，生成写入结果，其中，写入结果表征是否成功从当前数据表中将第二数据集的数据写入第一数据表；依据写入结果，生成目标清洗结果。

进一步地，依据写入结果，生成目标清洗结果，包括：在写入结果表征成功从当前数据表中将第二数据集的数据写入第一数据表的情况下，对当前数据表的名称和第一数据表的名称进行互换，并删除名称为第一数据表的名称的当前数据表；根据名称为当前数据表的名称的第一数据表，得到目标数据集，并生成数据清洗成功结果；在写入结果表征未成功从当前数据表中将第二数据集的数据写入第一数据表的情况下，删除第一数据表，并生成数据清洗失败结果。

进一步地，数据清洗方法还包括：在第二数据集的输出模式为第二输出模式的情况下，删除目标区域的数据，并从当前数据表中将第二数据集中的目标数据写入目标区域；在从当前数据表中将第二数据集中的目标数据写入目标区域之后，根据目标区域，得到目标数据集，并生成数据清洗成功结果。

进一步地，数据清洗方法还包括：在响应目标对象对多个操作节点的操作命令，生成第一流程图之后，计算多个操作节点之间的血缘关系，得到第一血缘关系集合；计算多个操作节点中的目标字段之间的血缘关系，得到第二血缘关系集合；对第一血缘关系集合和第二血缘关系集合进行存储，生成目标数据清洗任务对应的血缘关系集合。

进一步地，数据清洗方法还包括：在基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果之后，将目标清洗结果发送至目标界面，并在目标界面进行渲染；通过目标界面向目标对象展示目标清洗结果。

根据本发明实施例的另一方面，还提供了一种数据清洗装置，包括：第一处理模块，用于响应目标对象对多个操作节点的操作命令，生成第一流程图，其中，每个操作节点用于执行第一流程图对应的目标数据清洗任务的至少一项操作，第一流程图表征多个操作节点的执行顺序；确定模块，用于根据第一流程图，确定目标数据清洗任务的清洗规则，其中，清洗规则至少包括多个操作节点的运行规则；第二处理模块，用于基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，其中，目标清洗结果表征数据清洗处理是否成功。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的数据清洗方法。

根据本发明实施例的另一方面，还提供了一种电子设备，该电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的数据清洗方法。

在本发明实施例中，首先响应目标对象对多个操作节点的操作命令，生成第一流程图，然后根据第一流程图，确定目标数据清洗任务的清洗规则，然后基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果。其中，每个操作节点用于执行第一流程图对应的目标数据清洗任务的至少一项操作，第一流程图表征多个操作节点的执行顺序，清洗规则至少包括多个操作节点的运行规则，目标清洗结果表征数据清洗处理是否成功。

在上述过程中，通过响应目标对象对多个操作节点的操作命令，可以生成第一流程图，实现了对用户在目标界面上对操作节点的拖拽、编辑等命令的收集，获取到了可以表示目标数据清洗任务的链路情况的拓扑关系，为后续进行数据清洗提供了准确的数据基础，使普通业务人员通过拖拽操作节点，即可简单、快速地构建数据清洗任务，减少了业务人员与开发人员沟通产生的成本，提高了数据分析需求的响应速率；根据第一流程图，可以确定出目标数据清洗任务的清洗规则，从而能够基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，无需编写SQL语句和代码，减少了开发成本，从而提高了清洗任务的执行效率。

由此可见，通过本发明的技术方案，达到了为普通业务人员提供易操作、低门槛、智能化的数据清洗处理工具的目的，从而实现了提高清洗任务的执行效率的技术效果，进而解决了现有技术中采用编写代码的方式进行数据清洗，存在数据清洗任务的执行效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的数据清洗方法的流程图；

图2是根据本发明实施例的一种可选的数据清洗系统核心引擎的示意图；

图3是根据本发明实施例的一种可选的节点类型的示意图；

图4是根据本发明实施例的一种可选的数据清洗系统技术架构的示意图；

图5是根据本发明实施例的一种可选的节点执行的流程图；

图6是根据本发明实施例的一种可选的节点执行命令的示意图；

图7是根据本发明实施例的一种可选的输出节点执行的流程图；

图8是根据本发明实施例的一种可选的数据清洗装置的示意图；

图9是根据本发明实施例的一种可选的电子设备的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本发明所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

实施例1

根据本发明实施例，提供了一种数据清洗方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种可选的数据清洗方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，响应目标对象对多个操作节点的操作命令，生成第一流程图，其中，每个操作节点用于执行第一流程图对应的目标数据清洗任务的至少一项操作，第一流程图表征多个操作节点的执行顺序。

在上述步骤中，可以通过应用系统、处理器、电子设备等装置响应目标对象对多个操作节点的操作命令。可选的，通过数据清洗系统响应目标对象对多个操作节点的操作命令，目标对象可以是数据清洗系统的使用人员，例如，普通业务人员、非技术人员等用户，操作命令可以是拖拽、编辑节点配置等命令，第一流程图可以是表示目标数据清洗任务的链路情况的拓扑关系图等。

可选的，数据清洗系统包括图形化界面，用于接收目标对象对多个操作节点的操作命令，向目标对象显示多个操作节点组成的目标数据清洗任务，例如，业务人员通过拖拽的方式进行多种类型操作节点的编排、双击节点进入节点的配置编辑界面对该节点的操作进行具体设置等，多个操作节点构成一个有向无环图，按照从左至右的顺序展现出来。起始节点可以是源数据集，位于最左侧，其右侧可以接入操作节点作为后续清洗步骤，最终接输出节点(位于最右侧)，用来生成新的数据集。其中，除输出节点外，每个操作节点右侧均可接入多个操作节点，每个操作节点可以与其非前驱、非后继操作节点创建一个共同的后继节点，实现并集、关联等操作。还可以在界面中设置定时任务，手动执行及停止任务，查看任务执行流程及状态信息，查看历史执行记录等。

图2是根据本发明实施例的一种可选的数据清洗系统核心引擎的示意图，如图2所示，数据清洗系统核心引擎包括总体控制引擎、分析引擎、血缘引擎。可选的，通过总体控制引擎响应目标对象对多个操作节点的操作命令，生成第一流程图，即接收和保存用户的操作记录。

可选的，总体控制引擎的主要作用包括：接收保存用户操作记录；根据操作记录生成执行计划(即目标数据清洗任务的清洗规则)提供给分析引擎执行，总体调度操作节点的执行和输出节点的输出；获取分析引擎的执行结果并在界面上渲染；提供元数据给血缘引擎计算。

可选的，为了提高处理效率和稳定性，总体控制引擎主要采用无状态技术和并发执行技术，其中，无状态技术是指在内存中不存储状态数据，支持任意横向扩展；并发执行技术是指节点的执行和输出都使用任务队列和自定义线程池并发执行，以保证处理速度和分析引擎的压力。

可选的，分析引擎的主要作用包括：节点数据查询、输出数据到数据集。可选的，为了提高性能，加强清洗超大数据的能力，分析引擎主要采用以下技术：

(1)读写分离。分析引擎采用集群模式部署，读操作和写操作分别在不同的实例上进行，根据业务数据量可以动态地横向扩展集群。

(2)基于规则优化(RBO)。针对引擎特性，后台提供一系列优化规则，例如对于关联节点自动调整关联模式，对于常用字段自动建立索引和分区，对于深度太大的节点自动建立物化视图等。并且，提供了扩展接口，在使用过程中还可以根据经验总结添加自定义的优化规则。

(3)增量输出和并行输出。在数据输出时支持按照分区进行增量分区，当只有部分业务数据发生变化时，就可以使用增量输出，减少输出数据量，加快输出效率，还可以使用批量输出功能，并行地输出多个节点。

可选的，血缘引擎的主要作用包括：计算并记录节点之间的血缘关系、节点字段之间的血缘关系；流程节点血缘查询，在流程执行时会根据节点血缘从前到后依次计算；节点字段血缘关系查询，用来判断字段是否有循环依赖，是否有断层，以避免形成有环图导致清洗任务失败。

图3是根据本发明实施例的一种可选的节点类型的示意图，如图3所示，操作节点包括输入节点、清理节点、聚合节点、关联节点、行转列节点、列转行节点、并集节点以及输出节点。

图4是根据本发明实施例的一种可选的数据清洗系统技术架构的示意图，如图4所示，数据清洗系统技术架构包括交互界面、数据服务、核心功能以及数据存储，可选的，本发明提供了流程管理、数据清洗、数据预览、血缘计算、数据输出、任务调度等功能的Web页面和后台接口，通过前述核心引擎实现这些功能，例如，通过总体控制引擎实现流程管理、任务调度功能等，通过分析引擎实现数据清洗功能等，通过血缘引擎实现血缘计算功能等。

可选的，交互界面包括数据处理设置HTML、结果集查看HTML、结果集分析HTML。可选的，流程管理提供了流程的新建、修改、删除、查询、流程标签管理、流程导入导出等功能。数据清洗提供了新建、修改、删除、查询流程节点功能，以及节点配置、添加、回滚清洗操作命令、执行流程节点等功能。数据预览提供了节点数据实时预览、排序功能。血缘计算提供了节点、字段血缘关系计算和查询功能。数据输出提供了增量、全量输出数据到数据集的功能。任务调度提供了新增、修改、查询、删除添加定时执行输出任务的功能。

需要说明的是，本发明具有无代码特征，即所有的数据清洗操作都是在图形化界面上通过拖、拉、拽等模式进行的，无需编写代码；具有实时预览特性，即所有的数据清洗操作都是实时保存、实时预览的，用户可以及时看到每一步操作的结果；具有超大数据量特性，使用高性能分析引擎ClickHouse，支持对超大数据量的数据集进行加工，能做到亿级数据，秒级响应；具有操作回滚特性，即所有的数据清洗操作记录都在操作界面上展示，每一步操作都可以进行撤销回滚，用户可以实时调整达到最佳的清洗效果；具有数据血缘特性，提供了字段级别的数据血缘，用户可以查看每一个字段的血缘链路，便于追溯和发现错误字段。

步骤S102，根据第一流程图，确定目标数据清洗任务的清洗规则，其中，清洗规则至少包括多个操作节点的运行规则。

在上述步骤中，根据第一流程图，获取多个操作节点的配置信息，即获取用户通过双击节点编辑的配置信息，然后根据配置信息，可以确定清洗规则。可选的，清洗规则由依据操作节点的配置信息生成的清洗命令对应的操作步骤组成，运行规则可以是依据操作节点的配置信息生成的清洗命令形成的规则。

步骤S103，基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，其中，目标清洗结果表征数据清洗处理是否成功。

在上述步骤中，分析引擎可以基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果。

基于上述步骤S101至步骤S103所限定的方案，可以获知，在本发明实施例中，首先响应目标对象对多个操作节点的操作命令，生成第一流程图，然后根据第一流程图，确定目标数据清洗任务的清洗规则，然后基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果。其中，每个操作节点用于执行第一流程图对应的目标数据清洗任务的至少一项操作，第一流程图表征多个操作节点的执行顺序，清洗规则至少包括多个操作节点的运行规则，目标清洗结果表征数据清洗处理是否成功。

容易注意到的是，在上述过程中，通过响应目标对象对多个操作节点的操作命令，可以生成第一流程图，实现了对用户在目标界面上对操作节点的拖拽、编辑等命令的收集，获取到了可以表示目标数据清洗任务的链路情况的拓扑关系，为后续进行数据清洗提供了准确的数据基础，使普通业务人员通过拖拽操作节点，即可简单、快速地构建数据清洗任务，减少了业务人员与开发人员沟通产生的成本，提高了数据分析需求的响应速率；根据第一流程图，可以确定出目标数据清洗任务的清洗规则，从而能够基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，无需编写SQL语句和代码，减少了开发成本，从而提高了清洗任务的执行效率。

在一种可选的实施例中，在基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果的过程中，首先确定每个操作节点的节点状态，然后从每个操作节点的运行规则中，获取多个目标操作节点的运行规则，生成第一清洗规则，然后基于第一清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果。其中，节点状态为以下之一：未修改状态、已修改状态，多个目标操作节点的节点状态为已修改状态。

图5是根据本发明实施例的一种可选的节点执行的流程图，如图5所示，首先判断修改标志是否为0，即确定每个操作节点的节点状态，若修改标志为0，则认为节点没有被修改，节点状态为未修改状态，结束流程；若修改标志不为0，例如，修改标志为1，则节点状态为已修改状态。进一步地，构建上下文，进行节点执行程序初始化设置，并获取多个目标操作节点(即节点状态为已修改状态的节点)的运行规则(即节点对应的所有执行命令)，合并同类型命令，生成第一清洗规则。可选的，用户对节点的清洗操作都会在后台抽象成一个执行命令，例如，删除列、新增计算列等。其中，合并同类型命令可以避免重复计算，例如，节点A的执行命令可能包括命令1修改节点名称为B，命令2修改节点名称为C，通过合并同类型命令，只需按照执行命令的配置时间，仅执行最后一次设置的修改节点名称命令即可。

进一步地，基于第一清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果。

在一种可选的实施例中，在基于第一清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果的过程中，首先基于第一清洗规则，从每个目标操作节点对应的执行命令中确定第一执行命令和第二执行命令，然后执行第一执行命令，对目标数据清洗任务对应的源数据集进行数据清洗处理，生成第一数据集，然后执行第二执行命令，对第一数据集进行数据清洗处理，生成第二数据集，然后基于第二数据集，生成目标清洗结果。其中，第一执行命令的执行顺序优先于第二执行命令的执行顺序，第二数据集的数据标准程度高于第一数据集的数据标准程度。

可选的，第一执行命令可以是前置命令，第二执行命令可以是后置命令，如图5所示，在合并命令得到第一清洗规则之后，执行前置命令，对目标数据清洗任务对应的源数据集进行数据清洗处理，生成第一数据集。具体的，按照命令的创建时间顺序执行。例如，新增列、删除列等命令是前置命令，删除空格等格式修改命令是后置命令。

可选的，如图5所示，对操作节点的元数据进行存储，元数据至少包括节点信息、字段信息、执行记录、数据血缘等数据。然后创建物理表，用于存储通过执行前置命令对源数据集进行数据清洗处理后得到的第一数据集，在分析引擎里根据查询计划生成视图。

进一步地，如图5所示，执行后置命令(即第二执行命令)，对第一数据集进行数据清洗处理，生成第二数据集。例如，执行删除空格等格式修改命令，对第一数据集进行修正得到修正后的第二数据集。可选的，执行第二执行命令之后，重置修改标志为0，即将节点状态设置为未修改状态。

图6是根据本发明实施例的一种可选的节点执行命令的示意图，如图6所示，节点执行命令(节点操作命令)包括通用命令、清理命令、基于规则优化等。其中，通用命令包括数据过滤、新增计算列、新增序号列、移除列、还原列、删除列、更改字段类型、更改显示名称、拆分列、字段排序等，清理命令包括删除空格、删除特殊符号、转为大写、转为小写、替换值等，基于规则优化包括左关联规则优化、物化视图规则优化等。可选的，一个操作节点包括至少一个执行命令，例如，用户可以通过双击编辑操作节点A，对操作节点A配置删除某一列、更改字段类型等命令。

进一步地，基于第二数据集，生成目标清洗结果。

在一种可选的实施例中，在基于第二数据集，生成目标清洗结果的过程中，首先确定第一操作节点的执行状态，在执行状态为未执行状态的情况下，将执行状态更新为正在执行状态，并获取第一操作节点的运行规则，然后在第二数据集的输出模式为第一输出模式的情况下，判断第二数据集的数据结构是否发生变化，然后在第二数据集的数据结构发生变化的情况下，更新第二数据集的数据结构，然后在更新第二数据集的数据结构之后，或者，在第二数据集的数据结构未发生变化的情况下，创建第一数据表，并从当前数据表中将第二数据集的数据写入第一数据表，生成写入结果，然后依据写入结果，生成目标清洗结果。其中，执行状态为以下之一：正在执行状态、未执行状态，第一操作节点的运行规则至少包括第二数据集的输出模式，输出模式为以下之一：第一输出模式、第二输出模式，第二输出模式对应的数据量小于第一输出模式对应的数据量，写入结果表征是否成功从当前数据表中将第二数据集的数据写入第一数据表。

可选的，第一操作节点可以是输出节点，第一输出模式可以是全量输出，第二输出模式可以是增量输出。图7是根据本发明实施例的一种可选的输出节点执行的流程图，如图7所示，首先判断输出节点是否正在输出，即确定第一操作节点的执行状态，若执行状态为正在执行状态，则结束流程；若执行状态为未执行状态，则将执行状态更新为正在执行状态，防止重复输出，并获取第一操作节点的运行规则。

进一步地，判断输出模式是否为全量输出，在第二数据集的输出模式为第一输出模式(即全量输出)的情况下，判断第二数据集的数据结构是否发生变化，若第二数据集的数据结构发生变化，则更新第二数据集的数据结构(即更新元数据结构)。

进一步地，在更新第二数据集的数据结构之后，或者，在第二数据集的数据结构未发生变化的情况下，创建第一数据表(即创建新的物理表)，并从当前数据表中将第二数据集的数据写入第一数据表(即新的物理表)，生成写入结果。

进一步地，依据写入结果，生成目标清洗结果。

在一种可选的实施例中，在依据写入结果，生成目标清洗结果的过程中，首先在写入结果表征成功从当前数据表中将第二数据集的数据写入第一数据表的情况下，对当前数据表的名称和第一数据表的名称进行互换，并删除名称为第一数据表的名称的当前数据表，然后根据名称为当前数据表的名称的第一数据表，得到目标数据集，并生成数据清洗成功结果，在写入结果表征未成功从当前数据表中将第二数据集的数据写入第一数据表的情况下，删除第一数据表，并生成数据清洗失败结果。

可选的，如图7所示，判断数据写入是否有异常，若写入结果表征成功从当前数据表中将第二数据集的数据写入第一数据表，即写入没有异常，则对当前数据表的名称和第一数据表的名称进行互换(即将新表、老表更换名称)，并删除名称为第一数据表的名称的当前数据表(即删除新表)，然后根据名称为当前数据表的名称的第一数据表，得到目标数据集，并生成数据清洗成功结果，修改状态为输出成功。

可选的，若写入结果表征未成功从当前数据表中将第二数据集的数据写入第一数据表，即写入有异常，则删除第一数据表(即删除新表)，并生成数据清洗失败结果，修改状态为输出失败。

在一种可选的实施例中，在第二数据集的输出模式为第二输出模式的情况下，删除目标区域的数据，并从当前数据表中将第二数据集中的目标数据写入目标区域，在从当前数据表中将第二数据集中的目标数据写入目标区域之后，根据目标区域，得到目标数据集，并生成数据清洗成功结果。

可选的，目标区域可以是增量分区，目标数据可以是增量数据。可选的，若第二数据集的输出模式为第二输出模式(即增量输出)，则删除增量分区的数据，并从当前数据表中将第二数据集中的增量数据写入增量分区，然后根据增量分区中的数据，得到目标数据集，并生成数据清洗成功结果。

在一种可选的实施例中，在响应目标对象对多个操作节点的操作命令，生成第一流程图之后，计算多个操作节点之间的血缘关系，得到第一血缘关系集合；计算多个操作节点中的目标字段之间的血缘关系，得到第二血缘关系集合；对第一血缘关系集合和第二血缘关系集合进行存储，生成目标数据清洗任务对应的血缘关系集合。

可选的，通过血缘引擎计算多个操作节点之间的血缘关系，得到第一血缘关系集合，以及计算多个操作节点中的目标字段之间的血缘关系，得到第二血缘关系集合，并对第一血缘关系集合和第二血缘关系集合进行存储，生成目标数据清洗任务对应的血缘关系集合。

需要说明的是，在本实施例中，提供了节点级别和字段级别的数据血缘查询功能，用户可以通过图形化界面查看从左至右的操作节点布局中的每一个节点、每一个字段的血缘链路，即在图形化界面上追踪到每一个节点、每一个字段的血缘关系，也可以从任何一个分析场景追溯使用过的数据处理流程，从而可以在数据清洗出现异常的情况下，根据血缘关系，快速查询出问题节点或字段，进一步提高清洗任务的执行效率。

在一种可选的实施例中，在基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果之后，将目标清洗结果发送至目标界面，并在目标界面进行渲染，通过目标界面向目标对象展示目标清洗结果。

可选的，目标界面可以是前述图形化界面，分析引擎将目标清洗结果发送至图形化界面，在图形化界面进行渲染，通过图形化界面向用户展示目标清洗结果。

需要说明的是，在数据进行分析之前，往往需要对数据进行加工清洗保证数据质量可靠，现有技术中往往只能由专业的数据工程师通过编写SQL语句或代码等形式来处理。在本实施例中，基于ClickHouse技术，可以实时对巨量数据进行清洗，尤其适用于非数据工程师根据业务需求，对现有巨量数据做ETL处理等，输出新数据集，进行商业分析。解决了只有数据工程师才能进行数据加工和清洗的问题，使普通的业务人员也可以通过在图形化界面上拖拽进行聚合、行列转换、并集、关联、筛选、清洗等一系列操作，生成适用于特定分析场景的数据集。通过图形化界面直观清晰地表达数据处理聚合、行列转换、并集、关联、筛选、清洗等一系列操作，让任何无编程经验的人也可以轻松上手，通过简单的拖拽操作就可以完成整个数据处理流程的编排和输出，减少了业务人员与开发人员沟通产生的成本，提高了数据分析需求的响应速率。

另外，使用图形数据库(例如，Neo4j)记录节点之间的关系，使编排过程形成的有向无环图能够即时读取、即时展现。解决了以往的SQL或者ETL数据加工清洗过程中存在的数据黑盒的问题。并且，使用ClickHouse在后台处理数据操作，对于图形化界面上的编排，可以在后台转化成一系列对ClickHouse的高效操作，使得在设置任意节点后，即时生成从开始到此节点为止的清洗结果。此外，通过最后的输出节点，可以将加工清洗后的数据直接输出到分析系统，输出完成后马上就可以进行分析，即加工清洗后的数据可以立即在分析系统中使用，解决了数据加工后不能及时使用的问题。

实施例2

根据本发明实施例，提供了一种数据清洗装置的实施例，其中，图8是根据本发明实施例的一种可选的数据清洗装置的示意图，如图8所示，该装置包括：第一处理模块801，用于响应目标对象对多个操作节点的操作命令，生成第一流程图，其中，每个操作节点用于执行第一流程图对应的目标数据清洗任务的至少一项操作，第一流程图表征多个操作节点的执行顺序；确定模块802，用于根据第一流程图，确定目标数据清洗任务的清洗规则，其中，清洗规则至少包括多个操作节点的运行规则；第二处理模块803，用于基于清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，其中，目标清洗结果表征数据清洗处理是否成功。

需要说明的是，上述第一处理模块801、确定模块802以及第二处理模块803对应于上述实施例中的步骤S101至步骤S103，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。

可选的，第二处理模块包括：第一确定单元，用于确定每个操作节点的节点状态，其中，节点状态为以下之一：未修改状态、已修改状态；第一获取单元，用于从每个操作节点的运行规则中，获取多个目标操作节点的运行规则，生成第一清洗规则，其中，多个目标操作节点的节点状态为已修改状态；第一处理单元，用于基于第一清洗规则，对目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果。

可选的，第一处理单元包括：第一确定子模块，用于基于第一清洗规则，从每个目标操作节点对应的执行命令中确定第一执行命令和第二执行命令，其中，第一执行命令的执行顺序优先于第二执行命令的执行顺序；第一执行子模块，用于执行第一执行命令，对目标数据清洗任务对应的源数据集进行数据清洗处理，生成第一数据集；第二执行子模块，用于执行第二执行命令，对第一数据集进行数据清洗处理，生成第二数据集，其中，第二数据集的数据标准程度高于第一数据集的数据标准程度；第三执行子模块，用于基于第二数据集，生成目标清洗结果。

可选的，第三执行子模块包括：第一确定子单元，用于确定第一操作节点的执行状态，其中，执行状态为以下之一：正在执行状态、未执行状态；第一获取子单元，用于在执行状态为未执行状态的情况下，将执行状态更新为正在执行状态，并获取第一操作节点的运行规则，其中，第一操作节点的运行规则至少包括第二数据集的输出模式，输出模式为以下之一：第一输出模式、第二输出模式，第二输出模式对应的数据量小于第一输出模式对应的数据量；第一判断子单元，用于在第二数据集的输出模式为第一输出模式的情况下，判断第二数据集的数据结构是否发生变化；第一更新子单元，用于在第二数据集的数据结构发生变化的情况下，更新第二数据集的数据结构；第一写入子单元，用于在更新第二数据集的数据结构之后，或者，在第二数据集的数据结构未发生变化的情况下，创建第一数据表，并从当前数据表中将第二数据集的数据写入第一数据表，生成写入结果，其中，写入结果表征是否成功从当前数据表中将第二数据集的数据写入第一数据表；第一生成子单元，用于依据写入结果，生成目标清洗结果。

可选的，第一生成子单元包括：互换处理子单元，用于在写入结果表征成功从当前数据表中将第二数据集的数据写入第一数据表的情况下，对当前数据表的名称和第一数据表的名称进行互换，并删除名称为第一数据表的名称的当前数据表；第二生成子单元，用于根据名称为当前数据表的名称的第一数据表，得到目标数据集，并生成数据清洗成功结果；第三生成子单元，用于在写入结果表征未成功从当前数据表中将第二数据集的数据写入第一数据表的情况下，删除第一数据表，并生成数据清洗失败结果。

可选的，数据清洗装置还包括：删除模块，用于在第二数据集的输出模式为第二输出模式的情况下，删除目标区域的数据，并从当前数据表中将第二数据集中的目标数据写入目标区域；生成模块，用于在从当前数据表中将第二数据集中的目标数据写入目标区域之后，根据目标区域，得到目标数据集，并生成数据清洗成功结果。

可选的，数据清洗装置还包括：第一计算模块，用于计算多个操作节点之间的血缘关系，得到第一血缘关系集合；第二计算模块，用于计算多个操作节点中的目标字段之间的血缘关系，得到第二血缘关系集合；存储模块，用于对第一血缘关系集合和第二血缘关系集合进行存储，生成目标数据清洗任务对应的血缘关系集合。

可选的，数据清洗装置还包括：发送模块，用于将目标清洗结果发送至目标界面，并在目标界面进行渲染；展示模块，用于通过目标界面向目标对象展示目标清洗结果。

实施例3

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的数据清洗方法。

实施例4

根据本发明实施例的另一方面，还提供了一种电子设备，其中，图9是根据本发明实施例的一种可选的电子设备的示意图，如图9所示，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的数据清洗方法。

本文中的设备可以是服务器、PC、PAD、手机等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据清洗方法，其特征在于，包括：

响应目标对象对多个操作节点的操作命令，生成第一流程图，其中，每个操作节点用于执行所述第一流程图对应的目标数据清洗任务的至少一项操作，所述第一流程图表征所述多个操作节点的执行顺序；

根据所述第一流程图，确定所述目标数据清洗任务的清洗规则，其中，所述清洗规则至少包括所述多个操作节点的运行规则；

基于所述清洗规则，对所述目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，其中，所述目标清洗结果表征所述数据清洗处理是否成功。

2.根据权利要求1所述的方法，其特征在于，基于所述清洗规则，对所述目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，包括：

确定所述每个操作节点的节点状态，其中，所述节点状态为以下之一：未修改状态、已修改状态；

从所述每个操作节点的运行规则中，获取多个目标操作节点的运行规则，生成第一清洗规则，其中，所述多个目标操作节点的节点状态为所述已修改状态；

基于所述第一清洗规则，对所述目标数据清洗任务对应的源数据集进行所述数据清洗处理，得到所述目标清洗结果。

3.根据权利要求2所述的方法，其特征在于，基于所述第一清洗规则，对所述目标数据清洗任务对应的源数据集进行所述数据清洗处理，得到所述目标清洗结果，包括：

基于所述第一清洗规则，从每个目标操作节点对应的执行命令中确定第一执行命令和第二执行命令，其中，所述第一执行命令的执行顺序优先于所述第二执行命令的执行顺序；

执行所述第一执行命令，对所述目标数据清洗任务对应的源数据集进行所述数据清洗处理，生成第一数据集；

执行所述第二执行命令，对所述第一数据集进行所述数据清洗处理，生成第二数据集，其中，所述第二数据集的数据标准程度高于所述第一数据集的数据标准程度；

基于所述第二数据集，生成所述目标清洗结果。

4.根据权利要求3所述的方法，其特征在于，基于所述第二数据集，生成所述目标清洗结果，包括：

确定第一操作节点的执行状态，其中，所述执行状态为以下之一：正在执行状态、未执行状态；

在所述执行状态为所述未执行状态的情况下，将所述执行状态更新为所述正在执行状态，并获取所述第一操作节点的运行规则，其中，所述第一操作节点的运行规则至少包括所述第二数据集的输出模式，所述输出模式为以下之一：第一输出模式、第二输出模式，所述第二输出模式对应的数据量小于所述第一输出模式对应的数据量；

在所述第二数据集的输出模式为所述第一输出模式的情况下，判断所述第二数据集的数据结构是否发生变化；

在所述第二数据集的数据结构发生变化的情况下，更新所述第二数据集的数据结构；

在更新所述第二数据集的数据结构之后，或者，在所述第二数据集的数据结构未发生变化的情况下，创建第一数据表，并从当前数据表中将所述第二数据集的数据写入所述第一数据表，生成写入结果，其中，所述写入结果表征是否成功从所述当前数据表中将所述第二数据集的数据写入所述第一数据表；

依据所述写入结果，生成所述目标清洗结果。

5.根据权利要求4所述的方法，其特征在于，依据所述写入结果，生成所述目标清洗结果，包括：

在所述写入结果表征成功从所述当前数据表中将所述第二数据集的数据写入所述第一数据表的情况下，对所述当前数据表的名称和所述第一数据表的名称进行互换，并删除名称为所述第一数据表的名称的所述当前数据表；

根据名称为所述当前数据表的名称的所述第一数据表，得到目标数据集，并生成数据清洗成功结果；

在所述写入结果表征未成功从所述当前数据表中将所述第二数据集的数据写入所述第一数据表的情况下，删除所述第一数据表，并生成数据清洗失败结果。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

在所述第二数据集的输出模式为所述第二输出模式的情况下，删除目标区域的数据，并从所述当前数据表中将所述第二数据集中的目标数据写入所述目标区域；

在从所述当前数据表中将所述第二数据集中的目标数据写入所述目标区域之后，根据所述目标区域，得到目标数据集，并生成数据清洗成功结果。

7.根据权利要求1所述的方法，其特征在于，在响应目标对象对多个操作节点的操作命令，生成第一流程图之后，所述方法还包括：

计算所述多个操作节点之间的血缘关系，得到第一血缘关系集合；

计算所述多个操作节点中的目标字段之间的血缘关系，得到第二血缘关系集合；

对所述第一血缘关系集合和所述第二血缘关系集合进行存储，生成所述目标数据清洗任务对应的血缘关系集合。

8.根据权利要求1所述的方法，其特征在于，在基于所述清洗规则，对所述目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果之后，所述方法还包括：

将所述目标清洗结果发送至目标界面，并在所述目标界面进行渲染；

通过所述目标界面向所述目标对象展示所述目标清洗结果。

9.一种数据清洗装置，其特征在于，包括：

第一处理模块，用于响应目标对象对多个操作节点的操作命令，生成第一流程图，其中，每个操作节点用于执行所述第一流程图对应的目标数据清洗任务的至少一项操作，所述第一流程图表征所述多个操作节点的执行顺序；

确定模块，用于根据所述第一流程图，确定所述目标数据清洗任务的清洗规则，其中，所述清洗规则至少包括所述多个操作节点的运行规则；

第二处理模块，用于基于所述清洗规则，对所述目标数据清洗任务对应的源数据集进行数据清洗处理，得到目标清洗结果，其中，所述目标清洗结果表征所述数据清洗处理是否成功。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至8任一项中所述的数据清洗方法。

11.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现用于运行程序，其中，所述程序被设置为运行时执行所述权利要求1至8任一项中所述的数据清洗方法。