CN117609216A

CN117609216A - 数据质量模型的构建方法

Info

Publication number: CN117609216A
Application number: CN202311768994.7A
Authority: CN
Inventors: 张进; 李迪砺; 石凯; 严林刚
Original assignee: Hangzhou Guanyuan Data Co ltd
Current assignee: Hangzhou Guanyuan Data Co ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-02-27

Abstract

本申请涉及一种数据质量模型的构建方法，能够通过全量更新每次开发生成的开发数据集，包括每次开发更新生成的数据流和工作流等数据集，并基于特征工程，对当前的数据集进行数据集基础特征的提取，并基于数据集基础特征进行对应开发属性的开发质量模型构建，通过管理参数配置生成与当前开发属性相匹配的数据质量模型，能够实时对当前开发数据流或者工作流的开发文件进行对应属性的开发质量审核，基于数据集进行表级及字段级的校验规则设置，提供自定义质量规则的功能，并支持定时检测并产出数据质量报告。因此，能够实时对开发数据进行质量检测，以保证数据开发平台中的数据质量，提高后期对业务的服务水平。

Description

数据质量模型的构建方法

技术领域

本公开涉及数据集服务技术领域，尤其涉及一种数据质量模型的构建方法、系统和电子设备。

背景技术

进入Web3时代，随着数据智能平台在各行业不断得到深度应用，数据驱动业务发展逐渐成为领先企业的发展动力。其背后的源动力既包含了政策的推动，需求的进发，也包含了大数据技术的发展与演进。

在产品层面，数据开发类产品在前台和后台之间，构建了企业级的数据共享、能力复用平台，是企业数字化转型的基础和中枢系统。

在技术层面，大数据技术在云原生技术势能下加速发展并趋向于成熟，这不仅塑造了国内数据服务厂商的产品架构设计与市场格局，并且在应用基础设施、应用软件架构、开发模式与部署架构四个层面协同进化，为各行各业带来了全新的业务价值与技术优势。

数据开发类产品，比如附图1所示的申请人研发提供的Universe产品架构，其能够为企业客户提供以数据开发为核心的产品能力，其对下可以支持大数据平台及数据库系统，对上可以打通数据应用系统。其中，数据开发平台中，主要实现开发任务中的基础服务工作、一站式开发工作和数据治理工作。而数据治理，包含数据质量、数据血缘、数据探查三大模块，提供轻量级的数据治理能力，及时发现质量问题，凭借数据血缘完成整个数据链路的影响分析，通过数据探查进行数据集基础特征与数据质量洞察，以业务应用为导向，最大化发挥数据的价值。

因此，为了保障在开发任务中的数据质量，需要通过数据质量管理模块对开发数据进行质量检测，以保证数据开发平台中的数据质量，提高后期对业务的服务水平。

基于数据集进行表级及字段级的校验规则设置，提供自定义质量规则的功能，并支持定时检测并产出数据质量报告。

发明内容

为了解决上述问题，本申请提出一种数据质量模型的构建方法、系统和电子设备。

本申请一方面，提出一种数据质量模型的构建方法，包括如下步骤：

通过数据集成模块，获取开发生成的数据集；

对开发生成的数据集进行特征工程处理，获得所述数据集的数据集基础特征；

根据所构建的所述数据集基础特征，进行数据质量模型构建，生成数据质量初始模型；

为所述数据质量初始模型配置相应的数据质量管理参数，得到与所述数据集相匹配的数据质量模型。

作为本申请的一可选实施方案，可选地，通过数据集成模块，获取开发生成的数据集，包括：

切换数据集成模块对开发生成的数据集的采集模式；

所述数据集成模块根据当前切换的采集模式，从数据处理模块获取开发生成的数据集，并反馈至质量模型构建模块。

作为本申请的一可选实施方案，可选地，所述采集模式优选采用离线同步模式，全量采集每次开发生成的数据集，并实时更新传输至所述质量模型构建模块。

作为本申请的一可选实施方案，可选地，对开发生成的数据集进行特征工程处理，获得所述数据集的数据集基础特征，包括：

对每次开发生成的所述数据集，进行原始数据预处理；

按照开发节点的开发属性，将所述数据集进行分组，得到若干组开发数据子集；

对所述开发数据子集，进行特征处理，包括：特征构造、特征筛选及降维，得到对应的子集数据特征；

集合所有的所述子集数据特征，构成所述数据集的数据集基础特征。

作为本申请的一可选实施方案，可选地，所述特征处理的方法，包括：

采用PCA分析算法，分析并获取所述开发数据子集中的主成分数据特征，生成第一数据子集特征：Ta；

集合所有的所述一数据子集特征：Ta，构成所述数据集的数据集基础特征C。

采用卷积神经网络RNN算法，学习并识别所述开发数据子集中的基础数据特征，生成第二数据子集特征：Tb；

集合所有的所述第二数据子集特征：Tb，构成所述数据集的数据集基础特征C。

用卷积神经网络RNN算法，学习并识别所述开发数据子集中的基础数据特征，生成第二数据子集特征：Tb；

取Ta与Tb的交集：

C＝Ta∩Tb，

采用交叉验证的方式，提取得到所述数据集的数据集基础特征C。

作为本申请的一可选实施方案，可选地，所述数据质量管理参数，包括：

当前所述数据集的开发节点名称；

采集并更新的时间；

当前所述数据集的自定义质量规则，包括：数据集表级或者字段级的校验规则。

本申请另一方面，提出一种实现所述数据质量模型的构建方法的系统，包括：

数据集成模块，用于获取开发生成的数据集；

质量模型建模模块，用于对开发生成的数据集进行特征工程处理，获得所述数据集的数据集基础特征；以及，用于根据所构建的所述数据集基础特征，进行数据质量模型构建，生成数据质量初始模型；

数据管理模块，用于为所述数据质量初始模型配置相应的数据质量管理参数，得到与所述数据集相匹配的数据质量模型。

本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现所述的一种数据质量模型的构建方法。

本发明的技术效果：

本申请通过通过全量更新每次开发生成的开发数据集，包括每次开发更新生成的数据流和工作流等数据集，并基于特征工程，对当前的数据集进行数据集基础特征的提取，并基于数据集基础特征进行对应开发属性的开发质量模型构建，通过管理参数配置生成与当前开发属性相匹配的数据质量模型，能够实时对当前开发数据流或者工作流的开发文件进行对应属性的开发质量审核，基于数据集进行表级及字段级的校验规则设置，提供自定义质量规则的功能，并支持定时检测并产出数据质量报告。因此，能够实时对开发数据进行质量检测，以保证数据开发平台中的数据质量，提高后期对业务的服务水平。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出为本发明Universe产品架构的架构示意图；

图2示出为本发明的实施流程示意图；应用系统；

图3示出为本发明数据集特征交叉验证示意图；

图4示出为本发明门店订单表质量模型的应用示意图；

图5示出为本发明电子设备的应用示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

如图2所示，本申请一方面，提出一种数据质量模型的构建方法，包括如下步骤：

S1、通过数据集成模块，获取开发生成的数据集；

S2、对开发生成的数据集进行特征工程处理，获得所述数据集的数据集基础特征；

S3、根据所构建的所述数据集基础特征，进行数据质量模型构建，生成数据质量初始模型；

S4、为所述数据质量初始模型配置相应的数据质量管理参数，得到与所述数据集相匹配的数据质量模型。

本申请通过全量更新每次开发生成的开发数据集，包括每次开发更新生成的数据流和工作流等数据集，并基于特征工程，对当前的数据集进行数据集基础特征的提取，并基于数据集基础特征进行对应开发属性的开发质量模型构建，通过管理参数配置生成与当前开发属性相匹配的数据质量模型，能够实时对当前开发数据流或者工作流的开发文件进行对应属性的开发质量审核，基于数据集进行表级及字段级的校验规则设置，提供自定义质量规则的功能，并支持定时检测并产出数据质量报告。

结合附图1，管理员能够进入Universe产品的数据平台，通过基础服务功能，实现本方案的基础管理，比如开发任务的调度和运维工作等等。能够通过数据管理模块，实现数据集管理、数据源对接和文件数据对接，可以通过数据集管理，进行相应的数据参数配置，包括本方案中的模型参数配置，为初始生成的数据质量初始模型配置相应的数据质量管理参数。

开发人员进入平台的数据处理模块，进行数据及开发。可以通过数据处理平台上的数据集开发组件，实现相应的数据流开发以及工作流开发。同时还可以开发插件扩展和版本管理。

开发人员在开发过程中生成的相应数据流或者工作流的数据集，可以由数据集成模块进行采集。在数据集成模块中，可以获取开发生成的数据集，比如某一企业财务或者门店订单数据的数据流。

具体的数据流以及工作流所对应的数据集，本方案不做限定，包括对其数据集的文件文本格式可以采用FTP或者是Test数据集等等，对于表单的数据集也由开发人员生成相应表单即可。

切换数据集成模块对开发生成的数据集的采集模式；

数据集成模块可以采用离线同步或者是实时同步的方式对开发生成的数据集进行获取，对于数据采集的模式，可以由管理员来进行切换，比如切换采用离线同步的方式，将开发生成的数据集进行采集。

离线采集将按照开发人员所保存的开发节点，对相应节点生成的数据集进行调度和采集。

本方案为了避免打扰数据开发流程，影响开发人员的开发工作，采用了离线采集方式，采用离线全量采集对每次开发节点生成的数据集，比如说在某一个开发节点完成之后所生成并离线保存的数据集，将采用全量同步的方式，将本次生成的数据集同步采集并发送至质量模型建模模块中，进行数据准备。

对每次开发生成的所述数据集，进行原始数据预处理；

具体可以参见本方案对各个子集的特征处理方式。

管理员可以进入Universse-lab该质量模型建模模块中，进行相应的特征模型构建工作。

对应数据集的数据质量模型，将根据当前节开发节点的开发属性，构建并生成当前开发数据集进行数据质量检测的数据质量模型。

该数据质量模型将针对本次对应的开发工作所生成的数据流，或者是工作流的数据集文件数据进行数据质量检测。

因此，本方案的数据质量模型将与当前开发节点属性相关。在进行数据质量模型构建中，将针对当前采集的开发数据集进行数据集基础特征识别和提取，进行数据集特征工程的构建，根据本次开发工作生成的特征工程进一步构建相应数据质量模型。因此，通过特征工程进行模型构建生成的数据质量模型，可以针对当前开发生成的数据流以及工作流的数据集，进行专门的数据质量检测与管理，实现工开发工作与模型属性和功能的一致性。

数据集的特征工程是指对原始数据进行处理，以更好地代表预测模型的潜在问题的特征的过程，从而提高对未知数据的模型准确性。这个过程通常包括以下步骤：

1.异常值处理：对于数值型的数据，常用的异常值处理操作包括BOX-COX转换(处理有偏分布)，箱线图分析删除异常值，长尾截断等。

2.缺失值处理：对于缺失的数据，可以进行填充或者删除，或者根据上下文信息进行填补。

3.数据分组：将数据进行分组，使得每组中的数据都有相似的特性。

4.特征处理：特征工程还包括特征处理，例如特征构造、特征筛选及降维等。

特征工程的目的是将原始数据转换为更好的代表预测模型的潜在问题的特征，从而直接影响模型的预测结果。数据集的特征工程有助于提高数据挖掘和机器学习的效果。

若是当前开发生成的所述数据集，仅仅是一个开发节点的开发工作，则当前数据集仅仅包含一个开发节点，也将得到一组开发数据子集，则该子集的数据集特征即为当前所述数据集的数据集基础特征。

若是多个开发节点的开发工作，比如一个数据流中的：开发准备、开发测试、某个阶段的开发任务，出现多个开发节点，将按照开发节点的开发属性，将所述数据集进行分组，得到若干组开发数据子集。

下面将提供几种特征处理的方法：主成分分析算法PCA以及卷积神经网络RNN算法。

PCA分析：主成分分析(PCA)是一种常用的降维方法，可以将数据集中的特征转化为几个主成分，这些主成分能够尽可能地保留原始数据的变异信息，从而反映数据集的基础特征。

深度学习模型：深度学习模型可以自动从原始数据中学习到有用的特征，如循环神经网络(RNN)可以学习序列数据中的基础特征等。

对于一个开发节点，则可以采用PCA或者RNN算法，实现数据集特征的识别和提取。

具体可以结合RNN或者PCA的算法进行理解。

而对于存在多个开发节点的子集，本方案采用交叉验证的方式，从各个子集的特征中提取当前所述数据集的数据集基础特征C。

取Ta与Tb的交集：

C＝Ta∩Tb，

如图3所示，若是存在多个开发节点生成的开发数据子集，为了精准把控开发数据子集的数据集特征，采用了交叉验证的方式，分别利用PCA分析和RNN算法，对开发数据子集进行特征提取，若是两者提取得到的数据特征一致，则取一个；若是不一致，则取两者的交集作为数据特征。

因为开发数据集中，大多数是表单数据，里面包含若干数据表单，因此采用不同的特征提取方式，可能提取到不同的数据特征，采用交叉验证取交集的方式，可以缩小数据特征的分散性，提高数据特征的定位范围。

当前所述数据集的开发节点名称；

采集并更新的时间；

管理员对模型的构建，通过特征工程提取得到的数据集的数据集基础特征，进行模型构建，得到初始模型。该初始模型，将具体根据当前数据集的类型，比如附图4所示的门店订单表，根据该门店订单的数据集特征，构建对应的门店订单表质量模型，由管理员根据门店订单表的数据集基础信息，比如该门店订单表的开发节点管理者姓名、最近更新时间和数据集格式，进行模型管理参数配置，后续便于管理员，根据所配置的信息，实现对该门店订单表质量模型的管理。

对于管理员对模型的数据质量管理规则，可以自定义配置质量检测规则，比如对门店订单数据集中各个订单数据的数据质量管理规则，可以同时设定针对门店订单表的表级以及字段级的开发数据质量检测规则。模型中配置的表级规则，可以判断比如门店订单表的表格形式是否完成、有无缺陷等等；字段级的检测规则可以通过对门店订单表中的各项订单数据的字段进行提取和识别，判断是否出现比如空白的字段字符，是否出现低于订单数量小于50(单)的字符，等等。具体可以由管理员根据门店订单表的需求进行设定。

需要说明的是，尽管以作为示例介绍了如上PCA或者RNN算法，实现数据集特征的识别和提取，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据实际应用场景灵活设定数据集特征的识别和提取算法，只要可以按照上述技术实现本申请的技术功能即可。

显然，本领域的技术人员应该明白，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。本领域技术人员可以理解，实现上述实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

实施例2

基于实施例1的实施原理，本申请另一方面，提出一种实现所述数据质量模型的构建方法的系统，包括：

数据集成模块，用于获取开发生成的数据集；

上述各个功能模块，请皆可附图1中数据开发平台的功能进行理解，本实施例不再赘述。

上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

实施例3

如图5所示，更进一步地，本申请另一方面，还提出一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

本公开实施例来电子设备包括处理器以及用于存储处理器可执行指令的存储器。其中，处理器被配置为执行可执行指令时实现前面任一所述的一种数据质量模型的构建方法。

此处，应当指出的是，处理器的个数可以为一个或多个。同时，在本公开实施例的电子设备中，还可以包括输入系统和输出系统。其中，处理器、存储器、输入系统和输出系统之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器作为一计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的一种数据质量模型的构建方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块，从而执行电子设备的各种功能应用及数据处理。

输入系统可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出系统可以包括显示屏等显示设备。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种数据质量模型的构建方法，其特征在于，包括如下步骤：

通过数据集成模块，获取开发生成的数据集；

2.根据权利要求1所述的一种数据质量模型的构建方法，其特征在于，通过数据集成模块，获取开发生成的数据集，包括：

切换数据集成模块对开发生成的数据集的采集模式；

3.根据权利要求2所述的一种数据质量模型的构建方法，其特征在于，所述采集模式优选采用离线同步模式，全量采集每次开发生成的数据集，并实时更新传输至所述质量模型构建模块。

4.根据权利要求1所述的一种数据质量模型的构建方法，其特征在于，对开发生成的数据集进行特征工程处理，获得所述数据集的数据集基础特征，包括：

对每次开发生成的所述数据集，进行原始数据预处理；

5.根据权利要求1所述的一种数据质量模型的构建方法，其特征在于，所述特征处理的方法，包括：

6.根据权利要求1所述的一种数据质量模型的构建方法，其特征在于，所述特征处理的方法，包括：

7.根据权利要求1所述的一种数据质量模型的构建方法，其特征在于，所述特征处理的方法，包括：

取Ta与Tb的交集：

C＝Ta∩Tb，

8.根据权利要求1所述的一种数据质量模型的构建方法，其特征在于，所述数据质量管理参数，包括：

当前所述数据集的开发节点名称；

采集并更新的时间；

9.一种实现权利要求1-8中任一项所述数据质量模型的构建方法的系统，其特征在于，包括：

数据集成模块，用于获取开发生成的数据集；

10.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1-8中任一项所述的一种数据质量模型的构建方法。