CN111813837B

CN111813837B - 一种智能检测数据质量的方法

Info

Publication number: CN111813837B
Application number: CN202010955190.8A
Authority: CN
Inventors: 聂敏; 唐弋钧; 杨磊; 李春; 邓辉
Original assignee: Chengdu Xundao Technology Co ltd
Current assignee: Chengdu Xundao Technology Co ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-11
Anticipated expiration: 2040-09-11
Also published as: CN111813837A

Abstract

本发明公开了一种智能检测数据质量的方法，包括如下步骤：步骤一，构建检测方案数据库；步骤二，对输入字段M通过特征抽取方法，对检测数据提取n个维度的数据特征F；步骤三，对待检测Z字段执行智能检测；步骤四，用户根据推荐的检测方案，选择直接执行与修改检测参数后执行，记录用户的使用和修改记录；分析用户的使用和修改记录，调整机器学习的参数，训练预测模型，通过训练后的预测模型，进行数据质量检测。通过本发明，把人工智能技术与数据检测相结合，大大减少人工的干预，提高了数据检测的效率与准确性。

Description

一种智能检测数据质量的方法

技术领域

本发明涉及数据处理领域，具体是一种智能检测数据质量的方法。

背景技术

在当前信息化高度发达的社会，很多企业、政府单位都有多套的业务系统，一些大型企业甚至会有上千套的业务系统。这些业务在不同时期由不同的团队开发完成，使用技术不同，使用部门不同，数据存储不统一，数据规范不完善。因此，这些业务系统各自产生的数据由于滥用缩写词，惯用语，数据输入错误，重复记录，丢失值，拼写变化，不同的计量单位等问题，导致部分脏数据的产生。这种脏数据可能对业务系统并没有灾难性影响，但是如果需要把各个业务数据源之间的数据联通起来，数据汇聚，做大数据挖掘决策分析，就会产生大量的问题。

常见的数据检测逻辑是在每一个数据产生点的数据输出点（如数据来源，数据清洗，数据转换）做数据质量的检测，严格控制数据质量。但是各种数据的业务含义不同，数据标准不同，根据每个数据字段的各异性特征，需要针对每种数据的配置定制化的检测策略，并且数据字段越多，配置检测策略的工作量越大。所以在海量数据情况下，只能通过抽样检测的方式来检测数据质量，并不能完全检测出所有的数据质量问题。

本发明就是通过机器学习的技术手段，根据数据本身的特征，实现智能推荐数据检测方案，自动汇报数据检测结果，解决必须要自定义繁琐复杂的数据检测规则的问题，提高生产效率、减少工作量。

发明内容

本发明的目的在于克服现有技术的不足，提供一种智能检测数据质量的方法，包括如下步骤：

步骤一，构建检测方案数据库；

步骤二，对输入字段M通过特征抽取方法，提取n个维度的数据特征F；

步骤三，对待检测Z字段执行智能检测，根据检测结果推荐检测方案；

步骤四，用户根据推荐的检测方案，选择直接执行或修改检测参数后执行，记录用户的使用和修改记录；根据用户的使用和修改记录，调整机器学习的参数，训练预测模型，通过训练后的预测模型，进行数据质量检测，得到数据质量的质量等级。

进一步的，所述的构建检测方案数据库包括如下步骤：

数据检测方案的检测指标J包括数据通用检测指标J_t和个性化检测指标J_g，所述的数据通用检测指标J_t包括空值率、重复度、数据类型等数据特征；所述的个性化检测指标J_g包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据特征；

按检测方案根据采用检测指标J一样，将数据分为A个的类别C_i，i∈1,2,...,A；则对应A个检测方案，有A套检测指标，J_i，i∈1,2,...,A。

进一步的，所述的对输入字段M通过特征抽取方法，提取n个维度的数据特征F包括如下步骤：

对输入字段M通过特征抽取方法，提取n个维度的数据特征F_Mj，j∈1,2,...,n;M字段的类别C_M∈C_i；特征抽取方法如下：

S1字段名统一，得到字段名表B₁，fb_i表示字段名，i∈1,2,...,B；B为B₁表里字段总数；fs_j表示待检测字段j原本的字段名，计算出fs_j与fb_i的编辑距离，编辑距离采用如下公式：

令b=fb_i，a=fs_j，|fb_i|和|fs_j|分别对应fb_i和fs_j的字符长度：

lev_a,b(i,j)为a中前i个字符和b中前j个字符之间的距离；

当min(i,j)=0，此时的i,j中有一个值为0，表示字符串a和b有一个为空字符串，则编辑距离为max(i,j);

当min(i,j)≠0时，lev_a,b(|fb_i|,|fs_j|)为如下三种情况：

① 删除a_i，lev_a,b(i-1,j)+1

② 插入b_j，lev_a,b(i,j-1)+1

③ 替换b_j，lev_a,b(i-1,j-1)+L(a_i≠b_j); L(a_i≠b_j)表示，当a_i≠b_j时值为1，当a_i=b_j时值为0；

S2，提取字段备注的特征，通过深度神经网络的技术，识别备注对应的字段类别fb_i，i∈1,2,...,B，的概率值，包括如下过程：

S2.1，采用词向量V_j表示j字段的备注；

S2.2，对采用双层双向的GRU循环神经网络结构的深度神经网络Net(W_z,W_r,W)，进行

多轮学习训练，用训练好的模型计算出J字段的所属字段名fb_j，j∈1,2,...,B；和对应的概率值G_j；

S2.3特征组合：特征一为取编辑距离前三小的类别对应的值，其他类别值为0、特征二为选取数据类型的值1，其他类型为0；特征三为备注识别字段类别的概率值G_j；特征一和特征三值相乘，即X_m=lev_m,j × G_m,j, 其中m为字段的编号，j为字段名类别，j∈1,2,...,B；再拼接上特征二，组成最终的特征X_m；把X_m输入softmax模型，所属字段名作为目标值，训练softmax模型的参数W_s，得到模型softmax(W_s)；

进一步的，所述的对待检测Z字段执行智能检测包括如下步骤：

S3.1通过特征抽取方法，对Z字段进行特征转换；

S3.2通过编辑距离公式计算特征转换后的Z字段与表字段原型库里每一个字段fb_i，i∈1,2,...,B的距离，得到向量化处理后的Z字段；

S3.3将向量化处理后的Z字段的备注放入Net(W_z,W_r,W)模型中，输出每种类别fb_i，i∈1,2,...,B的概率值；

S3.4再将向量化处理后的Z字段输入softmax(W_s)模型，输出字段所属字段名类别fb_i，i∈1,2,...,B；

S3.5根据fb_i，在检测方案库里查找检测方案。

进一步的，所述的用户根据推荐的检测方案，选择直接执行或修改检测参数后执行，记录用户的使用和修改记录；分析用户的使用和修改记录，调整机器学习的参数，优化预测模型，通过训练后的预测模型，进行数据质量检测，包括如下步骤：

S4.1.用户根据推荐的检测方案，选择直接执行与修改检测参数后执行，记录用户的使用和修改记录；

S4.2.分析用户的使用和修改记录，调整机器学习的参数，优化预测模型；用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别、选择了其他类别；对用户直接采取推荐检测方案的样本，训练权重为2；对用户修改检测方案中推荐的字段所属类别，训练权重为5；重新训练softmax(W_s)模型的参数；

S4.3.分析用户的使用和修改记录，细化类别C_i，优化个性化检测指标J_g；对用户在使用过程中，采用了推荐的类别，但是对个性化检测指标J_g进行了调整，系统会记录下调整记录，定期进行离线分析和调整；对用户在使用过程中，新增了类别，设置了个性化检测指标J_g，系统会记录下调整记录，进行离线分析和重新训练Net(W_z,W_r,W)、softmax(W_s)模型。

本发明的有益效果是：把人工智能技术与数据检测相结合，大大减少人工的干预，提高了数据检测的效率与准确性。

附图说明

图1为一种智能检测数据质量的方法的流程图；

图2为一种智能检测数据质量的方法的实施示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种智能检测数据质量的方法，包括如下步骤：

步骤一，构建检测方案数据库；

所述的构建检测方案数据库包括如下步骤：

所述的对输入字段M通过特征抽取方法，提取n个维度的数据特征F包括如下步骤：

令b=fb_i，a=fs_j，|fb_i|和|fs_j|分别对应fb_i和fs_j的字符长度：

lev_a,b(i,j)为a中前i个字符和b中前j个字符之间的距离；

当min(i,j)≠0时，lev_a,b(|fb_i|,|fs_j|)为如下三种情况：

④ 删除a_i，lev_a,b(i-1,j)+1

⑤ 插入b_j，lev_a,b(i,j-1)+1

⑥ 替换b_j，lev_a,b(i-1,j-1)+L(a_i≠b_j); L(a_i≠b_j)表示，当a_i≠b_j时值为1，当a_i=b_j时值为0；

S2.1，采用词向量V_j表示j字段的备注；

S2.3特征组合：特征一为取编辑距离前三小的类别对应的值，其他类别值为0、特征二为选取数据类型的值1，其他类型为0；特征三为备注识别字段类别的概率值G_j；特征一和特征三值相乘，即X_m=lev_m,j × G_m,j, 其中m为字段的编号，j为字段名类别，j∈1,2,...,B；再拼接上特征二，组成最终的特征X_m；把X_m输入softmax模型，所属字段名作为目标值，训练softmax模型的参数W_s，得到模型softmax(W_s)。

所述的对待检测Z字段执行智能检测包括如下步骤：

S3.1通过特征抽取方法，对Z字段进行特征转换；

S3.5根据fb_i，在检测方案库里查找检测方案。

用户根据推荐的检测方案，选择直接执行或修改检测参数后执行，记录用户的使用和修改记录；分析用户的使用和修改记录，调整机器学习的参数，优化预测模型，通过训练后的预测模型，进行数据质量检测，包括如下步骤：

具体的，如图2所示，智能检测数据质量的方法具体步骤如下：

S1.总结检测方案初始知识库，包括：

S1.1数据检测方案的检测指标J由数据通用检测指标J_t和个性化检测指标J_g组成。J_t包括空值率、重复度、数据类型等数据通用特征，J_g包括最大值、最小值、字符串长度、字符串开头、字符串结束等数据个性化数据特征；

S1.2按检测方案根据采用检测指标J一样，将数据分为A个的类别C_i，i∈1,2,...,A；则对应A个检测方案，有A套检测指标，J_i，i∈1,2,...,A；每个检测方案包括不同的空值率、重复度、数据类型、最大值、最小值、字符串长度、字符串开头、字符串结束等数据。

S2.对输入字段M,通过特征抽取方法TF，对检测数据提取n个维度的数据特征F，即特征F_Mj，j∈1,2,...,n;M字段的类别C_M∈C_i；特征抽取方法TF如下：

S2.1.特征一，表字段的实体统一，即把含义相同的但是字段名不一样的字段统一为同一字段名，如name和NAME都表示姓名。先总结出业务系统高频出现的字段名表B₁即原型表，B₁表里字段名一般为英文单词，如name、age、classname等，用fb_i，i∈1,2,...,B表示，B表示B₁表里字段总数,B≧A，即不同的字段名有可能因为业务和值而采用相同的检测策略;fs_j表示待检测字段j原本的字段名，计算出fs_j与fb_i的编辑距离（即从fs_j转化为fb_i需要的编辑次数）lev_fsj,fbi(|fs_j|,|fb_i|)。

S2.1.2.编辑距离lev_fsj,fbi(|fs_j|,|fb_i|)计算公式如下,令b=fb_i,a=fs_j,|fb_i|和|fs_j|分别对应fb_i和fs_j的字符长度，定义：

lev_a,b(i,j)指的是a中前i个字符和b中前j个字符之间的距离。字符串从索引1开始，因此最后的编辑距离便是i=|fb_i|，j=|fs_j|时的距离：lev_a,b(|fb_i|,|fs_j|);

当min(i,j)=0，此时的i,j有一个值是0，表示字符串a和b有一个为空字符串，那么从a转换到b只需要进行max(i,j)次单子符编辑操作即可，所以他们之间的编辑距离为max(i,j);

当min(i,j)≠0时，lev_a,b(|fb_i|,|fs_j|)为如下三种情况：

⑦ 删除a_i，lev_a,b(i-1,j)+1

⑧ 插入b_j，lev_a,b(i,j-1)+1

⑨ 替换b_j，lev_a,b(i-1,j-1)+L(a_i≠b_j); L(a_i≠b_j)表示，当a_i≠b_j时值为1，当a_i=b_j时值为0

S2.2.特征二，每个字段存储数据的类型，如字符串类型、整数类型、浮点数类型、时间类型等，通过独热编码表示特征；

S2.3.特征三，提取字段备注的特征，因为备注多为中文，通过深度神经网络的技术，识别备注对应的字段类别fb_i，i∈1,2,...,B，的概率值。具体技术如下：

①通过词向量V_j表示j字段的备注；深度神经网络为一个双层双向的GRU循环神经网络结构，模型记为Net(W_z,W_r,W)，其中W_z,W_r,W为模型待学习的参数；人工标注j字段所属原型库中字段名fb_j，j∈1,2,...,B；

②通过多轮学习训练出模型Net(W_z,W_r,W)的参数W_z,W_r,W

③用训练好的模型计算出J字段的所属字段名fb_j，j∈1,2,...,B；和对应的概率值G_j

S2.4.特征组合：特征一（取编辑距离前三小的类别对应的值，其他类别值为0）、特征二（选取数据类型的值1，其他类型为0）、特征三（备注识别各类别的概率值G_j）；

S2.4.2.特征一和特征三值相乘，即X_m=lev_m,j × G_m,j, 其中m为字段的编号，j为字段名类别，j∈1,2,...,B；再拼接上特征二，组成最总的特征X_m；

S2.4.3.把X_m输入softmax模型，人工标记的所属字段名作为目标值，训练softmax模型的参数W_s，记模型softmax(W_s)

S3.对待检测Z字段执行智能检测

S3.1.通过方法TF(即步骤S2)，对Z字段进行特征转换；

S3.1.1通过编辑距离公式，计算与表字段原型库里每一个字段fb_i，i∈1,2,...,B的距离；

S3.1.2识别该字段下数据的类型；

S3.1.3把向量化处理后的Z字段的备注放入Net(W_z,W_r,W)模型中，输出每种类别fb_i，i∈1,2,...,B的概率值；

S3.1.4再按照S1.3.5处理特征，输入softmax(W_s)模型，输出字段所属字段名类别fb_i，i∈1,2,...,B

S3.1.5根据fb_i，在检测方案库里查找检测方案；

S4.优化智能推荐

S4.2.分析用户的使用和修改记录，调整机器学习的参数，优化预测模型；

S4.2.1.用户使用和修改的记录分为用户直接采取推荐检测方案、用户修改检测方案中推荐的字段所属类别，选择了其他类别；

S4.2.2.对用户直接采取推荐检测方案的样本，给一个训练权重2；对用户修改检测方案中推荐的字段所属类别，给一个训练权重5；重新训练softmax(W_s)模型的参数；

S4.3.分析用户的使用和修改记录，细化类别C_i，优化个性化检测指标J_g；

S4.3.1.对用户在使用过程中，采用了推荐的类别，但是对个性化检测指标J_g进行了调整，系统会记录下调整记录，定期进行离线分析和调整；

S4.3.2.对用户在使用过程中，新增了类别，设置了个性化检测指标J_g，系统会记录下调整记录，定期进行离线分析和重新训练Net(W_z,W_r,W)、softmax(W_s)模型。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种智能检测数据质量的方法，其特征在于，包括如下步骤：

步骤一，构建检测方案数据库；

步骤四，用户根据推荐的检测方案，选择直接执行或修改检测参数后执行，记录用户的使用和修改记录；根据用户的使用和修改记录，调整机器学习的参数，训练预测模型，通过训练后的预测模型，进行数据质量检测，得到数据质量的质量等级；

所述的构建检测方案数据库包括如下步骤：数据检测方案的检测指标J包括数据通用检测指标J_t和个性化检测指标J_g，所述的数据通用检测指标J_t包括空值率、重复度、数据类型数；所述的个性化检测指标J_g包括最大值、最小值、字符串长度、字符串开头、字符串结束；

按检测方案根据采用检测指标J一样，将数据分为A个的类别C_i，i∈1,2,...,A；则对应A个检测方案，有A套检测指标，J_i，i∈1,2,...,A；

所述的对输入字段M通过特征抽取方法，提取n个维度的数据特征F包括如下步骤：对输入字段M通过特征抽取方法，提取n个维度的数据特征F_Mj，j∈1,2,...,n;M字段的类别C_M∈C_i；特征抽取方法如下：

令b=fb_i，a=fs_j，|fb_i|和|fs_j|分别对应fb_i和fs_j的字符长度：

lev_a,b(i,j)为a中前i个字符和b中前j个字符之间的距离；

当min(i,j)≠0时，lev_a,b(|fb_i|,|fs_j|)为如下三种情况：

删除a_i，lev_a,b(i-1,j)+1

插入b_j，lev_a,b(i,j-1)+1

替换b_j，lev_a,b(i-1,j-1)+L(a_i≠b_j); L(a_i≠b_j)表示，当a_i≠b_j时值为1，当a_i=b_j时值为0；

S2.1，采用词向量V_j表示j字段的备注；

所述的对待检测Z字段执行智能检测包括如下步骤：

S3.1通过特征抽取方法，对Z字段进行特征转换；

S3.5根据fb_i，在检测方案库里查找检测方案。

2.根据权利要求1所述的一种智能检测数据质量的方法，其特征在于，所述的用户根据推荐的检测方案，选择直接执行或修改检测参数后执行，记录用户的使用和修改记录；分析用户的使用和修改记录，调整机器学习的参数，优化预测模型，通过训练后的预测模型，进行数据质量检测，包括如下步骤：