CN114880318A

CN114880318A - 一种基于数据标准实现自动化数据治理的方法及系统

Info

Publication number: CN114880318A
Application number: CN202210647325.3A
Authority: CN
Inventors: 宋越
Original assignee: Hangzhou Bizhi Technology Co ltd
Current assignee: Hangzhou Bizhi Technology Co ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-08-09

Abstract

本发明公开了一种基于数据标准实现自动化数据治理的方法及系统，所述方法包括以下步骤：S101.维护标准数据字段及字段的分类描述、名称、和/或字符类型；S102.对标准数据和待分类数据做特征选择，选取对训练数据有分类能力的特征；S103.训练特征数据，计算其每个特征的信息增益，并比较各个信息增益的大小，选取信息增益最大的特征数据作为根节点；执行叶子节点的信息增益，形成决策树；S104.根据拟合情况调整决策树；S105.执行决策树算法识别待分类字段所属分类，自动关联映射标准数据字段词语；S106.向数据使用者提供治理后的标准数据字段的展示，用户可根据关联标准自行调整标准数据字段。

Description

一种基于数据标准实现自动化数据治理的方法及系统

技术领域

本发明涉及计算机及网络通信技术领域，特别涉及一种基于数据标准实现自动化数据治理的方法及系统。

背景技术

目前，数据治理的业务操作中，需要制定复杂的数据操作审批流程和织过程资产文档，来实现数据规范性管理。同时也需要对涉及人员进行定期持续培训，以保证操作人员持续遵守数据质量的规范。其次，在技术层面只能依赖数据字段的精确匹配来识别数据字段，识别后再由人工介入的方式确认是否遵循了数据规范。对于数据标准规范的审批和管理，流程和文档太过复杂；对数据规范准则的实施效果取决于对人员的培训和操作，人为主观因素导致数据不标准的风险太大。

发明内容

针对现有技术存在的问题，本发明的目的在于通过算法方案，减少了数据治理过程中复杂的人工梳理操作，以及对架构师经验方法的过渡依赖，以自动化识别的方式提高了数据治理的效率。

为实现上述目的，本发明提供一种基于数据标准实现自动化数据治理的方法，其特征在于，所述方法包括以下步骤：

S101.维护标准数据字段及字段的分类描述、名称、和/或字符类型；

S102.对标准数据和待分类数据做特征选择，选取对训练数据有分类能力的特征；

S103.训练特征数据，计算其每个特征的信息增益，并比较各个信息增益的大小，选取信息增益最大的特征数据作为根节点；执行叶子节点的信息增益，形成决策树；

S104.根据拟合情况调整决策树；

S105.执行决策树算法识别待分类字段所属分类，自动关联映射标准数据字段词语；

S106.向数据使用者提供治理后的标准数据字段的展示，用户可根据关联标准自行调整标准数据字段。

进一步，维护标准数据字段包括：补充完整数据字段对应的属性信息，所述属性信息包括字段类型、字段描述、主词根、副词根、数据域、业务过程、和/或数仓分层。

进一步，步骤S103中，计算特征数据的信息增益的方法包括如下子步骤：

S301.计算训练数据每个属性的信息墒，找到决策树的根节点；

S302.在没有任何属性影响的情况下，计算训练样本数据的字段“是”这一标准词的概率做为初始信息墒；

S303.根据S301中信息墒的计算结果，取需要计算的每一个属性的信息墒和初始信息墒相减，得出信息增益，以此选取信息增益最大的那个作为决策树的根节点；

S304.把每个叶子结点当作一颗新树的根节点，重复步骤303得到叶子结点；当全部遍历完之后，构建成完整的决策树。

进一步，步骤S103中，信息熵的计算公式：H(x)＝E[I(xi)]＝E[log(2,1/P(xi))]＝-∑P(xi)log(2,P(xi))(i＝1,2,..n)；其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示；P(x)表示输出概率函数；

信息增益的计算方式如下：

计算当前标准数据字段集合中每个属性的信息增益，字段集合包括字段类型、主词根、数据域、业务过程、字段分类和数仓分层；其中字段类型有三个可能的取值：string、bigint、timestamp；由此我们可以计算出字段类型的信息增益是string、bigint、timestamp三个分类类别分别乘自己对应的信息熵；同理，按照同样的方法计算出主词根、数据域、业务过程、字段分类和数仓分层的信息增益，选取结果最大的字段作为根节点；然后通过递归构建出整个决策树。

进一步，步骤S103中，计算特征数据的信息增益的方法还可以使用增益率来计算信息墒，计算算法如下：

其中，当属性可选的值越多，IV(a)值越大；而IV(a)值越大，增益率则越小。

进一步，步骤S104中，根据拟合情况调整决策树，调整决策树枝干，把性能低、对统计结果影响较小的枝干削减，达到减枝目的。

进一步，步骤S105中，对数仓内部数据结构进行扫描，利用创建好的决策树进行分类，得到每个数据字段自动关联对应的标准数据字段。

进一步，步骤S106中，将自动关联对应的标准数据字段，展示在数据表详情页面，用户直观获取原始数据表字段以及治理后的标准数据字段；同时，数据表详情页面支持用户根据关联准确性进行手动调整。

另一方面，本发明还提供一种基于数据标准实现自动化数据治理的系统，所述系统中应用根据本发明所述的基于数据标准实现自动化数据治理方法。

本发明提供的基于数据标准实现自动化数据治理的方法和系统，可以根据数据表及字段的分类描述、中文名称、英文名称、字段类型等内容，通过利用决策树算法，在保持现有数据内容的同时，还能以高准确率的效果映射数据标准，以自动治理后的、标准的数据内容提供给数据使用者，实现数据治理的目的。本发明通过算法方案，减少了数据治理过程中复杂的人工梳理操作，以及架构师经验方法的过渡依赖，以自动化识别的方式提高了数据治理的效率。

附图说明

图1示出了根据本发明实施例中标准数据字段示意图；

图2示出了根据本发明实施例中决策树构建示意图；

图3示出了根据本发明实施例中数据表字段详情页面示意图；

图4示出了根据本发明实施例中数据表字段另一详情页面示意图；

图5示出了根据本发明实施例中数据集示意图。

具体实施方式

下面将结合附图，对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

以下结合附图1-5对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明实施例提供一种基于数据标准实现自动化数据治理的方法及系统。本方法和系统可以根据数据表及字段的分类描述、中文名称、英文名称、字段类型等内容，通过利用决策树算法，在保持现有数据内容的同时，还能以高准确率的效果映射数据标准，以自动治理后的、标准的数据内容提供给数据使用者，实现数据治理的目的。所述方法的基本流程为：

S101.维护标准数据字段及字段的分类描述、名称、字符类型等内容；

S102.对标准数据字段和待分类数据做特征选择，选取对训练数据有分类能力的特征；

S103.训练特征数据，计算其每个特征的信息增益，并比较他们的大小，选取信息增益最大的特征作为根节点；

S104.执行叶子节点的信息增益，形成决策树，根据拟合情况剪枝决策树；

S106.向数据使用者提供治理后的标准数据字段的展示，包括DDL等数据信息；同时用户根可据关联标准自行调整标准数据字段。

本发明的基于数据标准实现自动化数据治理的方法通过生成决策分类树，然后利用决策树对待解析的字段词语进行分类解析，最后再利用分类结果自动关联映射该字段词语对应的标准数据字段。实验结果表明，该方法具有较高的准确率和鲁棒性。

具体的：

如图1-4所示，步骤S101中，维护标准数据字段的主要技术内容在于：补充完整数据字段对应的属性新信息，包括字段类型、字段描述、主词根、副词根、数据域、业务过程、数仓分层的信息。其中，字段描述、数仓分层多为描述性语言或业务分类，在训练数据的信息增益时，可做提前分类处理或不选用。

图1中，针对标准数据字段的选择，可以对当前数据库内的数据表做扫描，统计出当前数据表中常用的数据字段。如下部分sql统计：

根据sql统计到标准数据字段之后，同样使用sql查询出与表分类相关的标准数据字段。经过去重之后，可以获得所有标准数据字段；

根据这些标准数据字段的特征数据来构建一个决策树。

如图2中，将sql统计获得的标准数据字段分成训练集和测试集；

完成数据加载、对数据做变换处理等操作后，执行决策树算法；(部分代码示例)

如图3和4中，经过标准数据字段算法执行之后，系统会自动识别数据表里非标准数据字段对应的标准数据字段是什么，并自动关联匹配实现“应用数据标准”的功能。其中图3为经过决策树的算法计算得到的结果数据，将图中第二列“字段英文名称”拟合出来的数据标准字段自动填充进“数据标准”这一列，形成匹配后的数据治理的结果。图4为用户访问数据库表时，表DDL详情页面会根据自动化数据治理得到的结果展示“字段名称”这一列所匹配的“应用数据标准”这一列。从而使用户能看到经过自动化数据治理后的数据治理结果。

步骤103中，具体包括以下子步骤：

S301,需要计算训练数据每个属性的信息墒，来找到决策树的根节点。信息熵的计算公式：H(x)＝E[I(xi)]＝E[log(2,1/P(xi))]＝-∑P(xi)log(2,P(xi))(i＝1,2,..n)。其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。

S302，在没有任何属性影响的情况下，计算训练样本数据的字段“是”此标准词的概率记为初始信息墒。例如样本数据中“销售”字段为标准数据中“支付金额”字段的概率。

S303，根据第一步信息墒的计算结果，取需要计算的每一个属性信息墒和初始信息墒相减，得出信息增益，如H(是)-H(主词根)＝主词根的信息增益。以此选取信息增益最大的那个作为决策树的根节点。

信息熵表示的是不确定度的度量，如我们统计某个数据库里的表及字段记为A数据集，其类别的不确定程度越高，则其熵就越大。如图5所示，根据图5说明根据本方法的具体计算过程，比如我们从A数据集中随机抽取一个字段记为a1，则a1对应的是否支付金额的概率正例2/6(是)反例4/6(否)，a1的熵H(a1)＝-(2/6*log(2/6)+4/6*log(4/6))＝0.28；

有了关于熵的简单理解，再进一步实现信息增益的计算：

计算当前标准数据字段集合{字段类型，主词根，数据域，业务过程，字段分类，数仓分层}中每个属性的信息增益。

字段类型有三个可能的取值：string、bigint、timestamp。

D1{字段类型＝string}，正例4/6，反例2/6；信息墒：0.28

D2{字段类型＝bigint}，正例1/6，反例5/6；信息墒：0.20

D3{字段类型＝timestamp}，正例1/6，反例5/6；信息墒：0.20

由此我们可以计算出字段类型的信息增益是(string、bigint、timestamp三个分类类别分别乘自己对应的信息熵)＝0.28-(0.28*4/6+0.28*1/6+0.20*1/6)＝0.0133。同理，按照同样的方法计算“主词根，数据域，业务过程，字段分类，数仓分层”的信息增益，选取结果最大的字段作为根节点。如果出现信息增益值相同的字段，可任选其一。然后通过递归就能构建出整个决策树了。

以此把每个叶子结点当作一颗新树的根节点，重复第三步得到叶子结点。当全部遍历完之后，一颗完整的决策树也就构建出来了。

此后，调整枝干，把性能低、对统计结果影响较小的枝干削减，达到减枝目的。

接下来，对数仓内部数据结构进行扫描，利用创建好的决策树进行分类，得到每个数据字段自动关联对应的标准数据字段。

最后，将自动关联对应的标准数据字段，展示在数据表详情页面，用户直观获取原始数据表字段以及治理后的标准数据字段。同时，数据表详情页面支持用户根据关联准确性进行手动调整。

在本发明中，所述信息增益是判断哪个属性作为根节点或叶子结点，其中，所述信息墒计算算法也可用增益率来计算。

这里面，IV(a)这个，当属性可选的值越多(比如业务过程超过20种)的时候，它的值越大。而IV(a)值越大，增益率显然更小。

增益率算法相比信息增益，克服了选择表字段属性时偏向选择取值多的属性的不足。增益率是在信息增益的基础之上乘上一个惩罚参数。特征个数较多时，惩罚参数较小；特征个数较少时，惩罚参数较大。如图5的示例中：

IV(数据域)＝0.874(V＝2，有2个数据域的枚举值)

IV(数仓分层)＝1.580(V＝3，有3个数仓分层的枚举值：DWD、DWS、DIM)

IV(主词根)＝2.018(V＝4，有4个主词根的枚举值)

同理，根据增益率选择根节点，然后通过递归就能构建出整个决策树了。

其中标准数据字段的选择是根据数据表字段在识别分类时最关键的要素，不同的标准数据字段会对分类决策树产生两个方面的影响。数据标准特征可以描述为标准数据字段，它的定义是，能够影响字段分类的字段。如某order_info里的payamnt字段，有字段的类型、字符长度等描述，以及order_info表本身的分类描述，如表所属的数据域、业务过程、主题域等，都是标准数据字段的选择内容。其一，是决策树枝干的繁茂情况，导致决策树过渡拟合；其二，离散程度较大的特征，如字段描述，会导致属性分布越平均，信息越模糊。

在本说明书的描述中，参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，本领域的技术人员可以在不产生矛盾的情况下，将本说明书中描述的不同实施例或示例以及其中的特征进行结合或组合。

上述内容虽然已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型等更新操作。

Claims

1.一种基于数据标准实现自动化数据治理的方法，其特征在于，所述方法包括以下步骤：

S101.维护标准数据字段及标准数据字段的分类描述内容、具体名称、和/或字符类型；

S102.对标准数据字段和待分类数据做特征选择，选取对训练数据有分类能力的特征作为特征字段；

S103.训练特征数据，计算其每个特征字段的信息增益，并比较各个信息增益的大小，选取信息增益最大的特征字段作为根节点；执行叶子节点的信息增益，形成决策树；

S104.根据拟合情况调整决策树；

S105.执行决策树算法识别出待分类数据所归属于哪个标准数据字段，自动关联映射该标准数据字段；

S106.向数据使用者提供治理后的标准数据字段的展示，用户可根据关联标准自行调整待分类数据为标准数据字段。

2.根据权利要求1所述的基于数据标准实现自动化数据治理的方法，其特征在于，维护标准数据字段包括：补充完整数据字段对应的标准数据字段，所述标准数据字段包括字段类型、字段描述、主词根、副词根、数据域、业务过程、和/或数仓分层。

3.根据权利要求1或2所述的基于数据标准实现自动化数据治理的方法，其特征在于，步骤S103中，计算特征数据的信息增益的方法包括如下子步骤：

S301.计算训练数据每个标准数据字段的信息墒，找到决策树的根节点；

S303.根据S301中信息墒的计算结果，取需要计算的每一个属性的信息墒和初始信息墒相减，得出信息增益，以此选取信息增益最大的标准数据字段作为决策树的根节点；

4.根据权利要求3所述的基于数据标准实现自动化数据治理的方法，其特征在于，步骤S103中，信息熵的计算公式：H(x)＝E[I(xi)]＝E[log(2,1/P(xi))]＝-∑P(xi)log(2,P(xi))(i＝1,2,..n)；其中，x表示随机变量，与之相对应的是所有可能输出的集合，定义为符号集,随机变量的输出用x表示；P(x)表示输出概率函数；

信息增益的计算方式如下：

5.根据权利要求3所述的基于数据标准实现自动化数据治理的方法，其特征在于，步骤S103中，计算特征数据的信息增益的方法还可以使用增益率来计算信息墒，计算算法如下：

6.根据权利要求4-6任一项所述的基于数据标准实现自动化数据治理的方法，其特征在于，步骤S104中，根据拟合情况调整决策树，调整决策树枝干，把某次信息墒的计算效率比平均计算效率高出1倍的枝干削减，达到减枝目的。

7.根据权利要求6所述的基于数据标准实现自动化数据治理的方法，其特征在于，步骤S105中，对数仓内部数据结构进行扫描，利用创建好的决策树进行分类，得到每个数据字段自动关联对应的标准数据字段。

8.根据权利要求7所述的基于数据标准实现自动化数据治理的方法，其特征在于，步骤S106中，将自动关联对应的标准数据字段，展示在数据表详情页面，用户直观获取原始数据表字段以及治理后的标准数据字段；同时，数据表详情页面支持用户根据关联准确性进行手动调整。

9.一种基于数据标准实现自动化数据治理的系统，其特征在于，所述系统中应用根据权利要求1-8任一项所述的基于数据标准实现自动化数据治理方法。