CN113987190B

CN113987190B - 一种数据质量校验规则提取方法及系统

Info

Publication number: CN113987190B
Application number: CN202111356033.6A
Authority: CN
Inventors: 雷舒娅; 刘卫卫; 张文思; 王晓慧; 梁潇
Original assignee: State Grid Smart Grid Research Institute Co ltd
Current assignee: State Grid Smart Grid Research Institute Co ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2023-02-28
Anticipated expiration: 2041-11-16
Also published as: CN113987190A

Abstract

本发明公开了一种数据质量校验规则提取方法及系统，方法包括：扫描元数据，获取数据类型为文本型的字段，标记字段描述中含有取值范围信息的字段并存储取值范围信息；根据元数据信息，扫描文本型字段值，生成字段的值结构与每种值结构的取值占比；对字段生成的值结构类别进行评分，选出其中的可信类别；然后利用可信值结构类别和元数据信息生成字段取值质量校验规则；最后将校验规则入库，生成字段‑规则映射关系，从而实现了文本型数据质量校验规则的有效提取。与现有规则生成方法相比，本发明能大幅提高数据质量规则生成效率和准确度，减轻劳动力，具有更高的实用价值。

Description

一种数据质量校验规则提取方法及系统

技术领域

本发明涉及信息处理与数据质量技术领域，具体涉及一种数据质量校验规则提取方法及系统。

背景技术

数据质量在企业数字化转型过程中起着至关重要的作用，特别对于煤炭、钢铁、石化、电力等传统制造业、公用事业，高质量的数据对于拓展分析应用，提升公司经营水平和决策能力不可或缺。而这些行业、企业往往牵涉众多复杂系统，一些系统建造年份较为久远，数据模型不健全、缺少维护以及手工录入等原因使得数据质量参差不齐，给公司统一数据管理和质量核查带来较大挑战。

文本型数据的价值长期以来被严重低估，其不仅能以自然语言的形式反映事物属性，还能为数据挖掘提供潜在的分类信息。短文本相较长文本来说，具有更强的结构化特征，取值的内在结构能在一定程度上反映数据信息，但是文本型数据质量校验规则在很大程度上依赖人工梳理，不仅费时费力，而且对人员的岗位能力和素质要求较高，传统企业在相关岗位的人员配置和员工培养方面较为滞后，无法满足需求，迫切需要从技术层面探讨数据质量校验规则的提取方法。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的文本型数据质量校验规则过于依赖业务熟悉度，人工梳理规则费时费力的缺陷，从而提供一种数据质量校验规则提取方法及系统。

为达到上述目的，本发明提供如下技术方案：

第一方面，本发明实施例一种数据质量校验规则提取方法，包括：扫描元数据中的数据类型信息、字段描述信息，提取文本型字段，对包含取值范围信息的文本型字段进行标识，并以键值关系的形式将取值范围存储进数据字典，建立键值关系码表；对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系；根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系形式存储进数据字典；根据数据字典中以键值关系形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则，将文本型字段的校验规则输入到已有的规则库中，建立完整的字段-规则映射关系。

在一实施例中，得到文本型字段的历史数据的值结构的过程，包括：定义每类字符的标识符；根据每类字符对应的标识符，为扫描元数据得到的文本型字段的每个字段取值的每个字符进行标识；根据字符的顺序将其对应的标识符连接，得到文本型字段的每个字段取值的值结构，将文本型字段的每个字段取值的值结构作为文本型字段的历史数据的值结构，并建立每个文本型字段与值结构的映射关系。

在一实施例中，对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系的过程，包括：在历史数据中，每种值结构对应不同字段取值，根据每种值结构的字段取值的重复值个数之和，得到每种值结构的取值计数；对每种值结构的取值计数求和，得到文本型字段的历史数据的值结构计数；将每种值结构的取值计数与文本型字段的历史数据的值结构计数的比值，作为每种值结构的取值占比；根据每个文本型字段与值结构的映射关系、每种值结构的取值占比，得到文本型字段、值结构、值结构的取值占比三者之间的映射关系。

在一实施例中，计算文本型字段的历史数据的每种值结构与其他值结构的相似度得分的过程，包括：利用编辑距离算法计算每种值结构与其他值结构之间的相似度；基于每种值结构与其他值结构之间的相似度，构造每种值结构的相似度向量；根据每种值结构的相似度向量，利用等权加权法，计算每种值结构与其他值结构的相似度得分。

在一实施例中，根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系的形式存储进数据字典的过程，包括：对每种值结构的取值占比得分、每种值结构与其他值结构的相似度得分进行归一化处理；对归一化后的每种值结构的取值占比得分、每种值结构与其他值结构的相似度得分进行加权计算，得到每种值结构的加权可信度得分；将加权可信度得分低于预设阈值的值结构剔除，其余以键值关系的形式存储进数据字典。

在一实施例中，根据数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则的过程，包括：根据元数据信息，判断是否有包含取值范围信息的文本型字段；当包含取值范围信息的文本型字段时，判断该文本型字段的字段取值是否在数据字典的键值关系码表中，当文本型字段的字段取值不在键值关系码表中时，判定该文本型字段的字段取值异常；判断其他文本型字段取值对应的的值结构是否为数据字典中可信度高的值结构，当其不是可信度高的值结构，则判定该文本型字段的值结构及对应的字段取值均为异常。

在一实施例中，根据数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则的过程，还包括：当不包含取值范围信息的文本型字段时，判断文本型字段的字段取值对应的值结构是否为数据字典中可信度高的值结构，当其不是可信度高的值结构，则判定该文本型字段的值结构及对应的字段取值均为异常。

第二方面，本发明实施例提供一种数据质量校验规则提取系统，包括：键值关系模块，用于扫描元数据中的数据类型信息、字段描述信息，提取文本型字段，对包含取值范围信息的文本型字段进行标识，并以键值关系的形式将取值范围存储进数据字典，建立键值关系码表；值结构占比计算模块，用于对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系；值结构筛选模块，用于根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系形式存储进数据字典；规则提取模块，用于根据数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则，将文本型字段的校验规则输入到已有的规则库中，建立完整的字段-规则映射关系。

第三方面，本发明实施例提供一种计算机设备，包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器执行本发明实施例第一方面的数据质量校验规则提取方法。

第四方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行本发明实施例第一方面的数据质量校验规则提取方法。

本发明技术方案，具有如下优点：

1.本发明提供的一种数据质量校验规则提取方法，对元数据中包含取值范围信息的文本型字段进行标识，并以键值关系的形式存储；对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系；根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系形式存储进数据字典；根据数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则，将文本型字段的校验规则输入到已有的规则库中，建立完整的字段-规则映射关系，从而实现了文本型数据质量校验规则的有效提取，与现有规则生成方法相比，能大幅提高数据质量规则生成效率和准确度，减轻劳动力，具有更高的实用价值。

2.本发明提供的一种数据质量校验规则提取方法，充分利用元数据信息，透过取值结果深入挖掘文本型数据的内在结构逻辑，并通过取值概率和结构相似性关系探讨数据的取值规律，进而生成校验规则

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的数据质量校验规则提取方法的一个具体示例的流程图；

图2为本发明实施例提供的数据质量校验规则提取方法的另一个具体示例的流程图；

图3为本发明实施例提供的数据质量校验规则提取方法的另一个具体示例的流程图；

图4为本发明实施例提供的数据质量校验规则提取方法的另一个具体示例的流程图；

图5为本发明实施例提供的数据质量校验规则提取方法的另一个具体示例的流程图；

图6为本发明实施例提供的数据质量校验规则提取系统的一个具体示例的流程图；

图7为本发明实施例提供的计算机设备一个具体示例的组成图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本发明实施例提供一种数据质量校验规则提取方法，应用于需要制定文本型数据质量校验规则的场合，如图1所示，包括步骤S11～步骤S14，具体如下：

步骤S11：扫描元数据中的数据类型信息、字段描述信息，提取文本型字段，对包含取值范围信息的文本型字段进行标识，并以键值关系的形式将取值范围存储进数据字典，建立键值关系码表。

本发明实施例扫描出文本型字段后，由于其中有些文本型字段的元数据中包含了该字段的取值范围信息，则首先对该类文本型字段进行处理，例如：现有对于电网生产管理信息系统(PMS2.0)中的主变压器设备台账数据表，首先扫描该表的元数据中的数据类型信息、字段描述信息，提取其中的文本型字段，对该表而言，数据类型为varchar的字段有OBJ_ID(变压器ID)、SBMC(设备名称)、ZCXZ(资产性质)、EDDY(额定电压)、DYDJ(电压等级)、YH(油号)等。查看上述文本型字段描述，发现ZCXZ、DYDJ等字段描述中，包含对该字段的中文释义、计量单位和取值范围信息。此处以ZCXZ字段为例，该字段的取值以键值对的形式存在(01：国家电网公司，02：分部，03：省(直辖市、自治区)公司)，04：子公司，05：用户)，则将该字段取值范围存储于数据字典中，建立字段-取值编号-取值映射关系。

步骤S12：对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系。

具体地，本发明实施例根据元数据扫描结果，提取文本型字段后，扫描文本型字段全量数据值，构建文本型字段的值结构，其中，文本型字段包含多个字段取值，需要得到每个字段取值的值结构，每个字段取值的值结构构成文本型字段的历史数据的值结构，得到文本型字段的历史数据的值结构的过程，如图2所示，包括步骤S21～步骤S23，具体如下：

步骤S21：定义每类字符的标识符。

具体地，例如：用A表示中文字符、B表示数字、C表示英文字符、D表示其他符号，但仅以此举例，不以此为限制。

步骤S22：根据每类字符对应的标识符，为扫描元数据得到的文本型字段的每个字段取值的每个字符进行标识。

具体地，利用步骤S21规定的标识符为文本型字段的每个字符进行标识，以SBMC字段为例，“#2主变B相”是它的一个字段取值，则其每一个字符对应的标识符可表示为：{“#”：D；“2”：B；“主”：A；“变”：A；“B”：C}；又例如EDDY字段体现的是主变压器的额定电压，是一个文本型字段，“525/√3”是它的一个取值，则“525/√3”对应的标识符为：{“5”：B；“2”：B；“5”：B；“/”：D；“√”：D；“3”：B}。

步骤S23：根据字符的顺序将其对应的标识符连接，得到文本型字段的每个字段取值的值结构，将文本型字段的每个字段取值的值结构作为文本型字段的历史数据的值结构，并建立每个文本型字段与值结构的映射关系。

具体地，根据每个字段取值的字符顺序将标识符连接，生成该字段取值的值结构。例如：对SBMC字段的“#2主变B相”字段取值来说，其每一个字符对应的标识符可表示为：{“#”：D；“2”：B；“主”：A；“变”：A；“B”：C}，则其值结构为DBAAC；对EDDY字段的“525/√3”取值，其对应的标识符为：{“5”：B；“2”：B；“5”：B；“/”：D；“√”：D；“3”：B}，则其值结构为BBBDDB。然后将文本型字段的每个字段取值的值结构作为文本型的历史数据的值结构，由此建立文本型字段与值结构的映射关系。

如图3所示，对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系的过程，包括步骤S31～步骤S34，具体如下：

步骤S31：在历史数据中，每种值结构对应不同字段取值，根据每种值结构的字段取值的重复值个数之和，得到每种值结构的取值计数。

步骤S32：对每种值结构的取值计数求和，得到文本型字段的历史数据的值结构计数。

步骤S33：将每种值结构的取值计数与文本型字段的历史数据的值结构计数的比值，作为每种值结构的取值占比。

步骤S34：根据每个文本型字段与值结构的映射关系、每种值结构的取值占比，得到文本型字段取值、值结构、值结构的取值占比三者之间的映射关系。

具体地，由于每个文本型字段包含多种历史数据，故其对应不同字段取值及值结构，因此为了建立值结构可信度综合评价模型，首先对值结构进行分类汇总，并计算每种值结构的取值占比，现以YH字段为例进行说明，根据YH字段取值及其值结构映射关系对该字段的值结构进行分类汇总，得到每种值结构下的取值计数pc_i，计算公式如下：

式(1)中，c_i,j为第i种值结构下第j个不同字段取值的重复值个数，n为第i种值结构对应的不同字段取值的个数。

根据式(1)计算得到每种值结构的计算之后，通过式(2)计算每种值结构的取值占比pi。

式(2)中，pi为第i种值结构的取值占比，m为文本型字段的值结构种数。

利用式(1)、式(2)计算，可知YH字段得到48种值结构，每种值结构及其取值占比如表1所示。

表1

经由上述计算结构，建立每种值结构、值结构占比及取值三者之间的映射关系。

步骤S13：根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系形式存储进数据字典。

本发明实施例中，利用每种值结构的取值占比及相似度信息构造值结构可信度综合评价模型，其中，如图4所示，计算文本型字段的历史数据的每种值结构与其他值结构的相似度得分的过程，包括步骤S41～步骤S43，具体如下：

步骤S41：利用编辑距离算法计算每种值结构与其他值结构之间的相似度。

本发明实施例中，获取每种值结构的取值占比之后，将取值占比大小设为其取值占比得分fsi＝pi，YH字段每种值结构取值占比得分如表1所示。

利用编辑距离算法计算第i和第j种值结构之间的相似度s_i,j，公式如下：

式(3)中，u表示第i个值结构的第u个字符，v表示第j个值结构第v个字符。

步骤S42：基于每种值结构与其他值结构之间的相似度，构造每种值结构的相似度向量。

本发明实施例基于式(3)得到每个值结构与其他值结构的相似度之后，构建如式(4)所示的第i个值结构的相似度向量v_i。

v_i＝(s_i,1,s_i,2,...s_i,i-1,s_i,i+1,...,s_i,n) (4)

步骤S43：根据每种值结构的相似度向量，利用等权加权法，计算每种值结构与其他值结构的相似度得分。

根据步骤S41～步骤S43得到每种值结构的相似度得分之后，将相似度得分与取值占比得分相结合，剔除可信度低的值结构，其余以键值关系形式存储进数据字典，具体包括步骤S51～步骤S53，如下：

步骤51：对每种值结构的取值占比得分、每种值结构与其他值结构的相似度得分进行归一化处理。

步骤52：对归一化后的每种值结构的取值占比得分、每种值结构与其他值结构的相似度得分进行加权计算，得到每种值结构的加权可信度得分。

具体地，本发明实施例对每种值结构的取值占比得分fs_i和相似度得分ss_i进行归一化处理，其中，将相似度作为相似度得分，且选取最大-最小值法进行处理，如下：

式中，

为归一化后的取值占比得分，fs_i为取值占比得分，

为归一化后的相似度得分，ss_i为相似度得分。

设置每种值结构取值占比得分权重α和相似度得分的权重β，其中，α＝β＝0.5，利用式(7)计算每种值结构的加权可信度得分ts_i。

根据上述方法，可以得到如表2的YH字段的每种值结构加权可信度得分。

表2

步骤53：将加权可信度得分低于预设阈值的值结构，其余以键值关系形式存储进数据字典剔除。

本发明实施例中，根据上述方法得到每种值结构的加权可信度得分，对加权可信度得分低于阈值的值结构进行剔除，其余以键值关系形式存储进数据字典。例如：对YH字段的值结构得分阈值设置为0.5，则根据表2显示，可信值结构为BB、BBD、DBB、CCDBB、CCBBC、CDBBD、CDBB、CCBB，剔除得分低于0.5的值结构，将可信值结构以键值关系形式存储进数据字典。

步骤S14：根据数据字典中以键值关系形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则，将文本型字段的校验规则输入到已有的规则库中，建立完整的字段-规则映射关系。

具体地，根据元数据信息，判断是否有包含取值范围信息的文本型字段；当包含取值范围信息的文本型字段时，判断该文本型字段的字段取值是否在数据字典的键值关系码表中，当文本型字段的字段取值不在键值关系码表中时，判定该文本型字段的字段取值异常；判断其他文本型字段取值对应的值结构是否为数据字典中可信度高的值结构，当其不是可信度高的值结构，则判定该文本型字段的值结构及对应的字段取值均为异常。

具体地，根据元数据信息，判断是否有包含取值范围信息的文本型字段；当不包含取值范围信息的文本型字段时，判断文本型字段的字段取值对应的值结构是否为数据字典中可信度高的值结构，当其不是可信度高的值结构，则判定该文本型字段的值结构及对应的字段取值均为异常。

具体地，本发明实施例中，当文本型字段的值结构不是可信度高的值结构时(该可信度高的值结构由步骤S13得到)，则该文本型字段的值结构的取值及对应的字段取值均为异常，例如，YH字段中，如果字段取值的值结构为c，而c不在可信值结构v-mode＝(BB、BBD、DBB、CCDBB、CCBBC、CDBBD、CDBB、CCBB)中，则凡是符合c模式的YH字段的字段取值均视为异常；根据键值关系建立键值关系码表，当文本型字段的取值不在键值关系码表中时，则该文本型字段的取值异常，例如：对ZCXZ字段，如字段取值中出现“06”、“6”、“5”、“县”等其他任何不在键值关系内或不符合键值表述形式的字符串，均视为质量异常。

实施例2

本发明实施例提供一种数据质量校验规则提取系统，如图6所示，包括：

键值关系模块1，用于扫描元数据中的数据类型信息、字段描述信息，提取文本型字段，对包含取值范围信息的文本型字段进行标识，并以键值关系的形式将取值范围存储进数据字典，建立键值关系码表；此模块执行实施例1中的步骤S11所描述的方法，在此不再赘述。

值结构占比计算模块2，用于对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系；此模块执行实施例1中的步骤S12所描述的方法，在此不再赘述。

值结构筛选模块3，用于根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系的形式存储进数据字典；此模块执行实施例1中的步骤S13所描述的方法，在此不再赘述。

规则提取模块4，用于根据数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则，将文本型字段的校验规则输入到已有的规则库中，建立完整的字段-规则映射关系；此模块执行实施例1中的步骤S14所描述的方法，在此不再赘述。

实施例3

本发明实施例提供一种计算机设备，如图7所示，包括：至少一个处理器401，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口403，存储器404，至少一个通信总线402。其中，通信总线402用于实现这些组件之间的连接通信。其中，通信接口403可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1的数据质量校验规则提取方法。存储器404中存储一组程序代码，且处理器401调用存储器404中存储的程序代码，以用于执行实施例1的数据质量校验规则提取方法。

其中，通信总线402可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固降硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。

其中，处理器401可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器404还用于存储程序指令。处理器401可以调用程序指令，实现如本申请执行实施例1中的数据质量校验规则提取方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行实施例1的数据质量校验规则提取方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固降硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种数据质量校验规则提取方法，其特征在于，包括：

扫描元数据中的数据类型信息、字段描述信息，提取文本型字段，对包含取值范围信息的所述文本型字段进行标识，并以键值关系的形式将取值范围存储进数据字典，建立键值关系码表；

对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系；

根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系形式存储进数据字典；

根据所述数据字典中以键值关系形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则，将所述文本型字段的校验规则输入到已有的规则库中，建立完整的字段-规则映射关系。

2.根据权利要求1所述的数据质量校验规则提取方法，其特征在于，得到文本型字段的历史数据的值结构的过程，包括：

定义每类字符的标识符；

根据每类字符对应的标识符，为扫描元数据得到的文本型字段的每个字段取值的每个字符进行标识；

根据字符的顺序将其对应的标识符连接，得到文本型字段的每个字段取值的值结构，将文本型字段的每个字段取值的值结构作为文本型字段的历史数据的值结构，并建立每个文本型字段与值结构的映射关系。

3.根据权利要求2所述的数据质量校验规则提取方法，其特征在于，所述对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系的过程，包括：

在历史数据中，每种值结构对应不同字段取值，根据每种值结构的字段取值的重复值个数之和，得到每种值结构的取值计数；

对每种值结构的取值计数求和，得到文本型字段的历史数据的值结构计数；

将每种值结构的取值计数与文本型字段的历史数据的值结构计数的比值，作为每种值结构的取值占比；

根据每个文本型字段与值结构的映射关系、每种值结构的取值占比，得到文本型字段、值结构、值结构的取值占比三者之间的映射关系。

4.根据权利要求1所述的数据质量校验规则提取方法，其特征在于，计算文本型字段的历史数据的每种值结构与其他值结构的相似度得分的过程，包括：

利用编辑距离算法计算每种值结构与其他值结构之间的相似度；

基于每种值结构与其他值结构之间的相似度，构造每种值结构的相似度向量；

根据每种值结构的相似度向量，利用等权加权法，计算每种值结构与其他值结构的相似度得分。

5.根据权利要求3所述的数据质量校验规则提取方法，其特征在于，所述根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系形式存储进数据字典的过程，包括：

对每种值结构的取值占比得分、每种值结构与其他值结构的相似度得分进行归一化处理；

对归一化后的每种值结构的取值占比得分、每种值结构与其他值结构的相似度得分进行加权计算，得到每种值结构的加权可信度得分；

将加权可信度得分低于预设阈值的值结构剔除，其余以键值关系形式存储进数据字典。

6.根据权利要求1所述的数据质量校验规则提取方法，其特征在于，所述根据所述数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则的过程，包括：

根据元数据信息，判断是否有包含取值范围信息的文本型字段；

当包含取值范围信息的文本型字段时，判断该文本型字段的字段取值是否在数据字典的键值关系码表中，当文本型字段的字段取值不在键值关系码表中时，判定该文本型字段的字段取值异常；

判断其他文本型字段取值对应的值结构是否为数据字典中可信度高的值结构，当其不是可信度高的值结构，则判定该文本型字段的值结构及对应的字段取值均为异常。

7.根据权利要求1所述的数据质量校验规则提取方法，其特征在于，所述根据所述数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则的过程，还包括：

当不包含取值范围信息的文本型字段时，判断文本型字段的字段取值对应的值结构是否为数据字典中可信度高的值结构，当其不是可信度高的值结构，则判定该文本型字段的值结构及对应的字段取值均为异常。

8.一种数据质量校验规则提取系统，其特征在于，包括：

键值关系模块，用于扫描元数据中的数据类型信息、字段描述信息，提取文本型字段，对包含取值范围信息的所述文本型字段进行标识，并以键值关系的形式将取值范围存储进数据字典，建立键值关系码表；

值结构占比计算模块，用于对文本型字段的历史数据的值结构进行分类汇总，计算每类值结构的取值占比，并建立文本型字段、值结构、值结构的取值占比三者之间的映射关系；

值结构筛选模块，用于根据文本型字段的历史数据的每种值结构与其他值结构的相似度得分，以及文本型字段的历史数据的每种值结构的取值占比得分，将文本型字段的历史数据的可信度低的值结构剔除，其余以键值关系形式存储进数据字典；

规则提取模块，用于根据所述数据字典中以键值关系的形式存在的取值范围、可信度高的值结构，得到文本型字段的校验规则，将所述文本型字段的校验规则输入到已有的规则库中，建立完整的字段-规则映射关系。

9.一种计算机设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7中任一所述的数据质量校验规则提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7中任一所述的数据质量校验规则提取方法。