CN115221893B

CN115221893B - 基于规则与语义分析的质检规则自动化配置方法及装置

Info

Publication number: CN115221893B
Application number: CN202211146627.9A
Authority: CN
Inventors: 陆志鹏; 胡成盛; 朱立锋; 刘国栋; 国丽; 郑曦; 周崇毅; 赵健; 温彦龙; 乔亲旺; 范国浩; 修心; 林希明; 章纯梓
Original assignee: CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co
Current assignee: CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2023-01-13
Anticipated expiration: 2042-09-21
Also published as: CN115221893A

Abstract

本申请公开了一种基于规则与语义分析的质检规则自动化配置方法及装置，包括：获取数据元件结果信息；对获取的数据元件结果字段名称信息进行关键词匹配和实体识别，以初步检测出需要独立质检的第一字段信息；对需要独立质检的第一字段信息的取值进行判断，以确定所述第一字段信息的类型和特征；根据所述第一字段信息的类型和特征，利用预先构建的树模型，以识别出数据元件结果中需要独立质检的第二字段信息；基于识别出的第二字段信息的字段信息项，确定所述第二字段信息对应的落标权限；根据所确定出的落标权限配置相应的质检规则算子。本申请实施例通过对数据资源进行自动化配置质检规则，极大提高政务数据质检效率和调度能力。

Description

基于规则与语义分析的质检规则自动化配置方法及装置

技术领域

本申请涉及数据元件技术领域，尤其涉及一种基于规则与语义分析的质检规则自动化配置方法及装置。

背景技术

数据资源是指在生产、生活和管理等社会活动中以数字化形式留存的信息资源。

数据元件是数据资源到数据应用之间的一种稳定的标准中间态，是通过对数据资源脱敏处理后，根据需要由若干相关字段形成的数据集或由数据资源的关联字段通过建模形成的数据特征。

传统的质检系统是基于质检系统内的配置规则，现场由运维人员针对不同数据资源和数据元件结果进行单独配置字段的质检规则，无法实现自动化质量检测过程，消耗极大的人力成本。

发明内容

本申请实施例提供一种基于规则与语义分析的质检规则自动化配置方法及装置，用以实现对数据资源进行自动化配置质检规则，极大提高政务数据质检效率和调度能力。

本申请实施例提供基于规则与语义分析的质检规则自动化配置方法，包括：

获取数据元件结果信息，所述结果信息包括数据元件结果字段名称信息和字段内容信息；

对获取的数据元件结果字段名称信息进行关键词匹配和实体识别，以初步检测出需要独立质检的第一字段信息；

对需要独立质检的第一字段信息的取值进行判断，以确定所述第一字段信息的类型和特征；

根据所述第一字段信息的类型和特征，利用预先构建的树模型，以识别出数据元件结果中需要独立质检的第二字段信息；

基于识别出的第二字段信息的字段信息项，确定所述第二字段信息对应的落标权限；

根据所确定出的落标权限配置相应的质检规则算子，以实现对应数据元件的质检规则自动化落标。

可选的，对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括：

预先构建对于数据元件质量检测的通用字典库；

利用所述通用字典库，对获取的数据元件结果字段名称信息进行关键词匹配和实体识别。

可选的，对需要独立质检的第一字段信息的取值进行判断，以确定所述第一字段信息的类型和特征包括：

在所述第一字段信息中包含规则表达式的情况下，采用正则表达式来提取所述第一字段信息的类型和特征；

在所述第一字段信息中包含明确的值域且可数的情况下，采用关键词匹配来提取所述第一字段信息的类型和特征；

在所述第一字段信息表达方式不固定但指代明确的情况下，采用实体识别对所述第一字段信息进行语义分析，来提取所述第一字段信息的类型和特征。

可选的，所述树模型是基于三种字段的不同特征预先采用对应的方式构建的。

可选的，基于识别出的第二字段信息的字段信息项，确定所述第二字段信息对应的落标权限包括：

根据识别出的第二字段信息的字段信息项、数据元件结果的体量大小、字段信息项对应的质检规则数量作为先验经验，利用贝叶斯判别方法识别质检规则任务的落标权限。

可选的，所配置的质检规则算子包括如下算子的一种或多种：数据元件质量的规范性检查算子、准确性检查算子、一致性检查算子、完整性检查算子、唯一性检查算子、时效性检查算子。

本申请实施例还提供一种基于规则与语义分析的质检规则自动化配置装置，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。

本申请实施例通过对数据资源进行自动化配置质检规则，极大提高政务数据质检效率和调度能力。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例的质检规则自动化配置方法的基本流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供基于规则与语义分析的质检规则自动化配置方法，包含基于规则与语义分析结合智能识别数据元件结果的数据项信息和智能编排字段对应的质检规两个步骤。如图1所示，具体包括如下步骤：

在步骤S101中，获取数据元件结果信息，所述结果信息包括数据元件结果字段名称信息和字段内容信息。

在步骤S102中，对获取的数据元件结果字段名称信息进行关键词匹配和实体识别，以初步检测出需要独立质检的第一字段信息。在一些实施例中，对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括：

预先构建对于数据元件质量检测的通用字典库。

在步骤S103中，对需要独立质检的第一字段信息的取值进行判断，以确定所述第一字段信息的类型和特征。本示例中，对数据元件结果的字段内容的取值进行判断，根据字段内容的类型和特点采用不同的方式进行识别。在一些实施例中，对需要独立质检的第一字段信息的取值进行判断，以确定所述第一字段信息的类型和特征包括：

在所述第一字段信息中包含规则表达式的情况下，采用正则表达式来提取所述第一字段信息的类型和特征。例如数据元件结果的字段内容包括个人特征数据元件中身份证、居住证、驾驶证、手机号、银行卡号等身份信息的情况下，采用正则表达式提取类型和特征。

在所述第一字段信息中包含明确的值域且可数的情况下，采用关键词匹配来提取所述第一字段信息的类型和特征，例如数据元件结果的字段内容包括职业、宗教信仰、性别等。

在所述第一字段信息表达方式不固定但指代明确的情况下，采用实体识别对所述第一字段信息进行语义分析，来提取所述第一字段信息的类型和特征。例如个人特征数据元件中姓名、地址、日期等通过实体识别技术来判断是否属于姓名、地址和日期信息。

在步骤S104中，根据所述第一字段信息的类型和特征，利用预先构建的树模型，以准确识别出数据元件结果中需要独立质检的第二字段信息。在一些实施例中，所述树模型是基于三种字段的不同特点预先采用相应方式构建识别模型的。采用不同方式相结合构建基于字段类别的树模型能够快速并最大程度识别数据元件结果内容中需要独立进行质检的字段信息，提高识别的准确率。对所有需要独立进行质检的第二字段信息进行自动标注并存入数据库。

在步骤S105中，基于识别出的第二字段信息的字段信息项，确定所述第二字段信息对应的落标权限。本示例中可以从数据库中提取第二字段信息的字段信息项，然后确定所述第二字段信息对应的落标权限。

在步骤S106中，根据所确定出的落标权限配置相应的质检规则算子，以实现对应数据元件的质检规则自动化落标。在配置质检规则算子之后，实现对数据元件的质检规则自动化落标，从而解决了传统质量检测系统需要运维人员现场基于数据资源字段信息进行人工配置，以及传统质检方式存在漏检和错检的问题，采用本申请的方案提高了质检字段识别的准确率和自动化进程。

从数据库中获取数据元件结果中需要独立进行质检的字段信息项之后，在一些实施例中，基于识别出的第二字段信息的字段信息项，确定所述第二字段信息对应的落标权限包括：根据识别出的第二字段信息的字段信息项、数据元件结果的体量大小、字段信息项对应的质检规则数量作为先验经验，利用贝叶斯判别方法识别质检规则任务的落标权限。

在一些实施例中，根据获取需进行质检的字段信息项和该字段落标的权限来配置相应的质检规则算子，本示例中所指的质检规则算子可以是正则表达式、实体识别模型或基于字典库的关键词匹配方法，所配置的质检规则算子包括如下算子的一种或多种：数据元件质量的规范性检查算子、准确性检查算子、一致性检查算子、完整性检查算子、唯一性检查算子、时效性检查算子。

本申请为解决因为政务数据标准不统一、数据内容无法识别，质量检查规则需大量人工手动配置操作的问题，通过对数据资源进行自动化配置质检规则，极大提高政务数据质检效率和调度能力。本申请的方案主要基于政务数据标准统一字典库、规则和语义分析相结合智能识别字段信息实现了自动化配置质检规则。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器或者网络设备等）执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本申请的保护之内。

Claims

1.基于规则与语义分析的质检规则自动化配置方法，其特征在于，包括：

根据所确定出的落标权限配置相应的质检规则算子，以实现对应数据元件的质检规则自动化落标；

基于识别出的第二字段信息的字段信息项，确定所述第二字段信息对应的落标权限包括：

2.如权利要求1所述的基于规则与语义分析的质检规则自动化配置方法，其特征在于，对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括：

预先构建对于数据元件质量检测的通用字典库；

3.如权利要求2所述的基于规则与语义分析的质检规则自动化配置方法，其特征在于，对需要独立质检的第一字段信息的取值进行判断，以确定所述第一字段信息的类型和特征包括：

4.如权利要求1所述的基于规则与语义分析的质检规则自动化配置方法，其特征在于，所述树模型是基于三种字段的不同特征预先采用对应的方式构建的。

5.如权利要求1所述的基于规则与语义分析的质检规则自动化配置方法，其特征在于，所配置的质检规则算子包括如下算子的一种或多种：数据元件质量的规范性检查算子、准确性检查算子、一致性检查算子、完整性检查算子、唯一性检查算子、时效性检查算子。

6.基于规则与语义分析的质检规则自动化配置装置，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于规则与语义分析的质检规则自动化配置方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于规则与语义分析的质检规则自动化配置方法的步骤。