CN115221893B - 基于规则与语义分析的质检规则自动化配置方法及装置 - Google Patents

基于规则与语义分析的质检规则自动化配置方法及装置 Download PDF

Info

Publication number
CN115221893B
CN115221893B CN202211146627.9A CN202211146627A CN115221893B CN 115221893 B CN115221893 B CN 115221893B CN 202211146627 A CN202211146627 A CN 202211146627A CN 115221893 B CN115221893 B CN 115221893B
Authority
CN
China
Prior art keywords
field information
quality inspection
rule
data element
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211146627.9A
Other languages
English (en)
Other versions
CN115221893A (zh
Inventor
陆志鹏
胡成盛
朱立锋
刘国栋
国丽
郑曦
周崇毅
赵健
温彦龙
乔亲旺
范国浩
修心
林希明
章纯梓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co
Original Assignee
CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co filed Critical CHINA ELECTRONIC INFORMATION INDUSTRY GROUP Co
Priority to CN202211146627.9A priority Critical patent/CN115221893B/zh
Publication of CN115221893A publication Critical patent/CN115221893A/zh
Application granted granted Critical
Publication of CN115221893B publication Critical patent/CN115221893B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于规则与语义分析的质检规则自动化配置方法及装置,包括:获取数据元件结果信息;对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息;对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征;根据所述第一字段信息的类型和特征,利用预先构建的树模型,以识别出数据元件结果中需要独立质检的第二字段信息;基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限;根据所确定出的落标权限配置相应的质检规则算子。本申请实施例通过对数据资源进行自动化配置质检规则,极大提高政务数据质检效率和调度能力。

Description

基于规则与语义分析的质检规则自动化配置方法及装置
技术领域
本申请涉及数据元件技术领域,尤其涉及一种基于规则与语义分析的质检规则自动化配置方法及装置。
背景技术
数据资源是指在生产、生活和管理等社会活动中以数字化形式留存的信息资源。
数据元件是数据资源到数据应用之间的一种稳定的标准中间态,是通过对数据资源脱敏处理后,根据需要由若干相关字段形成的数据集或由数据资源的关联字段通过建模形成的数据特征。
传统的质检系统是基于质检系统内的配置规则,现场由运维人员针对不同数据资源和数据元件结果进行单独配置字段的质检规则,无法实现自动化质量检测过程,消耗极大的人力成本。
发明内容
本申请实施例提供一种基于规则与语义分析的质检规则自动化配置方法及装置,用以实现对数据资源进行自动化配置质检规则,极大提高政务数据质检效率和调度能力。
本申请实施例提供基于规则与语义分析的质检规则自动化配置方法,包括:
获取数据元件结果信息,所述结果信息包括数据元件结果字段名称信息和字段内容信息;
对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息;
对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征;
根据所述第一字段信息的类型和特征,利用预先构建的树模型,以识别出数据元件结果中需要独立质检的第二字段信息;
基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限;
根据所确定出的落标权限配置相应的质检规则算子,以实现对应数据元件的质检规则自动化落标。
可选的,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括:
预先构建对于数据元件质量检测的通用字典库;
利用所述通用字典库,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别。
可选的,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征包括:
在所述第一字段信息中包含规则表达式的情况下,采用正则表达式来提取所述第一字段信息的类型和特征;
在所述第一字段信息中包含明确的值域且可数的情况下,采用关键词匹配来提取所述第一字段信息的类型和特征;
在所述第一字段信息表达方式不固定但指代明确的情况下,采用实体识别对所述第一字段信息进行语义分析,来提取所述第一字段信息的类型和特征。
可选的,所述树模型是基于三种字段的不同特征预先采用对应的方式构建的。
可选的,基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限包括:
根据识别出的第二字段信息的字段信息项、数据元件结果的体量大小、字段信息项对应的质检规则数量作为先验经验,利用贝叶斯判别方法识别质检规则任务的落标权限。
可选的,所配置的质检规则算子包括如下算子的一种或多种:数据元件质量的规范性检查算子、准确性检查算子、一致性检查算子、完整性检查算子、唯一性检查算子、时效性检查算子。
本申请实施例还提供一种基于规则与语义分析的质检规则自动化配置装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。
本申请实施例通过对数据资源进行自动化配置质检规则,极大提高政务数据质检效率和调度能力。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例的质检规则自动化配置方法的基本流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本申请实施例提供基于规则与语义分析的质检规则自动化配置方法,包含基于规则与语义分析结合智能识别数据元件结果的数据项信息和智能编排字段对应的质检规两个步骤。如图1所示,具体包括如下步骤:
在步骤S101中,获取数据元件结果信息,所述结果信息包括数据元件结果字段名称信息和字段内容信息。
在步骤S102中,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息。在一些实施例中,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括:
预先构建对于数据元件质量检测的通用字典库。
利用所述通用字典库,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别。
在步骤S103中,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征。本示例中,对数据元件结果的字段内容的取值进行判断,根据字段内容的类型和特点采用不同的方式进行识别。在一些实施例中,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征包括:
在所述第一字段信息中包含规则表达式的情况下,采用正则表达式来提取所述第一字段信息的类型和特征。例如数据元件结果的字段内容包括个人特征数据元件中身份证、居住证、驾驶证、手机号、银行卡号等身份信息的情况下,采用正则表达式提取类型和特征。
在所述第一字段信息中包含明确的值域且可数的情况下,采用关键词匹配来提取所述第一字段信息的类型和特征,例如数据元件结果的字段内容包括职业、宗教信仰、性别等。
在所述第一字段信息表达方式不固定但指代明确的情况下,采用实体识别对所述第一字段信息进行语义分析,来提取所述第一字段信息的类型和特征。例如个人特征数据元件中姓名、地址、日期等通过实体识别技术来判断是否属于姓名、地址和日期信息。
在步骤S104中,根据所述第一字段信息的类型和特征,利用预先构建的树模型,以准确识别出数据元件结果中需要独立质检的第二字段信息。在一些实施例中,所述树模型是基于三种字段的不同特点预先采用相应方式构建识别模型的。采用不同方式相结合构建基于字段类别的树模型能够快速并最大程度识别数据元件结果内容中需要独立进行质检的字段信息,提高识别的准确率。对所有需要独立进行质检的第二字段信息进行自动标注并存入数据库。
在步骤S105中,基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限。本示例中可以从数据库中提取第二字段信息的字段信息项,然后确定所述第二字段信息对应的落标权限。
在步骤S106中,根据所确定出的落标权限配置相应的质检规则算子,以实现对应数据元件的质检规则自动化落标。在配置质检规则算子之后,实现对数据元件的质检规则自动化落标,从而解决了传统质量检测系统需要运维人员现场基于数据资源字段信息进行人工配置,以及传统质检方式存在漏检和错检的问题,采用本申请的方案提高了质检字段识别的准确率和自动化进程。
从数据库中获取数据元件结果中需要独立进行质检的字段信息项之后,在一些实施例中,基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限包括:根据识别出的第二字段信息的字段信息项、数据元件结果的体量大小、字段信息项对应的质检规则数量作为先验经验,利用贝叶斯判别方法识别质检规则任务的落标权限。
在一些实施例中,根据获取需进行质检的字段信息项和该字段落标的权限来配置相应的质检规则算子,本示例中所指的质检规则算子可以是正则表达式、实体识别模型或基于字典库的关键词匹配方法,所配置的质检规则算子包括如下算子的一种或多种:数据元件质量的规范性检查算子、准确性检查算子、一致性检查算子、完整性检查算子、唯一性检查算子、时效性检查算子。
本申请为解决因为政务数据标准不统一、数据内容无法识别,质量检查规则需大量人工手动配置操作的问题,通过对数据资源进行自动化配置质检规则,极大提高政务数据质检效率和调度能力。本申请的方案主要基于政务数据标准统一字典库、规则和语义分析相结合智能识别字段信息实现了自动化配置质检规则。
本申请实施例还提供一种基于规则与语义分析的质检规则自动化配置装置,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述的基于规则与语义分析的质检规则自动化配置方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本申请的保护之内。

Claims (7)

1.基于规则与语义分析的质检规则自动化配置方法,其特征在于,包括:
获取数据元件结果信息,所述结果信息包括数据元件结果字段名称信息和字段内容信息;
对获取的数据元件结果字段名称信息进行关键词匹配和实体识别,以初步检测出需要独立质检的第一字段信息;
对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征;
根据所述第一字段信息的类型和特征,利用预先构建的树模型,以识别出数据元件结果中需要独立质检的第二字段信息;
基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限;
根据所确定出的落标权限配置相应的质检规则算子,以实现对应数据元件的质检规则自动化落标;
基于识别出的第二字段信息的字段信息项,确定所述第二字段信息对应的落标权限包括:
根据识别出的第二字段信息的字段信息项、数据元件结果的体量大小、字段信息项对应的质检规则数量作为先验经验,利用贝叶斯判别方法识别质检规则任务的落标权限。
2.如权利要求1所述的基于规则与语义分析的质检规则自动化配置方法,其特征在于,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别包括:
预先构建对于数据元件质量检测的通用字典库;
利用所述通用字典库,对获取的数据元件结果字段名称信息进行关键词匹配和实体识别。
3.如权利要求2所述的基于规则与语义分析的质检规则自动化配置方法,其特征在于,对需要独立质检的第一字段信息的取值进行判断,以确定所述第一字段信息的类型和特征包括:
在所述第一字段信息中包含规则表达式的情况下,采用正则表达式来提取所述第一字段信息的类型和特征;
在所述第一字段信息中包含明确的值域且可数的情况下,采用关键词匹配来提取所述第一字段信息的类型和特征;
在所述第一字段信息表达方式不固定但指代明确的情况下,采用实体识别对所述第一字段信息进行语义分析,来提取所述第一字段信息的类型和特征。
4.如权利要求1所述的基于规则与语义分析的质检规则自动化配置方法,其特征在于,所述树模型是基于三种字段的不同特征预先采用对应的方式构建的。
5.如权利要求1所述的基于规则与语义分析的质检规则自动化配置方法,其特征在于,所配置的质检规则算子包括如下算子的一种或多种:数据元件质量的规范性检查算子、准确性检查算子、一致性检查算子、完整性检查算子、唯一性检查算子、时效性检查算子。
6.基于规则与语义分析的质检规则自动化配置装置,其特征在于,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于规则与语义分析的质检规则自动化配置方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的基于规则与语义分析的质检规则自动化配置方法的步骤。
CN202211146627.9A 2022-09-21 2022-09-21 基于规则与语义分析的质检规则自动化配置方法及装置 Active CN115221893B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211146627.9A CN115221893B (zh) 2022-09-21 2022-09-21 基于规则与语义分析的质检规则自动化配置方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211146627.9A CN115221893B (zh) 2022-09-21 2022-09-21 基于规则与语义分析的质检规则自动化配置方法及装置

Publications (2)

Publication Number Publication Date
CN115221893A CN115221893A (zh) 2022-10-21
CN115221893B true CN115221893B (zh) 2023-01-13

Family

ID=83617698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211146627.9A Active CN115221893B (zh) 2022-09-21 2022-09-21 基于规则与语义分析的质检规则自动化配置方法及装置

Country Status (1)

Country Link
CN (1) CN115221893B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975044B (zh) * 2023-09-21 2023-12-22 云粒智慧科技有限公司 质检规则确定方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020259629A1 (zh) * 2019-06-24 2020-12-30 深圳前海微众银行股份有限公司 一种基于区块链的数据检验方法及装置
CN113194010A (zh) * 2021-04-28 2021-07-30 浙江大学 一种非公开工业通信协议的字段语义分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7913159B2 (en) * 2003-03-28 2011-03-22 Microsoft Corporation System and method for real-time validation of structured data files
CN106547742B (zh) * 2016-11-30 2019-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语义解析结果处理方法和装置
CN113569005B (zh) * 2021-06-17 2024-02-20 国家电网有限公司 一种基于数据内容的大规模数据特征智能化提取方法
CN113468037A (zh) * 2021-07-26 2021-10-01 浙江大华技术股份有限公司 一种数据质量评估方法、装置、介质和电子设备
CN114186244B (zh) * 2022-01-26 2022-09-16 中国电子信息产业集团有限公司 一种数据要素操作框架及系统
CN114638468A (zh) * 2022-02-09 2022-06-17 中国电子信息产业集团有限公司 一种对数据价值进行评估的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020259629A1 (zh) * 2019-06-24 2020-12-30 深圳前海微众银行股份有限公司 一种基于区块链的数据检验方法及装置
CN113194010A (zh) * 2021-04-28 2021-07-30 浙江大学 一种非公开工业通信协议的字段语义分析方法

Also Published As

Publication number Publication date
CN115221893A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN110826320A (zh) 一种基于文本识别的敏感数据发现方法及系统
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN109800354B (zh) 一种基于区块链存储的简历修改意图识别方法及系统
CN112116168B (zh) 一种用户行为的预测方法、装置及电子设备
CN112818162B (zh) 图像检索方法、装置、存储介质和电子设备
CN115221893B (zh) 基于规则与语义分析的质检规则自动化配置方法及装置
KR20200127557A (ko) 뉴스 기사의 감성 정보 레이블링 프로그램이 기록된 기록매체
CN111967437A (zh) 文本识别方法、装置、设备及存储介质
CN110689211A (zh) 网站服务能力的评估方法及装置
CN116383742B (zh) 基于特征分类的规则链设置处理方法、系统及介质
KR20200127553A (ko) 뉴스 기사의 감성 정보 레이블링 방법
KR20200127587A (ko) 뉴스 기사의 감성 정보 레이블링 프로그램
CN111859069B (zh) 一种网络恶意爬虫识别方法、系统、终端及存储介质
CN117150138A (zh) 一种基于高维空间映射的科技资源组织方法及系统
KR20200127555A (ko) 뉴스 기사의 감성 정보 레이블링 프로그램
KR20200127636A (ko) 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 장치의 동작 프로그램이 기록된 기록매체
CN115391567A (zh) 风机标准作业知识图谱构建方法、装置及作业机械
CN115760495A (zh) 一种实现法律案例自动标签化的方法及装置
CN111460268B (zh) 数据库查询请求的确定方法、装置和计算机设备
CN111027296A (zh) 基于知识库的报表生成方法及系统
KR20200127552A (ko) 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 방법 및 그 장치
KR20200127589A (ko) 뉴스 기사의 감성 정보 레이블링 장치
KR20200127670A (ko) 감성 정보 제공을 위한 뉴스 기사의 감성 정보 레이블링 장치
KR20200127590A (ko) 뉴스 기사의 감성 정보 레이블링 장치
CN113535707B (zh) 一种基于大数据进行人员信息数据治理的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant