CN117473493A - 基于数据元的数据溯源、质量检测方法及系统 - Google Patents
基于数据元的数据溯源、质量检测方法及系统 Download PDFInfo
- Publication number
- CN117473493A CN117473493A CN202311824564.2A CN202311824564A CN117473493A CN 117473493 A CN117473493 A CN 117473493A CN 202311824564 A CN202311824564 A CN 202311824564A CN 117473493 A CN117473493 A CN 117473493A
- Authority
- CN
- China
- Prior art keywords
- data
- data elements
- tracing
- elements
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000035945 sensitivity Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 15
- 238000013523 data management Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/554—Detecting local intrusion or implementing counter-measures involving event detection and direct action
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于数据元的数据溯源、质量检测方法及系统,其中涉及的基于数据元的数据溯源、质量检测方法,包括:S1.获取所需的数据,并识别数据相对应的数据元;S2.根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元;S3.根据数据安全等级规则对定义后的数据元进行分类分级;S4.对分级后的数据元定义相对应的标识符;S5.对定义标识符后的数据元构建数据字典;S6.根据数据字典创建数据表;S7.基于创建的数据表进行数据溯源和质量检测。
Description
技术领域
本发明涉及数据治理技术领域,尤其涉及基于数据元的数据溯源、质量检测方法及系统。
背景技术
随着信息技术的快速发展,数据已经成为重要的生产要素和社会资源。数据治理是指对数据进行统一规划、管理和利用的过程。数据治理的目标是提高数据的质量、安全和可用性。
在政务服务领域,数据治理面临着多源异构数据管理、数据溯源和质量检测难题。传统方法对数据的管理和治理往往依赖于单一的规则和手工处理,难以保障数据的一致性、安全性和高质量。
如公开号为CN115129703A的专利公开了一种政务数据接入治理系统,包括数据源整合模块,所述数据源整合模块内设置有政务数据元数据管理模块,所述政务数据元数据管理模块内设有数据去重模块、数据要素补齐模块、数据关联模块、数据格式统一模块、数据映射模块、数据字典转义模块、无效数据删除模块和数据脱敏模块,所述数据来源整合模块上连接有数据资源池模块。上述专利虽然能很好的通过对企业工商注册数据中符合条件的重复数据全部删除,避免其严重影响了数据的使用;但是依然无法进行数据溯源、数据质量检测。
针对上述技术问题,本发明提出基于数据元的数据溯源、质量检测方法及系统。
发明内容
本发明的目的是针对现有技术的缺陷,提供了基于数据元的数据溯源、质量检测方法及系统,可以解决数据治理中多源异构数据管理、数据溯源和质量检测的难题。
为了实现以上目的,本发明采用以下技术方案:
基于数据元的数据溯源、质量检测方法,包括:
S1.获取所需的数据,并识别数据相对应的数据元;
S2.根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元;
S3.根据数据安全等级规则对定义后的数据元进行分类分级;
S4.对分级后的数据元定义相对应的标识符;
S5.对定义标识符后的数据元构建数据字典;
S6.根据数据字典创建数据表;
S7.基于创建的数据表进行数据溯源和质量检测。
进一步的,所述步骤S5之前还包括:建立数据元对应的审核机制。
进一步的,所述步骤S2中数据元属性包括类目、标识符、名称、说明、数据格式、值域、数据来源。
进一步的,所述步骤S3具体为:
S31.基于数据内容制定数据分类规则;
S32.基于敏感程度制定数据分级规则;
S33.根据数据分类规则、数据分级规则对数据元进行分类分级。
进一步的,所述步骤S32中敏感程度包括敏感、较敏感、低敏感、不敏感。
进一步的,所述步骤S4中的标识符由字母数字型代码标识组成。
进一步的,所述步骤S5中的数据字典包括数据元、数据元属性、数据元之间的关联关系、分级分类信息。
进一步的,所述步骤S7中基于创建的数据表进行数据溯源具体为:
A1.开发数据表对应的数据接口,并对数据接口要返回的字段配置对应的标识符;
A2.根据分类分级后的等级配置查看权限;
A3.根据数据接口对数据进行查询,得到数据对应数据元的标识符,并根据标识符得到数据元所属的数据来源。
进一步的,所述步骤S7中基于创建的数据表进行质量检测具体为:
B1.建立检测规则模型,并根据检测规则模型对数据表内各字段进行校验;
B2.对数据表中的每个字段配置对应的检测规则模型;
B3.定时执行数据异常检测任务,并将异常数据自动输入异常数据库。
相应的,还提供基于数据元的数据溯源、质量检测系统,包括:
获取模块,用于获取所需的数据,并识别数据相对应的数据元;
第一定义模块,用于根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元;
分类分级模块,用于根据数据安全等级规则对定义后的数据元进行分类分级;
第二定义模块,用于对分级后的数据元定义相对应的标识符;
构建模块,用于对定义标识符后的数据元构建数据字典;
创建模块,用于根据数据字典创建数据表;
处理模块,用于基于创建的数据表进行数据溯源和质量检测。
与现有技术相比,本发明具有以下有益效果:
1、传统的数据管理方法难以提供全面、高效的数据治理,可能依赖于手工处理、简单的规则引擎或仅实现部分功能。本发明通过全面建设数据元标准体系、引入规则模型、数据溯源和质量检测机制,以及细粒度的权限管理,形成一套综合性的数据治理方案,相对于传统方法更全面、更智能、更可靠。
2、本发明提高了数据的一致性、可互操作性和安全性;实现了数据的全面管理和治理,确保了数据的高质量和可信度;细粒度的权限管理,提升了数据的安全性和隐私保护;数据溯源查询的可视化管理,提升了对数据来源的透明度;自动化的数据异常检测,保障了数据的准确性和可靠性。
附图说明
图1是实施例一提供的基于数据元的数据溯源、质量检测方法流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有技术的缺陷,提供了基于数据元的数据溯源、质量检测方法及系统。
实施例一
本实施例提供基于数据元的数据溯源、质量检测方法,如图1所示,包括:
S1.获取所需的数据,并识别数据相对应的数据元;
S2.根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元;
S3.根据数据安全等级规则对定义后的数据元进行分类分级;
S4.对分级后的数据元定义相对应的标识符;
S5.对定义标识符后的数据元构建数据字典;
S6.根据数据字典创建数据表;
S7.基于创建的数据表进行数据溯源和质量检测。
在步骤S1中,获取所需的数据,并识别数据相对应的数据元。
数据元(Dataelement),又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。
数据元是数据治理的基础,因此需要识别和收集需要管理的数据元。数据元可以来自于不同的业务流程、系统或数据源,进而需要通过多种方式进行识别和收集。本实施例采用的识别和收集数据元的方式包括:
基于业务分析,通过创建的业务流程图,标识流程图中每个步骤使用或生成的数据,并识别业务流程中涉及的数据相对应的数据元;其中业务流程图可根据实际情况确定。
基于系统分析,通过数据库的设计,可以清楚地看到系统中包含的所有数据元及数据元之间的关系,并识别系统中涉及的数据相对应的数据元;其中数据库的设计可根据实际情况确定。
基于数据源分析,通过查看数据源的内容和结构,理解其中的数据结构和含义,并识别数据源中涉及的数据相对应的数据元;其中数据源可根据实际情况确定。
在步骤S2中,根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元。
在本实施例中,根据数据元属性对数据元及数据元之间的关联关系进行标话定义,通过下列属性对每一个数据元进行描述,数据元属性包括:
类目:数据所属二级类别;
标识符:数据元的唯一标识;
名称:简短且含义确切的数据元的中文名称,名称定义要求参照“数据源的规范与标准化”;
说明:数据元的定义或具体含义;
数据格式:数据元允许值的类型及长度的表示格式;
值域:数据元的取值范围;
数源:数据来源。
数据元之间的关联关系主要包括聚合关系、层次关系。聚合关系指多个数据元组合在一起,形成一个更高级的数据元;层次关系指数据元之间存在上下级关系;通过数据元标识符来实现数据元的关联关系。
在步骤S3中,根据数据安全等级规则对定义后的数据元进行分类分级。具体为:
S31.基于数据内容制定数据分类规则;
根据数据元所描述的内容对应的用途和来源,进而形成数据元分类规则,基于数据元分类规则,并按照数据业务含义,实现数据元的分类。
S32.基于敏感程度制定数据分级规则;
根据数据被破坏后会对社会秩序、公共利益以及对公民、法人和其他组织的合法权益(受侵害客体)受到危害,本实施例根据危害程度(即敏感程度)来确定数据的安全级别,敏感程度分为四个级别,包括敏感、较敏感、低敏感、不敏感。
根据敏感程度将数据元由高至低分别为:敏感数据(L4级)、较敏感数据(L3级)、低敏感数据(L2级)、不敏感数据(L1级)。
S33.根据数据分类规则、数据分级规则对数据元进行分类分级。
假设有一组个人信息数据元,将数据元通过数据分类规则分为姓名、身份证号、地址、电话号码等,对分类后的结果通过数据分级规则,可能得到如下的等级:
姓名:L1级(不敏感数据);
身份证号:L4级(敏感数据);
地址:L2级(低敏感数据);
电话号码:L3级(较敏感数据)。
在步骤S4中,对分级后的数据元定义相对应的标识符。
本实施例基于以下代码规则为每个数据元定义一个标识符,且数据元的标识符由字母数字型代码标识组成,具体代码规则如下:
第1位代码:1位大写罗马字符(A-Z)按顺序编码,表示一级类目;
第2、3位代码:2、3位阿拉伯数字(00-99),表示二级类目;
第4、5、6、7位代码:4、5、6、7位阿拉伯数字(0001-9999),代表每一类目下数据元的序号,数字大小无含义;
基于上述字母数字型代码,按分类代码、顺序号从左向右顺序排列,得到数据元的标识符。其中分类代码为第1位代码(A-Z)、第2、3位代码(00-99),顺序号为第4、5、6、7位代码(0001-9999)。
本实施例采用标识符唯一的标识数据元,可以确保数据的统一性和可互操作性。
在本实施例中,步骤S5之前还包括:建立数据元对应的审核机制。
审核机制为对公共数据元进行管理,其中数据元的流程包括公共数据元新增、变更或废止的提交、审核、发布。
审核机制具体为:
1.数据开发人员可以向数据元管理机构提交数据元新增、变更、废止申请;具体步骤如下:
数据开发人员需要根据业务需求,填写数据元新增、变更、废止申请表,并提交给数据元管理机构;申请表应包括以下内容:
申请数据元信息:数据元名称、数据类型、数据格式、数据值域、数据来源、数据用途等。
申请原因:申请新增、变更、废止数据元的具体原因。其中,新增、变更、废止内容可根据实际情况确定。
2.数据元管理机构根据以下规则对数据元进行审核,包括对新增、变更、废止的内容审查。
1)数据元新增:应重点审查数据元是否与现有数据元重复、是否与其他数据元冲突、数据元属性是否合理等内容;
2)数据元变更:应重点审查数据元属性是否合理、数据元变更的成本与效益、数据元变更的风险隐患等内容;
3)数据元废止:应重点审查数据元废止依据的充分必要性、数据元废止的风险隐患等内容。
3.审核通过后,及时发布数据元的新增、变更、废止信息,通知数据使用机构进行更新同步。
本实施例通过建立元数据审核机制,确保数据元信息的准确性。
在步骤S5中,对定义标识符后的数据元构建数据字典。
基于以上对数据元及数据元之间的关系、分类分级定义的所有数据元集合构成数据字典,进而为数据治理提供基础数据。其中数据字典包括数据元、数据元属性、数据元之间的关系、分类分级等信息。
在步骤S6中,根据数据字典创建数据表。
根据数据字典创建数据表结构,基于设计好的表结构,使用SQL语句在数据库管理系统中创建物理表。其中数据表结构设计如下:
定义实体:每个实体对应数据字典中的一个数据元集合,实体的属性对应数据元的属性。
定义字段:将数据字典中的每个数据元映射为表中的字段,其中数据表的字段名称应与字典表的数据元的名称保持一致,数据表的字段类型应与数据元的类型保持一致。数据表的字段长度应根据数据元的取值范围进行设置。
确定主键:如果数据字典中定义了某些数据元是唯一标识某个实体的,将其作为表的主键。
在步骤S7中,基于创建的数据表进行数据溯源和质量检测。
本实施例中基于创建的数据表进行数据溯源具体为:
A1.开发数据表对应的数据接口,并对数据接口要返回的字段配置对应的标识符;
根据数据表开发对应的数据接口,根据开发的数据接口可以查询并返回数据表的字段名称、对应的值和标识符;
数据接口开发可以使用编程语言,如Java、Python、Go等,编写数据接口代码。
数据接口包括请求方法、请求参数、响应数据。
请求方法:请求方法用于指定数据接口的请求类型,常见的请求方法包括GET、POST、PUT、DELETE等。
请求参数:请求参数用于指定数据接口的请求参数,常见的请求参数包括URL参数、表单参数、JSON参数等。
响应数据:响应数据用于指定数据接口的响应数据,常见的响应数据格式包括JSON、XML、CSV等。
本实施例根据开发的数据接口可以查询并返回数据表数据,具体查询方式取决于数据接口的请求方法和请求参数。
如果数据接口的请求方法为GET,请求参数为数据表的名称,则可以通过以下方式查询数据表数据:
GET/api/v1/tables/<table_name>;
该请求将返回数据表<table_name>中的数据。
如果数据接口的请求方法为POST,请求参数为数据表的查询条件,则可以通过以下方式查询数据表数据:
POST/api/v1/tables/<table_name>。
本实施例通过对数据接口返回的字段基于编码方式配置对应的标识符,进而为数据溯源提供依据。
A2.根据分类分级后的等级配置查看权限;
根据用户职责,通过配置方式对用户赋予步骤S32中的L1-L4级别数据的查看权限。
A3.根据数据接口对数据进行查询,得到数据对应数据元的标识符,并根据标识符得到数据元所属的数据来源。具体的:
根据数据接口对数据进行查询,得到数据字段名称、对应的值和标识符,并根据标识符查询数据字典表得到数据元所属的数据来源。
本实施例提供可视化数据溯源查询页面,进而使用户通过页面调用数据接口查询数据时,同时返回数据对应的数据元的标识符。
根据数据元的标识符,查询标识符对应的数据元,进而可以得到数据元所属的数据来源,实现数据溯源。
本实施例中基于创建的数据表进行质量检测具体为:
B1.建立检测规则模型,并根据检测规则模型对数据表内各字段进行校验;
数据表中每一列的数据,都对应一个唯一的数据元,并且数据元具有明确的值域。根据数据元对应的数据元值域建立相应的检测规则模型,可以实现数据表数据内容准确性的校验。
根据数据元值域的特点,检测规则模型可以分为以下几种类型:
枚举类型:数据元值域为有限个枚举值,可以使用枚举类型的检测规则模型进行校验。
范围类型:数据元值域为连续区间,可以使用范围类型的检测规则模型进行校验。
正则表达式类型:数据元值域满足某种正则表达式,可以使用正则表达式类型的检测规则模型进行校验。
本实施例以枚举类型为例来说明检测规则模型,具体为:
枚举类型:
数据元名称:性别;
数据元类型:字符串;
数据元值域:男、女;
检测规则模型:
{
"type":"enum",
"values":["男","女"]
}。
本实施例以范围类型为例来说明检测规则模型,具体为:
范围类型:
数据元名称:年龄;
数据元类型:整数;
数据元值域:[0,100];
检测规则模型:
{
"type":"range",
"min":0,
"max":100
}。
本实施例以正则表达式类型为例来说明检测规则模型,具体为:
正则表达式类型:
数据元名称:邮箱地址;
数据元类型:字符串;
数据元值域:符合RFC5322标准的邮箱地址;
检测规则模型:
{
"type":"regex",
"regex":"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)+$"
}。
本实施例通过建立检测规则模型,可以实现数据表数据内容准确性的校验。例如,对于上述枚举类型的检测规则模型,可以校验数据表中性别字段的值是否为男或女。
本实施例还根据检测规则模型的类型,校验方法可以分为以下几种:
枚举类型:对于枚举类型的检测规则模型,可以使用以下方法进行校验:使用in()方法,判断数据值是否在检测规则模型的值域中。使用equals()方法,判断数据值是否等于检测规则模型的某个值。
范围类型:对于范围类型的检测规则模型,可以使用以下方法进行校验:使用<=或>=方法,判断数据值是否在检测规则模型的范围内。使用between()方法,判断数据值是否在检测规则模型的范围内。
正则表达式类型:对于正则表达式类型的检测规则模型,可以使用re.match()方法进行校验。
本实施例基于上述检测规则模型,可以提高治理效率。
B2.对数据表中的每个字段配置对应的检测规则模型;
本实施例对数据表中的每个字段配置基于步骤B1中检测规则模型。具体配置检测规则模型的步骤为:
(1)选择检测规则模型的类型。根据数据表字段值域的特点,选择合适的检测规则模型类型。
(2)定义检测规则模型的具体内容。根据检测规则模型的类型,定义具体的规则内容。
B3.定时执行数据异常检测任务,并将异常数据自动输入异常数据库。
定时基于检测规则模型执行数据异常检测任务,所有命中规则的异常数据,将自动输入异常数据库,数据治理人员可对异常数据进行处理。
本实施例命中规则为根据命中检测规则中对于异常数据的判定,具体为:
读取原始数据表对应字段的数据,通过与权威数据来源进行关联校验,实现数据表数据内容准确性的校验和处理,配置定时任务,实现自动检测。
自动检测具体为:
读取原始数据表:可以使用数据库连接方式读取数据表。
获取数据表对应字段的数据:可以使用数据库查询方式获取数据表对应字段的数据。
使用规则模型进行检测:根据使用每个字段定义的检测规则模型的类型,使用相应的检测方法进行检测。
本实施例具有以下有益效果:
1、传统的数据管理方法难以提供全面、高效的数据治理,可能依赖于手工处理、简单的规则引擎或仅实现部分功能。本发明通过全面建设数据元标准体系、引入规则模型、数据溯源和质量检测机制,以及细粒度的权限管理,形成一套综合性的数据治理方案,相对于传统方法更全面、更智能、更可靠;
2、本发明提高了数据的一致性、可互操作性和安全性;实现了数据的全面管理和治理,确保了数据的高质量和可信度;细粒度的权限管理,提升了数据的安全性和隐私保护;数据溯源查询的可视化管理,提升了对数据来源的透明度;自动化的数据异常检测,保障了数据的准确性和可靠性。
实施例二
本实施例提供基于数据元的数据溯源、质量检测系统,包括:
获取模块,用于获取所需的数据,并识别数据相对应的数据元;
第一定义模块,用于根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元;
分类分级模块,用于根据数据安全等级规则对定义后的数据元进行分类分级;
第二定义模块,用于对分级后的数据元定义相对应的标识符;
构建模块,用于对定义标识符后的数据元构建数据字典;
创建模块,用于根据数据字典创建数据表;
处理模块,用于基于创建的数据表进行数据溯源和质量检测。
需要说明的是,本实施例提供的基于数据元的数据溯源、质量检测系统与实施例一类似,在此不多做赘述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.基于数据元的数据溯源、质量检测方法,其特征在于,包括:
S1.获取所需的数据,并识别数据相对应的数据元;
S2.根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元;
S3.根据数据安全等级规则对定义后的数据元进行分类分级;
S4.对分级后的数据元定义相对应的标识符;
S5.对定义标识符后的数据元构建数据字典;
S6.根据数据字典创建数据表;
S7.基于创建的数据表进行数据溯源和质量检测。
2.根据权利要求1所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S5之前还包括:建立数据元对应的审核机制。
3.根据权利要求1所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S2中数据元属性包括类目、标识符、名称、说明、数据格式、值域、数据来源。
4.根据权利要求1所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S3具体为:
S31.基于数据内容制定数据分类规则;
S32.基于敏感程度制定数据分级规则;
S33.根据数据分类规则、数据分级规则对数据元进行分类分级。
5.根据权利要求4所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S32中敏感程度包括敏感、较敏感、低敏感、不敏感。
6.根据权利要求1所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S4中的标识符由字母数字型代码标识组成。
7.根据权利要求5所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S5中的数据字典包括数据元、数据元属性、数据元之间的关联关系、分级分类信息。
8.根据权利要求1所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S7中基于创建的数据表进行数据溯源具体为:
A1.开发数据表对应的数据接口,并对数据接口要返回的字段配置对应的标识符;
A2.根据分类分级后的等级配置查看权限;
A3.根据数据接口对数据进行查询,得到数据对应数据元的标识符,并根据标识符得到数据元所属的数据来源。
9.根据权利要求1所述的基于数据元的数据溯源、质量检测方法,其特征在于,所述步骤S7中基于创建的数据表进行质量检测具体为:
B1.建立检测规则模型,并根据检测规则模型对数据表内各字段进行校验;
B2.对数据表中的每个字段配置对应的检测规则模型;
B3.定时执行数据异常检测任务,并将异常数据自动输入异常数据库。
10.根据权利要求1-9任一项所述的基于数据元的数据溯源、质量检测方法的系统,其特征在于,包括:
获取模块,用于获取所需的数据,并识别数据相对应的数据元;
第一定义模块,用于根据数据元属性定义数据元、数据元之间的关联关系,得到定义后的数据元;
分类分级模块,用于根据数据安全等级规则对定义后的数据元进行分类分级;
第二定义模块,用于对分级后的数据元定义相对应的标识符;
构建模块,用于对定义标识符后的数据元构建数据字典;
创建模块,用于根据数据字典创建数据表;
处理模块,用于基于创建的数据表进行数据溯源和质量检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311824564.2A CN117473493A (zh) | 2023-12-28 | 2023-12-28 | 基于数据元的数据溯源、质量检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311824564.2A CN117473493A (zh) | 2023-12-28 | 2023-12-28 | 基于数据元的数据溯源、质量检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117473493A true CN117473493A (zh) | 2024-01-30 |
Family
ID=89624185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311824564.2A Pending CN117473493A (zh) | 2023-12-28 | 2023-12-28 | 基于数据元的数据溯源、质量检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117473493A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506892A (zh) * | 2020-11-17 | 2021-03-16 | 贵州电网有限责任公司 | 一种基于元数据技术的指标溯源管理系统 |
CN116126843A (zh) * | 2022-12-28 | 2023-05-16 | 杭州数梦工场科技有限公司 | 一种数据质量评估方法、装置、电子设备和存储介质 |
CN117235246A (zh) * | 2023-10-07 | 2023-12-15 | 浪潮软件科技有限公司 | 一种基于数据元的敏感数据自动分级方法及装置 |
-
2023
- 2023-12-28 CN CN202311824564.2A patent/CN117473493A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506892A (zh) * | 2020-11-17 | 2021-03-16 | 贵州电网有限责任公司 | 一种基于元数据技术的指标溯源管理系统 |
CN116126843A (zh) * | 2022-12-28 | 2023-05-16 | 杭州数梦工场科技有限公司 | 一种数据质量评估方法、装置、电子设备和存储介质 |
CN117235246A (zh) * | 2023-10-07 | 2023-12-15 | 浪潮软件科技有限公司 | 一种基于数据元的敏感数据自动分级方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11886399B2 (en) | Generating rules for data processing values of data fields from semantic labels of the data fields | |
CN109446343B (zh) | 一种公共安全知识图谱构建的方法 | |
Stvilia et al. | A framework for information quality assessment | |
CN111190881A (zh) | 一种数据治理方法和系统 | |
CN110291517A (zh) | 图数据库中的查询语言互操作性 | |
US20090063470A1 (en) | Document management using business objects | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN108351898A (zh) | 用于结构化多字段文件布局的自动化解释 | |
CN106528828A (zh) | 一种基于多维度校验规则的数据质量检测方法 | |
Kalampokis et al. | On publishing linked open government data | |
US20110153578A1 (en) | Method And Apparatus For Propagation Of File Plans From Enterprise Retention Management Applications To Records Management Systems | |
CN114792145B (zh) | 一种基于知识图谱的标准数字化管理维护系统及方法 | |
CN114911908A (zh) | 管网数据安全管理的方法及装置 | |
CN111984640A (zh) | 基于多元异构数据的画像构建方法 | |
US9507764B2 (en) | Computerised data entry form processing | |
Fürber et al. | Data quality | |
Bicevskis et al. | Data quality evaluation: a comparative analysis of company registers' open data in four European countries. | |
Zealand | Data integration manual | |
CN111858627A (zh) | 一种基于区块链的学位学历查询系统及其方法 | |
CN117473493A (zh) | 基于数据元的数据溯源、质量检测方法及系统 | |
CN112115271B (zh) | 知识图谱构建方法及装置 | |
US20150356130A1 (en) | Database management system | |
CN114090076A (zh) | 应用程序的合规性判别方法和装置 | |
Faiz et al. | OD2WD: From Open Data to Wikidata through Patterns. | |
Chiang et al. | Unifying data and constraint repairs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |