CN114579553A - 一种数据质量保证方法 - Google Patents
一种数据质量保证方法 Download PDFInfo
- Publication number
- CN114579553A CN114579553A CN202210215607.6A CN202210215607A CN114579553A CN 114579553 A CN114579553 A CN 114579553A CN 202210215607 A CN202210215607 A CN 202210215607A CN 114579553 A CN114579553 A CN 114579553A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- scientific
- acquisition
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明公开了一种数据质量保证方法,数据采集是数据生命流程的正式开始,可借助仪器设备、试剂器材对数据客体进行实验和观察后获取的数据表现形式的结果,数据客观上是对观察内容、过程、现象的精确和客观描述。本发明通过标准化对科学信息进行共享,科学数据标准化研究是制定科学数据共享标准规划的指南,它的作用是在科学数据范畴内促进科学数据共享标准达到科学化、合理化和工程化,它的建立将使正在起步的科学数据共享工程建设在一开始就能够自上而下地遵循规范化的途径有序地进行,减少无效的建库劳动,从而提高科学数据共享工程建设的效率,只有在统一标准的前提下,科学数据共享的总体目标才能够有效地实现。
Description
技术领域
本发明涉及科学数据领域,尤其涉及一种数据质量保证方法。
背景技术
科学数据是知识创新的发动机和思想库,是信息和知识的源泉,是推动社会发展的重要条件之一。随着经济全球化和科学技术活动的全球化,科学技术竞争日益成为国家之间的战略竞争;科学数据,特别是科学技术前沿领域以及大尺度大规模的科学数据,对科学技术活动的支撑也就具有了战略意义。
然而,在研究中发现许多科学数据资源存在或多或少的质量问题,如数据不完整、数据不一致等方面;另外,由于各研究机构和相关部门各自独享数据,分头建设,导致科学数据资源条块分割,标准不一,缺乏科学数据共享的顶层设计规划和统一的标准规范。
所有这些问题都不同程度的影响了数据在科学研究中作用的发挥,也阻碍了科学数据的持续发展和资源共享。进而将直接影响到我国科技发展整体水平的提高与独创性成果的产出,以及国际间的交流与合作的主动权。为此,我们提出一种数据质量保证方法。
发明内容
基于背景技术存在的技术问题,本发明提出了一种数据质量保证方法,以解决上述背景技术中提出的问题。
本发明提供如下技术方案:
一种数据质量保证方法,包括如下步骤:
A、数据采集:
数据采集是数据生命流程的正式开始,可借助仪器设备、试剂器材对数据客体进行实验和观察后获取的数据表现形式的结果,数据客观上是对观察内容、过程、现象的精确和客观描述;
B、数据输入
数据采集完成后,数据输入实现把数据从采集器通过有效手段载入到数据存储和管理系统中,在输入阶段有设备自动导入和人工导入两种情况;
C、数据储存和管理
数据存储和管理是数据输入到管理系统后数据资源所处的新阶段,通常是把数据资源以具体的形式存储并管理,但存储介质、环境都是和数据的生命质量紧密相关的,所以在该阶段应该关注其存储介质、环境等维度对质量的影响;数据管理中还应该保证数据资源的安全性,以及安全前提下可为用户访问;所以在质量控制和保证中应当重点关注存储介质、环境以及管理系统的安全性、可访问性等质量维度;
D、数据服务
数据服务阶段是数据管理系统根据需求把数据呈现给用户的过程,数据服务应该保证数据本身及其所产生的信息内容的正确、客观、完整等质量方面,同时系统在服务时还应具有良好的亲和力和易用性,所以在数据服务阶段,系统的友好性、易用性和所产出信息的可信性、客观性都是质量控制和保证的维度。
优选的,所述步骤A中数据采集是与多方面的因素直接相关的,所以这些直接相关的因素都不同程度的对数据的质量状况有其影响,如观察客体的环境和状态、仪器设备、试剂和观测人员素质。
优选的,所述步骤A在数据采集行动之前,还可能涉及到数据及其采集有关的分析和设计,这些操作显然也是保证数据质量的一些方面,所以应当把存在的分析与设计如实的反映在数据采集阶段的质量内容中。
优选的,所述步骤B中自动导入不需人工干涉,直接实现从数据采集设备到数据存储和管理系统的载入,该过程中仪器设备和系统的状态和参数设定都对数据的质量有所影响;人工导入在人工参与实现的数据系统导入将增加了新的若干质量影响因素,特别是人为可能产生质量变化应该给予重点关注和控制,在数据输入阶段,影响质量的因素也有很多,这些均为该阶段的质量控制维度,主要有操作者素质、设备和系统。
优选的,所述步骤D中数据服务包括直接数据再现和数据信息化加工两类,前者需要系统根据用户的需要直接把用户所需要的数据呈现给用户,而后者需要系统根据用户的需要经系统处理后把数据加工成为信息后反馈给用户。
本发明提供了一种数据质量保证方法,通过标准化对科学信息进行共享,科学数据标准化研究是制定科学数据共享标准规划的指南,它的作用是在科学数据范畴内促进科学数据共享标准达到科学化、合理化和工程化,它的建立将使正在起步的科学数据共享工程建设在一开始就能够自上而下地遵循规范化的途径有序地进行,减少无效的建库劳动,从而提高科学数据共享工程建设的效率,只有在统一标准的前提下,科学数据共享的总体目标才能够有效地实现。
附图说明
图1为本发明数据质量全生命周期管理流程图;
图2为本发明“五步循环”数据质量管理流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:
一种数据质量保证方法,包括如下步骤:
A、数据采集:
数据采集是数据生命流程的正式开始,可借助仪器设备、试剂器材对数据客体进行实验和观察后获取的数据表现形式的结果,数据客观上是对观察内容、过程、现象的精确和客观描述;为了能够保证在数据采集阶段的数据质量,应当从相关的因素上采取相应的措施保证质量。对于科学数据的采集来说,数据质量直接相关的内容主要包括采集人员素质、仪器设备、试剂原料、环境等。对于不同学科,其数据采集行为以及所涉及的内容可能存在一定的差异,相应地在该阶段用户可以增加针对性的质量因素;
B、数据输入
数据采集完成后,数据输入实现把数据从采集器通过有效手段载入到数据存储和管理系统中,在输入阶段有设备自动导入和人工导入两种情况;
C、数据储存和管理
数据存储和管理是数据输入到管理系统后数据资源所处的新阶段,通常是把数据资源以具体的形式存储并管理,但存储介质、环境都是和数据的生命质量紧密相关的,所以在该阶段应该关注其存储介质、环境等维度对质量的影响;数据管理中还应该保证数据资源的安全性,以及安全前提下可为用户访问;所以在质量控制和保证中应当重点关注存储介质、环境以及管理系统的安全性、可访问性等质量维度;
D、数据服务
数据服务阶段是数据管理系统根据需求把数据呈现给用户的过程,数据服务应该保证数据本身及其所产生的信息内容的正确、客观、完整等质量方面,同时系统在服务时还应具有良好的亲和力和易用性,所以在数据服务阶段,系统的友好性、易用性和所产出信息的可信性、客观性都是质量控制和保证的维度。
科学数据质量框架体系从数据生命流程出发定义了质量控制和评估的框架体系,并从其中四个重要阶段分别定义了一系列顶层质量维度,为科学数据质量控制、保证和评估提供了框架体系和内容参考。用户自主可扩展性是该框架体系的另一大特色,特别是在具体实践中,用户可以据质量控制、评估等具体需要增加框架体系的质量维度以及质量元素、质量标示符,辅以相应的质量对象实现理论和方法,控制、保证和评估相应数据质量内容。
科学数据质量管理流程
以质量规则为核心的“五步循环”数据质量管理流程;
探查和评估数据质量
理解数据当前的质量情况,辅助制定规则及改进计划。自动发现:
1)数据行与行、列与列之间的关系(函数依赖、字典规则),确关联规则;
2)数据局部冗余,确定值分布的频率;
3)数据格式规律,确定格式规则(正则表达式规则);
4)数据的有效范围,确定值域规则;
5)表之间的关系,确定包含依赖规则。
2、定义数据质量规则和目标
定义并共享可重复利用的数据质量规则。支持:
1)筛选自动发现的规则,挖掘人工意想不到的规则;
2)自定义关联规则,补充业务针对性的规则;
3)自定义SQL规则,补充业务针对性的规则;
4)自定义值域规则,补充业务针对性的规则;
5)建立规则库管理和维护规则。
3、设计并实施改进方案
上游改进方案:
1)建立问题数据防火墙系统,从源头拦截问题数据的流入;
2)修改业务IT系统的bug;
3)调整业务数据流程;
4)消除数据歧义;
下游改进方案:
根据已定义的规则,分拣问题数据,改进数据质量,预防问题数据再次产生。通用的质量提升方法如下:
5)基于工作流引擎和ETL工具实现定期数据采集、增量抽取;
6)根据定义的规则扫描数据流中的数据,自动稽查和分拣问题数据;
7)对分拣出的问题数据进行人工修复和审核;
问题数据主要分为如下几类处理方法:
数据增强:通过算法和参考数据相结合,将数据中缺失的部分补全。
标准化:通过算法和数据标准、参考数据相结合,将不规范不标准的数据标准化。
匹配融合:通过将来源于各个局办不同系统的数据进行碰撞、匹配、融合,产生更高级别的智慧数据。数据碰撞、匹配、融合的结果将会产生两类有价值的数据:黄金记录和异常记录。
“黄金记录”是指通过数据关联、匹配和融合,通过整合割裂、冲突、混乱、过期、失配的数据形成真实、全面的信息;
“异常记录”是指通过对基础数据的分析,发现数据异常。例如通过数据分析发现盗领社保的情况。
关联修复:通过分析数据的特征值,进行特征值比对和关联,修复原始记录中缺失的数据。
归一化处理:同一条数据在不同的系统中存在不同的表述形式,但各自都是正确的,经过归一化处理后,保留其中“最正确”的一条作为唯一正确的记录。
评估数据改进体系的效果
巩固和维持数据质量,增强使用者对数据质量的信任。
1)比对实施数据质量管理系统前后的数据质量评估报告,明确改进效果;
2)用量化的结果增强数据使用者对数据质量的信心。
持续质量改进及规则优化
循环将质量改进规则集成到数据整合过程中并不断优化质量规则。
根据问题数据的特点,有针对性的改进质量规则;
对存量数据和增量数据使用改进的质量规则;
循环执行数据质量提升的过程。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (5)
1.一种数据质量保证方法,其特征在于,包括如下步骤:
A、数据采集:
数据采集是数据生命流程的正式开始,可借助仪器设备、试剂器材对数据客体进行实验和观察后获取的数据表现形式的结果,数据客观上是对观察内容、过程、现象的精确和客观描述;
B、数据输入
数据采集完成后,数据输入实现把数据从采集器通过有效手段载入到数据存储和管理系统中,在输入阶段有设备自动导入和人工导入两种情况;
C、数据储存和管理
数据存储和管理是数据输入到管理系统后数据资源所处的新阶段,通常是把数据资源以具体的形式存储并管理,但存储介质、环境都是和数据的生命质量紧密相关的,所以在该阶段应该关注其存储介质、环境等维度对质量的影响;数据管理中还应该保证数据资源的安全性,以及安全前提下可为用户访问;所以在质量控制和保证中应当重点关注存储介质、环境以及管理系统的安全性、可访问性等质量维度;
D、数据服务
数据服务阶段是数据管理系统根据需求把数据呈现给用户的过程,数据服务应该保证数据本身及其所产生的信息内容的正确、客观、完整等质量方面,同时系统在服务时还应具有良好的亲和力和易用性,所以在数据服务阶段,系统的友好性、易用性和所产出信息的可信性、客观性都是质量控制和保证的维度。
2.根据权利要求1所述的一种数据质量保证方法,其特征在于:所述步骤A中数据采集是与多方面的因素直接相关的,所以这些直接相关的因素都不同程度的对数据的质量状况有其影响。
3.根据权利要求1所述的一种数据质量保证方法,其特征在于:所述步骤A在数据采集行动之前,还可能涉及到数据及其采集有关的分析和设计,这些操作显然也是保证数据质量的一些方面,所以应当把存在的分析与设计如实的反映在数据采集阶段的质量内容中。
4.根据权利要求1所述的一种数据质量保证方法,其特征在于:所述步骤B中自动导入不需人工干涉,直接实现从数据采集设备到数据存储和管理系统的载入,该过程中仪器设备和系统的状态和参数设定都对数据的质量有所影响;人工导入在人工参与实现的数据系统导入将增加了新的若干质量影响因素,特别是人为可能产生质量变化应该给予重点关注和控制。
5.根据权利要求1所述的一种数据质量保证方法,其特征在于:所述步骤D中数据服务包括直接数据再现和数据信息化加工两类,前者需要系统根据用户的需要直接把用户所需要的数据呈现给用户,而后者需要系统根据用户的需要经系统处理后把数据加工成为信息后反馈给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210215607.6A CN114579553B (zh) | 2022-03-07 | 2022-03-07 | 一种数据质量保证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210215607.6A CN114579553B (zh) | 2022-03-07 | 2022-03-07 | 一种数据质量保证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114579553A true CN114579553A (zh) | 2022-06-03 |
CN114579553B CN114579553B (zh) | 2023-04-11 |
Family
ID=81778476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210215607.6A Active CN114579553B (zh) | 2022-03-07 | 2022-03-07 | 一种数据质量保证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114579553B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060173985A1 (en) * | 2005-02-01 | 2006-08-03 | Moore James F | Enhanced syndication |
CN1856783A (zh) * | 2002-07-26 | 2006-11-01 | 罗恩·埃弗里特 | 使用参考与一般数据项关联的数据管理结构 |
CN102915237A (zh) * | 2011-06-30 | 2013-02-06 | 国际商业机器公司 | 根据用户应用程序要求改写数据质量规则的方法和系统 |
CN104574248A (zh) * | 2015-01-23 | 2015-04-29 | 广东众意医疗科技有限公司 | 区域卫生一体化信息管理系统 |
CN105825326A (zh) * | 2016-03-10 | 2016-08-03 | 广东省科技基础条件平台中心 | 一种科技资源管理创新方法 |
US20200004749A1 (en) * | 2018-06-29 | 2020-01-02 | Security On-Demand, Inc. | Systems and methods for intelligent capture and fast transformations of granulated data summaries in database engines |
CN112306997A (zh) * | 2019-07-23 | 2021-02-02 | 杭州中软安人网络通信股份有限公司 | 数据质量管理系统 |
CN112328585A (zh) * | 2020-11-17 | 2021-02-05 | 珠海大横琴科技发展有限公司 | 一种数据处理的方法和装置 |
CN113778967A (zh) * | 2021-09-14 | 2021-12-10 | 中国环境科学研究院 | 长江流域数据采集处理与资源共享系统 |
CN114090558A (zh) * | 2021-11-10 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 针对数据库的数据质量管理方法和装置 |
-
2022
- 2022-03-07 CN CN202210215607.6A patent/CN114579553B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1856783A (zh) * | 2002-07-26 | 2006-11-01 | 罗恩·埃弗里特 | 使用参考与一般数据项关联的数据管理结构 |
US20060173985A1 (en) * | 2005-02-01 | 2006-08-03 | Moore James F | Enhanced syndication |
CN102915237A (zh) * | 2011-06-30 | 2013-02-06 | 国际商业机器公司 | 根据用户应用程序要求改写数据质量规则的方法和系统 |
CN104574248A (zh) * | 2015-01-23 | 2015-04-29 | 广东众意医疗科技有限公司 | 区域卫生一体化信息管理系统 |
CN105825326A (zh) * | 2016-03-10 | 2016-08-03 | 广东省科技基础条件平台中心 | 一种科技资源管理创新方法 |
US20200004749A1 (en) * | 2018-06-29 | 2020-01-02 | Security On-Demand, Inc. | Systems and methods for intelligent capture and fast transformations of granulated data summaries in database engines |
CN112306997A (zh) * | 2019-07-23 | 2021-02-02 | 杭州中软安人网络通信股份有限公司 | 数据质量管理系统 |
CN112328585A (zh) * | 2020-11-17 | 2021-02-05 | 珠海大横琴科技发展有限公司 | 一种数据处理的方法和装置 |
CN113778967A (zh) * | 2021-09-14 | 2021-12-10 | 中国环境科学研究院 | 长江流域数据采集处理与资源共享系统 |
CN114090558A (zh) * | 2021-11-10 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 针对数据库的数据质量管理方法和装置 |
Non-Patent Citations (3)
Title |
---|
MONICA SCANNAPIECO ET AL.: "The DaQuinCIS architecture: a platform for exchanging and improvingdata quality in cooperative information systems", 《INFORMATION SYSTEMS》 * |
王健: "一种公共数据编码平台的数据质量管控子系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
胡良霖: "科学数据资源的质量控制和评估", 《科研信息化技术与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114579553B (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111190881A (zh) | 一种数据治理方法和系统 | |
CN110443552B (zh) | 一种产品主数据信息自动传输的方法及装置 | |
CN110874414B (zh) | 一种基于数据联勤服务的政策解读方法 | |
CN110442620B (zh) | 一种大数据探索和认知方法、装置、设备以及计算机存储介质 | |
CN103714180A (zh) | 一种生物信息学数据库系统和数据处理方法 | |
US8458178B2 (en) | Dimensional data explorer | |
CN107748752A (zh) | 一种数据处理方法及装置 | |
CN110349008B (zh) | 一种基于自然语言的决策支持方法、装置和电子设备 | |
CN114201616A (zh) | 一种基于多源数据库的知识图谱构建方法及系统 | |
Brunner et al. | Towards automation in information security management systems | |
CN103942739A (zh) | 建筑项目风险知识库的构建方法 | |
US10360208B2 (en) | Method and system of process reconstruction | |
CN112330299A (zh) | 业务流程管理方法、装置、设备及存储介质 | |
CN114579553B (zh) | 一种数据质量保证方法 | |
CN111858236A (zh) | 知识图谱监控方法、装置、计算机设备及存储介质 | |
CN111767205A (zh) | 一种支持任务拆分的在线检测方法及系统 | |
CN116362443A (zh) | 一种企业信息平台的数据治理方法和装置 | |
JP2011232874A (ja) | 情報セキュリティ管理支援方法及び装置 | |
Chen et al. | Research on Enterprise HRM Effectiveness Evaluation Index System Based on Decision Tree Algorithm | |
CN110309987A (zh) | 海量文档分块分发编辑协同处理的优化工作方法 | |
Yazdi et al. | A Novel Approach to Outlining Research Data Management Life Cycle: A Case Study | |
Kumar et al. | Requirements Engineering Process Model Add-On For Software Development | |
Xie et al. | Factors influencing the implementation success of blockchain technology: A systematic literature review | |
Xing et al. | Study on the Impact of Big Data Technology on the Audit and its Application | |
CN111858593B (zh) | 一种分业务板块数据处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |