CN106156315A - 一种基于分类模型判断的数据质量监控方法 - Google Patents

一种基于分类模型判断的数据质量监控方法 Download PDF

Info

Publication number
CN106156315A
CN106156315A CN201610515420.2A CN201610515420A CN106156315A CN 106156315 A CN106156315 A CN 106156315A CN 201610515420 A CN201610515420 A CN 201610515420A CN 106156315 A CN106156315 A CN 106156315A
Authority
CN
China
Prior art keywords
data
disaggregated model
field
carries out
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610515420.2A
Other languages
English (en)
Other versions
CN106156315B (zh
Inventor
李智
曾德贤
马志昊
殷智勇
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA Equipment College
Original Assignee
PLA Equipment College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA Equipment College filed Critical PLA Equipment College
Priority to CN201610515420.2A priority Critical patent/CN106156315B/zh
Publication of CN106156315A publication Critical patent/CN106156315A/zh
Application granted granted Critical
Publication of CN106156315B publication Critical patent/CN106156315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分类模型判断的数据质量监控方法,该方法包括:步骤1,人工筛选获取的数据集,将没有字段值缺失的数据进行质量好坏的标记;步骤2,依据标记好的数据进行分类模型训练;步骤3,将训练后的分类模型以预测模型标记语言的形式进行持久化保存;步骤4,将需要整合的数据进行预处理,以满足分类模型数据输入的要求;步骤5,在数据整合的过程中对预测模型标记语言文件进行解析调用;步骤6,依据分类模型对整合数据进行分类标记;步骤7,依据标记结果,对数据进行处理。本发明的有益效果为:无需进行大量数据质量规则的制定与维护,提高了数据质量监控的效率。

Description

一种基于分类模型判断的数据质量监控方法
技术领域
本发明涉及多源异构数据源整合技术领域,具体而言,涉及一种基于分类模型判断的数据质量监控方法。
背景技术
数据质量可以通过数据质量元素来描述,数据质量元素分为数据质量定量元素和数据质量非定量元素。数据质量定量元素用于描述数据集满足预先设定的质量标准及指标的程度,并提供定量的质量信息。数据质量非定量元素提供综述性的、非定量的质量信息。数据质量定量元素主要包括数据完整性和逻辑一致性等,数据质量非定量元素主要包括数据的目的、用途和数据志等。
数据整合的效果受数据质量的制约,数据质量的监控对整合的结果产生重要的影响,数据质量的监控贯穿整个数据整合流程,从而确保数据的准确性和可用性。数据质量监控在数据整合的整个过程中,通过质量控制、质量保证和质量改进,来实现数据质量的提升。
数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。其中分类是找出数据中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据中的数据项映射到某个给定的类别。
现有的数据整合中针对数据质量监控存在一定的局限性,首先数据质量监控依赖于大量的元数据定义或质量规则,这样就对应的存在有数据质量监控规则库的建立与维护;其次,现有数据质量监控多涉及的是字段级别的规则设定,未真正意义上涉及到整体记录的正确规范性。
发明内容
为解决上述问题,本发明的目的在于提供一种基于分类模型判断的数据质量监控方法,完善了数据质量监控体系,提高了数据整合的效率。
本发明提供了一种基于分类模型判断的数据质量监控方法,该方法包括:
步骤1,人工筛选获取的数据集,将没有字段值缺失的数据进行质量好坏的标记;
步骤2,依据标记好的数据进行分类模型训练;
步骤3,将训练后的分类模型以预测模型标记语言的形式进行持久化保存;
步骤4,将需要整合的数据进行预处理,以满足分类模型数据输入的要求;
步骤5,在数据整合的过程中对预测模型标记语言文件进行解析调用;
步骤6,依据分类模型对整合数据进行分类标记;
步骤7,依据标记结果,对数据进行处理。
作为本发明进一步的改进,步骤1具体包括:
步骤101,获取业务数据后,人工筛选数据集,如果数据中有缺失的字段值,则舍弃该数据,如果数据中没有缺失的字段值,则保留该数据;
步骤102,在保留的数据字段上,添加一个标记字段;
步骤103,人工地对数据质量的好坏进行标记,其中,将符合质量要求的数据标记字段+1,将不符合质量要求的数据标记字段-1。
作为本发明进一步的改进,步骤2中,对分类模型进行优化,具体包括:
步骤201,对标记完的数据集进行强关联字段组合,生成新的特征字段,计算组合字段值,同时,舍弃掉原有字段;
步骤202,利用随机森林分类器,将其中部分棵决策树分类模型修改调整为支持向量机分类模型。
作为本发明进一步的改进,步骤4具体包括:
步骤401,对需要整合的数据集进行筛选,如果数据中有缺失的字段值,则将该数据标记字段-1,并且不运行分类模型判断的流程,如果数据中没有缺失的字段值,则进行步骤402;
步骤402,将需要整合的多源异构数据进行元数据统一;
步骤403,将统一后的数据集进行强关联字段组合,生成新的特征字段,并计算组合字段值。
作为本发明进一步的改进,步骤7具体包括:
步骤701,将标记为-1的数据集单独存储,不进行后续数据整合步骤;
步骤702,将标记为+1的数据集进行后续的数据整合步骤,数据整合完成后入库;
步骤703,基于步骤701中单独存储的数据集,人工介入进行判断,如果没有标记错误的数据,则人工对数据进行取舍,如果有标记错误的数据,则进行步骤704和步骤705;
步骤704,人工修订标记错误的数据,将标记修订为+1,完成步骤702中后续的数据整合步骤,数据整合完成后入库;
步骤705,人工修订标记错误的数据,将标记修订为+1,重新进行步骤2的分类模型训练进行模型修订。
本发明的有益效果为:
根据业务数据生成的模型可以自动地生成对各字段合理性的判断条件,同时该模型也可以自动地生成对各字段逻辑性组合合理性的判断条件,模型可通过单一的模型文件进行存储与调用,无需进行大量质量规则的制定与维护,高效地保障了数据整合流程与数据的完整性、一致性。
附图说明
图1为本发明实施例所述的一种基于模型判断的数据质量监控方法的流程示意图;
图2为图1中步骤1的流程示意图;
图3为图1中步骤2中对分类模型进行优化的流程示意图;
图4为图1中步骤4的流程示意图;
图5为图1中步骤7的流程示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例所述的一种基于分类模型判断的数据质量监控方法,该方法包括:
步骤1,人工筛选获取的数据集,将没有字段值缺失的数据进行质量好坏的标记;
步骤2,依据标记好的数据进行分类模型训练;
步骤3,将训练后的分类模型以预测模型标记语言(PMML)的形式进行持久化保存;
步骤4,将需要整合的数据进行预处理,以满足分类模型数据输入的要求;
步骤5,在数据整合的过程中对PMML文件进行解析调用;
步骤6,依据分类模型对整合数据进行分类标记;
步骤7,依据标记结果,对数据进行处理。
人工筛选出没有字段值缺失的数据,同时要保障筛选出的数据必须有质量好与坏之分,这样才能有效的进行后续分类模型的训练。如图2所示,步骤1具体包括:
步骤101,获取业务数据后,人工筛选数据集,如果数据中有缺失的字段值,则舍弃该数据,如果数据中没有缺失的字段值,则保留该数据;
步骤102,在保留的数据字段上,添加一个标记字段;
步骤103,人工地对数据质量的好坏进行标记,其中,将符合质量要求的数据标记字段+1,将不符合质量要求的数据标记字段-1。
分类模型可用的判断依据是较高的真负类率。如图3所示,步骤2中,可对分类模型进行优化,具体包括:
步骤201,对标记完的数据集进行强关联字段组合,生成新的特征字段,计算组合字段值,以提升分类模型判断的真负类率,同时,舍弃掉原有字段,否则存在重复的字段会产生多重共线性问题;
步骤202,利用随机森林分类器,将其中部分棵决策树分类模型修改调整为支持向量机分类模型,以增强分类器的泛化能力。
在运用分类模型进行数据质量标记之前,需进行数据预处理,以适应模型定义的字段。如图4所示,步骤4具体包括:
步骤401,对需要整合的数据集进行筛选,如果数据中有缺失的字段值,则将该数据标记字段-1,并且不运行分类模型判断的流程,如果数据中没有缺失的字段值,则进行步骤402;
步骤402,将需要整合的多源异构数据进行元数据统一;
步骤403,将统一后的数据集进行强关联字段组合,生成新的特征字段,并计算组合字段值。
在对数据进行质量标记后,对数据进行处理。如图5所示,步骤7具体包括:
步骤701,将标记为-1的数据集单独存储,不进行后续数据整合步骤;
步骤702,将标记为+1的数据集进行后续的数据整合步骤,数据整合完成后入库;
步骤703,基于步骤701中单独存储的数据集,人工介入进行判断,如果没有标记错误的数据,则人工对数据进行取舍,如果有标记错误的数据,则进行步骤704和步骤705;
步骤704,人工修订标记错误的数据,将标记修订为+1,完成步骤702中后续的数据整合步骤,数据整合完成后入库;
步骤705,人工修订标记错误的数据,将标记修订为+1,重新进行步骤2的分类模型训练进行模型修订,以迭代式的修订方式,完善分类模型。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于分类模型判断的数据质量监控方法,其特征在于,该方法包括:
步骤1,人工筛选获取的数据集,将没有字段值缺失的数据进行质量好坏的标记;
步骤2,依据标记好的数据进行分类模型训练;
步骤3,将训练后的分类模型以预测模型标记语言的形式进行持久化保存;
步骤4,将需要整合的数据进行预处理,以满足分类模型数据输入的要求;
步骤5,在数据整合的过程中对预测模型标记语言文件进行解析调用;
步骤6,依据分类模型对整合数据进行分类标记;
步骤7,依据标记结果,对数据进行处理。
2.根据权利要求1所述的数据质量监控方法,其特征在于,步骤1具体包括:
步骤101,获取业务数据后,人工筛选数据集,如果数据中有缺失的字段值,则舍弃该数据,如果数据中没有缺失的字段值,则保留该数据;
步骤102,在保留的数据字段上,添加一个标记字段;
步骤103,人工地对数据质量的好坏进行标记,其中,将符合质量要求的数据标记字段+1,将不符合质量要求的数据标记字段-1。
3.根据权利要求1所述的数据质量监控方法,其特征在于,步骤2中,对分类模型进行优化,具体包括:
步骤201,对标记完的数据集进行强关联字段组合,生成新的特征字段,计算组合字段值,同时,舍弃掉原有字段;
步骤202,利用随机森林分类器,将其中部分棵决策树分类模型修改调整为支持向量机分类模型。
4.根据权利要求1所述的数据质量监控方法,其特征在于,步骤4具体包括:
步骤401,对需要整合的数据集进行筛选,如果数据中有缺失的字段值,则将该数据标记字段-1,并且不运行分类模型判断的流程,如果数据中没有缺失的字段值,则进行步骤402;
步骤402,将需要整合的多源异构数据进行元数据统一;
步骤403,将统一后的数据集进行强关联字段组合,生成新的特征字段,并计算组合字段值。
5.根据权利要求1所述的数据质量监控方法,其特征在于,步骤7具体包括:
步骤701,将标记为-1的数据集单独存储,不进行后续数据整合步骤;
步骤702,将标记为+1的数据集进行后续的数据整合步骤,数据整合完成后入库;
步骤703,基于步骤701中单独存储的数据集,人工介入进行判断,如果没有标记错误的数据,则人工对数据进行取舍,如果有标记错误的数据,则进行步骤704和步骤705;
步骤704,人工修订标记错误的数据,将标记修订为+1,完成步骤702中后续的数据整合步骤,数据整合完成后入库;
步骤705,人工修订标记错误的数据,将标记修订为+1,重新进行步骤2的分类模型训练进行模型修订。
CN201610515420.2A 2016-07-01 2016-07-01 一种基于分类模型判断的数据质量监控方法 Active CN106156315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610515420.2A CN106156315B (zh) 2016-07-01 2016-07-01 一种基于分类模型判断的数据质量监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610515420.2A CN106156315B (zh) 2016-07-01 2016-07-01 一种基于分类模型判断的数据质量监控方法

Publications (2)

Publication Number Publication Date
CN106156315A true CN106156315A (zh) 2016-11-23
CN106156315B CN106156315B (zh) 2019-05-17

Family

ID=57351140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610515420.2A Active CN106156315B (zh) 2016-07-01 2016-07-01 一种基于分类模型判断的数据质量监控方法

Country Status (1)

Country Link
CN (1) CN106156315B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122485A (zh) * 2017-05-09 2017-09-01 北京精真估信息技术有限公司 一种车型数据拆分匹配方法及设备
CN107168995A (zh) * 2017-03-29 2017-09-15 联想(北京)有限公司 一种数据处理方法及服务器
CN108021469A (zh) * 2016-10-31 2018-05-11 中国电信股份有限公司 数据修复方法和装置
CN111567060A (zh) * 2018-02-13 2020-08-21 欧姆龙株式会社 质量检查装置、质量检查方法及程序
CN112162980A (zh) * 2020-11-26 2021-01-01 成都数联铭品科技有限公司 数据质量管控方法及系统、存储介质、电子设备
CN113259190A (zh) * 2020-02-13 2021-08-13 中国移动通信集团广东有限公司 资源勘误方法、数据中台、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070271217A1 (en) * 2006-05-16 2007-11-22 International Business Machines Corporation Statistics collection using path-identifiers for relational databases
US20070294319A1 (en) * 2006-06-08 2007-12-20 Emc Corporation Method and apparatus for processing a database replica
CN103678659A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
CN105488212A (zh) * 2015-12-11 2016-04-13 广州精点计算机科技有限公司 一种重复数据的数据质量检测方法及装置
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070271217A1 (en) * 2006-05-16 2007-11-22 International Business Machines Corporation Statistics collection using path-identifiers for relational databases
US20070294319A1 (en) * 2006-06-08 2007-12-20 Emc Corporation Method and apparatus for processing a database replica
CN103678659A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于随机森林算法的电子商务网站欺诈用户识别方法及系统
CN105184326A (zh) * 2015-09-30 2015-12-23 广东工业大学 基于图数据的主动学习多标签社交网络数据分析方法
CN105488212A (zh) * 2015-12-11 2016-04-13 广州精点计算机科技有限公司 一种重复数据的数据质量检测方法及装置
CN105574544A (zh) * 2015-12-16 2016-05-11 平安科技(深圳)有限公司 一种数据处理方法和装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021469A (zh) * 2016-10-31 2018-05-11 中国电信股份有限公司 数据修复方法和装置
CN108021469B (zh) * 2016-10-31 2020-10-27 中国电信股份有限公司 数据修复方法和装置
CN107168995A (zh) * 2017-03-29 2017-09-15 联想(北京)有限公司 一种数据处理方法及服务器
CN107122485A (zh) * 2017-05-09 2017-09-01 北京精真估信息技术有限公司 一种车型数据拆分匹配方法及设备
CN111567060A (zh) * 2018-02-13 2020-08-21 欧姆龙株式会社 质量检查装置、质量检查方法及程序
CN111567060B (zh) * 2018-02-13 2023-02-28 欧姆龙株式会社 质量检查装置、质量检查方法及程序
US11609887B2 (en) 2018-02-13 2023-03-21 Omron Corporation Quality check apparatus, quality check method, and program
CN113259190A (zh) * 2020-02-13 2021-08-13 中国移动通信集团广东有限公司 资源勘误方法、数据中台、设备及存储介质
CN113259190B (zh) * 2020-02-13 2022-04-29 中国移动通信集团广东有限公司 资源勘误方法、数据中台、设备及存储介质
CN112162980A (zh) * 2020-11-26 2021-01-01 成都数联铭品科技有限公司 数据质量管控方法及系统、存储介质、电子设备

Also Published As

Publication number Publication date
CN106156315B (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
CN106156315A (zh) 一种基于分类模型判断的数据质量监控方法
CN108470022B (zh) 一种基于运维管理的智能工单质检方法
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
CN106651057A (zh) 一种基于安装包序列表的移动端用户年龄预测方法
CN112182077B (zh) 一种基于数据中台技术的智能运维系统
CN107992490A (zh) 一种数据处理方法以及数据处理设备
CN104463208A (zh) 组合标记规则的多视图协同半监督分类算法
CN111538794B (zh) 一种数据融合方法、装置及设备
CN111191125A (zh) 一种基于标签化的数据分析方法
CN108241867B (zh) 一种分类方法及装置
CN107133176A (zh) 一种基于半监督聚类数据筛选的跨项目缺陷预测方法
CN104021180B (zh) 一种组合式软件缺陷报告分类方法
CN110458412A (zh) 风险监控数据的生成方法和装置
CN106155769A (zh) 一种工作流处理方法、装置及工作流引擎
CN109635260A (zh) 用于生成文章模板的方法、装置、设备和存储介质
CN105046270A (zh) 应用分类模型构建方法、应用分类方法及系统
CN109800776A (zh) 素材标注方法、装置、终端和计算机可读存储介质
CN112699245A (zh) 预算管理知识图谱的构建方法、装置及应用方法、装置
CN113935880A (zh) 政策推荐方法、装置、设备及存储介质
CN106775694B (zh) 一种软件配置代码制品的层次分类方法
CN108108444B (zh) 一种企业业务单元自适应系统及其实现方法
CN115113919B (zh) 基于BERT模型和Web技术的软件规模度量智能信息化系统
CN116842092A (zh) 数据建库及归集管理的方法及系统
CN116050139A (zh) 一种多尺度国土空间规划实施监测方法及系统
CN109657013A (zh) 一种系统化生成标签的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant