CN106503097A - 一种提高数据质量的方法及系统 - Google Patents
一种提高数据质量的方法及系统 Download PDFInfo
- Publication number
- CN106503097A CN106503097A CN201610898713.3A CN201610898713A CN106503097A CN 106503097 A CN106503097 A CN 106503097A CN 201610898713 A CN201610898713 A CN 201610898713A CN 106503097 A CN106503097 A CN 106503097A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- user
- applicable
- dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Abstract
本发明提出了一种提高数据质量的方法,其包括:步骤101、获取用户需求特点;步骤103、确定用户适用数据质量维度;步骤105、根据所述用户适用数据质量维度对现有数据进行评估;步骤107、根据评估结果对所述现有数据进行处理。通过本发明可以为用户提供适应性的数据服务,并能根据用户自身的特点实时满足用户对数据质量的要求。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种提高数据质量的方法及系统。
背景技术
数据质量指的是“数据对其在操作、决策支持和规划中扮演角色的适应程度”。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
然而,如何利用现有的数据,提高数据质量,满足不同企业的需求是当前面临的一个重要问题。
发明内容
为了解决上述问题,本发明提出了一种提高数据质量的方法,其包括:
步骤101、获取用户需求特点;
步骤103、确定用户适用数据质量维度;
步骤105、根据所述用户适用数据质量维度对现有数据进行评估;
步骤107、根据评估结果对所述现有数据进行处理。
其中,在所述步骤101之前,还包括:通过对发起请求的用户的历史数据进行分析,获取用户需求特点。
其中,所述数据质量维度包括覆盖性、实时性和准确性。
其中,所述步骤103具体包括根据用户的需求特点确定所述用户的适用数据质量维度。
其中,所述步骤105具体包括:用户适用的数据质量维度不同采用不同的评估方法。
其中,所述步骤107具体包括:
如果所述用户适用数据维度为覆盖性,并且所述数据质量无法满足要求,则使用数据自动修复技术,所述数据自动修复技术利用网络提供的海量数据及从其中获得的知识来对数据进行修复;
如果所述适用数据维度为实时性,并且所述数据质量无法满足要求,则采用实体识别技术进行数据处理,其中所述实体识别用于找出描述现实世界同一实体的数据;
如果所述适用数据维度为准确性,并且所述数据质量无法满足要求,则采用弱可用信息上的知识发现技术。
其中,所述数据自动修复技术通过分析定义错误修复的语义蕴含与表现形式、自动修复的充分必要条件和基于WEB的自动修复模型,使用遗传算法实现查询关键词的自适应性调整,并利用图匹配的相关技术进行信息抽取,基于抽取出的信息进行数据的自动修复。
本发明还提出了一种提高数据质量的系统,其包括:
用户需求特点模块,其用于获取用户需求特点;
维度确定模块,其用于确定用户适用数据质量维度;
数据评估模块,其用于根据所述用户适用数据质量维度对现有数据进行评估;
处理模块,其用于根据评估结果对所述现有数据进行处理。
所述系统还包括判断模块,其用于判断当前数据质量是否满足要求。
通过本发明可以为用户提供适应性的数据服务,并能根据用户自身的特点实时满足用户对数据质量的要求。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
附图1示出了根据本发明实施方式的一种提高数据质量的方法;
附图2示出了根据本发明实施方式的一种提高数据质量的系统。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
根据本发明的实施方式,提出一种提高数据质量的方法,其包括:
步骤101、获取用户需求特点;
步骤103、确定用户适用数据质量维度;
步骤105、根据所述用户适用数据质量维度对现有数据进行评估;
步骤107、根据评估结果对所述现有数据进行处理。
其中,在所述步骤101之前,还包括:通过对发起请求的用户的历史数据进行分析,获取用户需求特点。
其中,所述数据质量维度包括覆盖性、实时性和准确性。
其中,所述步骤103具体包括根据用户的需求特点确定所述用户的适用数据质量维度。
其中,所述步骤105具体包括:用户适用的数据质量维度不同采用不同的评估方法。
其中,所述步骤107具体包括:
如果所述用户适用数据维度为覆盖性,并且所述数据质量无法满足要求,则使用数据自动修复技术,所述数据自动修复技术利用网络提供的海量数据及从其中获得的知识来对数据进行修复;
如果所述适用数据维度为实时性,并且所述数据质量无法满足要求,则采用实体识别技术进行数据处理,其中所述实体识别用于找出描述现实世界同一实体的数据;
如果所述适用数据维度为准确性,并且所述数据质量无法满足要求,则采用弱可用信息上的知识发现技术。
其中,所述数据自动修复技术通过分析定义错误修复的语义蕴含与表现形式、自动修复的充分必要条件和基于WEB的自动修复模型,使用遗传算法实现查询关键词的自适应性调整,并利用图匹配的相关技术进行信息抽取,基于抽取出的信息进行数据的自动修复。
数据质量评估技术:从数据质量的三个维度分别提出了数据质量不同的自动评估技术,从而可以根据应用的需求判定数据的质量是否达到要求。
数据自动修复技术:利用网络提供的海量数据及从其中获得的知识来对数据进行修复。通过分析定义错误修复的语义蕴含与表现形式、自动修复的充分必要条件和基于WEB的自动修复模型,采用查询关键词生成模型,通过遗传算法实现查询关键词的自适应性调整,并使用实体抽取模型,其采用图模型来描述实体集之间的关系,利用图匹配的相关技术进行信息抽取,并基于抽取出的信息进行数据的自动修复。
实体识别技术:实体识别用于找出描述现实世界同一实体的数据。如今的数据集合大多具有复杂结构并具有更新频繁特点。本发明对此种数据进行实体识别,针对关系数据、XML数据和图数据的进行实体识别。典型地,是应用到商品信息的实体识别中。
弱可用信息上的知识发现技术:网络上很多,要么不完整,要么带有可能误导用户的信息的数据以及很多通过自动化方法从非结构化数据中(比如文本和图片)提取出来的数据,都是是典型的弱可用数据。人们可以借助多种数据挖掘方法在这些弱可用数据上进行知识提取,并且将这些提取出来的知识应用到在不同领域的不同场景中。
数据质量自动检测技术在社保中的应用:在社保数据中,由于数据源多种多样,信息成因具有阶段性和分布性特点,造成了大量的数据孤岛的存在,即来自不同信息网络的数据信息经常会出现无法共享的问题,比如公安系统、民政局系统可能就会有信息重复或信息不匹配的情况发生。本发明利用数据质量自动检测技术解决了这些问题,确保了社保经济数据工程的顺利开展。
本发明还提出了一种提高数据质量的系统,其包括:
用户需求特点模块,其用于获取用户需求特点;
维度确定模块,其用于确定用户适用数据质量维度;
数据评估模块,其用于根据所述用户适用数据质量维度对现有数据进行评估;
处理模块,其用于根据评估结果对所述现有数据进行处理。
所述系统还包括判断模块,其用于判断当前数据质量是否满足要求。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (9)
1.一种提高数据质量的方法,其包括:
步骤101、获取用户需求特点;
步骤103、确定用户适用数据质量维度;
步骤105、根据所述用户适用数据质量维度对现有数据进行评估;
步骤107、根据评估结果对所述现有数据进行处理。
2.如权利要求1所述一种提高数据质量的方法,在所述步骤101之前,还包括:通过对发起请求的用户的历史数据进行分析,获取用户需求特点。
3.如权利要求1所述一种提高数据质量的方法,所述数据质量维度包括覆盖性、实时性和准确性。
4.如权利要求1所述一种提高数据质量的方法,所述步骤103具体包括根据用户的需求特点确定所述用户的适用数据质量维度。
5.如权利要求1所述一种提高数据质量的方法,所述步骤105具体包括:用户适用的数据质量维度不同采用不同的评估方法。
6.如权利要求3所述一种提高数据质量的方法,其中所述步骤107具体包括:
如果所述用户适用数据维度为覆盖性,并且所述数据质量无法满足要求,则使用数据自动修复技术,所述数据自动修复技术利用网络提供的海量数据及从其中获得的知识来对数据进行修复;
如果所述适用数据维度为实时性,并且所述数据质量无法满足要求,则采用实体识别技术进行数据处理,其中所述实体识别用于找出描述现实世界同一实体的数据;
如果所述适用数据维度为准确性,并且所述数据质量无法满足要求,则采用弱可用信息上的知识发现技术。
7.如权利要求6所述一种提高数据质量的方法,其中所述数据自动修复技术通过分析定义错误修复的语义蕴含与表现形式、自动修复的充分必要条件和基于WEB的自动修复模型,使用遗传算法实现查询关键词的自适应性调整,并利用图匹配的相关技术进行信息抽取,基于抽取出的信息进行数据的自动修复。
8.一种提高数据质量的系统,其包括:
用户需求特点模块,其用于获取用户需求特点;
维度确定模块,其用于确定用户适用数据质量维度;
数据评估模块,其用于根据所述用户适用数据质量维度对现有数据进行评估;
处理模块,其用于根据评估结果对所述现有数据进行处理。
9.如权利要求8所述系统,其还包括判断模块,其用于判断当前数据质量是否满足要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610898713.3A CN106503097A (zh) | 2016-10-14 | 2016-10-14 | 一种提高数据质量的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610898713.3A CN106503097A (zh) | 2016-10-14 | 2016-10-14 | 一种提高数据质量的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106503097A true CN106503097A (zh) | 2017-03-15 |
Family
ID=58294164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610898713.3A Pending CN106503097A (zh) | 2016-10-14 | 2016-10-14 | 一种提高数据质量的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106503097A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194188A (zh) * | 2017-06-09 | 2017-09-22 | 江苏梦兰神彩科技股份有限公司 | 一种评估危废申报数据质量的方法及设备 |
CN108170707A (zh) * | 2017-11-22 | 2018-06-15 | 国政通科技股份有限公司 | 一种数据质量检测的方法和系统 |
CN108415965A (zh) * | 2018-02-07 | 2018-08-17 | 五维引力(上海)数据服务有限公司 | 一种基于多数据源的数据处理方法和装置 |
CN109657991A (zh) * | 2018-12-21 | 2019-04-19 | 江苏满运软件科技有限公司 | 元数据质量评估方法、装置、电子设备、存储介质 |
CN111930737A (zh) * | 2020-10-13 | 2020-11-13 | 中国人民解放军陆军装甲兵学院 | 一种装备作战试验数据多维度关联分析方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706909A (zh) * | 2009-11-18 | 2010-05-12 | 山东浪潮齐鲁软件产业股份有限公司 | 一种面向企业数据集成的全面数据质量管理方法 |
CN101894319A (zh) * | 2010-06-28 | 2010-11-24 | 中国烟草总公司湖南省公司 | 一种烟草企业数据质量管理系统及方法 |
CN102073912A (zh) * | 2009-11-23 | 2011-05-25 | 中国移动通信集团黑龙江有限公司 | 数据质量控制方法、装置及系统 |
CN102708149A (zh) * | 2012-04-01 | 2012-10-03 | 河海大学 | 数据质量管理方法和系统 |
CN106446125A (zh) * | 2016-09-19 | 2017-02-22 | 广东中标数据科技股份有限公司 | 提升数据质量的方法及装置 |
-
2016
- 2016-10-14 CN CN201610898713.3A patent/CN106503097A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706909A (zh) * | 2009-11-18 | 2010-05-12 | 山东浪潮齐鲁软件产业股份有限公司 | 一种面向企业数据集成的全面数据质量管理方法 |
CN102073912A (zh) * | 2009-11-23 | 2011-05-25 | 中国移动通信集团黑龙江有限公司 | 数据质量控制方法、装置及系统 |
CN101894319A (zh) * | 2010-06-28 | 2010-11-24 | 中国烟草总公司湖南省公司 | 一种烟草企业数据质量管理系统及方法 |
CN102708149A (zh) * | 2012-04-01 | 2012-10-03 | 河海大学 | 数据质量管理方法和系统 |
CN106446125A (zh) * | 2016-09-19 | 2017-02-22 | 广东中标数据科技股份有限公司 | 提升数据质量的方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194188A (zh) * | 2017-06-09 | 2017-09-22 | 江苏梦兰神彩科技股份有限公司 | 一种评估危废申报数据质量的方法及设备 |
CN108170707A (zh) * | 2017-11-22 | 2018-06-15 | 国政通科技股份有限公司 | 一种数据质量检测的方法和系统 |
CN108415965A (zh) * | 2018-02-07 | 2018-08-17 | 五维引力(上海)数据服务有限公司 | 一种基于多数据源的数据处理方法和装置 |
CN109657991A (zh) * | 2018-12-21 | 2019-04-19 | 江苏满运软件科技有限公司 | 元数据质量评估方法、装置、电子设备、存储介质 |
CN111930737A (zh) * | 2020-10-13 | 2020-11-13 | 中国人民解放军陆军装甲兵学院 | 一种装备作战试验数据多维度关联分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503097A (zh) | 一种提高数据质量的方法及系统 | |
US10171668B2 (en) | Methods of AI based CRM | |
US10210865B2 (en) | Method and apparatus for inputting information | |
CN110020433B (zh) | 一种基于企业关联关系的工商高管人名消歧方法 | |
WO2021027135A1 (zh) | 细胞检测模型训练方法、装置、计算机设备及存储介质 | |
US20170206504A1 (en) | Model-driven evaluator bias detection | |
CN106303113B (zh) | 一种分流方法和设备 | |
KR102002024B1 (ko) | 객체 라벨링 처리 방법 및 객체 관리 서버 | |
CN105096063A (zh) | 评标专家管理方法及其系统 | |
CN109086780B (zh) | 用于检测电极片毛刺的方法和装置 | |
CN111460138A (zh) | 一种基于bim的数字化工程监理方法与系统 | |
CN110084317B (zh) | 用于识别图像的方法和装置 | |
US10726254B2 (en) | Dynamic duplicate detection | |
CN104780282A (zh) | 对电话会议中的发言内容进行分类的方法和设备 | |
CN108053545A (zh) | 证件验真方法和装置、服务器、存储介质 | |
CN111539924A (zh) | 一种悬垂线夹的缺陷检测方法、装置、设备及存储介质 | |
CN112967248A (zh) | 生成缺陷图像样本的方法、装置、介质及程序产品 | |
US10600067B2 (en) | Demographic based adjustment of data processing decision results | |
US20170339091A1 (en) | Cognitive communication assistant to bridge incompatible audience | |
CN109697553A (zh) | 一种基于区块链的译员信用管理方法及系统 | |
JPWO2019180868A1 (ja) | 画像生成装置、画像生成方法および画像生成プログラム | |
US20180374054A1 (en) | Assessment Score Analytics | |
US10338785B2 (en) | Processing system for multivariate segmentation of electronic message content | |
KR20180057990A (ko) | 직원 별 맞춤 학습 영상 데이터 제공 방법 및 이를 실행하는 시스템 | |
CN112686844B (zh) | 基于视频质检场景的阈值设定方法、存储介质和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170315 |
|
RJ01 | Rejection of invention patent application after publication |