CN110908987A - 一种数据检测方法及装置 - Google Patents

一种数据检测方法及装置 Download PDF

Info

Publication number
CN110908987A
CN110908987A CN201911098752.5A CN201911098752A CN110908987A CN 110908987 A CN110908987 A CN 110908987A CN 201911098752 A CN201911098752 A CN 201911098752A CN 110908987 A CN110908987 A CN 110908987A
Authority
CN
China
Prior art keywords
data
online
data processing
detection
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911098752.5A
Other languages
English (en)
Inventor
王健
刘玉娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongshu Zhihui Technology Co Ltd
Original Assignee
Beijing Zhongshu Zhihui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongshu Zhihui Technology Co Ltd filed Critical Beijing Zhongshu Zhihui Technology Co Ltd
Priority to CN201911098752.5A priority Critical patent/CN110908987A/zh
Publication of CN110908987A publication Critical patent/CN110908987A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数据检测方法及装置,该方法包括:获取待检测的待上线数据;对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据。本发明提供的技术方案,通过获取待检测的待上线数据,对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据,从而实现了数据质量的自动化检测,有效减少了现有技术中人工检测带来的误差,提高了检测准确率;同时,由于不需要人工参与,降低了检测成本,提高了检测效率,降低了劳动强度,提升了人工效率,用户体验度好、满意度高。

Description

一种数据检测方法及装置
技术领域
本发明涉及数据检测技术领域,具体涉及一种数据检测方法及装置。
背景技术
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
在实用中,数据分析可帮助人们作出判断,以便采取适当行动。底层的数据质量是产品层风险预警准确与否的决定性基础,如果出现问题或延迟,就会出现客户因错误数据导致决策错误甚至承担经济损失的问题发生。但由于企业信息更新,企业申请流程更改,各地数据标准不一致等原因,数据随着这些变动长期下来,脏数据越积越多。
传统的技术手段是通过人工观察数据、提取规则、确定有质量问题的数据范围,找到依据填补和订正错误的数据,不仅耗费大量的人力和时间,而且在数据质量监控的广阔性和深度层次上,都处于较为初级的状态。传统的技术手段常常是以大量的工作经验以及业务逻辑为基础,而对于那些以企业为中心提供数据和服务的征信公司,数据的准确性、完整性、时效性、数据储存、数据清洗、数据处理、数据分析皆为其关注的要点,对数据质量、广阔性都有具体的要求和更深层探索性的需求。所以现有技术中,企业数据日渐庞大,有限的人力、时间和高质量的数据质量需求的矛盾日益突出。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种数据检测方法及装置,以解决现有技术中人工数据质量检查,人力投入大、效率低的问题。
为实现以上目的,本发明采用如下技术方案:
一种数据检测方法,包括:
获取待检测的待上线数据;
对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据。
优选地,所述对所述待上线数据进行数据处理,包括:
对数据的基础字段进行合规检验,对于不合规的数据进行清洗,以清除错误的字段值。
优选地,所述对不合规的数据进行清洗,包括:
通过正态分布图和箱线图进行离散点异常值的检查,以锁定不合规的数据;
将不合规数据进行格式转换,或者,数据清除。
优选地,所述对所述待上线数据进行数据处理,还包括:
对数据清洗后的数据进行指标化处理;
根据指标化数据的共性,利用预设算法,对缺失值进行填补。
优选地,所述预设算法,包括以下项中的至少一项:
K最邻分类算法、决策树算法、逻辑回归算法。
优选地,所述对所述待上线数据进行数据处理,还包括:
计算填补的缺失值与同类数据的拟合度,若拟合度达到阈值以上,则保留该缺失值,否则重新填补该缺失值。
优选地,所述对所述待上线数据进行数据处理,还包括:
利用逻辑回归训练函数,优化填补的缺失值。
优选地,所述对所述待上线数据进行数据处理,还包括:
通过决策树算法,确定数据处理后的数据的变化阈值;
检验待上线的数据处理后的数据与线上数据之间的变化量是否超过所述变化阈值,若是,发出报警信息,否则,上线数据处理后的数据。
优选地,所述发出报警信息,包括:
邮件发送报警信息,或者,短信发送报警信息。
另外,本发明还提出了一种数据检测装置,包括:
获取模块,用于获取待检测的待上线数据;
筛查模块,用于对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据。
本发明采用以上技术方案,至少具备以下有益效果:
通过获取待检测的待上线数据,对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据,从而实现了数据质量的自动化检测,有效减少了现有技术中人工检测带来的误差,提高了检测准确率;同时,由于不需要人工参与,降低了检测成本,提高了检测效率,降低了劳动强度,提升了人工效率,用户体验度好、满意度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种数据检测方法的流程图;
图2为本发明另一实施例提供的一种数据检测方法的流程图;
图3为本发明一实施例提供的一种数据检测装置的示意框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
参见图1,本发明一实施例提供的一种数据检测方法,包括:
步骤S11、获取待检测的待上线数据;
步骤S12、对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据。
可以理解的是,本实施例提供的技术方案,通过获取待检测的待上线数据,对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据,从而实现了数据质量的自动化检测,有效减少了现有技术中人工检测带来的误差,提高了检测准确率;同时,由于不需要人工参与,降低了检测成本,提高了检测效率,降低了劳动强度,提升了人工效率,用户体验度好、满意度高。
优选地,所述对所述待上线数据进行数据处理,包括:
对数据的基础字段进行合规检验,对于不合规的数据进行清洗,以清除错误的字段值。
优选地,所述对不合规的数据进行清洗,包括:
通过正态分布图和箱线图进行离散点异常值的检查,以锁定不合规的数据;
将不合规数据进行格式转换,或者,数据清除。
优选地,所述对所述待上线数据进行数据处理,还包括:
对数据清洗后的数据进行指标化处理;
根据指标化数据的共性,利用预设算法,对缺失值进行填补。
优选地,所述预设算法,包括以下项中的至少一项:
K最邻分类算法、决策树算法、逻辑回归算法。
逻辑回归算法:逻辑回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。逻辑回归从本质来说属于二分类问题。
二分类问题是指预测的y值只有两个取值(0或1),二分类问题可以扩展到多分类问题。例如:我们要做一个垃圾邮件过滤系统,x是邮件的特征,预测的y值就是邮件的类别,是垃圾邮件还是正常邮件。对于类别我们通常称为正类(positive class)和负类(negative class),垃圾邮件的例子中,正类就是正常邮件,负类就是垃圾邮件。
K近邻算法:即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
优选地,所述对所述待上线数据进行数据处理,还包括:
计算填补的缺失值与同类数据的拟合度,若拟合度达到阈值以上,则保留该缺失值,否则重新填补该缺失值。
优选地,所述对所述待上线数据进行数据处理,还包括:
利用逻辑回归训练函数,优化填补的缺失值。
优选地,所述对所述待上线数据进行数据处理,还包括:
通过决策树算法,确定数据处理后的数据的变化阈值;
检验待上线的数据处理后的数据与线上数据之间的变化量是否超过所述变化阈值,若是,发出报警信息,否则,上线数据处理后的数据。
需要说明的是,所述变化阈值根据历史经验值或者实验数据进行设置,例如设置为85%。
优选地,所述发出报警信息,包括:
邮件发送报警信息,或者,短信发送报警信息。
参见图2,本发明另一实施例提供的一种数据检测方法,包括:
步骤S21、获取待检测的待上线数据;
步骤S22、对数据的基础字段进行合规检验,对于不合规的数据进行清洗,以清除错误的字段值;
步骤S23、对数据清洗后的数据进行指标化处理;
步骤S24、根据指标化数据的共性,利用预设算法,对缺失值进行填补;
步骤S25、计算填补的缺失值与同类数据的拟合度,若拟合度达到阈值以上,则保留该缺失值,否则重新填补该缺失值;
步骤S26、通过决策树算法,确定数据处理后的数据的变化阈值;
步骤S27、检验待上线的数据处理后的数据与线上数据之间的变化量是否超过所述变化阈值,若是,发出报警信息,否则,上线数据处理后的数据。
可以理解的是,本实施例提供的技术方案,通过获取待检测的待上线数据,对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据,从而实现了数据质量的自动化检测,有效减少了现有技术中人工检测带来的误差,提高了检测准确率;同时,由于不需要人工参与,降低了检测成本,提高了检测效率,降低了劳动强度,提升了人工效率,用户体验度好、满意度高。
需要说明的是,本实施例提供的技术方案,是以业务知识和工作经验为参考,以算法和机器学习为工具,将公司需求和客户需求放在目标上,优化数据质量,将目标拆解成为:基础字段的合规检验;企业数据的指标化;指标化数据的共性特征探索;根据企业特征进行预测及填补缺失字段,数据变化率阈值定位和阈值预警;分析待数据变化规律;以及全方位对数据质量进行监控。并利用其解决空值率及其趋势和规律摸索,以历史预测未来,列举出各种数据问题并预测问题解决和有可能发生的问题。
另外,参见图3,本发明还提出了一种数据检测装置100,包括:
获取模块101,用于获取待检测的待上线数据;
筛查模块102,用于对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据。
可以理解的是,本实施例提供的技术方案,通过获取待检测的待上线数据,对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据,从而实现了数据质量的自动化检测,有效减少了现有技术中人工检测带来的误差,提高了检测准确率;同时,由于不需要人工参与,降低了检测成本,提高了检测效率,降低了劳动强度,提升了人工效率,用户体验度好、满意度高。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。

Claims (10)

1.一种数据检测方法,其特征在于,包括:
获取待检测的待上线数据;
对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述待上线数据进行数据处理,包括:
对数据的基础字段进行合规检验,对于不合规的数据进行清洗,以清除错误的字段值。
3.根据权利要求2所述的方法,其特征在于,所述对不合规的数据进行清洗,包括:
通过正态分布图和箱线图进行离散点异常值的检查,以锁定不合规的数据;
将不合规数据进行格式转换,或者,数据清除。
4.根据权利要求2所述的方法,其特征在于,所述对所述待上线数据进行数据处理,还包括:
对数据清洗后的数据进行指标化处理;
根据指标化数据的共性,利用预设算法,对缺失值进行填补。
5.根据权利要求4所述的方法,其特征在于,所述预设算法,包括以下项中的至少一项:
K最邻分类算法、决策树算法、逻辑回归算法。
6.根据权利要求4所述的方法,其特征在于,所述对所述待上线数据进行数据处理,还包括:
计算填补的缺失值与同类数据的拟合度,若拟合度达到阈值以上,则保留该缺失值,否则重新填补该缺失值。
7.根据权利要求4所述的方法,其特征在于,所述对所述待上线数据进行数据处理,还包括:
利用逻辑回归训练函数,优化填补的缺失值。
8.根据权利要求6或7所述的方法,其特征在于,所述对所述待上线数据进行数据处理,还包括:
通过决策树算法,确定数据处理后的数据的变化阈值;
检验待上线的数据处理后的数据与线上数据之间的变化量是否超过所述变化阈值,若是,发出报警信息,否则,上线数据处理后的数据。
9.根据权利要求8所述的方法,其特征在于,所述发出报警信息,包括:
邮件发送报警信息,或者,短信发送报警信息。
10.一种数据检测装置,其特征在于,包括:
获取模块,用于获取待检测的待上线数据;
筛查模块,用于对所述待上线数据进行数据处理,以筛查出具有质量隐患的数据。
CN201911098752.5A 2019-11-12 2019-11-12 一种数据检测方法及装置 Pending CN110908987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911098752.5A CN110908987A (zh) 2019-11-12 2019-11-12 一种数据检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911098752.5A CN110908987A (zh) 2019-11-12 2019-11-12 一种数据检测方法及装置

Publications (1)

Publication Number Publication Date
CN110908987A true CN110908987A (zh) 2020-03-24

Family

ID=69816695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911098752.5A Pending CN110908987A (zh) 2019-11-12 2019-11-12 一种数据检测方法及装置

Country Status (1)

Country Link
CN (1) CN110908987A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2846594A1 (en) * 2011-08-26 2013-03-07 Majid Sarrafzadeh Systems and methods for missing data imputation
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN109766334A (zh) * 2019-01-07 2019-05-17 国网湖南省电力有限公司 用于电力设备在线监测异常数据的处理方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2846594A1 (en) * 2011-08-26 2013-03-07 Majid Sarrafzadeh Systems and methods for missing data imputation
CN106708909A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 数据质量的检测方法和装置
CN109766334A (zh) * 2019-01-07 2019-05-17 国网湖南省电力有限公司 用于电力设备在线监测异常数据的处理方法及系统

Similar Documents

Publication Publication Date Title
WO2021184630A1 (zh) 基于知识图谱定位排污对象的方法及相关设备
CN109465676B (zh) 一种刀具寿命预测方法
CN111475804A (zh) 一种告警预测方法及系统
CN110751451B (zh) 一种实验室大数据管理系统
CN111080502A (zh) 一种区域企业数据异常行为的大数据识别方法
US20140058705A1 (en) System and Method for Detecting Abnormal Occurrences
CN103617110A (zh) 服务器设备状态检修系统
CN106708694A (zh) 一种定位毛刺异常点的方法、装置及计算设备
CN113887126A (zh) 焊点质量分析方法、装置、终端设备及介质
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及系统
CN111796957A (zh) 基于应用日志的交易异常根因分析方法及系统
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN116485020A (zh) 一种基于大数据的供应链风险识别预警方法、系统及介质
CA3173398A1 (en) Data processing for industrial machine learning
CN116882823A (zh) 自纠错的多层级工程质量评定管理平台
US20170236071A1 (en) Alarm management system
CN115622867A (zh) 一种工控系统安全事件预警分类方法及系统
CN117273552B (zh) 一种基于机器学习的大数据智能治理决策方法及系统
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
CN115689320A (zh) 基站运行的健康管理方法、装置及计算机可读存储介质
CN111062827B (zh) 一种基于人工智能模式的工程监理方法
CN117851184A (zh) 一种基于机器学习的告警分级系统和方法
CN110633314A (zh) 车联网数据处理方法及装置
CN110908987A (zh) 一种数据检测方法及装置
CN108170825B (zh) 基于云平台的分布式能源数据监控清洗方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200324

RJ01 Rejection of invention patent application after publication