CN112100139B - 基于大数据的数据质量自动检测系统 - Google Patents

基于大数据的数据质量自动检测系统 Download PDF

Info

Publication number
CN112100139B
CN112100139B CN202011258989.8A CN202011258989A CN112100139B CN 112100139 B CN112100139 B CN 112100139B CN 202011258989 A CN202011258989 A CN 202011258989A CN 112100139 B CN112100139 B CN 112100139B
Authority
CN
China
Prior art keywords
data
attribute information
user attribute
database
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011258989.8A
Other languages
English (en)
Other versions
CN112100139A (zh
Inventor
祝文东
朱金星
张静雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhenxin Technology Co ltd
Original Assignee
Beijing Yunzhenxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhenxin Technology Co ltd filed Critical Beijing Yunzhenxin Technology Co ltd
Priority to CN202011258989.8A priority Critical patent/CN112100139B/zh
Publication of CN112100139A publication Critical patent/CN112100139A/zh
Application granted granted Critical
Publication of CN112100139B publication Critical patent/CN112100139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于大数据的数据质量自动检测系统,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储用户数据,当所述计算机程序被处理器执行时,实现步骤S1、根据所述第一数据库的数据调用情况构建日志文件;步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。本发明能够快速、准确地检测出数据调用过程中的数据异常情况。

Description

基于大数据的数据质量自动检测系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于大数据的数据质量自动检测系统。
背景技术
随着大数据时代的到来,海量的数据存储在数据库中,根据数据调用指令,通过API接口可以调用数据库中的数据来使用,但是,在数据调用的过程中存在诸多不稳定的因素,例如调用程序出错等,会导致出现调用数据错位、调用数据字段错误等等异常情况,导致数据质量下降,如不及时检测出数据异常的情况,将影响所调用数据的后续处理,也可能会导致后续调用数据时持续出错,因此,如何对数据质量进行及时检测,成为亟待解决的技术问题。
发明内容
本发明目的在于,提供一种基于大数据的数据质量自动检测系统,能够快速、准确地检测出数据调用过程中的数据异常情况。
根据本发明第一方面,提供了一种基于大数据的数据质量自动检测系统,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储用户数据,当所述计算机程序被处理器执行时,实现以下步骤:
步骤S1、根据所述第一数据库的数据调用情况构建日志文件;
步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,所述数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;
步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种基于大数据的数据质量自动检测系统可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明能够快速、准确地检测出数据调用过程中的数据异常情况,提升了用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例提供的基于大数据的数据质量自动检测系统示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于大数据的数据质量自动检测系统的具体实施方式及其功效,详细说明如后。
本发明实施例提供了一种基于大数据的数据质量自动检测系统,如图1所示,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储海量的用户数据,当所述计算机程序被处理器执行时,实现以下步骤:
步骤S1、根据所述第一数据库的数据调用情况构建日志文件;
其中,可通过在第一数据库设置应用程序接口(Application ProgramInterface,简称API)调用第一数据库中的数据,每一条数据调用信息均被记录在日志文件中。
步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,所述数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;
其中,所述第一用户属性信息即基于数据调取过程从第一数据库中实际获取到的用户id和数据调用时间对应的第一属性信息,这个第一属性信息有可能是正确的,也有可能是错误的。
步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常。
其中,步骤S3基于第一用户属性信息确定的特征参数以及预设的特征参数阈值来判断调取数据是否异常,若异常,则发送数据异常指令进行预警,以便及时解决数据异常问题。
根据本发明,所述系统可以物理实现为一个服务器,也可以实现为包括多个服务器的服务器群组,本发明实施例能够快速、准确地检测出数据调用过程中的数据异常情况,提升了用户体验。
作为一种示例,所述步骤S2包括:
步骤S21、实时监测所述日志文件的偏移量,基于所述日志文件的偏移量采集所述日志文件中新增的日志信息,并从所述新增的日志信息中解析出数据调用信息。
可以理解的是,每发生一条数据调用,日志文件则会新增对应的日志信息,而当有新增的日志信息写入时,会出现文件偏移,因此可通过文件偏移量来实时获取新增日志信息,保证了数据质量检测的实时性。且基于文件的偏移量,能够快速读取到新增日志信息的起始位置,避免重复获取历史日志数据进行计算,提高了数据质量检测的效率。作为一种示例,可以采用flume工具实时监测日志文件。
需要说明的是,由于某些时间的数据访问量可能很大,而计算资源是有限的,如果将该时间内所获取的所有日志信息均发送处理,则可能会负载过重,降低数据质量检测效率,因此可以将从所述新增的日志信息中解析出数据调用信息先发送至消息队列中,消息队列根据计算资源提前配置好,从而提高数据质量检测效率。
步骤S3中,特征参数阈值可以根据经验值来设定,为了进一步的提高质量检测的准确度,可以从历史数据中获取用户id、数据调用时间对应的真实的户属性信息来检测数据质量。但是由于第一数据库中的数据量巨大,且基于数据调用量也很大,若直接从第一数据库中检索用户id、数据调用时间对应的真实的户属性信息,称为第二用户属性信息,则计算量过大,会造成检测效率低,且易出错,检测准确度也低。为了提高基于用户id、数据调用时间获取对应的真实的户属性信息的效率和准确度,可以在所述系统设置第二数据库,所述第二数据库为离线数据库,提高数据查询的效率,从而提高主句指令检测的效率。第二数据库用于以拉链表的形式存储所述第一数据库中的历史用户数据。当所述计算机程序被处理器执行时,还实现以步骤S10、构建所述拉链表,具体包括:
步骤S101、若所述第一数据库中新增一个用户属性信息,则在所述拉链表中新增一条记录,所述记录包括用户id、开始时间、结束时间和用户属性信息,所述开始时间设置为新增该用户属性信息的时间,结束时间设置为无穷大,表示用户的属性信息为当前状态下的属性信息,例如结束时间设置为9999年12月30日;
步骤S102、当所述记录的用户属性信息发生变化时,则获取用户属性信息发生变化的变更时间点,将该条记录的结束时间更新为所述变更时间点,并新增一条记录,将新增记录的开始时间设置为所述变更时间点,结束时间设为无限大,用户属性信息设置为变化后的用户属性信息;
步骤S103、将所述第一数据库中的每个用户属性信息依步骤S101-步骤S102执行,构建所述拉链表。
作为一种示例,所述步骤S3之前还包括步骤S30、通过所述数据调用信息中的用户id和数据调用时间检索所述拉链表,从所述拉链表中获取用户id和数据调用时间实际对应的第二用户属性信息,基于所述第二用户属性信息设置所述特征参数阈值。
数据拉链表能够极大地减少数据存储量,且能回溯至每一时间点对应的数据信息,大大提高了获取第二属性信息的效率和准确度,通过所述第二用户属性信息设置所述特征参数阈值,能够提高特征参数阈值的可靠性。因此通过设置数据拉链能够整体提升了数据质量检测的效率和准确度。
所述系统中可根据具体的应用场景设置不同的检测规则,对应不同的特征参数,以下通过两个具体的实施例进行说明:
实施例一、
所述预设的特征参数为命中率,特征参数阈值为命中率阈值,可以理解的是,命中率为查询到数据的数量与总的数据查询数量的比值,所述步骤S3包括:
步骤S311、每间隔预设的时间统计所述第一用户属性信息的命中率;
步骤S312、将所述命中率与所述命中率阈值相比较,若连续M个预设的时间的命中率低于所述命中率阈值,则发送数据异常指令。
例如,每间隔5S统计所述第一用户属性信息的命中率,当连续5S内有200条数据查询请求,但是仅仅查询到了20条,命中率仅有10%,而命中率阈值为80%,则此是数据调取结果是不准确的。为了避免单次返回结果有误造成误判,因此可设置连续M个预设的时间的命中率低于所述命中率阈值,再发送数据异常指令,作为示例,M可等于3。
实施例二、
所述预设的特征参数为波动值,用来表征连续N个预设时间内某一属性特征的波动情况,特征参数阈值为波动阈值,所述步骤S3包括:
步骤S321、每间隔预设的时间统计所述第一用户属性信息的饱和度;
其中,饱和度是具有某一属性特征的用户数量在用户总数量中的占比,例如,第一数据库中包含有性别属性特征的用户占第一数据库中总数的百分之八十,则饱和度为百分之八十。
步骤S322、判断连续N个预设时间的第一用户属性信息的饱和度是否呈下降趋势,若是,则获取连续N个预设时间的第一用户属性信息的饱和度的波动值,并将所述波动值与所述波动阈值比较,若所述波动值大于所述波动阈值,则发送数据异常指令。
仍以性别属性特征为例,N取值为6,预设时间为5s,每隔5s计算当前5s内的性别属性特征的饱和度,当连续6个预设时间的第一用户属性信息的饱和度呈下降趋势时,获取续6个预设时间的第一用户属性信息的饱和度的波动值,例如波动值为10%,波动阈值为5%,则可判断数据异常,发送数据异常指令。需要说明的是,预设时间可以根据具体的检测需求来设定,但是时间过长会导致不能及时检测数据异常状况,会增加计算量,浪费计算资源,因此可将预设时间的范围设置为[4s,8s],优选的,所述预设时间为5s。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (6)

1.一种基于大数据的数据质量自动检测系统,其特征在于,包括第一数据库、处理器和存储有计算机程序的存储器,所述第一数据库用于存储用户数据,所述系统还包括第二数据库,所述第二数据库为离线数据库,用于以拉链表的形式存储所述第一数据库中的历史用户数据;
当所述计算机程序被处理器执行时,实现以下步骤:
步骤S1、根据所述第一数据库的数据调用情况构建日志文件;
步骤S2、实时采集所述日志文件,并从所述日志文件中解析出数据调用信息,所述数据调用信息包括用户id、数据调用时间和基于所述用户id和数据调用时间从所述第一数据库调取的第一用户属性信息;
步骤S3、每间隔预设的时间基于所述第一用户属性信息获取至少一个预设的特征参数,基于所述至少一个特征参数以及预设的特征参数阈值判断调取数据是否异常;
所述步骤S3之前还包括步骤S30、通过所述数据调用信息中的用户id和数据调用时间检索所述拉链表,从所述拉链表中获取用户id和数据调用时间实际对应的第二用户属性信息,基于所述第二用户属性信息设置所述特征参数阈值。
2.根据权利要求1所述的系统,其特征在于,所述步骤S2包括:
步骤S21、实时监测所述日志文件的偏移量,基于所述日志文件的偏移量采集所述日志文件中新增的日志信息,并从所述新增的日志信息中解析出数据调用信息。
3.根据权利要求1所述的系统,其特征在于,所述步骤S2包括:
当所述计算机程序被处理器执行时,还实现以步骤S10、构建所述拉链表,具体包括:
步骤S101、若所述第一数据库中新增一个用户属性信息,则在所述拉链表中新增一条记录,所述记录包括用户id、开始时间、结束时间和用户属性信息,所述开始时间设置为新增该用户属性信息的时间,结束时间设置为无穷大;
步骤S102、当所述记录的用户属性信息发生变化时,则获取用户属性信息发生变化的变更时间点,将该条记录的结束时间更新为所述变更时间点,并新增一条记录,将新增记录的开始时间设置为所述变更时间点,结束时间设为无限大,用户属性信息设置为变化后的用户属性信息;
步骤S103、将所述第一数据库中的每个用户属性信息依步骤S101-步骤S102执行,构建所述拉链表。
4.根据权利要求1所述的系统,其特征在于,
所述预设的特征参数为命中率,特征参数阈值为命中率阈值,所述步骤S3包括:
步骤S311、每间隔预设的时间统计所述第一用户属性信息的命中率;
步骤S312、将所述命中率与所述命中率阈值相比较,若连续M个预设的时间的命中率低于所述命中率阈值,则发送数据异常指令。
5.根据权利要求1所述的系统,其特征在于,
所述预设的特征参数为波动值,特征参数阈值为波动阈值,所述步骤S3包括:
步骤S321、每间隔预设的时间统计所述第一用户属性信息的饱和度;
步骤S322、判断连续N个预设时间的第一用户属性信息的饱和度是否呈下降趋势,若是,则获取连续N个预设时间的第一用户属性信息的饱和度的波动值,并将所述波动值与所述波动阈值比较,若所述波动值大于所述波动阈值,则发送数据异常指令。
6.根据权利要求1所述的系统,其特征在于,
所述预设时间为5s。
CN202011258989.8A 2020-11-12 2020-11-12 基于大数据的数据质量自动检测系统 Active CN112100139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011258989.8A CN112100139B (zh) 2020-11-12 2020-11-12 基于大数据的数据质量自动检测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011258989.8A CN112100139B (zh) 2020-11-12 2020-11-12 基于大数据的数据质量自动检测系统

Publications (2)

Publication Number Publication Date
CN112100139A CN112100139A (zh) 2020-12-18
CN112100139B true CN112100139B (zh) 2021-02-09

Family

ID=73785123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011258989.8A Active CN112100139B (zh) 2020-11-12 2020-11-12 基于大数据的数据质量自动检测系统

Country Status (1)

Country Link
CN (1) CN112100139B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298586A (zh) * 2014-10-15 2015-01-21 青岛海尔软件有限公司 一种基于系统日志的Web系统异常分析方法和装置
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统
CN104951474A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种用于获取MySQL binlog增量日志的方法和装置
CN105138615A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种构建大数据分布式日志的方法和系统
CN105912628A (zh) * 2016-04-07 2016-08-31 北京奇虎科技有限公司 主从数据库的同步方法及装置
CN107154982A (zh) * 2017-06-15 2017-09-12 郑州云海信息技术有限公司 一种审计日志记录的方法及系统
CN107819837A (zh) * 2017-10-31 2018-03-20 南京优速网络科技有限公司 一种提升缓存服务质量的方法及缓存日志分析系统
CN107958010A (zh) * 2016-10-18 2018-04-24 北京京东尚科信息技术有限公司 用于在线数据迁移的方法及系统
CN108388503A (zh) * 2018-02-13 2018-08-10 中体彩科技发展有限公司 数据库性能监控方法、系统、设备及计算机可读存储介质
CN110690984A (zh) * 2018-07-05 2020-01-14 上海宝信软件股份有限公司 基于Spark的大数据网络日志采集分析和预警的方法、系统
CN111475495A (zh) * 2020-03-19 2020-07-31 深圳市酷开网络科技有限公司 基于大数据的质量分析方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190207966A1 (en) * 2017-12-28 2019-07-04 Fireeye, Inc. Platform and Method for Enhanced Cyber-Attack Detection and Response Employing a Global Data Store

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951474A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种用于获取MySQL binlog增量日志的方法和装置
CN104298586A (zh) * 2014-10-15 2015-01-21 青岛海尔软件有限公司 一种基于系统日志的Web系统异常分析方法和装置
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统
CN105138615A (zh) * 2015-08-10 2015-12-09 北京思特奇信息技术股份有限公司 一种构建大数据分布式日志的方法和系统
CN105912628A (zh) * 2016-04-07 2016-08-31 北京奇虎科技有限公司 主从数据库的同步方法及装置
CN107958010A (zh) * 2016-10-18 2018-04-24 北京京东尚科信息技术有限公司 用于在线数据迁移的方法及系统
CN107154982A (zh) * 2017-06-15 2017-09-12 郑州云海信息技术有限公司 一种审计日志记录的方法及系统
CN107819837A (zh) * 2017-10-31 2018-03-20 南京优速网络科技有限公司 一种提升缓存服务质量的方法及缓存日志分析系统
CN108388503A (zh) * 2018-02-13 2018-08-10 中体彩科技发展有限公司 数据库性能监控方法、系统、设备及计算机可读存储介质
CN110690984A (zh) * 2018-07-05 2020-01-14 上海宝信软件股份有限公司 基于Spark的大数据网络日志采集分析和预警的方法、系统
CN111475495A (zh) * 2020-03-19 2020-07-31 深圳市酷开网络科技有限公司 基于大数据的质量分析方法、系统及存储介质

Also Published As

Publication number Publication date
CN112100139A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN110661659A (zh) 一种告警方法、装置、系统及电子设备
CN112433919A (zh) 一种信息告警方法、设备及存储介质
CN112416724B (zh) 告警处理方法、系统、计算机设备和存储介质
CN111241059B (zh) 一种基于数据库的数据库优化方法及装置
CN113535454B (zh) 一种日志数据异常检测的方法及设备
CN111314158B (zh) 大数据平台监控方法、装置及设备、介质
CN113505044B (zh) 数据库告警方法、装置、设备和存储介质
CN112260858A (zh) 一种可自动化检测的告警方法及终端
CN110717130B (zh) 打点方法、装置、终端及存储介质
CN112100139B (zh) 基于大数据的数据质量自动检测系统
CN110580265B (zh) Etl任务的处理方法、装置、设备及存储介质
CN113094154A (zh) 一种基于阿里云的大数据处理方法及系统
CN112130944A (zh) 页面异常的检测方法、装置、设备及存储介质
CN110011845B (zh) 日志采集方法及系统
CN114637656B (zh) 基于Redis的监控方法、装置、存储介质和设备
CN111143433A (zh) 一种统计数据仓数据的方法及装置
CN112988542B (zh) 一种应用评分方法、装置、设备和可读存储介质
CN113032242B (zh) 数据标记方法及装置,计算机存储介质和电子设备
CN114238258B (zh) 数据库数据处理方法、装置、计算机设备、存储介质
CN111522678B (zh) 故障检测方法和装置
CN116127149B (zh) 图数据库集群健康度的量化方法和系统
CN113741815B (zh) 一种存储系统的管控方法、装置、设备及可读存储介质
CN116610664B (zh) 数据监控方法、装置、计算机设备、存储介质和产品
CN115134265B (zh) 流程的实时监控预警方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant