CN116166647A - 数据管理方法、装置及电子设备 - Google Patents

数据管理方法、装置及电子设备 Download PDF

Info

Publication number
CN116166647A
CN116166647A CN202211701470.1A CN202211701470A CN116166647A CN 116166647 A CN116166647 A CN 116166647A CN 202211701470 A CN202211701470 A CN 202211701470A CN 116166647 A CN116166647 A CN 116166647A
Authority
CN
China
Prior art keywords
data
managed
quality
attribute
cleaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211701470.1A
Other languages
English (en)
Inventor
魏常庆
侯建强
王飞
丁颖
冯乐乐
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHN Energy Railway Equipment Co Ltd
Original Assignee
CHN Energy Railway Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHN Energy Railway Equipment Co Ltd filed Critical CHN Energy Railway Equipment Co Ltd
Priority to CN202211701470.1A priority Critical patent/CN116166647A/zh
Publication of CN116166647A publication Critical patent/CN116166647A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据管理方法、装置及电子设备;方法在进行数据处理时,根据数据的时效类型从数据源获取业务源数据作为待管理数据,对待管理数据进行数据清洗处理得到第一数据,对第一数据进行数据补全处理得到第二数据,对第二数据进行数据质量分析得到第二数据的数据质量,根据第二数据的数据质量对第二数据进行管理。在该技术方案中,对待管理数据进行数据清洗处理,得到第一数据,然后对第一数据进行数据补全处理,得到第二数据,即在本申请中针对去重等清洗之后的数据,进行了数据补全,而不是针对存在缺失值的属性直接删除,缓解了当前数据管理方式存在的针对存在缺失值的属性直接删除所导致的大量数据丢失的技术问题。

Description

数据管理方法、装置及电子设备
技术领域
本申请涉及大数据处理领域,特别地涉及一种数据管理方法、装置及电子设备。
背景技术
随着互联网技术的不断发展,企业在数据产生和挖掘过程中,数据量呈大幅度的增长;在数据量增长的过程中,数据量的叠加造成了大量数据的重复,存在许多垃圾数据或者无用的数据,另外,数据中不完整的信息需要补全。
目前,在数据清洗过程中,对于数据中存在大量缺失值的属性,通常处理方法就是直接删除该项属性,该方式简单,但是会导致大量数据的丢失。
综上,当前数据管理方式存在针对存在缺失值的属性直接删除的技术问题。
发明内容
针对上述问题,本申请提供一种数据管理方法、装置及电子设备,以缓解当前数据管理方式存在的针对存在缺失值的属性直接删除的技术问题。
第一方面,本申请提供了一种数据管理方法,所述方法包括:
根据数据的时效类型,从数据源获取业务源数据作为待管理数据;
对所述待管理数据进行数据清洗处理,得到第一数据;
对所述第一数据进行数据补全处理,得到第二数据;
对所述第二数据进行数据质量分析,得到所述第二数据的数据质量;
根据所述第二数据的数据质量,对所述第二数据进行管理。
根据本申请的实施例,可选的,上述方法中,在所述时效类型为实时数据时,所述从数据源获取业务源数据作为待管理数据的步骤,包括:
获取预设的时间间隔;
按照所述时间间隔,采用Spark Streaming流处理方式从Kafka分布式消息队列中获取实时的业务源数据作为所述待管理数据。
根据本申请的实施例,可选的,上述方法中,在所述时效类型为离线数据时,所述从数据源获取业务源数据作为待管理数据的步骤,包括:
采用Spark内存处理方式从数据库中获取业务源数据作为所述待管理数据。
根据本申请的实施例,可选的,上述方法中,所述对所述第一数据进行数据补全处理,得到第二数据的步骤,包括:
根据所述第一数据,获取各属性对应的所有属性值的分布频率;
根据所述各属性对应的所有属性值的分布频率,对所述第一数据中缺失属性值的待补全属性进行数据补全,得到所述第二数据。
根据本申请的实施例,可选的,上述方法中,所述对所述第一数据中缺失属性值的待补全属性进行数据补全的步骤,包括:
获取所述待补全属性的所有属性值;
将分布频率满足预设条件的属性值,确定为所述待补全属性的属性值。
根据本申请的实施例,可选的,上述方法中,在所述对所述待管理数据进行数据清洗处理的步骤之前,还包括:
根据所述待管理数据的业务类型,确定所述待管理数据的数据流标识;
根据所述待管理数据的数据流标识,对所述待管理数据进行多流融合。
根据本申请的实施例,可选的,上述方法中,所述对所述第二数据进行数据质量分析的步骤,包括:
获取各质量参数的权重;
获取所述第二数据的各所述质量参数的参数值;
根据各质量参数的权重、补偿参数、干预参数以及所述质量参数的参数值,确定所述第二数据的数据质量。
根据本申请的实施例,可选的,上述方法中,所述质量参数包括可信参数和可用参数,所述可信参数包括精确性、完整性、一致性、有效性以及唯一性中的至少一种,所述可用参数包括时间性及稳定性中的至少一种。
第二方面,本申请提供了一种数据管理装置,所述装置包括:
获取模块,用于根据数据的时效类型,从数据源获取业务源数据作为待管理数据;
清洗模块,用于对所述待管理数据进行数据清洗处理,得到第一数据;
补偿模块,用于对所述第一数据进行数据补全处理,得到第二数据;
分析模块,用于对所述第二数据进行数据质量分析,得到所述第二数据的数据质量;
管理模块,用于根据所述第二数据的数据质量,对所述第二数据进行管理。
第三方面,本申请提供一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如第一方面中任一项所述的方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
在本申请实施例中,在进行数据处理时,根据数据的时效类型,从数据源获取业务源数据作为待管理数据,对所述待管理数据进行数据清洗处理得到第一数据,对所述第一数据进行数据补全处理得到第二数据,对所述第二数据进行数据质量分析得到所述第二数据的数据质量,根据所述第二数据的数据质量对所述第二数据进行管理。在该技术方案中,对所述待管理数据进行数据清洗处理,得到第一数据,然后对所述第一数据进行数据补全处理,得到第二数据,即在本申请中针对去重等清洗之后的数据,进行了数据补全,而不是针对存在缺失值的属性直接删除,缓解了当前数据管理方式存在的针对存在缺失值的属性直接删除所导致的大量数据丢失的技术问题。
附图说明
在下文中将基于实施例并参考附图来对本申请进行更详细的描述:
图1为本申请实施例提供的数据管理系统的场景示意图;
图2为本申请实施例提供的数据管理方法的流程示意图;
图3为本申请实施例提供的数据管理装置的结构示意图;
图4为本申请实施例提供的数据管理系统的结构示意图;
图5为本申请实施例提供的数据管理方法的时序示意图;
图6为本申请实施例提供的数据表的第一种处理示意图;
图7为本申请实施例提供的自动清洗数据的伪代码示意图;
图8为本申请实施例提供的属性值挖掘的伪代码示意图;
图9为本申请实施例提供的数据表的第二种处理示意图;
图10为本申请实施例提供的数据质量评估的伪代码示意图;
图11为本申请实施例提供的离线数据的一种清洗示意图;
图12为本申请实施例提供的实时数据的一种清洗示意图。
在附图中,相同的部件使用相同的附图标记,附图并未按照实际的比例绘制。
具体实施方式
以下将结合附图及实施例来详细说明本申请的实施方式,借此对本申请如何应用技术手段来解决技术问题,并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本申请的保护范围之内。
同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。
实施例一
请参阅图1,图1为本申请实施例所提供的数据管理系统的场景示意图,该数据管理系统包括一个或多个服务器12、一个或多个设备终端11等;其中:
设备终端11可以是手机、电脑等各种终端设备,主要用于产生各种数据,并上传各种业务的源数据至服务器;
服务器12可以是各种提供数据计算能力的设备,在本申请中主要包括存储服务器、分析服务器等,主要用于根据数据的时效类型,从数据源获取业务源数据作为待管理数据,对所述待管理数据进行数据清洗处理,得到第一数据,对所述第一数据进行数据补全处理,得到第二数据,对所述第二数据进行数据质量分析,得到所述第二数据的数据质量,根据所述第二数据的数据质量,对所述第二数据进行管理。
需要说明的是,图1所示的系统场景示意图仅仅是一个示例,本申请实施例描述的服务器以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
实施例二
图2为本申请实施例提供的数据管理方法的流程示意图,请参阅图2,本实施例提供的数据管理方法包括:
步骤S210:根据数据的时效类型,从数据源获取业务源数据作为待管理数据。
在本申请中,时效类型包括离线数据和实时数据,针对不同时效类型的数据,采用不同的方法。
在一种实施例中,在所述时效类型为实时数据时,所述从数据源获取业务源数据作为待管理数据的步骤,包括:获取预设的时间间隔;按照所述时间间隔,采用SparkStreaming流处理方式从Kafka分布式消息队列中获取实时的业务源数据作为所述待管理数据。具体的,针对实时数据的清洗,取实时的结构化数据、半结构数据或者非结构化数据,采取Spark Streaming流处理技术,通过从Kafka中按照时间窗口不断提取数据,简单来讲就是按照设定的时间间隔从持续的Kafka分布式消息队列中获取实时数据,每次累计获取设定时间段以内的数据,按照数据清洗规则、清洗算法等,完成数据的比对、统计和异常处理。
在一种实施例中,在所述时效类型为离线数据时,所述从数据源获取业务源数据作为待管理数据的步骤,包括:采用Spark内存处理方式从数据库中获取业务源数据作为所述待管理数据。具体的,针对离线数据的清洗,主要是T+1的模式,例如取昨天的数据来清洗、处理以达到目的;利用Spark取离线的业务数据到HDFS,搭配清洗规则和清洗算法,执行数据清洗程序,把清洗好的数据存储到关系型数据库或者HBase中。
步骤S220:对所述待管理数据进行数据清洗处理,得到第一数据。
在本申请中,在本步骤之前,还包括:根据所述待管理数据的业务类型,确定所述待管理数据的数据流标识;根据所述待管理数据的数据流标识,对所述待管理数据进行多流融合。数据流标识可以是业务标识等,不同业务的业务源数据存储在不同业务对应的缓存中,这样可以分业务进行数据的多流融合。
步骤S230:对所述第一数据进行数据补全处理,得到第二数据。
在本申请中,某些数据缺少某属性下的属性值,针对此类属性值的缺失,本申请进行数据补全处理。
在一种实施例中,所述对所述第一数据进行数据补全处理,得到第二数据的步骤,包括:根据所述第一数据,获取各属性对应的所有属性值的分布频率;根据所述各属性对应的所有属性值的分布频率,对所述第一数据中缺失属性值的待补全属性进行数据补全,得到所述第二数据。
在一种实施例中,所述对所述第一数据中缺失属性值的待补全属性进行数据补全的步骤,包括:获取所述待补全属性的所有属性值;将分布频率满足预设条件的属性值,确定为所述待补全属性的属性值。
具体的,利用分析程序进行一系列的数据挖掘,把每个属性进行值统计,统计其值的分布状态和频率,对缺失值属性的所有遗漏的值均利用出现频率最高的那个值来填补,即可根据所需字段进行内容补全。
步骤S240:对所述第二数据进行数据质量分析,得到所述第二数据的数据质量。
在本申请中,数据质量是指数据清洗、去重以及补全之后数据的质量。
在一种实施例中,所述对所述第二数据进行数据质量分析的步骤,包括:获取各质量参数的权重;获取所述第二数据的各所述质量参数的参数值;根据各质量参数的权重、补偿参数、干预参数以及所述质量参数的参数值,确定所述第二数据的数据质量。所述质量参数包括可信参数和可用参数,所述可信参数包括精确性、完整性、一致性、有效性以及唯一性中的至少一种,所述可用参数包括时间性及稳定性中的至少一种。
步骤S250:根据所述第二数据的数据质量,对所述第二数据进行管理。
在本申请中,若数据质量不佳,可以重新进行数据清洗等操作,执行数据质量满足后续分析需求,进行数据固化存储。
综上,本实施例在进行数据处理时,根据数据的时效类型,从数据源获取业务源数据作为待管理数据,对所述待管理数据进行数据清洗处理得到第一数据,对所述第一数据进行数据补全处理得到第二数据,对所述第二数据进行数据质量分析得到所述第二数据的数据质量,根据所述第二数据的数据质量对所述第二数据进行管理。在该技术方案中,对所述待管理数据进行数据清洗处理,得到第一数据,然后对所述第一数据进行数据补全处理,得到第二数据,即在本申请中针对去重等清洗之后的数据,进行了数据补全,而不是针对存在缺失值的属性直接删除,缓解了当前数据管理方式存在的针对存在缺失值的属性直接删除所导致的大量数据丢失的技术问题。
现结合具体场景对本申请进行详细的说明。
在本场景中,以应用于重载铁路货车智能在线修的分布式数据清洗方法及系统作为本申请提供的数据管理方式为例进行说明。
在实际应用中,随着互联网技术的不断发展,企业在数据产生和挖掘的过程中,数据量呈大幅度的增长。在增长的过程中,数据量的叠加造成了大量数据的重复,存在许多垃圾数据或者无用的数据;另外,数据中不完整的信息需要补全。为了降低逐步叠加的业务需求、提高效率以及响应速度,需要根据不同的业务方向和类型,从现有的大数据量中清洗出符合要求的数据。
在实现本场景所需要的在线修过程中,增强信息采集、录入卡控操作,大力开展数据清洗工作,及时发现并解决数据质量问题。识别并删除重复数据,补充缺失值,光滑噪声数据,确保数据的唯一性、准确性、完整性,从而保障重载铁路货车智能在线修系统业务的高效开展;应用于重载铁路货车智能在线修的分布式数据清洗方法及系统,对于企业来说迫在眉睫。
目前数据管理方法至少存在以下问题:
缺点1:在数据清洗的过程中,对于数据中存在大量缺失值的属性,在通常的处理方法就是直接删除,在通常的ETL(抽取-转换-加载)处理过程中,对于大数据量的缺失值不能直接处理;最为重要的是有些重要的业务数据也会存在少量的缺失值,对于这些特殊场景直接删除数据的措施是不能满足实际业务的。
缺点2:在数据清洗之后,数据是否清洗的正确,需要对数据质量进行评估,即对数据的精确性、完整性、一致性、有效性、唯一性等指标进行评估。然而,数据质量的评估过程是一种通过测量和改善数据综合特征来优化数据价值的过程。数据质量的评估指标和方法研究是整个评估过程的难点也是重点。
缺点3:数据清洗过程,又分为离线数据清理和实时数据清理。对于离线数据处理,由于数据量巨大,在设计分布式数据清洗系统或者方法的时候,在根据键值做匹配连接的时候往往会导致内存压力大、处理速度慢的后果,从而影响程序的性能。对于实时数据清洗,由于通过采集模块采集到的数据是实时传送给spark streaming进行处理的,sparkstreaming任务在提交以后必须持续等待,直到接收到该时间段采集到的所有数据才会进行下一步的处理,这样就导致系统运行效率严重降低。
针对以上问题,本实施例公开了一种应用于重载铁路货车智能在线修的分布式数据清洗方法及系统可以应用于重载铁路货车智能在线修数据处理技术领域。
如图4所示,本场景提供的数据管理系统包括数据源420与数据清洗平台410;数据清洗平台410又包括数据检测模块411、数据清洗分析模块412、数据联机分析服务模块413、数据清洗规则算法模块414、数据仓库模块415等模块;其中:
数据源模块420是指与HCCBM数据中心交互、获取在线修作业开展所需的车列、车辆等业务数据,该业务数据包括各种数据源,有离线数据和实时数据等等;
数据检测模块411包括缺失值检测、错误检测等;
数据清洗分析412模块包括清洗规则、清洗算法等;
数据联机分析服务模块413包括数字立方、行列转换等;
数据清洗规则算法模块414包括自动推理机、支持向量机等;
数据仓库模块415是通过数据抽取到缓存层,经过数据抽取-加载-转换等过程,经过清洗之后的数据根据不同业务场景去汇总到数据仓库模块的各层。
在本场景中,如图5所示,数据清洗方法包括:配置清洗规则、设置清洗算法、配置数据清洗后的存储方式、配置清洗程序的Spark集群服务器资源、执行数据检测程序、执行数据联机分析服务、部署清洗程序任务以及执行数据质量评估程序。本场景提供的方法具有压缩数据存储,减小数据存储容量、提升数据质量,提高检索准确度和检索速度、降低web展示端响应时间、以及满足不同业务需要的优点。
针对本场景提供的分布式数据清洗,现分两个方向进行阐述:方向1、按照执行步骤来说明技术特性,方向2、按照时效性分离线数据清洗和实时数据清洗来阐述技术要旨。
针对方向1,按执行步骤来讲,本场景提供的方法包括以下步骤。
第一步:实现方式如图6所示,分布式数据清洗把数据抽取到HDFS或者Hive数据库中。之后,根据不同业务的清洗规则去进行个性化配置,其中清洗规则包括单表清洗规则和多表清洗规则;单表清洗规则包括:配置单表中去除重复数据所依据的字段、配置单表中补全内容所依据的字段、配置单表中用于判断垃圾数据所依据的字段等;多表关联清洗规则包括:配置多表中进行关联所依据的字段、配置多表中对关联后的数据进行筛选的条件和/或配置多表中关联后的所需数据的字段。
第二步:搭配清洗算法,比如自动清理、自动清洗规则、主动推理等。根据业务数据的用途,配置经过清洗后数据的存储方式,可选中HDFS、Hive或Hbase等。如图7所示,本步骤涉及的关键程序为:systemServiceImpl.start(analysisMap,analysisMap,dbMap)执行该程序前需要获取其三个参数,第一个参数是清洗规则参数,可以通过方法analysisAlgorithmServiceImpl.setClearRule()获取,而且还可以根据该方法设置自定义清洗规则;第二个参数是清洗算法,也可以通过自定义或者自动生成,可通过autoAlgorithmServiceImpl.setAlgorithm()该方法实现;第三个参数是数据存储方法选择,可通过dbServiceImpl.setDbType()完成。
第三步:根据系统所需资源,配置Spark集群服务器资源,其中包括服务器的内存大小、清洗程序对应的分片大小、服务器的最大CHJ核数和/或清洗程序的日志目录。
第四步:根据业务需要,结合配置的清洗规则和清洗算法,利用大数据集群的资源、spark集群的性能,执行数据检测程序对重复数据、垃圾数据进行去重和删除操作,执行数据联机分析程序,可利用分析程序一系列的数据挖掘,把每个属性进行值统计,统计其值的分布状态和频率,对缺失值属性的所有遗漏的值均利用出现频率最高的那个值来填补,即可根据所需字段进行内容补全。
其中,如图8所示,关键方法为:analysisAlgorithm.compute(parms,compenParms,autoAlgorithmList)可以通过该方法启动自动分析程序,获取属性值的挖掘,调用该方法前需要获取其参数,其中,第一个参数是属性值参数,可通过调用analysisAlgorithmServiceImpl.listByName()获取;其次,第二个参数是补偿因子参数,可通过compensationAlgorithmServiceImpl.listByName()获取;第三个参数是自动分析算法的列表,可通过autoAlgorithmServiceImpl.list()获取自动分析算法。
第五步:如图9所示,先进行一系列的数据预处理,部署数据清洗服务,把清洗好的数据分别存储在HDFS、Hive或Hbase中,在预处理过程用可以通过多类型输入进行多流融合,数据过滤和数据转换清洗等流程。
第六步:根据数据质量的含义、内容、分类、分级的评估指标制定数据的精确性、完整性、一致性、有效性、唯一性等权重,执行数据质量评估程序,分析出数据清洗后的数据质量。其中,如图10所示,关键程序为:qualityAssessment.start(mode,parms,assessmentParms,offlines),该程序即可启动质量分析程序,启动该程序之前需要获取其四个参数,第一个参数是数据清洗质量评估模型,可根据系统预定义选择;第二个参数是数据的精确性、完整性、一致性、有效性、唯一性等权重,可通过qualityAssessmentServiceImpl.listByMode()获取;第三个参数是补偿因子,可通过compensationAssessmentServiceImpl.listByName()获取;第四个参数是人工干预参数,可通过qualityAssessmentServiceImpl.listByOffline()获取。
方向2:按数据的时效性来讲,数据清洗包括离线数据的清洗和实时数据的清洗,如下分别阐述其技术实现过程。
如图11所示,针对离线数据的清洗,主要是T+1的模式,简单来讲,取昨天的数据来清洗、处理以达到目的。利用Spark取离线的业务数据到HDFS,搭配清洗规则和清洗算法,执行数据清洗程序,把清洗好的数据存储到关系型数据库或者HBase中。
如图12所示,实时数据的清洗,取实时的结构化数据、半结构数据或者非结构化数据,采取Spark Streaming流处理技术,通过从Kafka中按照时间窗口不断提取数据,简单来讲就是按照设定的时间间隔从持续的Kafka分布式消息队列中获取实时数据,每次累计获取设定时间段以内的数据,按照数据清洗规则、清洗算法等,完成数据的比对、统计和异常处理。
即,在本场景提供的数据管理方法中:
可以在部署数据清洗服务之前的一系列预处理操作,比如:配置清洗规则、设置清洗算法、配置数据清洗后的存储方式、配置清洗程序的Spark集群服务器资源、执行数据检测程序、执行数据联机分析服务等。
可以执行数据检测程序和数据联机分析服务,一系列的数据挖掘,把每个属性进行值统计,统计其值的分布状态和频率,对缺失值属性的所有遗漏的值均利用出现频率最高的那个值来填补。
可以进行数据质量评估程序,根据数据质量的含义、内容、分类、分级的评估指标制定数据的精确性、完整性、一致性、有效性、唯一性等权重,执行数据质量评估程序,分析出数据清洗后的数据质量。
可以针对离线数据清洗和实时数据清洗执行不同的策略:实时数据清洗采用Spark Streaming流处理技术,利用Kafka提供数据缓存,从Kafka中按照时间窗口不断提取数据,按照数据清洗规则,完成数据的比对、统计和异常处理,提高程序性能及稳定性。
综上对比可知,本场景提供的方法具备以下效果:
针对缺点1中在通常的ETL(抽取-转换-加载)处理过程中,对于大数据量的缺失值不能直接处理;本场景可以通过对各种脏数据进行对应方式的预处理,得到标准的、干净的、连续的、所需的数据以进行数据统计、数据挖掘等使用,这样做的不仅减轻大量的服务器资源,而且也会大大提高服务器的响应速;。对于重要数据的缺失值的场景,可通过一系列的数据挖掘,把每个属性进行值统计,统计其值的分布状态和频率,对缺失值属性的所有遗漏的值均利用出现频率最高的那个值来填补。
针对缺点2中数据质量的评估,本场景可通过数据质量的含义、内容、分类、分级的评估指标等方面进行评估。另外,数据质量评估至少应该包含以下两方面的基本评估指标:其一,数据对用户必须是可信的。可信性包括精确性、完整性、一致性、有效性、唯一性等指标。具体如下:
精确性:描述数据是否与其对应的客观实体的特征相一致。
完整性:描述数据是否存在缺失记录或缺失字段。
一致性:描述同一实体的同一属性的值在不同的系统是否一致。
有效性:描述数据是否满足用户定义的条件或者在一定的域值范围内。
唯一性:描述数据是否存在重复记录。
其二,数据对用户必须是可用的。可用性包括时间性、稳定性等指标。具有如下:
时间性:描述数据是当前数据还是历史数据。
稳定性:描述数据是否是稳定的,是否在数据的有效期内。
针对缺点3中性能问题,本场景针对离线数据清洗,对于离线的批量累积数据,采用Spark内存处理技术,从HDFS中读取数据,按照数据清洗规则,对数据进行比对、统计和异常处理,通过对比对算法的优化,可提高程序的性能和数据清洗结果的准确性。本场景针对实时数据清洗,采用Spark Streaming流处理技术,利用Kafka提供数据缓存,从Kafka中按照时间窗口不断提取数据,按照数据清洗规则,完成数据的比对、统计和异常处理,提高程序性能及稳定性。
实施例三
图3为本申请实施例提供的数据管理装置的结构示意图,请参阅图3,本实施例提供的数据管理装置包括:
获取模块310,用于根据数据的时效类型,从数据源获取业务源数据作为待管理数据;
清洗模块320,用于对所述待管理数据进行数据清洗处理,得到第一数据;
补偿模块330,用于对所述第一数据进行数据补全处理,得到第二数据;
分析模块340,用于对所述第二数据进行数据质量分析,得到所述第二数据的数据质量;
管理模块350,用于根据所述第二数据的数据质量,对所述第二数据进行管理。
基于上述各模块执行数据传输方法的具体实施例已在实施例二中详述,此处不再赘述。
实施例四
本实施例提供一种电子设备,该电子设备可以是手机、电脑或平板电脑等作为本申请中的分析服务器,包括存储器和处理器,所述存储器上存储有计算器程序,该计算机程序被处理器执行时实现如实施例二中所述的数据管理方法。可以理解,电子设备还可以包括,输入/输出(I/O)接口,以及通信组件。
其中,处理器用于执行如实施例二中的数据管理方法中的全部或部分步骤。存储器用于存储各种类型的数据,这些数据例如可以包括终端设备中的任何应用程序或方法的指令,以及应用程序相关的数据。
所述处理器可以是专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable LogicDevice,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例二中的数据管理方法。
所述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
实施例五
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时可以实现如下方法步骤:
根据数据的时效类型,从数据源获取业务源数据作为待管理数据;
对所述待管理数据进行数据清洗处理,得到第一数据;
对所述第一数据进行数据补全处理,得到第二数据;
对所述第二数据进行数据质量分析,得到所述第二数据的数据质量;
根据所述第二数据的数据质量,对所述第二数据进行管理。
上述方法步骤的具体实施例过程可参见实施例二,本实施例在此不再重复赘述。
综上,本申请提供一种数据管理方法、装置及电子设备,所述方法在进行数据处理时,根据数据的时效类型,从数据源获取业务源数据作为待管理数据,对所述待管理数据进行数据清洗处理得到第一数据,对所述第一数据进行数据补全处理得到第二数据,对所述第二数据进行数据质量分析得到所述第二数据的数据质量,根据所述第二数据的数据质量对所述第二数据进行管理。在该技术方案中,对所述待管理数据进行数据清洗处理,得到第一数据,然后对所述第一数据进行数据补全处理,得到第二数据,即在本申请中针对去重等清洗之后的数据,进行了数据补全,而不是针对存在缺失值的属性直接删除,缓解了当前数据管理方式存在的针对存在缺失值的属性直接删除所导致的大量数据丢失的技术问题。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然本申请所揭露的实施方式如上,但所述的内容只是为了便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属技术领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (10)

1.一种数据管理方法,其特征在于,所述方法包括:
根据数据的时效类型,从数据源获取业务源数据作为待管理数据;
对所述待管理数据进行数据清洗处理,得到第一数据;
对所述第一数据进行数据补全处理,得到第二数据;
对所述第二数据进行数据质量分析,得到所述第二数据的数据质量;
根据所述第二数据的数据质量,对所述第二数据进行管理。
2.根据权利要求1所述的方法,其特征在于,在所述时效类型为实时数据时,所述从数据源获取业务源数据作为待管理数据的步骤,包括:
获取预设的时间间隔;
按照所述时间间隔,采用Spark Streaming流处理方式从Kafka分布式消息队列中获取实时的业务源数据作为所述待管理数据。
3.根据权利要求1所述的方法,其特征在于,在所述时效类型为离线数据时,所述从数据源获取业务源数据作为待管理数据的步骤,包括:
采用Spark内存处理方式从数据库中获取业务源数据作为所述待管理数据。
4.根据权利要求1所述的方法,其特征在于,所述对所述第一数据进行数据补全处理,得到第二数据的步骤,包括:
根据所述第一数据,获取各属性对应的所有属性值的分布频率;
根据所述各属性对应的所有属性值的分布频率,对所述第一数据中缺失属性值的待补全属性进行数据补全,得到所述第二数据。
5.根据权利要求4所述的方法,其特征在于,所述对所述第一数据中缺失属性值的待补全属性进行数据补全的步骤,包括:
获取所述待补全属性的所有属性值;
将分布频率满足预设条件的属性值,确定为所述待补全属性的属性值。
6.根据权利要求1所述的方法,其特征在于,在所述对所述待管理数据进行数据清洗处理的步骤之前,还包括:
根据所述待管理数据的业务类型,确定所述待管理数据的数据流标识;
根据所述待管理数据的数据流标识,对所述待管理数据进行多流融合。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述对所述第二数据进行数据质量分析的步骤,包括:
获取各质量参数的权重;
获取所述第二数据的各所述质量参数的参数值;
根据各质量参数的权重、补偿参数、干预参数以及所述质量参数的参数值,确定所述第二数据的数据质量。
8.根据权利要求7所述的方法,其特征在于,所述质量参数包括可信参数和可用参数,所述可信参数包括精确性、完整性、一致性、有效性以及唯一性中的至少一种,所述可用参数包括时间性及稳定性中的至少一种。
9.一种数据管理装置,其特征在于,所述装置包括:
获取模块,用于根据数据的时效类型,从数据源获取业务源数据作为待管理数据;
清洗模块,用于对所述待管理数据进行数据清洗处理,得到第一数据;
补偿模块,用于对所述第一数据进行数据补全处理,得到第二数据;
分析模块,用于对所述第二数据进行数据质量分析,得到所述第二数据的数据质量;
管理模块,用于根据所述第二数据的数据质量,对所述第二数据进行管理。
10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1至8中任一项所述的方法。
CN202211701470.1A 2022-12-28 2022-12-28 数据管理方法、装置及电子设备 Pending CN116166647A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211701470.1A CN116166647A (zh) 2022-12-28 2022-12-28 数据管理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211701470.1A CN116166647A (zh) 2022-12-28 2022-12-28 数据管理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN116166647A true CN116166647A (zh) 2023-05-26

Family

ID=86419258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211701470.1A Pending CN116166647A (zh) 2022-12-28 2022-12-28 数据管理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN116166647A (zh)

Similar Documents

Publication Publication Date Title
CN110839016B (zh) 异常流量监测方法、装置、设备及存储介质
CN105824744B (zh) 一种基于b2b平台的实时日志采集分析方法
CN111782707B (zh) 一种数据查询方法及系统
CN109299115A (zh) 一种数据存储方法、装置、服务器及存储介质
CN111400288A (zh) 数据质量检查方法及系统
CN112231296B (zh) 一种分布式日志处理方法、装置、系统、设备及介质
CN110109906B (zh) 数据存储系统及方法
CN111881092B (zh) 一种基于cassandra数据库的文件合并的方法和装置
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN114528231A (zh) 一种数据动态存储方法、装置、电子设备及存储介质
CN111488377A (zh) 数据查询方法、装置、电子设备及存储介质
CN115622867A (zh) 一种工控系统安全事件预警分类方法及系统
CN109165207B (zh) 基于Hadoop的饮用水海量数据存储管理方法和系统
CN111913937B (zh) 数据库运维方法和装置
CN118069712A (zh) 数据生命周期管理方法、装置、电子设备及存储介质
CN116303628B (zh) 基于Elasticsearch的告警数据查询方法、系统及设备
CN116166647A (zh) 数据管理方法、装置及电子设备
CN115269519A (zh) 一种日志检测方法、装置及电子设备
CN110955760A (zh) 判决结果的评价方法和相关装置
CN116820323A (zh) 数据存储方法、装置、电子设备及计算机可读存储介质
CN113821166A (zh) 一种聚合多版本小对象的方法、装置及设备
CN116028572A (zh) 通信业务数据的处理方法、装置和计算机存储介质
CN113220992A (zh) 一种信息流内容推荐方法、系统及介质
CN110750217A (zh) 一种信息管理方法及相关装置
CN115658626B (zh) 一种分布式网络小文件存储管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination