CN107092637B - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN107092637B
CN107092637B CN201710083684.XA CN201710083684A CN107092637B CN 107092637 B CN107092637 B CN 107092637B CN 201710083684 A CN201710083684 A CN 201710083684A CN 107092637 B CN107092637 B CN 107092637B
Authority
CN
China
Prior art keywords
data
abnormal
calibration
item
calibration data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710083684.XA
Other languages
English (en)
Other versions
CN107092637A (zh
Inventor
龚廖安
马超
金振
陈泽平
杨富栋
杜洪先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingxuan Technology Co Ltd
Original Assignee
Beijing Xingxuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xingxuan Technology Co Ltd filed Critical Beijing Xingxuan Technology Co Ltd
Priority to CN201710083684.XA priority Critical patent/CN107092637B/zh
Publication of CN107092637A publication Critical patent/CN107092637A/zh
Application granted granted Critical
Publication of CN107092637B publication Critical patent/CN107092637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据处理方法及装置。其中,方法包括如下的步骤:获取未被作为业务关注数据存入数据库的异常数据;获取所述异常数据对应的标定数据;根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全。采用本发明实施例提供的技术方案,避免了现有技术中存在的补全后数据虚高的问题,使得补全后的异常数据更接近实际数据,提高了作为大数据基础的数据稳定性和准确性,有助于提高基于大数据分析的结果准确性。

Description

数据处理方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着线上到线下(Online To Offline)O2O行业的发展,O2O平台间的竞争越来越激烈。如何从网络侧获取准确的数据已变得越来越重要。但网络抓取数据存在诸多不确定因素,比如:网络抖动、网络延迟、网络页面调整、返回异常数据等都会导致数据的剧烈波动,出现数据缺失和数据异常的情况,从而影响数据获取的准确性。
为了避免这种问题,需要对抓取的数据进行补全处理。现有的数据补全策略有如下几种:一、根据数据的连续性或贝叶斯概率进行数据补全;二、对异常数据用均值替换;三、对异常数据进行二次抓取。
发明内容
分别采用上述各策略进行数据补全,发明人发现:策略一的算法实现较为复杂,计算效率低,开发成本高;策略二,使用均值来替换,补全的数据准确性不高;策略三,专门针对异常数据进行补抓,时间成本和经济成本较高。此外,若在餐饮外卖类O2O平台上使用上述各策略对异常数据进行补全发现,补全后的数据(例如菜品单量)会出现虚高的现象,其主要原因在于上述各策略均未考虑菜品单量自然下降的情况。可见,现有补全技术并不适用于外卖类应用场景。
于是,在本发明的一个实施例中,提供了一种数据处理方法。该方法包括:获取未被作为业务关注数据存入数据库的异常数据;获取所述异常数据对应的标定数据;根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全。
可选地,上述获取异常数据,包括:从网络侧获取符合预设业务关注需求的目标数据;若未获取到所述目标数据,则创建缺失数据,并将所述缺失数据标记为异常数据;若获取到所述目标数据,则对所述目标数据进行异常验证,并将未通过异常验证的所述目标数据标记为异常数据。
可选地,对所述目标数据进行异常验证的步骤,包括:获取所述目标数据对应的标定数据;将所述目标数据与所述目标数据对应的标定数据进行比较,得到比较结果;若所述比较结果不满足验证条件,则所述目标数据未通过所述异常验证。
可选地,上述方法还可包括:将所述标定数据更新为通过所述异常验证的所述目标数据。
可选地,所述异常数据中包含有用于区别数据所属对象的属性信息;以及所述获取异常数据对应的标定数据,包括:根据所述异常数据中包含的属性信息,查找具有相同属性信息的所述标定数据。
可选地,上述的方法还包括:获预设时间段内具有相同属性信息的历史数据;选取所述历史数据中的数据项作为所述标定数据;将所述数据项的生成时间记为所述标定数据的生成时间。
可选地,选取所述历史数据中的数据项作为所述标定数据,包括:
查找所述历史数据中数值最大的数据项,作为第一数据项;
按照预设的遍历策略,遍历所述历史数据中的数据项;
若遍历到的数据项相较所述第一数据项降幅未超过阈值,则将所述第一数据项更新为所述遍历到的数据项;
若遍历到的数据项相较所述第一数据项降幅超过所述阈值,则维持所述第一数据项不变;
继续遍历数据项直至满足终止条件为止,并将遍历结束时得到的所述第一数据项作为所述标定数据。
可选地,上述根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全,包括:根据所述异常数据的生成时间以及所述标定数据的生成时间,确定所述异常数据在生成时间上与所述标定数据的时差;根据所述标定数据,确定所述异常数据在数值上与所述标定数据的差值;基于所述时差、所述差值及所述异常数据,计算得到补全后的所述异常数据。
在本发明的另一实施例中,提供了一种数据处理装置。该装置包括:第一获取模块,用于获取未被作为业务关注数据存入数据库的异常数据;第二获取模块,用于获取所述异常数据对应的标定数据;处理模块,用于根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全。
在一种可能的设计中,数据处理装置的结构中包含处理器和存储器,所述存储器用于存储支持所述数据处理装置执行上述数据处理方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述数据处理装置还可以包括通讯接口,用于实现所述数据处理装置与其他设备或通信网络通信。
在本发明的又一实施例中,提供了一种计算机存储介质,用于存储数据处理装置所用的计算机软件指令,其包含于执行上述数据处理方法为数据处理装置所涉及的程序。
本实施例提供的技术方案考虑了特定应用场景下同一数据具有时间上的连续性特征,通过异常数据的生成时间、标定数据的生成时间以及标定数据,对异常数据进行补全处理,从而避免了现有技术中存在的补全后数据虚高的问题,使得补全后的异常数据更接近实际数据,提高了作为大数据基础的数据稳定性和准确性,有助于提高基于大数据分析的结果准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的数据处理方法的流程示意图;
图2为本发明另一实施例提供的数据处理方法的流程示意图;
图3为本发明又一实施例提供的数据处理方法的流程示意图;
图4为本发明一实施例提供的数据处理装置的结构框图;
图5为本发明又一实施例提供的数据处理装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书、权利要求书及上述附图中描述的一些流程中,包含了按照特定顺序出现的多个操作,这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等,仅仅是用于区分各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例提供的数据处理方法的流程示意图。如图1所示,该方法包括:
101、获取未被作为业务关注数据存入数据库的异常数据。
102、获取异常数据对应的标定数据。
103、根据标定数据,异常数据的生成时间以及标定数据的生成时间,对异常数据进行补全。
上述101中,异常数据可以是缺失数据、取值明显存在异常的数据等等。通常情况下,从网络侧获取数据采用网络爬虫来实现。网络爬虫根据预先设定好的任务,从网络侧爬取任务所指示的目标数据。缺失数据就是指未从网络侧获取到任务所指示的目标数据。而取值明显存在异常的数据是指获取到的目标数据的数值较历史数据有超出允许范围的降低或上浮。这里提到的允许范围可人为设定,本发明实施例对此不作具体限定。网络爬虫基于业务需求从网络侧爬取业务关注的数据,对于那些准确数据会作为业务关注数据直接入数据库,而对于异常数据则需要后续的补全处理后才能被存入数据库。不同的应用场景下,业务关注的数据是不同的。例如,对于外卖类应用场景下,业务关注的数据可以是商户的菜品价格、菜品销售量、单量、商户信息等等。
在一种可实现的方案中,上述101中获取异常数据的过程可采用如下方法实现:从网络侧获取符合预设业务关注需求的目标数据;若未获取到目标数据(即漏爬目标数据),则创建缺失数据,并将缺失数据标记为异常数据;若获取到目标数据,则对目标数据进行异常验证,并将未通过异常验证的目标数据标记为异常数据。不同的应用场景下,上述预设的业务关注需求是不同的。例如,对于外卖类应用场景下,业务关注需求是获取商户在其他平台上的菜品价格、菜品销售量、单量、商户信息等等。上述预设业务关注需求可以在网络爬虫的爬取策略中体现,即基于业务关注需求配置爬取策略以使网络爬虫能从网络侧获取到符合预设业务关注需求的目标数据。
通常情况下,数据爬取和数据补全是两个不同的处理过程。数据爬取是网络爬虫依据设定的任务从网络侧爬取任务指定的数据,然后将爬取到的数据进行存储。数据补全的过程是查缺补漏,修正错误数据等等。存储有爬取数据的数据库中,缺失的数据是不存在的,因此需要进行查缺的处理过程。通过查缺过程找到缺失的数据后,为了能够在后续进行补全,需创建一个缺失数据,该缺失数据的取值可以是0或其他默认数值。
异常验证过程可以理解为判定目标数据相对于历史数据来说是否有超出允许范围的降低或上浮。例如,目标数据与历史数据相比降低了80%;或者目标数据与历史数据相比涨幅了80%,这种超出允许范围的降低或上浮即可判定为异常。其中,历史数据可以是历史上某一时刻的数据,或者是历史上某一时段内的数据。当所述历史数据为历史上某一时段内的数据时,需根据历史上某一时段内的数据,确定出一个作为判定依据的参照数据。在确定过程中可选择历史上某一时段内的数据中取值最大的数据作为参照数据,或者可选择历史上某一时段内的数据的平均值作为参照数据等等,具体实现时可根据需求来确定,本发明实施例对此不作具体限定。或者,直接采用标定数据来判定目标数据是否异常。例如,通过判定目标数据相对于目标数据对应的标定数据是否有超出允许范围的降低或上浮,来验证目标数据是否异常。
在一种可实现的方案中,对目标数据进行异常验证的过程如下:
获取目标数据对应的标定数据;
将目标数据与目标数据对应的标定数据进行比较,得到比较结果;
若比较结果不满足验证条件(例如降低超过阈值),则目标数据未通过异常验证。
上述102中,标定数据可以是预先设置好的数据;或者是根据历史数据得到的。对于具有不同属性信息的数据,其对应的标定数据也可能是不同的。其中,从网络侧获取到的每一个目标数据具有各自的属性信息,用于区别其自身所属对象。例如,在外卖类应用场景中,单量数据的属性信息可以是商家A的菜品1的标识信息。
举例来说,每天从网络侧获取商家A的菜品1的单量。若当日未获取到该商家A的菜品1的单量,或者是获取到该商家A的菜品1的单量但未通过异常验证,则对该商家A的菜品1的当日单量进行补全,需基于与该商家A的菜品1的单量匹配,对应的标定数据。若所有数据均采用同一标定数据,势必会降低数据补全后与实际数据的接近程度。即在一种可实现的方式中,异常数据中包含有用于区别数据所属对象的属性信息。同样的,标定数据也包含有用于区别数据所属对象的属性信息。因此,获取异常数据对应的标定数据,包括:根据异常数据中包含的属性信息,查找具有相同属性信息的标定数据。
上述103中,针对缺失数据来说,异常数据的生成时间可以理解为缺失数据的创建时间;针对爬取到的数据来说,异常数据的生成时间可理解为从网络侧爬取到该异常数据的爬取时间。若标定数据是从历史数据中选出的,则标定数据的生成时间为其从网络侧爬取到的爬取时间。在一种可实现的方案中,上述103中根据标定数据,异常数据的生成时间以及标定数据的生成时间,对异常数据进行补全,可采用如下方法实现:
S1、根据异常数据的生成时间以及标定数据的生成时间,确定异常数据在生成时间上与标定数据的时差;
S2、根据标定数据,确定异常数据在数值上与标定数据的差值;
S3、基于时差、差值及异常数据,计算得到补全后的异常数据。
进一步的,上述过程可表征为如下的计算公式:
Figure BDA0001226681800000071
其中,n为异常数据在生成时间上与标定数据的时差;该时差的单位可以是“天”;n的最大值可以为30天、60天或90天等等;Sm为标定数据;S'n为补全后的异常数据;Sn为异常数据。
本实施例提供的技术方案考虑了特定应用场景下同一数据具有时间上的连续性特征,通过异常数据的生成时间、标定数据的生成时间以及标定数据,对异常数据进行补全处理,从而避免了现有技术中存在的补全后数据虚高的问题,使得补全后的异常数据更接近实际数据,提高了作为大数据基础的数据稳定性和准确性,有助于提高基于大数据分析的结果准确性。
图2示出了本发明另一实施例提供的数据处理方法的流程示意图。如图2所示,所述方法包括:
201、基于历史数据,确定标定数据。
202、获取未被作为业务关注数据存入数据库的异常数据。
203、根据异常数据的生成时间以及标定数据的生成时间,确定异常数据在生成时间上与标定数据的时差。
204、根据标定数据,确定异常数据在数值上与标定数据的差值。
205、基于时差、差值及异常数据,计算得到补全后的异常数据。
有关上述202~205可参见上述实施例中的相应内容,此处不再赘述。
异常数据中包含有用于区别数据所属对象的属性信息。例如,在外卖类应用场景中,属性信息可以是该异常数据所属商户的某一菜品的标识信息。即异常数据为商户A的菜品1的单量,其对应的属性信息为商户A的菜品1的标识信息。由此可知,用于补全所述异常数据的标定数据,需具有与异常数据相同的属性信息。在确定标定数据时,也需基于具有相同属性信息的历史数据。例如,数据(商户A的菜品1的单量)对应的标定数据的确定,需基于商户A在历史的一段时段内菜品1的单量记录来确定。如下标定数据的确定均是以此为前提实现的。即上述201可采用如下方法实现:获取预设时间段内具有相同属性信息的历史数据;选取所述历史数据中的数据项作为所述标定数据;将所述数据项的生成时间记为所述标定数据的生成时间。
上述203中,如何从历史数据中选定标定数据可采用如下几种方式实现。
第一种方式:直接选取历史数据中数值最大、最小或处于中间值的数据项作为标定数据。
第二种方式:查找所述历史数据中数值最大的数据项,作为第一数据项;按照预设的遍历策略,遍历所述异常数据对应的历史数据中的数据项;若遍历到的数据项相较所述第一数据项降幅未超过阈值,则将所述第一数据项更新为所述遍历到的数据项;若遍历到的数据项相较所述第一数据项降幅超过所述阈值,则维持所述第一数据项不变;继续遍历数据项直至满足终止条件为止,并将遍历结束时得到的所述第一数据项作为所述标定数据。
上述第二种方式中,预设的遍历策略可以是从数值最大的数据项开始,按照时间顺序遍历历史数据中晚于数值最大数据项的每个数据项(例如每天的数据项)。上述提到的终止条件可以是遍历到历史数据中最后一个数据项。即上述第二种方式可具体为:选取异常数据对应的历史数据中数值最大的数据项,作为第一数据项;从数值最大的数据项开始,按照时间顺序遍历历史数据中晚于数值最大数据项的每个数据项(例如每天的数据项),如果遍历到的数据项在数值上较第一数据项的降幅没有超过阈值(例如80%),则第一数据项更新为遍历到的数据项,如果遍历到的数据项在数值上较第一数据项的降幅超过阈值(例如80%),则第一数据项保持不变;按照此算法一直遍历到历史数据中最后一个数据项为止;此时得到的第一数据项作为标定数据。
为了便于理解,下面结合一具体实例对上述第二种方式进行进一步的说明。
假设异常数据对应的历史数据中包含有5个数据项分别为{2017-1-1:100、2017-1-2:120、2017-1-3:20、2017-1-4:90、2017-1-5:88}。其中,2017-1-*为数据项的生成时间;{100、120、20、90、88}为各数据项。
首先,从历史数据{100、120、20、90、88}中选出数值最大的120作为第一数据项。
然后,从数值最大的数据项开始,按照时间顺序遍历历史数据中晚于120的每个数据项。
20相较120的降幅为83.3%,该降幅超过80%(阈值),则第一数据项仍保持为120;
继续遍历下一个数据项90,90相较120的降幅为25%,该降幅未超过80%(阈值),则第一数据项更新为90;
继续遍历下一个数据项88,88相较90的降幅为2%,该降幅未超过80%(阈值),则第一数据项更新为88。
88为历史数据中的最后一个数据,将此时得到的第一数据项88作为标定数据。
上述标定数据的确定方法可以是在首次确定的时候采用,在标定数据确定后可采用更新的方式不断的调整。例如,在标定数据确定后,将最近爬取到的目标数据与标定数据进行比较,如果数值降低没有超过阈值(例如80%),则将标定数据更新为最新爬取到的目标数据;如果数值降低超过阈值(例如80%),则将标定数据保持不变。
但在实际应用中还可能出现如下情况:标定数据有很长一段时间没有进行更新。例如,超过30天或更长没有更新。此种情况下,该标定数据即失效,需清除。标定数据失效后,就需采用上述方法再次进行标定数据的确定,即再次根据历史数据,确定标定数据。
上述204中,数据项的生成时间即该数据项被爬取到的爬取时间。
本实施例提供了一种在获取到异常数据后,根据异常数据对应的历史数据来确定标定数据,再根据标定数据以及标定数据和异常数据的生成时间对异常数据进行补全的技术方案,该技术方案同样考虑了特定应用场景下同一数据具有时间上的连续性特征,通过异常数据的生成时间、标定数据的生成时间以及标定数据,对异常数据进行补全处理,从而避免了现有技术中存在的补全后数据虚高的问题,使得补全后的异常数据更接近实际数据,提高了作为大数据基础的数据稳定性和准确性,有助于提高基于大数据分析的结果准确性。
图3示出了本发明又一实施例提供的数据处理方法的流程示意图。如图3所示,所述方法包括:
301、根据历史数据,确定具有不同属性信息的标定数据及各标定数据的生成时间。
本步骤的目的就是预先确定好不同属性信息的标定数据,为后续异常数据的补全及标定数据的更新作准备。
302、从网络侧获取符合预设业务关注需求的目标数据。
303、若未获取到所述目标数据,则创建缺失数据,并将所述缺失数据标记为异常数据,进入步骤305;
304、若获取到所述目标数据,则对所述目标数据进行异常验证,验证未通过,进入步骤305;验证通过,进入步骤309;
305、将未通过异常验证的目标数据标记为异常数据。
306、获取异常数据的属性信息。
307、查找与异常数据具有相同属性信息的标定数据。
308、根据查找到的标定数据、所述异常数据的生成时间及标定数据的生成时间,对异常数据进行补全。
309、将与目标数据具有相同属性信息的标定数据更新为目标数据。
310、确定标定数据的生成时间距当前时间的时长。
311、若所述时长超过设定时长,则重新确定标定数据。
上述301~308均可参见上述各实施例中的相应内容,此处不再赘述。
上述309中,当目标数据通过异常验证时,直接将标定数据的取值更新为目标数据的取值。
上述310和311中,设定时长可人为设定,本发明实施例对此不作具体限定。例如,设定时长为10天、20天或30天等等。通过判断所述标定数据的生成时间距离当前时间时长是否超出设定时长,来判断标定数据是否失效。标定数据失效后,需重新确定标定数据。同样的,可基于历史数据来确定标定数据,具体的确定方法可参见上述实施例中的相应内容,此处不再赘述。
本实施例提供的技术方案考虑了标定数据会随着时间发生变化的情况,增加了标定数据更新的步骤,这样有助于提高后续基于标定数据进行数据补全后的数据准确度。
这里需要补充的是:上述实施例中仅提到了当目标数据通过异常验证时,将标定数据更新为目标数据的情况;而当目标数据未通过异常验证时,标定数据保持不变。
需要说明的是:上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤101至步骤103的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103的执行主体可以为设备B;等等。
图4示出了本发明一实施例提供的数据处理装置的结构示意图。如图4所示,所述装置包括:第一获取模块401、第二获取模块402和处理模块403。其中,第一获取模块401用于获取未被作为业务关注数据存入数据库的异常数据;第二获取模块402用于获取所述异常数据对应的标定数据;处理模块403用于根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全。
本实施例提供的技术方案考虑了特定应用场景下同一数据具有时间上的连续性特征,通过异常数据的生成时间、标定数据的生成时间以及标定数据,对异常数据进行补全处理,从而避免了现有技术中存在的补全后数据虚高的问题,使得补全后的异常数据更接近实际数据,提高了作为大数据基础的数据稳定性和准确性,有助于提高基于大数据分析的结果准确性。
进一步的,第一获取模块可采用如下结构实现。具体的,第一获取模块包括:获取单元、创建单元和验证标记单元。其中,获取单元用于从网络侧获取符合预设业务关注需求的目标数据;创建单元用于当获取单元未获取到目标数据时,创建缺失数据,并将缺失数据标记为异常数据;验证标记单元用于当获取单元获取到目标数据时,对目标数据进行异常验证,并将未通过异常验证的目标数据标记为异常数据。
进一步的,验证标记单元,还用于:获取目标数据对应的标定数据;将目标数据与目标数据对应的标定数据进行比较,得到比较结果;若比较结果不满足验证条件,则目标数据未通过异常验证。
进一步的,数据处理装置还可包括:更新模块。其中,更新模块,用于将标定数据更新为通过异常验证的目标数据。
进一步的,数据处理装置还可包括:第一确定模块和第二确定模块。其中,第一确定模块用于确定标定数据的生成时间距当前时间的时长;第二确定模块用于当时长超过设定时长时重新确定标定数据。
进一步的,异常数据中包含有用于区别数据所属对象的属性信息;以及第二获取模块,还用于:根据异常数据中包含的属性信息,查找具有相同属性信息的标定数据。
进一步的,数据处理装置还可包括:第三获取模块、选取模块和标记模块。其中,第三获取模块,用于获取预设时间段内具有相同属性信息的历史数据;选取模块,用于选取历史数据中的数据项作为标定数据;标记模块,用于将数据项的生成时间记为标定数据的生成时间。
进一步的,选取模块,还用于查找历史数据中数值最大的数据项,作为第一数据项;按照预设的遍历策略,遍历历史数据中的数据项;若遍历到的数据项相较所述第一数据项降幅未超过阈值,则将第一数据项更新为遍历到的数据项;若遍历到的数据项相较第一数据项降幅超过阈值,则维持第一数据项不变;继续遍历数据项直至满足终止条件为止,并将遍历结束时得到的第一数据项作为所述数据。
这里需要说明的是:上述第三获取模块、选取模块和标记模块,是在标定数据的首次确定时需要使用的,或者是在标定数据失效后需要使用的。
进一步的,所述处理模块,还用于:
根据所述异常数据的生成时间以及所述标定数据的生成时间,确定所述异常数据在生成时间上与所述标定数据的时差;
根据所述标定数据,确定所述异常数据在数值上与所述标定数据的差值;
基于所述时差、所述差值及所述异常数据,计算得到补全后的所述异常数据。
这里需要说明的是:上述实施例提供的数据处理装置可实现上述各方法实施例中描述的技术方案,上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容,此处不再赘述。
在一个可能的设计中,数据处理装置的结构中包括处理器510和存储器520(如图5所示),所述存储器520用于存储支持数据处理装置执行上述数据处理方法的程序,所述处理器510被配置为用于执行所述存储器520中存储的程序。
所述程序包括一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理器调用执行。
存储器520作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的数据处理方法对应的程序指令/模块(例如,附图4所示的第一获取模块401、第二获取模块402和处理模块403)。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例的数据处理方法。
所述处理器510用于:获取未被作为业务关注数据存入数据库的异常数据;获取所述异常数据对应的标定数据;根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全。
处理器510可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本发明实施例还提供的一种计算机存储介质,用于存储数据处理装置所用的计算机软件指令,其包含用于执行上述方法实施例中的数据处理方法为数据处理装置所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
本发明公开了A1、一种数据处理方法,包括:
获取未被作为业务关注数据存入数据库的异常数据;
获取所述异常数据对应的标定数据;
根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全。
A2、如A1所述的方法,所述获取异常数据,包括:
从网络侧获取符合预设业务关注需求的目标数据;
若未获取到所述目标数据,则创建缺失数据,并将所述缺失数据标记为异常数据;
若获取到所述目标数据,则对所述目标数据进行异常验证,并将未通过异常验证的所述目标数据标记为异常数据。
A3、如A2所述方法,对所述目标数据进行异常验证,包括:
获取所述目标数据对应的标定数据;
将所述目标数据与所述目标数据对应的标定数据进行比较,得到比较结果;
若所述比较结果不满足验证条件,则所述目标数据未通过所述异常验证。
A4、如A2或A3所述的方法,还包括:
将所述标定数据更新为通过所述异常验证的所述目标数据。
A5、如A1至A3中任一项所述的方法,还包括:
确定所述标定数据的生成时间距当前时间的时长;
若所述时长超过设定时长,则重新确定所述标定数据。
A6、如A1至A3中任一项所述的方法,所述异常数据中包含有用于区别数据所属对象的属性信息;以及
所述获取所述异常数据对应的标定数据,包括:
根据所述异常数据中包含的属性信息,查找具有相同属性信息的所述标定数据。
A7、如A1至A3中任一项所述的方法,还包括:
获取预设时间段内具有相同属性信息的历史数据;
选取所述历史数据中的数据项作为所述标定数据;
将所述数据项的生成时间记为所述标定数据的生成时间。
A8、如A7所述的方法,选取所述历史数据中的数据项作为所述标定数据,包括:
查找所述历史数据中数值最大的数据项,作为第一数据项;
按照预设的遍历策略,遍历所述历史数据中的数据项;
若遍历到的数据项相较所述第一数据项降幅未超过阈值,则将所述第一数据项更新为所述遍历到的数据项;
若遍历到的数据项相较所述第一数据项降幅超过所述阈值,则维持所述第一数据项不变;
继续遍历数据项直至满足终止条件为止,并将遍历结束时得到的所述第一数据项作为所述标定数据。
A9、如A1至A3中任一项所述的方法,根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全,包括:
根据所述异常数据的生成时间以及所述标定数据的生成时间,确定所述异常数据在生成时间上与所述标定数据的时差;
根据所述标定数据,确定所述异常数据在数值上与所述标定数据的差值;
基于所述时差、所述差值及所述异常数据,计算得到补全后的所述异常数据。
本发明还公开了B10、一种数据处理装置,包括:
第一获取模块,用于获取未被作为业务关注数据存入数据库的异常数据;
第二获取模块,用于获取所述异常数据对应的标定数据;
处理模块,用于根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全。
B11、如B10所述的装置,所述第一获取模块,包括:
获取单元,用于从网络侧获取符合预设业务关注需求的目标数据;
创建单元,用于当所述获取单元未获取到所述目标数据时,创建缺失数据,并将所述缺失数据标记为异常数据;
验证标记单元,用于当所述获取单元获取到所述目标数据时,对所述目标数据进行异常验证,并将未通过异常验证的所述目标数据标记为异常数据。
B12、如B11所述装置,所述验证标记单元,还用于:
获取所述目标数据对应的标定数据;
将所述目标数据与所述目标数据对应的标定数据进行比较,得到比较结果;
若所述比较结果不满足验证条件,则所述目标数据未通过所述异常验证。
B13、如B11或B12所述的装置,还包括:
更新模块,用于将所述标定数据更新为通过所述异常验证的所述目标数据。
B14、如B10至B12中任一项所述的方法,还包括:
第一确定模块,用于确定所述标定数据的生成时间距当前时间的时长;
第二确定模块,用于当所述时长超过设定时长时,重新确定所述标定数据。
B15、如B10至B12中任一项所述的装置,所述异常数据中包含有用于区别数据所属对象的属性信息;以及
所述第二获取模块,还用于:
根据所述异常数据中包含的属性信息,查找具有相同属性信息的所述标定数据。
B16、如B10至B12中任一项所述的装置,还包括:
第三获取模块,用于获取预设时间段内具有相同属性信息的历史数据;
选取模块,用于选取所述历史数据中的数据项作为所述标定数据;
标记模块,用于将所述数据项的生成时间记为所述标定数据的生成时间。
B17、如B16所述的装置,所述选取模块,还用于:
查找所述历史数据中数值最大的数据项,作为第一数据项;
按照预设的遍历策略,遍历所述历史数据中的数据项;
若遍历到的数据项相较所述第一数据项降幅未超过阈值,则将所述第一数据项更新为所述遍历到的数据项;
若遍历到的数据项相较所述第一数据项降幅超过所述阈值,则维持所述第一数据项不变;
继续遍历数据项直至满足终止条件为止,并将遍历结束时得到的所述第一数据项作为所述标定数据。
B18、如B10至B12中任一项所述的装置,所述处理模块,还用于:
根据所述异常数据的生成时间以及所述标定数据的生成时间,确定所述异常数据在生成时间上与所述标定数据的时差;
根据所述标定数据,确定所述异常数据在数值上与所述标定数据的差值;
基于所述时差、所述差值及所述异常数据,计算得到补全后的所述异常数据。

Claims (16)

1.一种数据处理方法,其特征在于,包括:
获取未被作为业务关注数据存入数据库的异常数据;获取所述异常数据对应的标定数据;
根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全;
所述方法还包括:
获取预设时间段内具有相同属性信息的历史数据;
查找所述历史数据中数值最大的数据项,作为第一数据项;
按照预设的遍历策略,遍历所述历史数据中的数据项;
若遍历到的数据项相较所述第一数据项降幅未超过阈值,则将所述第一数据项更新为所述遍历到的数据项;
若遍历到的数据项相较所述第一数据项降幅超过所述阈值,则维持所述第一数据项不变;
继续遍历数据项直至满足终止条件为止,并将遍历结束时得到的所述第一数据项作为所述标定数据。
2.根据权利要求1所述的方法,其特征在于,所述获取异常数据,包括:
从网络侧获取符合预设业务关注需求的目标数据;
若未获取到所述目标数据,则创建缺失数据,并将所述缺失数据标记为异常数据;
若获取到所述目标数据,则对所述目标数据进行异常验证,并将未通过异常验证的所述目标数据标记为异常数据。
3.根据权利要求2所述的方法,其特征在于,对所述目标数据进行异常验证,包括:
获取所述目标数据对应的标定数据;
将所述目标数据与所述目标数据对应的标定数据进行比较,得到比较结果;
若所述比较结果不满足验证条件,则所述目标数据未通过所述异常验证。
4.根据权利要求2或3所述的方法,其特征在于,还包括:
将所述标定数据更新为通过所述异常验证的所述目标数据。
5.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
确定所述标定数据的生成时间距当前时间的时长;
若所述时长超过设定时长,则重新确定所述标定数据。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述异常数据中包含有用于区别数据所属对象的属性信息;以及
所述获取所述异常数据对应的标定数据,包括:
根据所述异常数据中包含的属性信息,查找具有相同属性信息的所述标定数据。
7.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
将所述数据项的生成时间记为所述标定数据的生成时间。
8.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全,包括:
根据所述异常数据的生成时间以及所述标定数据的生成时间,确定所述异常数据在生成时间上与所述标定数据的时差;
根据所述标定数据,确定所述异常数据在数值上与所述标定数据的差值;
基于所述时差、所述差值及所述异常数据,计算得到补全后的所述异常数据。
9.一种数据处理装置,其特征在于,包括:
第一获取模块,用于获取未被作为业务关注数据存入数据库的异常数据;
第二获取模块,用于获取所述异常数据对应的标定数据;处理模块,用于根据所述标定数据,所述异常数据的生成时间以及所述标定数据的生成时间,对所述异常数据进行补全;
所述装置还包括:
第三获取模块,用于获取预设时间段内具有相同属性信息的历史数据;
选取模块,用于查找所述历史数据中数值最大的数据项,作为第一数据项;按照预设的遍历策略,遍历所述历史数据中的数据项;若遍历到的数据项相较所述第一数据项降幅未超过阈值,则将所述第一数据项更新为所述遍历到的数据项;若遍历到的数据项相较所述第一数据项降幅超过所述阈值,则维持所述第一数据项不变;继续遍历数据项直至满足终止条件为止,并将遍历结束时得到的所述第一数据项作为所述标定数据。
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块,包括:
获取单元,用于从网络侧获取符合预设业务关注需求的目标数据;
创建单元,用于当所述获取单元未获取到所述目标数据时,创建缺失数据,并将所述缺失数据标记为异常数据;
验证标记单元,用于当所述获取单元获取到所述目标数据时,对所述目标数据进行异常验证,并将未通过异常验证的所述目标数据标记为异常数据。
11.根据权利要求10所述装置,其特征在于,所述验证标记单元,还用于:
获取所述目标数据对应的标定数据;
将所述目标数据与所述目标数据对应的标定数据进行比较,得到比较结果;
若所述比较结果不满足验证条件,则所述目标数据未通过所述异常验证。
12.根据权利要求10或11所述的装置,其特征在于,还包括:
更新模块,用于将所述标定数据更新为通过所述异常验证的所述目标数据。
13.根据权利要求9至11中任一项所述的装置,其特征在于,还包括:
第一确定模块,用于确定所述标定数据的生成时间距当前时间的时长;
第二确定模块,用于当所述时长超过设定时长时,重新确定所述标定数据。
14.根据权利要求9至11中任一项所述的装置,其特征在于,所述异常数据中包含有用于区别数据所属对象的属性信息;以及
所述第二获取模块,还用于:
根据所述异常数据中包含的属性信息,查找具有相同属性信息的所述标定数据。
15.根据权利要求9至11中任一项所述的装置,其特征在于,还包括:
标记模块,用于将所述数据项的生成时间记为所述标定数据的生成时间。
16.根据权利要求9至11中任一项所述的装置,其特征在于,所述处理模块,还用于:
根据所述异常数据的生成时间以及所述标定数据的生成时间,确定所述异常数据在生成时间上与所述标定数据的时差;
根据所述标定数据,确定所述异常数据在数值上与所述标定数据的差值;
基于所述时差、所述差值及所述异常数据,计算得到补全后的所述异常数据。
CN201710083684.XA 2017-02-16 2017-02-16 数据处理方法及装置 Active CN107092637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710083684.XA CN107092637B (zh) 2017-02-16 2017-02-16 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710083684.XA CN107092637B (zh) 2017-02-16 2017-02-16 数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN107092637A CN107092637A (zh) 2017-08-25
CN107092637B true CN107092637B (zh) 2020-01-31

Family

ID=59649314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710083684.XA Active CN107092637B (zh) 2017-02-16 2017-02-16 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN107092637B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968640B (zh) * 2018-09-28 2023-05-23 北京国双科技有限公司 油井数据处理方法及装置、油井控制系统
CN110491106B (zh) * 2019-07-22 2022-03-18 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备
CN111141950B (zh) * 2019-12-03 2022-06-14 深圳供电局有限公司 一种计量自动化系统电表分时表码异常判断与修复方法
CN111076772B (zh) * 2019-12-13 2021-07-27 红云红河烟草(集团)有限责任公司 一种卷烟制丝过程数据的处理方法
CN114594913A (zh) * 2021-10-15 2022-06-07 芯海科技(深圳)股份有限公司 配置信号处理电路、芯片、可穿戴设备及处理方法
CN114978863B (zh) * 2022-05-17 2024-03-01 安天科技集团股份有限公司 一种数据处理方法、装置、计算机设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551884A (zh) * 2009-05-08 2009-10-07 华北电力大学 面向大规模样本的cvr电力负荷快速预测方法
CN104484673A (zh) * 2014-12-05 2015-04-01 南京大学 实时数据流模式识别应用的数据补全方法
CN104965815A (zh) * 2015-07-08 2015-10-07 北京恒华伟业科技股份有限公司 一种数据处理方法和装置
CN106202335A (zh) * 2016-06-28 2016-12-07 银江股份有限公司 一种基于云计算框架的交通大数据清洗方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551884A (zh) * 2009-05-08 2009-10-07 华北电力大学 面向大规模样本的cvr电力负荷快速预测方法
CN104484673A (zh) * 2014-12-05 2015-04-01 南京大学 实时数据流模式识别应用的数据补全方法
CN104965815A (zh) * 2015-07-08 2015-10-07 北京恒华伟业科技股份有限公司 一种数据处理方法和装置
CN106202335A (zh) * 2016-06-28 2016-12-07 银江股份有限公司 一种基于云计算框架的交通大数据清洗方法

Also Published As

Publication number Publication date
CN107092637A (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
CN107092637B (zh) 数据处理方法及装置
KR102192863B1 (ko) 정보 권고 방법 및 장치
US9727723B1 (en) Recommendation system based approach in reducing false positives in anomaly detection
US10614516B2 (en) Method and system for auction information management
US20080243967A1 (en) Duplicate record processing
CN104731816A (zh) 一种处理异常业务数据的方法和装置
CN111932188B (zh) 用于库存管理的方法、电子设备和存储介质
US10915533B2 (en) Extreme value computation
CN112418978B (zh) 产品推荐方法、装置、设备及介质
CN111666448A (zh) 搜索方法、装置、电子设备及计算机可读存储介质
CN108829745B (zh) 业务数据的管理方法、装置及电子设备
US10139984B2 (en) Devices, storage medium, and methods for multimedia processing
US20180276286A1 (en) Metadata Extraction and Management
EP3139290A1 (en) Method and system for merging data
CN110532773B (zh) 恶意访问行为识别方法、数据处理方法、装置和设备
CN112100201B (zh) 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112733034A (zh) 内容推荐方法、装置、设备及存储介质
KR102354094B1 (ko) 머신러닝 기반 보안관제 장치 및 방법
US9092472B1 (en) Data merge based on logical segregation
CN105335514A (zh) 一种游戏论坛中的用户数据处理方法和装置
CN110580265B (zh) Etl任务的处理方法、装置、设备及存储介质
CN115564593A (zh) 一种针对农作物的融资预警方法、设备和存储介质
CN110008269B (zh) 一种数据回流方法、装置、设备及系统
US9898493B2 (en) Runtime generation of a mapping table for uploading data into structured data marts
CN107515906B (zh) 对象处理方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100085 Beijing, Haidian District on the road to the information on the ground floor of the 1 to the 3 floor of the 2 floor, room 11, 202

Applicant after: Beijing Xingxuan Technology Co., Ltd.

Address before: 100085 Beijing, Haidian District on the road to the information on the ground floor of the 1 to the 3 floor of the 2 floor, room 11, 202

Applicant before: BEIJING XIAODU INFORMATION TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant