CN108647353A - 一种实时核对数据的方法、装置 - Google Patents

一种实时核对数据的方法、装置 Download PDF

Info

Publication number
CN108647353A
CN108647353A CN201810468927.6A CN201810468927A CN108647353A CN 108647353 A CN108647353 A CN 108647353A CN 201810468927 A CN201810468927 A CN 201810468927A CN 108647353 A CN108647353 A CN 108647353A
Authority
CN
China
Prior art keywords
data
verification
database
reference data
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810468927.6A
Other languages
English (en)
Inventor
王燕燕
陈凌宇
罗书花
常盼盼
罗振环
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koubei Shanghai Information Technology Co Ltd
Original Assignee
Koubei Shanghai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koubei Shanghai Information Technology Co Ltd filed Critical Koubei Shanghai Information Technology Co Ltd
Priority to CN201810468927.6A priority Critical patent/CN108647353A/zh
Publication of CN108647353A publication Critical patent/CN108647353A/zh
Pending legal-status Critical Current

Links

Abstract

本申请公开了一种实时核对数据的方法、装置,所述方法包括:实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;将所述核对数据与所述基准数据进行核对,获得核对结果。通过该方法,可实现对线上产生的基准数据进行实时核对,及时发现数据库中出现错误的数据,并及时纠错,以此保证数据核对的时效性。

Description

一种实时核对数据的方法、装置
技术领域
本申请涉及数据核对领域,具体涉及一种实时核对数据的方法。本申请同时涉及一种实时核对数据的装置、一种电子设备以及一种计算机可读取存储介质。
背景技术
随着互联网的发展,每天都有大量的原始数据产生,如电子商务领域的某些大型促销活动,会产生大量的交易数据,这些数据需要被记录,作为进一步分析或展示的数据来源。通常做法是将原始数据经整理和计算后写入数据库进行存储。如何保障这些存储数据的质量,是数据应用中需要重点考虑的问题之一。
现阶段,为了保障数据库中的数据质量,通常是将原始数据录入数据库之后进行离线数据核对。然而,离线数据核对的方法无法及时有效的保障数据质量,通常第二天或者更晚的时间才可获得数据准确与否的结果,对于某些对数据核对的时效性要求较高的场景,采用离线数据核对的数据核对方法无法及时有效地保障数据质量的要求。
发明内容
本申请提供一种核对实时数据的方法,以解决现有的采用离线数据核对的数据核对方法无法及时有效地保障数据质量的要求问题。本申请另外提供一种实时核对数据的装置、一种电子设备以及一种计算机可读取存储介质。
本申请提供一种实时核对数据的方法,该方法包括:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
可选的,所述实时从基准数据库中获取基准数据,包括:
按照短时间间隔,定时从基准数据库中获取基准数据;
对应的,所述实时从核对数据库中获取核对数据,包括:
按照所述短时间间隔,定时从核对数据库中获取核对数据。
可选的,所述基准数据为在所述短时间间隔内,所述基准数据库的基准数据项所对应的数据内容;
对应的,所述核对数据为在所述短时间间隔内,所述核对数据库的核对数据项所对应的数据内容。
可选的,所述基准数据项包括:预设的基准参数以及基准数据类别;
对应的,所述核对数据项包括:预设的核对参数以及核对数据类别。
可选的,所述基准数据项和所述核对数据项被预先配置成结构化查询语言SQL。
可选的,所述基准数据项和所述核对数据项通过报表引擎预先配置成结构化查询语言SQL。
可选的,所述基准数据项对应唯一的基准标识号,所述核对数据项对应唯一的核对标识号。
可选的,所述从基准数据库中获取基准数据,包括:
根据预设的基准参数和所述基准标识号,查询获得基准数据;
对应的,所述从核对数据库中获取核对数据,包括:
根据预设的核对参数和所述核对标识号,查询获得核对数据。
可选的,还包括:
将所述基准标识号和所述核对标识号统一配置到报表查询工具中;通过调用所述报表查询工具,可从所述基准数据库中查询获得所述基准数据,并且可同步从所述核对数据库中查询获得所述核对数据。
可选的,所述短时间间隔包括:
以每分钟为间隔标准的时间间隔。
可选的,所述的实时核对数据的方法,其特征在于,所述短时间间隔通过报表查询工具配置获得。
可选的,所述将相同的原始数据分别写入所述基准数据库和所述核对数据库包括:
将相同的原始数据同时分别写入所述基准数据库和所述核对数据库。
可选的,所述对所述基准数据与所述核对数据进行核对,并获得核对结果,包括:
将所述核对数据与基准数据进行比对,确定所述基准数据与所述核对数据之间的差异值;
如果所述差异值超过预设的阈值,则确定核对结果为不合格。
可选的,还包括:
通过实时任务实时汇总所述基准数据和所述核对数据的比对结果。
可选的,所述将所述核对数据与基准数据进行比对,包括:
按报表查询工具预定的比对规则,在获取基准数据和核对数据之后,在预定的短时间间隔的下一时间节点开启对所述核对数据与基准数据进行比对。
可选的,所述阈值根据不同的基准数据项和核对数据项进行差异化设置。
可选的,还包括:
如果所述核对结果为不合格,则启动告警。
可选的,所述原始数据包括:日志文件中的数据。
可选的,所述基准数据库与所述核对数据库为不同类型的实时数据库。
本申请另外提供一种实时核对数据的装置,该装置包括:
数据获取单元,用于实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
数据核对单元,用于将所述核对数据与所述基准数据进行核对,获得核对结果。
可选的,所述数据获取单元具体用于:
按照短时间间隔,定时从基准数据库中获取基准数据;
按照所述短时间间隔,定时从核对数据库中获取核对数据。
可选的,所述基准数据为在所述短时间间隔内,所述基准数据库的基准数据项所对应的数据内容;
对应的,所述核对数据为在所述短时间间隔内,所述核对数据库的核对数据项所对应的数据内容。
可选的,所述基准数据项和所述核对数据项通过报表引擎预先配置成结构化查询语言SQL。
可选的,所述基准数据项对应唯一的基准标识号,所述核对数据项对应唯一的核对标识号。
可选的,所述数据获取单元具体用于:
根据预设的基准参数和所述基准标识号,查询获得基准数据;
根据预设的核对参数和所述核对标识号,查询获得核对数据。
可选的,还包括:
标识号配置单元,用于将所述基准标识号和所述核对标识号统一配置到报表查询工具中;
报表查询工具调用单元,用于调用所述报表查询工具,从所述基准数据库中查询获得所述基准数据,并且同步从所述核对数据库中查询获得所述核对数据。
本申请还提供一种电子设备,该电子设备包括:
处理器;
存储器,用于存储实时核对数据的处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
本申请还提供一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
与现有技术相比,本申请具有以下优点:
本申请提供的实时核对数据的方法,通过实时获取基准数据和核对数据、并实时将所述基准数据和核对数据进行核对,可实现对线上产生的基准数据进行实时核对,及时发现数据库中出现错误的数据,并及时纠错,以此保证数据核对的时效性。
附图说明
图1是本申请第一实施例提供的实时核对数据的方法流程图;
图2是本申请第二实施例提供的实时核对数据的装置单元框图;
图3是本申请第三实施例提供的电子设备示意图;
图4是本申请第四实施例提供的实现数据核对的方法流程图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请提供一种实时核对数据的方法、一种实时核对数据的装置、一种电子设备以及一种计算机可读取存储介质。以下提供实施例对所述方法、装置、电子设备以及计算机可读取存储介质进行详细说明。
本申请第一实施例提供一种实时核对数据的方法,该方法可用于对写入数据库中的数据进行实时核对。图1为本申请第一实施例提供的方法流程图,如图1所示,上述实时核对数据的方法包括如下步骤:
S101,实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据。
本步骤用于实时获取需要进行数据质量核对的数据来源、并且实时获取用于对所述需要进行数据质量核对的数据来源进行核对的数据。
所述基准数据为需要进行数据质量核对的数据,所述核对数据为用于对所述基准数据进行核对的数据。所述基准数据和所述核对数据通过将相同的原始数据分别写入基准数据库和核对数据库而生成,因此,在将原始数据写入上述两种实时数据库的过程中,在不出现写入错误的情况下,基准数据与核对数据应具有完全相同的数据内容。
所述基准数据库中存储有需进行数据质量核对的基准数据,所述核对数据库中存储有可用于对上述基准数据进行数据质量核对的核对数据。基准数据库和核对数据库可为相同类型的数据库,也可为不同类型的数据库,本实施例中,基准数据库和核对数据库为两种不同类型的实时数据库,实时数据库通过将数据库技术与实时处理技术进行结合而产生,可直接对运行中的各种数据进行实时采集,并对其进行加工处理后映射成具有业务含义的各种指标数据。每种类型的实时数据库都可满足对原始数据的写入操作,且均可获得具有同等效果的结果数据,本实施例采用两种不同类型的实时数据库,其目的在于提高上述数据来源的安全性。例如,本实施例中的基准数据库采用可提供流式计算的Explorer实时数据库,该类型数据库特别适合数据监控等较短时间窗口固定维度的数据集合,不支持获取明细数据、且结果数据一般不具有再计算能力,时效在毫秒级;本实施例中的核对数据库采用可提供在线实时计算的海纳实时数据库,其可将采集获得的数据进行加工处理,映射成具有业务含义的各个指标数据,如电子商务中的店铺的请求数、支付数或者创建数等。
所述实时从基准数据库中获取基准数据,指的是将原始数据写入基准数据库以后,按照预先设置的短时间间隔,定时从基准数据库中获取基准数据;对应的,所述实时从核对数据库中获取核对数据,指的是在将上述原始数据写入核对数据库中以后,按照上述预定的短时间间隔,定时从核对数据库中获取核对数据。
本实施例中,上述短时间间隔指的是以每分钟为间隔标准的时间间隔,如每分钟从上述两种数据库中获取基准数据和核对数据。所述原始数据指的是网络活动中产生的初始数据,例如,在网络营销活动中所产生的商品交易量、商品浏览数、客户购买信息等大量活动数据均为原始数据,这些数据可直接被写入数据库中、或经过相应计算后被写入数据库中,用于进行数据汇总、数据分析等数据处理。本实施例中,原始数据为日志文件中的数据,日志文件是用于记录系统操作事件的记录文件或文件集合,选用日志文件中的数据作为原始数据,可保证所述原始数据为实时数据。本实施例为了保障上述被写入数据库中的数据的有效性和准确性,能够快速写入数据库中的数据所存在的问题,以每分钟的时间长度作为时间间隔,定时从线上使用的基准数据库中获得基准数据,作为需要进行数据质量核对的对象,并且,以相同的时间间隔,从预设验证数据库中获取用于对上述需要进行数据质量核对的对象进行核对的核对数据。
所述基准数据为上述短时间间隔内,基准数据库中的基准数据项所对应的数据内容;对应的,所述核对数据为该短时间间隔内,核对数据库的核对数据项所对应的数据内容。基准数据项指的是预先设置的需要进行数据质量核对的基准数据类别以及预设的基准参数,例如在网络购物中所产生的商品购买数量、商品核销数量、优惠券领取数量、优惠券核销数量、交易量、高级营销笔数等均可作为基准数据类别,所述基准参数为预设的时间参数。核对数据项与所述基准数据项相对应,包括预设的核对参数以及核对数据类别,例如,选用基准数据库中的商品核销数量作为基准数据类别,则对应的核对数据库中的核对数据类别也为商品核销数量。
本实施例中,所述基准数据项和核对数据项共同组成数据核对项,其被配置成结构化查询语言SQL,具体的,通过报表引擎将与数据质量核对相关的所有基准数据项和核对数据项配置成SQL语句。
报表引擎可定义报表的格式和算法,根据定义的算法自动执行计算,并输出计算后的结果,并根据定义的报表格式显示报表的内容。本实施例中,报表引擎主要用于将基准数据库和核对数据库中预设的数据核对项配置成SQL语句,配置的内容包括基准数据或核对数据从哪个数据库的哪张数据表中获取,取哪个字段,以及查询数据的过程中所需要的限制条件和限制参数。
上述将数据核对项配置成SQL语句的过程包括配置SQL标题,数据来源库,SQL语句以及用于实现定时运行的入参,不同的SQL语句对应不同的基准数据项或核对数据项,例如可通过SQL语句配置实现查询Explorer实时数据库中的100个高级营销头部城市。
本实施例中,所述基准数据项对应唯一的基准标识号,所述核对数据项对应唯一的核对标识号。所述基准标识号和所述核对标识号均为一种用于确定取数逻辑的配置的唯一编号,可理解为配置的SQL语句的代号,该编号在新建时可更改成便于记忆的其他字母和数字的组合,只需确保数据的唯一性、避免与其他基准数据项或核对数据项重复即可,通过该编号,结合为了实现取数逻辑所需的参数的值,可实时查询该取数逻辑对应的目标数值。所述基准标识号和核对标识号可在配置所述基准数据项和核对数据项时对应于报表引擎随机自动生成。本实施例中,所述目标数据即为基准数据和核对数据,可根据预设的基准参数和所述基准标识号,查询所述基准数据库获得基准数据,并且,可根据预设的核对参数和所述核对标识号,查询所述核对数据库获得核对数据。
本实施例中,在将基准数据项和核对数据项配置成SQL语句并随机生成对应的基准表示号和核对标识号后,需将该基准标识号和核对标识号统一配置到报表查询工具中,并且调用所述报表查询工具,从所述基准数据库中查询获得所述基准数据,并且同步从所述核对数据库中查询获得所述核对数据。例如将所述基准标识号和所述核对标识号统一配置到报表查询工具中,对应的配置语句包括如下内容:
Name=Explorer数据库和海纳数据库中餐饮行业的高级营销笔数;
block1==blockUri1511496150362;
param1==theday=$DTTODAY$&startTime=$MORNING$&endTime=$NOW$&pool_name=餐饮行业;
leftcomparefields==total;leftrightkeymap==total:326470_value:行业高级营销总数;
block2==blockUri1511496707590;
param2==endTime=$HAINANOW$&startTime=$HAINAMORNING$&pool_name=餐饮行业。
对上述配置语句的解释如下:
Name表示数据核对项的名称,用以说明数据核对的指标是什么,本实施例中核对的是Explorer数据库和海纳数据库中餐饮行业的高级营销笔数;
block1是指上述报表引擎配置的Explorer数据库中的基准数据项所对应的基准标识号;同理,block2是指上述报表引擎配置的海纳数据库中的核对数据项计算行业的高级营销笔数的SQL所对应的核对标识号;通过执行上述两个block标识号可获得对应数据库的高级营销笔数;
param1和param2分别对应的block1和block2的入参,均为用于定时获取数据的时间参数;
Leftcomparefields表示拿block1中的total这个输出参数来进行核对,同理,leftrightkeymap表示拿block2中的total这个输出参数来进行核对;
不同的行业对应不同的pool_name。
数据的获取过程为对两组具有相同原始数据的数据核对项所对应的数据内容进行实时获取,因此,除了数据核对项及其对应的数据内容的范围相同,还需将所述两种数据来源的获取时间进行统一。本实施例中,通过如下方法实现获取两种数据来源的时间的一致性:在对原始数据进行写入的过程中,将相同的原始数据同时分别写入基准数据库和核对数据库中;在获取基准数据和核对数据的过程中,首先设定精确到上述短时间间隔所对应的指定时间的时间戳,从基准数据库中获取截止该时间戳的基准数据,同时从核对数据库中也获取截止该时间戳的核对数据,以此保证获取的基准数据和核对数据具有相同的语义。
例如,本实施例中,所述报表查询工具解析上述配置语言,通过调用所述报表查询工具,实现在同一条语句中执行上述两个标识号,即从所述基准数据库中查询获得所述基准数据,并且同步从核对数据库中查询获得所述核对数据,从而确定需要进行比对的数据内容,减小因为系统执行时间差带来的数据差异,如果不放在同一条语句中执行两个标识号,就有可能因为程序运行先后的原因造成从两个数据库查询获得目标数据的时间不一致。
所述短时间间隔为获取基准数据和核对数据的频率,本实施例中该短时间间隔通过上述报表查询工具进行配置,其限定了在上述的数据核对项下,每次获取的需要进行数据质量核对的数据所包含的数据范围,例如,数据核对项为商品核销数量,上述短时间间隔为以每分钟为间隔标准的时间间隔,则该过程对应为在上述配置好的基准数据项和核对数据项的框架基础上每分钟获取一次基准数据和核对数据,获取的基准数据和核对数据所包含的数据范围为:在预定的商品核销数量的数据核对项下,在一分钟内所获取的基准数据库和核对数据库的所有商品核销数量。
S102,将所述核对数据与所述基准数据进行核对,获得核对结果。
在经上述步骤S101实时获取需要进行数据质量核对的基准数据、并且实时获取用于对所述基准数据进行核对的核对数据之后,本步骤用于对上述的基准数据和核对数据进行核对,获得核对结果。
数据质量核对的目的在于确定基准数据库中写入的数据是否正确,上述获取基准数据和获取核对数据的过程已经确定了基准数据和核对数据的基础信息,如数据核对项、数据范围以及获取数据的频率等,本步骤仅需按照上述基础信息对基准数据和核对数据进行核对即可。
上述获取数据的频率即为本步骤进行数据核对的频率。本实施例中,通过如下方式将所述核对数据与所述基准数据进行核对:
首先,将上述获得的核对数据与基准数据进行比对,确定所述基准数据与所述核对数据之间的差异值。例如,上述数据核对项为商品核销数量,获得的基准数据和核对数据分别为基准数据库和核对数据库在一分钟内产生的商品核销数量,对两种商品核销数量进行比对后可知,基准数据库对应的商品核销数量为100件,核对数据库对应的商品核销数量为90件,则基准数据与核对数据之间的差异值为两者的差值10件。再例如,上述数据核对项为高级营销笔数,获得的基准数据和核对数据分别为基准数据库和核对数据库在一分钟内产生的高级营销笔数,基准数据库对应的高级营销笔数为100笔,核对数据库对应的高级营销笔数为60笔,则基准数据与核对数据之间的差异值为两者的差异率,计算方式为:(100-60)/100。
需要说明的是,在将核对数据与基准数据进行比对后,还需通过实时任务实时汇总所述基准数据和所述核对数据的比对结果,以达到实时确定所述基准数据与所述核对数据之间的差异数的目的。
上述比对过程需按预定的比对规则进行,如按上述的配置语句进行比对,本实施例中,在执行上述两个标识号而获取基准数据和核对数据之后,在预定的短时间间隔的下一时间节点开启对所述核对数据与基准数据进行比对,例如上述将基准标识号和核对标识号统一配置到报表查询工具中,入参中有“now”,为立即执行的意思,一旦把配置语句推送成功,配置语句立即生效,下一分钟就开始比对。
其次,如果所述差异值超过预设的阈值,则确定核对结果为不合格。例如,上述数据核对项为商品核销数量,对应的阈值为15,则确定基准数据与核对数据之间的差异值没有超过预设的阈值,进一步确定该核对结果为合格;再例如,上述数据核对项为高级营销笔数,对应的阈值为1%,则确定所述基准数据与核对数据之间的差异值超过预设的阈值,进一步确定该核对结果为不合格。本实施例中,对于核对结果为不合格的数据核对项,需启动告警,及时示出错误数并终止错误数据所带来的影响和损失,实现对基准数据进行数据质量核对的目的。
需要说明的是,不同类别的基准数据对数据质量的要求有所不同,因此上述阈值根据不同的基准数据项和核对数据项进行差异化设置,不同的数据核对类别对应不同的阈值设置方式,例如,在网络促销活动中,不同的数据核对项对应不同的业务度量,比如优惠券的领取数量,其对应的数量较大,且对其数据质量的要求较高,因此其对应的阈值较小。
上述方法,通过采用短时间间隔、同步获取具有相同数据类型和相同语义的基准数据和核对数据、并以所述短时间间隔作为数据核对频率对所述基准数据和核对数据进行核对,可实现对线上产生的基准数据进行高频率实时核对,保证数据质量核对的时效性,及时发现并示出数据库中的错误数据,提高数据核对的效率,及时终止错误数据带来的损失。
在上述的实施例中,提供了一种实时核对数据的方法,与之相对应的,本申请第二实施例还提供了一种实时核对数据的装置,下面结合附图进行说明。
由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关的技术特征的细节部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。请参考图2理解该实施例,图2为本实施例提供的装置的单元框图,如图2所示,所述装置包括:
数据获取单元201,用于实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
数据核对单元202,用于将所述核对数据与所述基准数据进行核对,获得核对结果。
可选的,所述数据获取单元201具体用于:按照短时间间隔,定时从基准数据库中获取基准数据;
按照所述短时间间隔,定时从核对数据库中获取核对数据。
所述短时间间隔限定了在上述的数据核对项下,每次获取的需要进行数据质量核对的数据所包含的数据范围,具体的,能够以每分钟的时间长度作为时间间隔,定时从线上使用的基准数据库中获得基准数据,作为需要进行数据质量核对的对象,并且,以相同的时间间隔,从验证数据库中获取用于对需要进行数据质量核对的对象进行核对的核对数据,通过该方法可保障被写入数据库中的数据的有效性和准确性,能够快速发现写入数据库中的数据所存在的问题。
可选的,所述基准数据为在所述短时间间隔内,所述基准数据库的基准数据项所对应的数据内容;
对应的,所述核对数据为在所述短时间间隔内,所述核对数据库的核对数据项所对应的数据内容。
基准数据项指的是预先设置的需要进行数据质量核对的基准数据类别以及预设的基准参数,例如在网络购物中所产生的商品购买数量、商品核销数量、优惠券领取数量、优惠券核销数量、交易量、高级营销笔数等均可作为基准数据类别,所述基准参数为预设的时间参数。核对数据项与所述基准数据项相对应,包括预设的核对参数以及核对数据类别,例如,选用基准数据库中的商品核销数量作为基准数据类别,则对应的核对数据库中的核对数据类别也为商品核销数量。
可选的,所述基准数据项和所述核对数据项通过报表引擎预先配置成结构化查询语言SQL。通过报表引擎将与数据质量核对相关的所有基准数据项和核对数据项配置成SQL语句,配置的内容包括基准数据或核对数据从哪个数据库的哪张数据表中获取,取哪个字段,以及查询数据的过程中所需要的限制条件和限制参数。上述将数据核对项配置成SQL语句的过程包括配置SQL标题,数据来源库,SQL语句以及用于实现定时运行的入参,不同的SQL语句对应不同的基准数据项或核对数据项。
可选的,所述基准数据项对应唯一的基准标识号,所述核对数据项对应唯一的核对标识号。通过所述基准标识号或核对标识号,结合为了实现取数逻辑所需的参数的值,可实时查询该取数逻辑对应的目标数值。
可选的,数据获取单元201具体用于:
根据预设的基准参数和所述基准标识号,查询获得基准数据;
根据预设的核对参数和所述核对标识号,查询获得核对数据。
对应的,所述从核对数据库中获取核对数据,包括:
根据预设的核对参数和所述核对标识号,查询获得核对数据。
可选的,还包括:
标识号配置单元,用于将所述基准标识号和所述核对标识号统一配置到报表查询工具中;
报表查询工具调用单元,用于调用所述报表查询工具,从所述基准数据库中查询获得所述基准数据,并且同步从所述核对数据库中查询获得所述核对数据。
将所述基准标识号和所述核对标识号统一配置到报表查询工具中,可使所述报表查询工具解析所述基准标识号或核对标识号所对应的配置语言,调用所述报表查询工具,实现在同一条语句中执行上述两个标识号,即从所述基准数据库中查询获得所述基准数据,并且同步从核对数据库中查询获得所述核对数据,从而确定需要进行比对的数据内容,减小因为系统执行时间差带来的数据差异。
可选的,所述短时间间隔通过报表查询工具配置获得。
可选的,所述将相同的原始数据分别写入所述基准数据库和所述核对数据库包括:
将相同的原始数据同时分别写入所述基准数据库和所述核对数据库。
可选的,所述对所述基准数据与所述核对数据进行核对,并获得核对结果,包括:
将所述核对数据与基准数据进行比对,确定所述基准数据与所述核对数据之间的差异值;
如果所述差异值超过预设的阈值,则确定核对结果为不合格。
可选的,还包括:
通过实时任务实时汇总所述基准数据和所述核对数据的比对结果。
可选的,所述将所述核对数据与基准数据进行比对,包括:
按报表查询工具预定的比对规则,在获取基准数据和核对数据之后,在预定的短时间间隔的下一时间节点开启对所述核对数据与基准数据进行比对。
可选的,所述阈值根据不同的基准数据项和核对数据项进行差异化设置。
可选的,如果核对结果为不合格,则启动告警。
可选的,所述原始数据为日志文件中的数据。
可选的,所述基准数据库与所述核对数据库为不同类型的实时数据库。
在上述的实施例中,提供了一种实时核对数据的方法以及一种实时核对数据的装置,此外,本申请第三实施例还提供了一种电子设备;所述电子设备实施例如下:
请参考图3,其示出了本实施例提供的电子设备的示意图。
所述电子设备,包括:处理器301;存储器302;
所述存储器302,用于存储实时核对数据的程序,所述程序在被所述处理器读取执行时,执行如下操作:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
例如,所述电子设备为一台计算机,所述计算机实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;将所述核对数据与所述基准数据进行核对,获得核对结果。
可选的,所述实时从基准数据库中获取基准数据,包括:
按照短时间间隔,定时从基准数据库中获取基准数据;
对应的,所述实时从核对数据库中获取核对数据,包括:
按照所述短时间间隔,定时从核对数据库中获取核对数据。
可选的,所述基准数据为在所述短时间间隔内,所述基准数据库的基准数据项所对应的数据内容;
对应的,所述核对数据为在所述短时间间隔内,所述核对数据库的核对数据项所对应的数据内容。
可选的,所述基准数据项包括:预设的基准参数以及基准数据类别;
对应的,所述核对数据项包括:预设的核对参数以及核对数据类别。
可选的,所述基准数据项和所述核对数据项被配置成结构化查询语言SQL。
可选的,所述基准数据项和所述核对数据项通过报表引擎预先配置成结构化查询语言SQL。
可选的,所述基准数据项对应唯一的基准标识号,所述核对数据项对应唯一的核对标识号。
可选的,所述从基准数据库中获取基准数据,包括:
根据预设的基准参数和所述基准标识号,查询获得基准数据;
对应的,所述从核对数据库中获取核对数据,包括:
根据预设的核对参数和所述核对标识号,查询获得核对数据。
可选的,还包括:
将所述基准标识号和所述核对标识号统一配置到报表查询工具中;
调用所述报表查询工具,从所述基准数据库中查询获得所述基准数据,并且同步从所述核对数据库中查询获得所述核对数据。
可选的,所述短时间间隔包括:
以每分钟为间隔标准的时间间隔。
可选的,所述短时间间隔通过报表查询工具配置获得。
可选的,所述将相同的原始数据分别写入所述基准数据库和所述核对数据库包括:
将相同的原始数据同时分别写入所述基准数据库和所述核对数据库。
可选的,所述对所述基准数据与所述核对数据进行核对,并获得核对结果,包括:
将所述核对数据与基准数据进行比对,确定所述基准数据与所述核对数据之间的差异值。;
如果所述核对数据与所述基准数据的差异值超过预设的阈值,则确定核对结果为不合格。
可选的,还包括:
通过实时任务实时汇总所述基准数据和所述核对数据的比对结果。
可选的,所述将所述核对数据与基准数据进行比对,包括:
按报表查询工具预定的比对规则,在获取基准数据和核对数据之后,在预定的短时间间隔的下一时间节点开启对所述核对数据与基准数据进行比对。
可选的,所述阈值根据不同的基准数据项和核对数据项进行差异化设置。
可选的,如果所述核对结果为不合格,则启动告警。
可选的,所述原始数据包括:日志文件中的数据。
可选的,所述基准数据库与所述核对数据库为不同类型的实时数据库。
由于本电子设备使用上述实时核对数据的方法,相关技术特征的细节描述请参见上述实时核对数据的方法实施例的相关部分,此处不再赘述。
在上述的实施例中,提供了一种实时核对数据的方法、装置以及电子设备,此外,本申请第四实施例还提供了一种用于实现所述实时核对数据的计算机可读取存储介质。本申请提供的所述计算机可读取存储介质实施例描述得比较简单,相关部分请参见上述方法实施例的对应说明即可。下述描述的实施例仅仅是示意性的。
本申请提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
可选的,所述实时从基准数据库中获取基准数据,包括:
按照短时间间隔,定时从基准数据库中获取基准数据;
对应的,所述实时从核对数据库中获取核对数据,包括:
按照所述短时间间隔,定时从核对数据库中获取核对数据。
可选的,所述基准数据为在所述短时间间隔内,所述基准数据库的基准数据项所对应的数据内容;
对应的,所述核对数据为在所述短时间间隔内,所述核对数据库的核对数据项所对应的数据内容。
可选的,所述基准数据项包括:预设的基准参数以及基准数据类别;
对应的,所述核对数据项包括:预设的核对参数以及核对数据类别。
可选的,所述基准数据项和所述核对数据项被预先配置成结构化查询语言SQL。
可选的,所述基准数据项和所述核对数据项通过报表引擎预先配置成结构化查询语言SQL。
可选的,所述基准数据项对应唯一的基准标识号,所述核对数据项对应唯一的核对标识号。
可选的,所述从基准数据库中获取基准数据,包括:
根据预设的基准参数和所述基准标识号,查询获得基准数据;
对应的,所述从核对数据库中获取核对数据,包括:
根据预设的核对参数和所述核对标识号,查询获得核对数据。
可选的,还包括:
将所述基准标识号和所述核对标识号统一配置到报表查询工具中;通过调用所述报表查询工具,可从所述基准数据库中查询获得所述基准数据,并且可同步从所述核对数据库中查询获得所述核对数据。
可选的,所述短时间间隔包括:
以每分钟为间隔标准的时间间隔。
可选的,所述短时间间隔通过报表查询工具配置获得。
可选的,所述将相同的原始数据分别写入所述基准数据库和所述核对数据库包括:
将相同的原始数据同时分别写入所述基准数据库和所述核对数据库。
可选的,所述对所述基准数据与所述核对数据进行核对,并获得核对结果,包括:
将所述核对数据与基准数据进行比对,确定所述基准数据与所述核对数据之间的差异值;
如果所述差异值超过预设的阈值,则确定核对结果为不合格。
可选的,还包括:
通过实时任务实时汇总所述基准数据和所述核对数据的比对结果。
可选的,所述将所述核对数据与基准数据进行比对,包括:
按报表查询工具预定的比对规则,在获取基准数据和核对数据之后,在预定的短时间间隔的下一时间节点开启对所述核对数据与基准数据进行比对。
可选的,所述阈值根据不同的基准数据项和核对数据项进行差异化设置。
可选的,还包括:如果所述核对结果为不合格,则启动告警。
可选的,所述原始数据包括:日志文件中的数据。
可选的,所述基准数据库与所述核对数据库为不同类型的实时数据库。
本申请第五实施例提供一种实现数据核对的方法,图4为本实施例提供的流程图。在图4中,explorer代表Explorer实时数据库,海纳代表海纳实时数据库,myreports为Myreports报表引擎,kepler为实时计算平台,DC为告警平台。如图4所示,该实施例包括如下步骤:
步骤1.1,获取原始日志数据;
步骤1.21,将步骤1.1中获取的原始日志数据写入Explorer实时数据库中;
步骤1.22,将步骤1.1中获取的原始日志数据写入海纳实时数据库中;
步骤1.3,通过Myreports报表引擎配置用于进行数据核对的SQL语句,具体为配置基准数据项对应的SQL语句和配置核对数据项对应的SQL语句,生成对应的基准标识号和核对标识号;
步骤1.4,通过报表查询工具配置数据比对项、配置分钟级核对频率;
步骤1.5,通过报表工具执行基准标识号和核对标识号,获取基准数据和核对数据,进行数据比对;
步骤1.6,通过kepler为实时计算平台实时汇总差异数;
步骤1.7,如果步骤1.6的差异数超过预定阈值,则通过DC告警平台启动告警。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (10)

1.一种实时核对数据的方法,其特征在于,包括:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
2.根据权利要求1所述的实时核对数据的方法,其特征在于,所述实时从基准数据库中获取基准数据,包括:
按照短时间间隔,定时从基准数据库中获取基准数据;
对应的,所述实时从核对数据库中获取核对数据,包括:
按照所述短时间间隔,定时从核对数据库中获取核对数据。
3.根据权利要求2所述的实时核对数据的方法,其特征在于,所述基准数据为在所述短时间间隔内,所述基准数据库的基准数据项所对应的数据内容;
对应的,所述核对数据为在所述短时间间隔内,所述核对数据库的核对数据项所对应的数据内容。
4.根据权利要求3所述的实时核对数据的方法,其特征在于,所述基准数据项和所述核对数据项被配置成结构化查询语言SQL。
5.根据权利要求4所述的实时核对数据的方法,其特征在于,所述基准数据项对应唯一的基准标识号,所述核对数据项对应唯一的核对标识号。
6.根据权利要求5所述的实时核对数据的方法,其特征在于,还包括:
将所述基准标识号和所述核对标识号统一配置到报表查询工具中;
所述实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据,包括:
调用所述报表查询工具,从所述基准数据库中查询获得所述基准数据,并且同步从所述核对数据库中查询获得所述核对数据。
7.根据权利要求2所述的实时核对数据的方法,其特征在于,所述短时间间隔通过报表查询工具配置获得。
8.一种实时核对数据的装置,其特征在于,包括:
数据获取单元,用于实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
数据核对单元,用于将所述核对数据与所述基准数据进行核对,获得核对结果。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,用于存储实时核对数据的处理程序,所述程序在被所述处理器读取执行时,执行如下操作:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
10.一种计算机可读取存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
实时从基准数据库中获取基准数据,并且实时从核对数据库中获取核对数据;其中,所述基准数据和所述核对数据通过将相同的原始数据分别写入所述基准数据库和所述核对数据库而生成;所述核对数据用于核对所述基准数据的数据质量;
将所述核对数据与所述基准数据进行核对,获得核对结果。
CN201810468927.6A 2018-05-16 2018-05-16 一种实时核对数据的方法、装置 Pending CN108647353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810468927.6A CN108647353A (zh) 2018-05-16 2018-05-16 一种实时核对数据的方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810468927.6A CN108647353A (zh) 2018-05-16 2018-05-16 一种实时核对数据的方法、装置

Publications (1)

Publication Number Publication Date
CN108647353A true CN108647353A (zh) 2018-10-12

Family

ID=63756256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810468927.6A Pending CN108647353A (zh) 2018-05-16 2018-05-16 一种实时核对数据的方法、装置

Country Status (1)

Country Link
CN (1) CN108647353A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582665A (zh) * 2018-11-27 2019-04-05 深圳市关运通科技有限公司 一种报关差错信息的统计方法及装置
CN110008252A (zh) * 2019-03-12 2019-07-12 阿里巴巴集团控股有限公司 数据核对方法及装置
CN110059077A (zh) * 2019-04-19 2019-07-26 深圳乐信软件技术有限公司 一种数据核对方法、装置、设备和存储介质
CN114003579A (zh) * 2020-07-28 2022-02-01 中国移动通信集团山东有限公司 一种对数据进行稽核的方法、装置、设备和存储介质
CN114153830A (zh) * 2021-12-01 2022-03-08 北京金堤科技有限公司 数据验证方法及其装置、计算机存储介质、电子设备
WO2022089063A1 (zh) * 2020-10-27 2022-05-05 中国银联股份有限公司 数据核对方法、装置、设备、系统及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639849A (zh) * 2009-06-01 2010-02-03 北京四维图新科技股份有限公司 处理数据的方法和装置
CN103577571A (zh) * 2013-10-31 2014-02-12 北京奇虎科技有限公司 一种数据处理方法和装置
CN105335521A (zh) * 2015-11-25 2016-02-17 中国建设银行股份有限公司 用于电子商城的订单数据处理方法和装置
CN105989059A (zh) * 2015-02-09 2016-10-05 阿里巴巴集团控股有限公司 数据记录核对方法及装置
CN106327220A (zh) * 2016-08-31 2017-01-11 无锡雅座在线科技发展有限公司 异常账户的确定方法和装置
CN106649500A (zh) * 2016-10-11 2017-05-10 中国工商银行股份有限公司 数据核对方法及系统
CN107451136A (zh) * 2016-05-30 2017-12-08 阿里巴巴集团控股有限公司 数据核对方法及装置
CN107818461A (zh) * 2017-10-26 2018-03-20 中国科学院大学 面向商场的网络支付系统及方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101639849A (zh) * 2009-06-01 2010-02-03 北京四维图新科技股份有限公司 处理数据的方法和装置
CN103577571A (zh) * 2013-10-31 2014-02-12 北京奇虎科技有限公司 一种数据处理方法和装置
CN105989059A (zh) * 2015-02-09 2016-10-05 阿里巴巴集团控股有限公司 数据记录核对方法及装置
CN105335521A (zh) * 2015-11-25 2016-02-17 中国建设银行股份有限公司 用于电子商城的订单数据处理方法和装置
CN107451136A (zh) * 2016-05-30 2017-12-08 阿里巴巴集团控股有限公司 数据核对方法及装置
CN106327220A (zh) * 2016-08-31 2017-01-11 无锡雅座在线科技发展有限公司 异常账户的确定方法和装置
CN106649500A (zh) * 2016-10-11 2017-05-10 中国工商银行股份有限公司 数据核对方法及系统
CN107818461A (zh) * 2017-10-26 2018-03-20 中国科学院大学 面向商场的网络支付系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582665A (zh) * 2018-11-27 2019-04-05 深圳市关运通科技有限公司 一种报关差错信息的统计方法及装置
CN110008252A (zh) * 2019-03-12 2019-07-12 阿里巴巴集团控股有限公司 数据核对方法及装置
CN110008252B (zh) * 2019-03-12 2023-10-27 创新先进技术有限公司 数据核对方法及装置
CN110059077A (zh) * 2019-04-19 2019-07-26 深圳乐信软件技术有限公司 一种数据核对方法、装置、设备和存储介质
CN114003579A (zh) * 2020-07-28 2022-02-01 中国移动通信集团山东有限公司 一种对数据进行稽核的方法、装置、设备和存储介质
WO2022089063A1 (zh) * 2020-10-27 2022-05-05 中国银联股份有限公司 数据核对方法、装置、设备、系统及存储介质
CN114153830A (zh) * 2021-12-01 2022-03-08 北京金堤科技有限公司 数据验证方法及其装置、计算机存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN108647353A (zh) 一种实时核对数据的方法、装置
CN110457294B (zh) 一种数据处理方法和装置
US11803798B2 (en) System and method for automatic generation of extract, transform, load (ETL) asserts
CN112668968B (zh) 一种基于领域驱动设计的仓储管理建模方法及系统
CN106557486A (zh) 一种数据的存储方法和装置
US10628403B2 (en) Annotation system for extracting attributes from electronic data structures
JP2011513864A (ja) 企業データをマッピングするシステム及び方法
CN110287188B (zh) 通话详单数据的特征变量生成方法及装置
CN109614324A (zh) 一种测试用例生成方法和装置
CN108536521A (zh) 基于仿真平台离线环境核对方法及装置
US20160132496A1 (en) Data filtering
US20140214492A1 (en) Systems and methods for price point analysis
CN109544014B (zh) 基于历史数据回放的反欺诈方法及装置
CN103823852B (zh) 数据库服务器日志的处理方法和装置
CN112256581A (zh) 高仿真证券业交易类系统的日志回放测试方法及装置
CN104504487A (zh) 一种平台之间业务对象信息的追溯方法和系统
CN116955097A (zh) 测试流程的展示方法、装置和测试流程展示系统
US9639595B2 (en) Operational business intelligence system and method
Tao et al. Determinant on RFID technology investment for dominant retailer subject to inventory misplacement
US20090254583A1 (en) Linking discrete dimensions to enhance dimensional analysis
WO2024067358A1 (zh) 仓库管理系统的效率分析方法、系统及计算机设备
CN105893214A (zh) 一种基于电力企业erp数据质量集中监控的方法及装置
CN107292549A (zh) 一种库存监控方法及装置
US20120198281A1 (en) Validation rules for process validation
CN105574022B (zh) 一种基于关系数据库的业务对象的处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181012

RJ01 Rejection of invention patent application after publication