CN110134691B - 数据校验方法、装置、设备和介质 - Google Patents

数据校验方法、装置、设备和介质 Download PDF

Info

Publication number
CN110134691B
CN110134691B CN201910407653.4A CN201910407653A CN110134691B CN 110134691 B CN110134691 B CN 110134691B CN 201910407653 A CN201910407653 A CN 201910407653A CN 110134691 B CN110134691 B CN 110134691B
Authority
CN
China
Prior art keywords
attribute
attribute value
data
source data
compared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910407653.4A
Other languages
English (en)
Other versions
CN110134691A (zh
Inventor
邹永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910407653.4A priority Critical patent/CN110134691B/zh
Publication of CN110134691A publication Critical patent/CN110134691A/zh
Application granted granted Critical
Publication of CN110134691B publication Critical patent/CN110134691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据校验方法、装置、设备和介质,涉及数据处理技术领域。该方法包括:提取源数据的属性值和备份数据的属性值,其中所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量;比对所述源数据的属性值与所述备份数据的属性值;根据比对结果确定所述源数据和所述备份数据的差异。本发明实施例提供了一种数据校验方法、装置、设备和介质,实现了兼顾代价及准确率的数据校验。

Description

数据校验方法、装置、设备和介质
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据校验方法、装置、设备和介质。
背景技术
海量数据在迁移或者备份的过程中,通常需要对数据正确性进行校验,即通过读取并比对两份数据,判断是否存在差异性,并得出差异率的大小,从而决定后续的操作及处理方式。
海量数据的校验通常使用两种方式:
1)抽样
随机抽取一定比例的数据进行比对,根据样本比例推算出结果。
2)全量比对
对所有数据进行读取并逐个比对,能够全面的反映出数据的真实情况。
然而,目前使用的方案存在以下缺点:
1)抽样
抽样方式及样本比例对实际结果影响较大,对于数据敏感性数据集不适合。
2)全量比对
需要耗费大量资源、时间等,可能会被线上服务产生影响。
这两种方式不能兼顾代价及准确率。
发明内容
本发明实施例提供一种数据校验方法、装置、设备和介质,以实现兼顾代价及准确率的数据校验。
第一方面,本发明实施例提供了一种数据校验方法,该方法包括:
提取源数据的属性值和备份数据的属性值,其中所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量;
比对所述源数据的属性值与所述备份数据的属性值;
根据比对结果确定所述源数据和所述备份数据的差异。
第二方面,本发明实施例还提供了一种数据校验装置,该装置包括:
属性提取模块,用于提取源数据的属性值和备份数据的属性值,其中所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量;
属性比对模块,用于比对所述源数据的属性值与所述备份数据的属性值;
差异确定模块,用于根据比对结果确定所述源数据和所述备份数据的差异。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的数据校验方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据校验方法。
本发明实施例通过对所述源数据的属性值与所述备份数据的属性值进行全量比较,从而实现对备份数据的准确校验。
又因为所述源数据的属性值的数据量小于所述源数据的数据量,所述备份数据的属性值的数据量小于所述备份数据的数据量,所以属性值的比较相比源数据和备份数据的比较可以降低对资源的消耗。
因此,本发明实施例实现了兼顾代价及准确率的数据校验。
附图说明
图1为本发明实施例一提供的一种数据校验方法的流程图;
图2是本发明实施例二提供的一种数据校验方法的流程图;
图3是本发明实施例二提供的一种属性存储单元的结构示意图;
图4是本发明实施例四提供的一种数据校验装置的结构示意图;
图5为本发明实施例五提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据校验方法的流程图。本实施例可适用于对备份数据进行兼顾代价和准确率校验的情况。该方法可以由一种数据校验装置来执行,该装置可以由软件和/或硬件的方式实现。参见图1,本实施例提供的数据校验方法包括:
S110、提取源数据的属性值和备份数据的属性值。
其中,所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量。所述备份数据的属性值根据所述备份数据确定,且所述备份数据的属性值的数据量小于所述备份数据的数据量。
源数据是备份数据的来源数据。备份数据是对源数据的拷贝得到的。
备份数据可以适用于对源数据的备份或对源数据的迁移。
因为在备份和迁移过程中可能存在数据变动的情况,所以在生成备份数据后需要对备份数据的正确性进行校验。
具体地,所述源数据的属性值根据所述源数据确定,包括:
对所述源数据进行摘要提取,生成所述源数据的属性值;或者,
对所述源数据进行编码,生成所述源数据的属性值。
因为对源数据中存在的数据量较小的数据进行摘要提取或编码的性价比并不高。所以,所述源数据的属性值的生成,包括:
若源数据所属数据类型为固定长度数据类型,则将所述源数据作为所述源数据的属性信息;
若源数据所属数据类型为变长数据类型,则提取所述源数据的摘要,并将提取的摘要作为所述源数据的属性值。
示例性地,固定长度数据类型包括:bool、int和long等数据类型。变长数据类型包括:string和Binary等数据类型。
其中,所述备份数据的属性值生成过程与所述源数据的属性值的生成过程相同,此处不再赘述。
S120、比对所述源数据的属性值与所述备份数据的属性值。
可选地,可以对所述源数据的属性值与所述备份数据的属性值进行整体比对,也可以对所述数据的属性值与所述备份数据的属性值进行逐条对比,还可以对所述数据的属性值与所述备份数据的属性值进行逐条和逐项的比较。
其中,每条数据中包括不同数据项。
例如,每个人的个人信息作为一条数据,该条数据中包括该人的姓名、年龄、性别和身份证号的数据项。
S130、根据比对结果确定所述源数据和所述备份数据的差异。
根据所述源数据和所述备份数据中存在差异的数据数量占所述源数总数量的比值,确定差异率。
可选地,还可以同时输出差异数据所属列名和行键。
本发明实施例的技术方案,通过对所述源数据的属性值与所述备份数据的属性值进行全量比较,从而实现对备份数据的准确校验。
又因为所述源数据的属性值的数据量小于所述源数据的数据量,所述备份数据的属性值的数据量小于所述备份数据的数据量,所以属性值的比较相比源数据和备份数据的比较可以降低对资源的消耗。
因此,本发明实施例实现了兼顾代价及准确率的数据校验。
为减少属性值生成带来的资源消耗,所述提取源数据的属性值之前,所述方法还包括:
在数据库系统归并所述源数据的过程中,生成所述源数据的属性值。
其中,归并是将分散的源数据合并为数据片的过程。
在NoSQL数据库中是指major compaction(型整理),major compaction是系统自身维护数据需要运行的一种例行化任务。
将属性值的生成添加到该例行化任务中,也即,在一次归并动作完成得出最终归并结果时,同时获取数据的属性值。
换而言之,在major compaction的逻辑中添加生成属性信息的逻辑,majorcompaction逻辑本身需要将所有文件(零散数据)加载起来归并成一个最终的大文件(对应数据片)。在生成大文件时,同时生成一份属性文件,即可避免为生成属性文件将所有文件加载起来造成的IO(Input/Output,输入/输出)浪费。其中属性文件是存储数据属性值的文件。
因为没有增加对数据的全量读取和归并,只增加了写属性文件的IO,该数据量较小,且可以优化为批量写,所以增加的IO并不明显。
实施例二
图2是本发明实施例二提供的一种数据校验方法的流程图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的数据校验方法包括:
S210、根据源数据生成源数据的属性值,根据备份数据生成备份数据的属性值。
S220、将生成的属性值存储至属性存储单元中。
具体地,将生成的源数据的属性值存储至源数据的属性存储单元中,将生成的备份数据的属性值存储至备份数据的属性存储单元中。
存储单元可以是与源数据对应一致的存储单元。
典型地,参见图3,属性存储单元包括属性位置索引和属性值记录。
属性位置索引包括头部和数据部分。属性位置索引的头部存储有属性位置索引的版本和属性位置索引的长度。
属性位置索引的数据部分包括源数据或备份数据的各列信息和行键信息。各列信息中包括列名称长度、列名、列名数据类型、列名属性值在属性存储行中的行偏移和列名属性值的字节长度。
属性值记录包括至少一个属性存储行以及各属性存储行的字节长度,每个属性存储行对应存储源数据或备份数据的各行数据的属性值。
换而言之,属性位置索引包括了源数据或备份数据所属表格的列属性以及各列数据的排列方式。属性值记录以行为单位存储,每行包含了相同数据类型和数量的列。对于有非空列,文件中存储其属性值,对于空列,存储其默认值。
在每行都存储相同类型及数量的列的前提下,对于列名字、数据类型这种公用的信息,只存储一份,即在属性位置索引中保存,以便节省空间。属性值记录只存储实际的属性值以及行键信息。
S230、响应数据校验请求,从所述源数据的属性存储单元中获取属性位置索引和属性值记录。
其中,所述属性位置索引包括所述源数据的属性值在所述属性值记录中的位置信息,所述属性值记录包括所述源数据的属性值。
S240、根据所述属性值记录中待比对属性存储行的字节长度,从所述属性值记录中读取所述待比对属性存储行。
其中,所述待比对属性存储行中存储有所述源数据中待比对行数据的属性值。
也即,源数据中每行数据的属性值存储在所述属性值记录中的每个属性存储行中。
S250、比对所述源数据的属性位置索引的版本与所述备份数据的属性位置索引的版本;若比对一致,则根据所述源数据的属性位置索引的字节长度读取所述源数据的属性位置索引。
S260、根据所述属性位置索引确定待比对属性值在所述待比对属性存储行中的位置。
具体地,所述根据所述属性位置索引确定待比对属性值在所述待比对属性存储行中的位置,包括:
从所述属性位置索引中读取所述待比对属性值所属列名的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度;
根据读取的行内偏移确定所述待比对属性值在所述待比对属性存储行中的起始位置;
根据读取的行内偏移与列名属性值的字节长度之和,确定所述待比对属性值在所述待比对属性存储行中的终止位置。
典型地,将读取的行内偏移作为所述待比对属性值在所述待比对属性存储行中的起始位置;将读取的行内偏移与列名属性值的字节长度之和作为所述待比对属性值在所述待比对属性存储行中的终止位置。
进一步地,所述从所述属性位置索引中读取所述待比对属性值所属列名的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度,包括:
从所述属性位置索引中读取所述待比对属性值所属列名的列名称长度;
根据读取的列名称长度,从所述属性位置索引中读取所述待比对属性值所属列名;
从所述属性位置索引中读取与所述待比对属性值所属列名关联存储的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度。
S270、根据所述位置从所述待比对属性存储行中读取所述待比对属性值。
S280、比对所述待比对属性值与所述备份数据的属性值,根据比对结果确定所述源数据和所述备份数据的差异。
本实施例对上述步骤的执行顺序不做限定,可选地,S250可以先于S240执行。
示例性地,参见表1:源数据存储在一个表中,该表共存放了三条数据。
表1
Figure GDA0002976242280000091
源数据的属性值的存储方式如下:
参见表2,首先存放属性位置索引的头部:
属性位置索引的版本 属性位置索引的长度
参见表3,紧接着存放属性位置索引的数据部分:
表3
Figure GDA0002976242280000092
Figure GDA0002976242280000101
其中,4为列名称长度也即name的长度,name为列名,string为列名数据类型,0为列名属性值在属性存储行中的行偏移,8为列名属性值的字节长度。
2为行键名称长度也即ID的长度,ID为行键名称,binary为行键数据类型,12为行键属性值在属性存储行中的行偏移,行键存储实际值为行键属性值的字节长度。
下来存放属性值:
参见表4,属性值记录包括至少一个属性存储行以及各属性存储行的字节长度。
表4
14 Lily’s摘要 20 0x1112
13 John’s摘要 21 0x22
14 lucy’s摘要 22 0x3333
其中,14表示lily属性信息所在属性存储行的字节长度。具体为Lily’s摘要占8字节,20占4字节,0x1112占2字节,而8+4+2=14。
本发明实施例的技术方案,通过根据属性位置索引中的列信息可以确定待比对属性值所属的列名,待比对属性值的所属数据类型。据此可以确定差异数据的列名和数据类型,以方便在备份数据中对差异数据的定位。
此外,通过列名属性值在属性存储行中的行偏移和列名属性值的字节长度可以索引到列名所属数据项的属性值。
而基于各列名所属数据项的比对可以提高校验的准确率。
实施例三
本实施例是在上述实施例的基础上提出的一种可选方案。本实施例提供的数据校验方法包括:
属性值生成
其中,属性值生成包括属性值获取方式、属性值存储格式和属性值生成方式的确定。
属性获取方式为:对于bool、int、long等固定长度的数据类型的字段,因本身占用的空间较小,所以直接使用原值作为属性值。对于string、Binary等变长的数据类型,实际值所占用的空间可能较大,不适合使用原值作为属性值,因此采用对该类型数据的摘要作为属性值。该属性获取方式既能节省空间,又能保证数据的准确性。
其中,摘要提取方法可以基于现有技术中的任一消息摘要提取方法,典型地可以是MD5(消息摘要算法第五版)。
属性值存储格式如上述实施例所述,此处不再赘述。
属性值生成方式为:为减少属性信息的生成对资源的消耗,在NoSQL数据库中,对数据进行全量归并是一种例行化的任务(在NoSQL数据库中是指major compaction,majorcompaction是系统自身维护数据需要运行的一种过任务)。因此可以将属性的生成添加到该例行化任务中,即在一次归并动作完成得出最终归并结果时,同时获取他的属性(即在major compaction的逻辑中添加生成属性信息的逻辑,major compaction逻辑本身需要将所有文件加载起来归并成一个最终的大文件,在生成新的文件时,同时生成一份属性文件,即可避免为生成属性文件将所有数据加载起来造成的IO浪费),并按照上述存储格式写入到属性文件中。
这样就避免了因生成属性信息增加额外IO的问题(没有增加对数据的全量读取和归并,只增加了写属性文件的IO,该数据量较小,且可以优化为批量写,因为增加的IO并不明显)。
同时,major compaction归并数据的过程中,不可能同时对海量数据进行属性提取,需要根据数据的组织方式来决定提取办法,例如:表格数据,通常会划分成多个分片,这样就可以按照分片为单位来提取数据。
比对属性值
根据属性提取方式,如果是按照分片来提取属性,则比对同一分片下的源数据和备份数据各自产生的属性文件,并获取到有差异的行键、列名字、差异率和对应的差异值,同时根据差异率决定后续数据处理方式。
本发明实施例的技术方案可以实现如下效果:
减少资源消耗:将属性信息的获取添加到例行归并任务中,减少了对IO资源的消耗,降低对服务的影响,同时又能对所有数据进行校验,最大限度保证校验结果的准确性。
加快校验速度:因为属性的数据量小于源数据的数据量,所以属性的比对比利用源数据的比对的校验速度要快。
此外,属性数据是以文件形式获取,充分利用了磁盘大块数据顺序读取的特性,大大加快了数据获取速率,减少校验时间。
需要说明的是,经过本实施例的技术教导,本领域技术人员有动机将上述实施例中描述的任一种实施方式进行方案的组合,以实现兼顾代价及准确率的数据校验。
实施例四
图4是本发明实施例四提供的一种数据校验装置的结构示意图。参见图4,本实施例提供的数据校验装置包括:属性提取模块10、属性比对模块20和差异确定模块30。
其中,属性提取模块10,用于提取源数据的属性值和备份数据的属性值,其中所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量;
属性比对模块20,用于比对所述源数据的属性值与所述备份数据的属性值;
差异确定模块30,用于根据比对结果确定所述源数据和所述备份数据的差异。
本发明实施例的技术方案,通过对所述源数据的属性值与所述备份数据的属性值进行全量比较,从而实现对备份数据的准确校验。
又因为所述源数据的属性值的数据量小于所述源数据的数据量,所述备份数据的属性值的数据量小于所述备份数据的数据量,所以属性值的比较相比源数据和备份数据的比较可以降低对资源的消耗。
因此,本发明实施例实现了兼顾代价及准确率的数据校验。
进一步地,所述属性提取模块,包括:索引记录获取单元、存储行读取单元、位置确定单元和属性值读取单元。
其中,索引记录获取单元,用于从所述源数据的属性存储单元中获取属性位置索引和属性值记录,其中所述属性位置索引包括所述源数据的属性值在所述属性值记录中的位置信息,所述属性值记录包括所述源数据的属性值;
存储行读取单元,用于根据所述属性值记录中待比对属性存储行的字节长度,从所述属性值记录中读取所述待比对属性存储行,其中所述待比对属性存储行中存储有所述源数据中待比对行数据的属性值;
位置确定单元,用于根据所述属性位置索引确定待比对属性值在所述待比对属性存储行中的位置;
属性值读取单元,用于根据所述位置从所述待比对属性存储行中读取待比对属性值。
进一步地,所述位置确定单元,包括:偏移获取子单元、起始位置确定子单元和终止位置确定子单元。
其中,偏移获取子单元,用于从所述属性位置索引中读取所述待比对属性值所属列名的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度;
起始位置确定子单元,用于根据读取的行内偏移确定所述待比对属性值在所述待比对属性存储行中的起始位置;
终止位置确定子单元,用于根据读取的行内偏移与列名属性值的字节长度之和,确定所述待比对属性值在所述待比对属性存储行中的终止位置。
进一步地,所述偏移获取子单元具体用于:
从所述属性位置索引中读取所述待比对属性值所属列名的列名称长度;
根据读取的列名称长度,从所述属性位置索引中读取所述待比对属性值所属列名;
从所述属性位置索引中读取与所述待比对属性值所属列名关联存储的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度。
进一步地,所述装置还包括:版本比对模块和索引获取模块。
其中,版本比对模块,用于所述根据源数据的属性位置索引确定待比对属性值在所述待比对属性存储行中的位置之前,比对所述源数据的属性位置索引的版本与所述备份数据的属性位置索引的版本;
索引获取模块,用于若比对一致,则根据所述源数据的属性位置索引的字节长度读取所述源数据的属性位置索引。
进一步地,所述装置还包括:属性生成模块。
其中,属性生成模块,用于所述提取源数据的属性值之前,在数据库系统归并所述源数据的过程中,生成所述源数据的属性值。
进一步地,所述源数据的属性值的生成,包括:
若所述源数据所属数据类型为变长数据类型,则提取所述源数据的摘要,并将提取的摘要作为所述源数据的属性值。
本发明实施例所提供的数据校验装置可执行本发明任意实施例所提供的数据校验方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性设备12的框图。图5显示的设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该设备12交互的设备通信,和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与设备12的其它模块通信。应当明白,尽管图中未示出,可以结合设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的数据校验方法。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的数据校验方法,该方法包括:提取源数据的属性值和备份数据的属性值,其中所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量;
比对所述源数据的属性值与所述备份数据的属性值;
根据比对结果确定所述源数据和所述备份数据的差异。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种数据校验方法,其特征在于,包括:
提取源数据的属性值和备份数据的属性值,其中所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量;
比对所述源数据的属性值与所述备份数据的属性值;
根据比对结果确定所述源数据和所述备份数据的差异;其中,所述提取源数据的属性值,包括:
从所述源数据的属性存储单元中获取属性位置索引和属性值记录,其中所述属性位置索引包括所述源数据的属性值在所述属性值记录中的位置信息,所述属性值记录包括所述源数据的属性值;
根据所述属性值记录中待比对属性存储行的字节长度,从所述属性值记录中读取所述待比对属性存储行,其中所述待比对属性存储行中存储有所述源数据中待比对行数据的属性值;
根据所述属性位置索引确定待比对属性值在所述待比对属性存储行中的位置;
根据所述位置从所述待比对属性存储行中读取所述待比对属性值;
所述根据所述属性位置索引确定待比对属性值在所述待比对属性存储行中的位置,包括:
从所述属性位置索引中读取所述待比对属性值所属列名的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度;
根据读取的行内偏移确定所述待比对属性值在所述待比对属性存储行中的起始位置;
根据读取的行内偏移与列名属性值的字节长度之和,确定所述待比对属性值在所述待比对属性存储行中的终止位置。
2.根据权利要求1所述的方法,其特征在于,所述从所述属性位置索引中读取所述待比对属性值所属列名的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度,包括:
从所述属性位置索引中读取所述待比对属性值所属列名的列名称长度;
根据读取的列名称长度,从所述属性位置索引中读取所述待比对属性值所属列名;
从所述属性位置索引中读取与所述待比对属性值所属列名关联存储的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度。
3.根据权利要求1所述的方法,其特征在于,所述根据所述属性位置索引确定待比对属性值在所述待比对属性存储行中的位置之前,所述方法还包括:
比对所述源数据的属性位置索引的版本与所述备份数据的属性位置索引的版本;
若比对一致,则根据所述源数据的属性位置索引的字节长度读取所述源数据的属性位置索引。
4.根据权利要求1所述的方法,其特征在于,所述提取源数据的属性值之前,所述方法还包括:
在数据库系统归并所述源数据的过程中,生成所述源数据的属性值。
5.根据权利要求1所述的方法,其特征在于,所述源数据的属性值的生成,包括:
若所述源数据所属数据类型为变长数据类型,则提取所述源数据的摘要,并将提取的摘要作为所述源数据的属性值。
6.一种数据校验装置,其特征在于,包括:
属性提取模块,用于提取源数据的属性值和备份数据的属性值,其中所述源数据的属性值根据所述源数据确定,且所述源数据的属性值的数据量小于所述源数据的数据量;
属性比对模块,用于比对所述源数据的属性值与所述备份数据的属性值;
差异确定模块,用于根据比对结果确定所述源数据和所述备份数据的差异;
所述属性提取模块,包括:
索引记录获取单元,用于从所述源数据的属性存储单元中获取属性位置索引和属性值记录,其中所述属性位置索引包括所述源数据的属性值在所述属性值记录中的位置信息,所述属性值记录包括所述源数据的属性值;
存储行读取单元,用于根据所述属性值记录中待比对属性存储行的字节长度,从所述属性值记录中读取所述待比对属性存储行,其中所述待比对属性存储行中存储有所述源数据中待比对行数据的属性值;
位置确定单元,用于根据所述属性位置索引确定待比对属性值在所述待比对属性存储行中的位置;
属性值读取单元,用于根据所述位置从所述待比对属性存储行中读取待比对属性值;
所述位置确定单元,包括:
偏移获取子单元,用于从所述属性位置索引中读取所述待比对属性值所属列名的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度;
起始位置确定子单元,用于根据读取的行内偏移确定所述待比对属性值在所述待比对属性存储行中的起始位置;
终止位置确定子单元,用于根据读取的行内偏移与列名属性值的字节长度之和,确定所述待比对属性值在所述待比对属性存储行中的终止位置。
7.根据权利要求6所述的装置,其特征在于,所述偏移获取子单元具体用于:
从所述属性位置索引中读取所述待比对属性值所属列名的列名称长度;
根据读取的列名称长度,从所述属性位置索引中读取所述待比对属性值所属列名;
从所述属性位置索引中读取与所述待比对属性值所属列名关联存储的列名属性值在所述待比对属性存储行中的行内偏移和列名属性值的字节长度。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
版本比对模块,用于所述根据源数据的属性位置索引确定待比对属性值在所述待比对属性存储行中的位置之前,比对所述源数据的属性位置索引的版本与所述备份数据的属性位置索引的版本;
索引获取模块,用于若比对一致,则根据所述源数据的属性位置索引的字节长度读取所述源数据的属性位置索引。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
属性生成模块,用于所述提取源数据的属性值之前,在数据库系统归并所述源数据的过程中,生成所述源数据的属性值。
10.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的数据校验方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的数据校验方法。
CN201910407653.4A 2019-05-15 2019-05-15 数据校验方法、装置、设备和介质 Active CN110134691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910407653.4A CN110134691B (zh) 2019-05-15 2019-05-15 数据校验方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910407653.4A CN110134691B (zh) 2019-05-15 2019-05-15 数据校验方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN110134691A CN110134691A (zh) 2019-08-16
CN110134691B true CN110134691B (zh) 2021-06-01

Family

ID=67574551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910407653.4A Active CN110134691B (zh) 2019-05-15 2019-05-15 数据校验方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN110134691B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009254A (zh) * 2017-12-05 2018-05-08 北京百度网讯科技有限公司 多索引方法及装置、云系统以及计算机可读存储介质
CN109002472A (zh) * 2018-06-13 2018-12-14 平安科技(深圳)有限公司 一种数据库差异的识别方法及装置
CN109101603A (zh) * 2018-08-01 2018-12-28 上海达梦数据库有限公司 一种数据比对方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9547657B2 (en) * 2014-02-18 2017-01-17 Black Duck Software, Inc. Methods and systems for efficient comparison of file sets

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009254A (zh) * 2017-12-05 2018-05-08 北京百度网讯科技有限公司 多索引方法及装置、云系统以及计算机可读存储介质
CN109002472A (zh) * 2018-06-13 2018-12-14 平安科技(深圳)有限公司 一种数据库差异的识别方法及装置
CN109101603A (zh) * 2018-08-01 2018-12-28 上海达梦数据库有限公司 一种数据比对方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110134691A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN111090628B (zh) 一种数据处理方法、装置、存储介质及电子设备
CN109471851B (zh) 数据处理方法、装置、服务器和存储介质
CN111258966A (zh) 一种数据去重方法、装置、设备及存储介质
CN106648569B (zh) 目标序列化实现方法和装置
CN111949710A (zh) 数据存储方法、装置、服务器及存储介质
CN110019873B (zh) 人脸数据处理方法、装置及设备
CN109582231B (zh) 数据存储方法、装置、电子设备及存储介质
CN109101603B (zh) 一种数据比对方法、装置、设备及存储介质
WO2022068316A1 (zh) 数据对账方法、装置、设备及存储介质
CN112084179B (zh) 一种数据处理的方法、装置、设备及存储介质
CN113760839A (zh) 日志数据压缩处理方法、装置、电子设备和存储介质
CN112613964A (zh) 一种对账方法、装置、设备及存储介质
CN112711398A (zh) 埋点文件生成方法、装置、设备及存储介质
US9213759B2 (en) System, apparatus, and method for executing a query including boolean and conditional expressions
CN110888972A (zh) 一种基于Spark Streaming的敏感内容识别方法及装置
CN113111078B (zh) 资源数据处理方法、装置、计算机设备和存储介质
CN109347899B (zh) 在分布式存储系统中写入日志数据的方法
CN113094415B (zh) 数据抽取方法、装置、计算机可读介质及电子设备
CN113760894A (zh) 数据调取方法、装置、电子设备及存储介质
CN112506490A (zh) 一种接口生成方法、装置、电子设备及存储介质
CN110134691B (zh) 数据校验方法、装置、设备和介质
CN114385891B (zh) 数据搜索方法、装置、电子设备及存储介质
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质
CN114217790A (zh) 接口编排调度方法、装置、电子设备及介质
CN112307029A (zh) 账单数据存储和账单生成方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant