CN109271380B - 一种数据表海量数据校验方法及终端设备 - Google Patents

一种数据表海量数据校验方法及终端设备 Download PDF

Info

Publication number
CN109271380B
CN109271380B CN201810923299.6A CN201810923299A CN109271380B CN 109271380 B CN109271380 B CN 109271380B CN 201810923299 A CN201810923299 A CN 201810923299A CN 109271380 B CN109271380 B CN 109271380B
Authority
CN
China
Prior art keywords
data
data table
checked
field
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810923299.6A
Other languages
English (en)
Other versions
CN109271380A (zh
Inventor
巩凯丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201810923299.6A priority Critical patent/CN109271380B/zh
Publication of CN109271380A publication Critical patent/CN109271380A/zh
Application granted granted Critical
Publication of CN109271380B publication Critical patent/CN109271380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种数据表海量数据校验方法及终端设备,适用于数据处理技术领域,该方法包括:获取包含海量数据的数据表中待校验字段数据分别对应的数据更新频率h和数据重要等级d;根据预设的更新频率阈值H以及重要等级阈值D,从数据表中拆分出仅包含h≤H且d>D的待校验字段数据的第一类数据表、仅包含h>H且d<D的待校验字段数据的第二类数据表,以及同时包含h≤H且d<D和h>H且d>D的待校验字段数据的第三类数据表;按照第一类数据表、第三类数据表以及第二类数据表的顺序,依次对待校验字段数据进行校验。此本发明实施例能够极大地提升对数据表字段数据校验的效率,并保证校验结果的准确有效。

Description

一种数据表海量数据校验方法及终端设备
技术领域
本发明属于数据处理技术领域,尤其涉及数据表海量数据校验方法及终端设备。
背景技术
随着用户数据量的日益递增,数据管理系统中数据表的体积也日益增大,在对其中包含大数据量的数据表进行数据校验时,现有技术都是按照其中数据表的原始字段数据顺序逐条对数据进行校验,由于数据表数据量很大,从而使得现有技术的校验方法往往需要耗费大量的时间,同时由于数据表中可能包含一些需要数据更新频率高的字段数据,如用户的最后一次登录时间,而此时校验过程较为漫长,在这个校验过程中这些数据更新频率高的字段数据往往都发生了变化,从而使得对这些字段数据的校验结果并不准确。因此,现有技术对大数据量的数据表数据校验的效率低下,且校验结果不准确。
发明内容
有鉴于此,本发明实施例提供了一种数据表海量数据校验方法及终端设备,以解决现有技术中对大数据量的数据表数据校验的效率低下,且校验结果不准确的问题。
本发明实施例的第一方面提供了一种数据表海量数据校验方法,包括:
获取数据表中待校验字段数据分别对应的数据更新频率h和数据重要等级d;
根据预设的更新频率阈值H以及重要等级阈值D,从所述数据表中拆分出仅包含h≤H且d>D的所述待校验字段数据的第一类数据表、仅包含h>H且d<D的所述待校验字段数据的第二类数据表,以及同时包含h≤H且d<D和h>H且d>D的所述待校验字段数据的第三类数据表;
按照第一类数据表、第三类数据表以及第二类数据表的顺序,依次对所述待校验字段数据进行校验。
本发明实施例的第二方面提供了一种终端设备,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤。
获取数据表中待校验字段数据分别对应的数据更新频率h和数据重要等级d;
根据预设的更新频率阈值H以及重要等级阈值D,从所述数据表中拆分出仅包含h≤H且d>D的所述待校验字段数据的第一类数据表、仅包含h>H且d<D的所述待校验字段数据的第二类数据表,以及同时包含h≤H且d<D和h>H且d>D的所述待校验字段数据的第三类数据表;
按照第一类数据表、第三类数据表以及第二类数据表的顺序,依次对所述待校验字段数据进行校验。
本发明实施例的第三方面提供了一种计算机可读存储介质,包括:存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的数据表海量数据校验方法的步骤。
本发明实施例与现有技术相比存在的有益效果是:由于校验的最终目的就是判断字段数据是否满足用户设定的要求,如对提现申请表中字段数据校验的最终目就是判断提现申请表中的字段数据是否满足提现要求,而其中字段数据重要程度的高低,对校验结果有着直接的影响,当重要程度较高时甚至可能直接决定校验的结果,如对应提现申请表,领导意见栏的数据为空或者为否意味着校验的结果必定是不合法,此时后续也可以无需对其他字段数据进行校验了。因此通过对字段数据重要程度等级的划分及排序,可以极大地提升对数据表字段数据校验的效率,保证校验结果的准确有效。而另一方面,由于数据更新频率越高说明字段数据更新的越频繁,因此为了保证对这些高频变化的字段数据的有效校验,就必须尽可能地减少高频变化的字段数据校验完成后的等候时间,因此理论上越晚校验这些高频变化的字段数据,其校验结果越准确有效。
在本发明实施例中,综合考虑了字段数据的数据更新频率和数据重要等级两方面需求,基于待校验字段数据的数据更新频率和数据重要等级来对数据表进行拆分并对拆分出的数据表进行排序校验,使得重要程度高且更新频率低的待校验字段数据优先得到校验,而对于重要程度低但更新频率高的待校验数据最后进行校验以减少等候时间,从而实现了在保证重要程度高的待校验数据优先得到校验提高校验效率的同时,又保证了更新频率高的字段数据的等候时间最小化,保证了校验结果的准确有效。
另一方面,在本发明实施例中采用了从数据表中拆分出不同数据更新频率和数据重要等级需求的数据表的方式进行排序校验,相对现有技术中直接对数据表进行数据校验而言,由于拆分后得到的数据表在进行字段数据的访问、更新操作时无需访问其他数据表,因此可以极大地减小高频字段数据更新对其他数据表的影响保证校验结果的准确有效,同时由于拆分后得到的数据表所包含的数据量大大减少,从而使得对数据表中字段数据的访问查找对比等操作更加快捷,极大地减少了校验时对数据查找对比的时间,提升了对数据表字段数据校验的效率,同时对于高频变化的字段数据校验而言,更高效校验速度也同时意味着能得到更加准确的校验结果,因此本发明实施例能够极大地提升对数据表字段数据校验的效率,并保证校验结果的准确有效。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的数据表海量数据校验方法的实现流程示意图;
图2是本发明实施例二提供的数据表海量数据校验方法的实现流程示意图;
图3是本发明实施例三提供的数据表海量数据校验方法的实现流程示意图;
图4是本发明实施例四提供的数据表海量数据校验装置的结构示意图;
图5是本发明实施例五提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例一提供的数据表海量数据校验方法的实现流程图,详述如下:
S101,获取数据表中待校验字段数据分别对应的数据更新频率h和数据重要等级d。
由于每次校验的目的都是已知的,因此对数据表中哪些字段数据需要校验哪些不需要校验,都是可以提前确定出的,因此技术人员只需根据实际校验需求来预先设定好哪些字段数据需要校验,本发明实施例即可实现对待校验字段数据的。
其中,由于校验的最终目的就是判断字段数据是否满足用户设定的要求,如对提现申请表中字段数据校验的最终目就是判断提现申请表中的字段数据是否满足提现要求,而其中字段数据重要程度的高低,对校验结果有着直接的影响,当重要程度较高时甚至可能直接决定校验的结果,如对应提现申请表,领导意见栏的数据为空或者为否意味着校验的结果必定是不合法,此时后续也可以无需对其他字段数据进行校验了。因此为了提升对字段数据校验的效率以及校验结果的准确率,本发明实施例中首先会获取每个待校验字段数据的数据重要等级,以为后续的排序拆分校验等处理提供基础。
另一方面,由于不同的字段数据对应的数据更新频率各不相同,而由背景技术相关介绍可知,在对字段数据校验时数据更新频率高的字段数据对校验的速度,以及该字段数据校验完成后到整个数据表校验完成间的等候时间要求较高,因此为了保证对高频变化的字段数据的准确校验,本发明实施例中会首先获取待校验字段数据对应的数据更新频率,以为后续后续的排序拆分校验等处理提供基础。其中,每个字段数据对应的数据更新频率和数据重要等级,均需有技术人员根据字段数据实际情况以及用户的实际需求进行设定。
作为本发明的一个优先实施例,考虑到实际情况中并非所有的字段数据的数据更新频率都是可预知的值,如用户的登陆时间就无法进行预先预测,但另一方面来说,实质上这里字段数据又可看做是一直在实时更新的,因此为了保证对这类字段数据的准确校验,本发明实施例中可以将这类字段数据对应的数据更新频率设置为一个统一的,且大于设定的更新频率阈值的固定值。
S102,根据预设的更新频率阈值H以及重要等级阈值D,从数据表中拆分出仅包含h≤H且d>D的待校验字段数据的第一类数据表、仅包含h>H且d<D的待校验字段数据的第二类数据表,以及同时包含h≤H且d<D和h>H且d>D的待校验字段数据的第三类数据表。
根据待校验字段数据的数据更新频率及数据重要等级,与对应的更新频率阈值及重要等级阈值的大小关系,本发明实施例会将待校验字段数据划分为三类不同的数据,并从数据表中将这三类数据拆分为对应的三张数据表进行处理。其中第一类数据表中,包含的是数据更新频率低且数据重要等级高的待校验字段数据,第二类数据表中包含的是数据更新频率高且数据重要等级低的待校验字段数据,第三类数据表中则同时包含了数据更新频率低且数据重要等级低的待校验字段数据,以及数据更新频率高且数据重要等级高的待校验字段数据。
由于对字段数据进行更新、修改以及校验等操作时,均需先从数据表中查找出对应的字段数据,因此在数据表数据量非常大时,每次对字段数据的操作均需耗费相对较长的时间,而对于包含高频更新的字段数据的数据表而言,这个耗费的时间尤为明显,同时加上在更新的同时还需对字段数据进行查找校验,使得对数据表的校验工作受到极大的影响,极大的影响了校验的速度和效率,且容易出现校验错误。为了提高校验效率保证校验结果的准确性,本发明实施例中采用了对不同类型的待校验字段数据进行表格拆分的方式,来进行后续的字段数据校验,同时由于拆分后得到的数据表所包含的数据量大大减少,从而使得对数据表中字段数据的访问查找对比等操作更加快捷,极大地减少了校验时对数据查找对比的时间,提升了对数据表字段数据校验的效率,同时对于高频变化的字段数据校验而言,更高效校验速度也同时意味着能得到更加准确的校验结果,因此本发明实施例能够极大地提升对数据表字段数据校验的效率,并保证校验结果的准确有效。
其中,更新频率阈值以及重要等级阈值的具体取值,需由技术人员根据实际需求进行设定。
S103,按照第一类数据表、第三类数据表以及第二类数据表的顺序,依次对待校验字段数据进行校验。
对于第一类数据表而言,由于其中的待校验字段数据的数据重要等级高,因此优先校验可以提高对数据表校验的效率以及校验结果的准确性,而同时由于其中的待校验数据的更新频率都较低,其对字段数据校验的速度以及等候时间的要求均较低,因此优先对低频变化的待校验字段数据进行校验,可以极大地减小置后校验的高频变化的待校验字段数据的等候时间,从而提高对校验结果的效率以及校验结果的准确性。
对于第二类数据表而言,与第一类数据表刚好相反,由于中待校验字段数据的数据重要等级均较低,但数据更新频率均较高,因此适宜置后进行校验,以保证校验结果的准确有效。
对于第三类数据表而言,与前两类数据表不同之处在于,其中包含的待校验字段数据的数据重要等级以及数据更新频率对更新优先级的影响均是相反的,因此,相对前两类数据表其校验优先级的需求相对折中。
基于上述原因,本发明实施例中以第一类数据表、第三类数据表以及第二类数据表的顺序,依次对这些待校验字段数据进行校验,以保证对数据表中待校验字段数据的高效准确的校验。
在本发明实施例中,综合考虑了字段数据的数据更新频率和数据重要等级两方面需求,基于待校验字段数据的数据更新频率和数据重要等级来对数据表进行拆分并对拆分出的数据表进行排序校验,使得重要程度高且更新频率低的待校验字段数据优先得到校验,而对于重要程度低但更新频率高的待校验数据最后进行校验以减少等候时间,从而实现了在保证重要程度高的待校验数据优先得到校验提高校验效率的同时,又保证了更新频率高的字段数据的等候时间最小化,保证了校验结果的准确有效。
另一方面,在本发明实施例中采用了从数据表中拆分出不同数据更新频率和数据重要等级需求的数据表的方式进行排序校验,相对现有技术中直接对数据表进行数据校验而言,由于拆分后得到的数据表在进行字段数据的访问、更新操作时无需访问其他数据表,因此可以极大地减小高频字段数据更新对其他数据表的影响保证校验结果的准确有效,同时由于拆分后得到的数据表所包含的数据量大大减少,从而使得对数据表中字段数据的访问查找对比等操作更加快捷,极大地减少了校验时对数据查找对比的时间,提升了对数据表字段数据校验的效率,同时对于高频变化的字段数据校验而言,更高效校验速度也同时意味着能得到更加准确的校验结果,因此本发明实施例能够极大地提升对数据表字段数据校验的效率,并保证校验结果的准确有效。
作为对第一类数据表进行待校验字段数据的校验的一种具体实现方式,如图2所示,包括:
S1031,根据数据重要等级从高到低的顺序,依次对第一类数据表中的待校验字段数据进行排序并进行校验。
对于第一类数据表而言,其待校验字段数据的数据更新频率均较低,即数据更新频率对校验效率及校验结果的准确性影响均较低,但由于其待校验字段数据的数据重要等级较高,而数据重要等级越高,其对校验效率以及校验结果的影响越大,甚至能直接决定校验结果如何,因此,通过根据数据重要等级对第一类数据表中的待校验字段数据进行排序,并优先对数据重要等级高的待校验数据进行校验,可以极大地提升对数据表字段数据校验的效率以结果的准确性。
作为对第二类数据表进行待校验字段数据的校验的一种具体实现方式,如图2所示,包括:
S1032,将第二类数据表拆分为N个包含数据更新频率不同的待校验字段数据的数据表,并按照数据更新频率从低到高的顺序,依次对拆分得到的数据表进行待校验字段数据的校验,其中,N为正整数。
对于第二类数据表而言,由于其待校验字段数据的数据重要等级均较低,对数据表字段数据校验的影响不大,但其待校验字段数据的数据更新频率较高,而数据更新频率对等候时间的要求较高,因此,根据数据更新频率来对其中的待校验字段数据排序处理,可以极大地提升对高频变化的字段数据的校验结果准确性。其中,本发明实施例是以先进行数据表拆分再排序校验的方式来对第二类数据表进行校验,好处在于:由于高频变化的字段数据,其对应的数据更新操作次数较多,大量字段数据进行更新时对第二类数据表校验的影响较大,而分表可以将这个数据更新操作带来的影响进行分摊,从而减小了对待校验字段数据的校验影响。
作为对第三类数据表进行待校验字段数据的校验的一种具体实现方式,如图3所示,本发明实施例三,包括:
S301,将第三类数据表拆分为仅包含h≤H且d<D的待校验字段数据的第四类数据表,以及仅包含h>H且d>D的待校验字段数据的第五类数据表,并判断第四类数据表和第五类数据表的文件大小差值是否大于预设的体积差值阈值。
由于第三类数据表中包含的待校验字段数据的情况较为复杂,且难以直接根据其对应的数据更新频率和数据重要等级进行校验优先级划分,因此,为了进一步地提升对数据表字段数据校验的效率及结果的准确性,本发明实施例中对第三类数据表进行了进一步的拆分,得到了仅包含数据更新频率低且数据重要等级低的待校验字段数据的第四类数据表,以及数据更新频率高且数据重要等级高的待校验字段数据第五类数据表,并对两表进行了进一步地排序校验处理。
S302,若文件大小差值大于体积差值阈值,按照文件大小从小到大的顺序,依次对第四类数据表和第五类数据表进行待校验字段数据的校验。
当文件体积差异过大时,直接先对文件体积小的数据表进行校验,以减少其对应的待校验字段数据的等候时间,提高对数据表字段数据校验的效率及结果的准确性。
S303,若文件大小差值小于或等于体积差值阈值,基于包含的待校验字段数据的数据更新频率和数据重要等级,对第四类数据表和第五类数据表进行优先度排序并进行校验。
当文件体积差异不大时,无论先对那张数据表进行校验,另一张数据表都需要等候较长的时间,再对体较小的数据表进行优先校验的意义不大。此时,本发明实施例会根据两张数据表中待校验字段数据的数据更新频率和数据重要等级,来综合对两张数据表的优先级进行评定,并将其中优先级高的数据表优先进行校验,以提高对数据表字段数据校验的效率及结果的准确性。
其中,具体根据待校验字段数据的数据更新频率和数据重要等级,来综合对两张数据表的优先级进行评定的方法,此处不予限定,可由技术人员自行设定,包括但不限于如:从数据表中提取出最大的数据更新频率和数据重要等级,并基于预先设定的权重系数来继续计算,得到每个数据表对应的权重值,权重值越高的数据表,优先级越高。
作为对第四类数据表和第五类数据表中的待校验字段数据进行校验的一种具体实现方式,包括:
对当前数据表中待校验字段数据的数据更新频率和数据重要等级进行评分,基于预设的权重系数对得到的两个评分值进行权重计算,并根据得到的权重值从高至低的顺序对当前数据表中待校验字段数据进行排序和校验,其中,评分值与数据更新频率负相关,评分值与数据重要等级正相关。
在对第四类数据表和第五类数据表排序完成后,对每个数据表分别进行待校验字段数据的校验时,为了提升对单个数据表字段数据校验的效率及结果的准确性,本发明实施例中会预先对待校验字段数据的数据更新频率和数据重要等级设置好相应的评分规则,以实现对两种的量化计算,并在得到每个待校验字段数据对应的两个评分值之后,再根据设置的权重系数计算对应的权重值,最后基于权重值对应的顺序依次进行排序校验,从而实现了对每个待校验字段数据对数据表校验重要程度的量化,得到了其对应的校验顺序。其中,由于数据更新频率越高,其越适宜于置后校验,以保证校验的准确性,因此在对数据更新频率进行评分时,其与最终的评分值为负相关的关系,即数据更新频率越高,其对应的评分值越低。
对应于上文实施例的方法,图4示出了本发明实施例提供的数据表海量数据校验装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。图4示例的数据表海量数据校验装置可以是前述实施例一提供的数据表海量数据校验方法的执行主体。
参照图4,该数据表海量数据校验装置包括:
数据属性获取模块41,用于获取数据表中待校验字段数据分别对应的数据更新频率h和数据重要等级d。
表格拆分模块42,用于根据预设的更新频率阈值H以及重要等级阈值D,从所述数据表中拆分出仅包含h≤H且d>D的所述待校验字段数据的第一类数据表、仅包含h>H且d<D的所述待校验字段数据的第二类数据表,以及同时包含h≤H且d<D和h>H且d>D的所述待校验字段数据的第三类数据表。
第一数据校验模块43,用于按照第一类数据表、第三类数据表以及第二类数据表的顺序,依次对所述待校验字段数据进行校验。
进一步地,第一数据校验模块43,包括:
根据所述数据重要等级从高到低的顺序,依次对所述第一类数据表中的所述待校验字段数据进行排序并进行校验。
进一步地,第一数据校验模块43,还包括:
将所述第二类数据表拆分为N个包含数据更新频率不同的所述待校验字段数据的数据表,并按照所述数据更新频率从低到高的顺序,依次对拆分得到的数据表进行所述待校验字段数据的校验,其中,N为正整数。
进一步地,第一数据校验模块43,还包括:
子表拆分模块,用于将所述第三类数据表拆分为仅包含h≤H且d<D的所述待校验字段数据的第四类数据表,以及仅包含h>H且d>D的所述待校验字段数据的第五类数据表,并判断所述第四类数据表和所述第五类数据表的文件大小差值是否大于预设的体积差值阈值。
第二数据校验模,用于若所述文件大小差值大于所述体积差值阈值,按照文件大小从小到大的顺序,依次对所述第四类数据表和所述第五类数据表进行所述待校验字段数据的校验。
第三数据校验模,用于若所述文件大小差值小于或等于所述体积差值阈值,基于包含的所述待校验字段数据的所述数据更新频率和所述数据重要等级,对所述第四类数据表和所述第五类数据表进行优先度排序并进行校验。
进一步地,第三数据校验模,还包括:
对当前数据表中所述待校验字段数据的所述数据更新频率和所述数据重要等级进行评分,基于预设的权重系数对得到的两个评分值进行权重计算,并根据得到的权重值从高至低的顺序对当前数据表中所述待校验字段数据进行排序和校验,其中,所述评分值与所述数据更新频率负相关,所述评分值与所述数据重要等级正相关。
本发明实施例提供的数据表海量数据校验装置中各模块实现各自功能的过程,具体可参考前述图1所示实施例一的描述,此处不再赘述。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解的是,虽然术语“第一”、“第二”等在文本中在一些本发明实施例中用来描述各种元素,但是这些元素不应该受到这些术语的限制。这些术语只是用来将一个元素与另一元素区分开。例如,第一接触可以被命名为第二接触,并且类似地,第二接触可以被命名为第一接触,而不背离各种所描述的实施例的范围。第一接触和第二接触都是接触,但是它们不是同一接触。
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51,所述存储器51中存储有可在所述处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个数据表海量数据校验方法实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示模块41至43的功能。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入发送设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经发送或者将要发送的数据。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使对应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据表海量数据校验方法,其特征在于,包括:
获取数据表中预先设定好需要校验的待校验字段数据分别对应的数据更新频率h和数据重要等级d;
根据预设的更新频率阈值H以及重要等级阈值D,从所述数据表中拆分出仅包含h≤H且d>D的所述待校验字段数据的第一类数据表、仅包含h>H且d<D的所述待校验字段数据的第二类数据表,以及同时包含h≤H且d<D和h>H且d>D的所述待校验字段数据的第三类数据表;
按照第一类数据表、第三类数据表以及第二类数据表的顺序,依次对所述待校验字段数据进行校验;
对所述第三类数据表中的所述待校验字段数据进行校验的过程,包括:
将所述第三类数据表拆分为仅包含h≤H且d<D的所述待校验字段数据的第四类数据表,以及仅包含h>H且d>D的所述待校验字段数据的第五类数据表,并判断所述第四类数据表和所述第五类数据表的文件大小差值是否大于预设的体积差值阈值;
若所述文件大小差值大于所述体积差值阈值,按照文件大小从小到大的顺序,依次对所述第四类数据表和所述第五类数据表进行所述待校验字段数据的校验;
若所述文件大小差值小于或等于所述体积差值阈值,基于包含的所述待校验字段数据的所述数据更新频率和所述数据重要等级,对所述第四类数据表和所述第五类数据表进行优先度排序并进行校验。
2.如权利要求1所述的数据表海量数据校验方法,其特征在于,对所述第一类数据表中的所述待校验字段数据进行校验的过程,包括:
根据所述数据重要等级从高到低的顺序,依次对所述第一类数据表中的所述待校验字段数据进行排序并进行校验。
3.如权利要求1所述的数据表海量数据校验方法,其特征在于,对所述第二类数据表中的所述待校验字段数据进行校验的过程,包括:
将所述第二类数据表拆分为N个包含数据更新频率不同的所述待校验字段数据的数据表,并按照所述数据更新频率从低到高的顺序,依次对拆分得到的数据表进行所述待校验字段数据的校验,其中,N为正整数。
4.如权利要求1所述的数据表海量数据校验方法,其特征在于,对所述第四类数据表和所述第五类数据表中的所述待校验字段数据的校验过程,包括:
对当前数据表中所述待校验字段数据的所述数据更新频率和所述数据重要等级进行评分,基于预设的权重系数对得到的两个评分值进行权重计算,并根据得到的权重值从高至低的顺序对当前数据表中所述待校验字段数据进行排序和校验,其中,所述评分值与所述数据更新频率负相关,所述评分值与所述数据重要等级正相关。
5.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
获取数据表中预先设定好需要校验的待校验字段数据分别对应的数据更新频率h和数据重要等级d;
根据预设的更新频率阈值H以及重要等级阈值D,从所述数据表中拆分出仅包含h≤H且d>D的所述待校验字段数据的第一类数据表、仅包含h>H且d<D的所述待校验字段数据的第二类数据表,以及同时包含h≤H且d<D和h>H且d>D的所述待校验字段数据的第三类数据表;
按照第一类数据表、第三类数据表以及第二类数据表的顺序,依次对所述待校验字段数据进行校验;
对所述第三类数据表中的所述待校验字段数据进行校验的过程,包括:
将所述第三类数据表拆分为仅包含h≤H且d<D的所述待校验字段数据的第四类数据表,以及仅包含h>H且d>D的所述待校验字段数据的第五类数据表,并判断所述第四类数据表和所述第五类数据表的文件大小差值是否大于预设的体积差值阈值;
若所述文件大小差值大于所述体积差值阈值,按照文件大小从小到大的顺序,依次对所述第四类数据表和所述第五类数据表进行所述待校验字段数据的校验;
若所述文件大小差值小于或等于所述体积差值阈值,基于包含的所述待校验字段数据的所述数据更新频率和所述数据重要等级,对所述第四类数据表和所述第五类数据表进行优先度排序并进行校验。
6.如权利要求5所述终端设备,其特征在于,对所述第一类数据表中的所述待校验字段数据进行校验的过程,包括:
根据所述数据重要等级从高到低的顺序,依次对所述第一类数据表中的所述待校验字段数据进行排序并进行校验。
7.如权利要求5所述终端设备,其特征在于,对所述第二类数据表中的所述待校验字段数据进行校验的过程,包括:
将所述第二类数据表拆分为N个包含数据更新频率不同的所述待校验字段数据的数据表,并按照所述数据更新频率从低到高的顺序,依次对拆分得到的数据表进行所述待校验字段数据的校验,其中,N为正整数。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
CN201810923299.6A 2018-08-14 2018-08-14 一种数据表海量数据校验方法及终端设备 Active CN109271380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810923299.6A CN109271380B (zh) 2018-08-14 2018-08-14 一种数据表海量数据校验方法及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810923299.6A CN109271380B (zh) 2018-08-14 2018-08-14 一种数据表海量数据校验方法及终端设备

Publications (2)

Publication Number Publication Date
CN109271380A CN109271380A (zh) 2019-01-25
CN109271380B true CN109271380B (zh) 2024-03-15

Family

ID=65153386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810923299.6A Active CN109271380B (zh) 2018-08-14 2018-08-14 一种数据表海量数据校验方法及终端设备

Country Status (1)

Country Link
CN (1) CN109271380B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276060B (zh) * 2019-06-24 2022-12-09 北京明略软件系统有限公司 数据处理的方法以及装置
CN110704461A (zh) * 2019-09-05 2020-01-17 苏州浪潮智能科技有限公司 一种数据校验方法、装置、计算机设备及可读存储介质
CN111966673B (zh) * 2020-08-18 2021-06-25 深圳市维度数据科技股份有限公司 基于大数据的数据审核方法、装置及存储介质
CN112306999A (zh) * 2020-10-19 2021-02-02 亚信科技(中国)有限公司 数据稽核方法、装置、电子设备及计算机可读存储介质
CN115544147B (zh) * 2022-10-18 2023-12-08 山东水发紫光大数据有限责任公司 机房数据读取方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101509783A (zh) * 2009-03-24 2009-08-19 北京四维图新科技股份有限公司 应用于导航电子地图生产中的数据检查方法及装置
CN102486764A (zh) * 2010-12-04 2012-06-06 中国科学院沈阳自动化研究所 一种单串口多组数据涌入的同步协调处理方法及装置
CN103888254A (zh) * 2012-12-21 2014-06-25 阿里巴巴集团控股有限公司 一种网络验证信息的方法和装置
CN104142954A (zh) * 2013-05-10 2014-11-12 中国电信股份有限公司 一种基于频度分区的数据表比对更新方法与装置
CN104969476A (zh) * 2013-02-08 2015-10-07 索尼公司 数据处理装置以及数据处理方法
CN106372301A (zh) * 2016-08-29 2017-02-01 西电通用电气自动化有限公司 智能变电站配置文件可视化及配置一致性检测方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101509783A (zh) * 2009-03-24 2009-08-19 北京四维图新科技股份有限公司 应用于导航电子地图生产中的数据检查方法及装置
CN102486764A (zh) * 2010-12-04 2012-06-06 中国科学院沈阳自动化研究所 一种单串口多组数据涌入的同步协调处理方法及装置
CN103888254A (zh) * 2012-12-21 2014-06-25 阿里巴巴集团控股有限公司 一种网络验证信息的方法和装置
CN104969476A (zh) * 2013-02-08 2015-10-07 索尼公司 数据处理装置以及数据处理方法
CN104142954A (zh) * 2013-05-10 2014-11-12 中国电信股份有限公司 一种基于频度分区的数据表比对更新方法与装置
CN106372301A (zh) * 2016-08-29 2017-02-01 西电通用电气自动化有限公司 智能变电站配置文件可视化及配置一致性检测方法和系统

Also Published As

Publication number Publication date
CN109271380A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109271380B (zh) 一种数据表海量数据校验方法及终端设备
US11556812B2 (en) Method and device for acquiring data model in knowledge graph, and medium
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN108388509B (zh) 一种软件测试方法、计算机可读存储介质及终端设备
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
US20180107953A1 (en) Content delivery method, apparatus, and storage medium
CN109597810B (zh) 一种任务切分方法、装置、介质及电子设备
CN110705248A (zh) 一种文本相似度计算方法、终端设备及存储介质
CN113536081A (zh) 基于人工智能的数据中心数据管理方法及系统
CN112015971A (zh) 云产品的推荐方法、装置、电子设备及计算机可读介质
CN109766282B (zh) 一种卡顿检测方法、卡顿检测装置及终端设备
CN113032258A (zh) 一种电子地图的测试方法、装置、电子设备及存储介质
CN110941483B (zh) 一种队列处理方法、装置及设备
CN105245380B (zh) 一种消息的传播方式识别方法及装置
CN111680754B (zh) 图像分类方法、装置、电子设备及计算机可读存储介质
CN111582456B (zh) 用于生成网络模型信息的方法、装置、设备和介质
CN114090539A (zh) 数据迁移方法、装置、计算机系统及存储介质
CN109240878B (zh) 数据处理方法和装置
CN113066479A (zh) 一种评测模型的方法和装置
CN111382757A (zh) 深度学习分类算法中动态调节训练样本的方法及终端设备
CN116151215B (zh) 文本处理方法、深度学习模型训练方法、装置以及设备
US11481130B2 (en) Method, electronic device and computer program product for processing operation commands
CN113238765B (zh) 小程序的分发方法、装置、设备和存储介质
CN110851438A (zh) 一种数据库索引优化建议与验证的方法和装置
CN115550276A (zh) 基于并行路由的流量抛弃方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant