CN114064621B - 一种重复数据判断方法 - Google Patents

一种重复数据判断方法 Download PDF

Info

Publication number
CN114064621B
CN114064621B CN202111259805.4A CN202111259805A CN114064621B CN 114064621 B CN114064621 B CN 114064621B CN 202111259805 A CN202111259805 A CN 202111259805A CN 114064621 B CN114064621 B CN 114064621B
Authority
CN
China
Prior art keywords
data
repeated
retrieval
hash value
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111259805.4A
Other languages
English (en)
Other versions
CN114064621A (zh
Inventor
郭彦涛
程亮
曹红艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Weizhi Technology Co ltd
Original Assignee
Jiangsu Weizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Weizhi Technology Co ltd filed Critical Jiangsu Weizhi Technology Co ltd
Priority to CN202111259805.4A priority Critical patent/CN114064621B/zh
Publication of CN114064621A publication Critical patent/CN114064621A/zh
Application granted granted Critical
Publication of CN114064621B publication Critical patent/CN114064621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种重复数据判断方法,其可以高效的完成大数据中的重复数据统计的工作,同时对服务器硬件性能要求也很低。本专利技术方案中,基于数据的业务字段生成数据哈希值,通过数据哈希值的比对,找到所有的重复数据;每次进行比对是通过比对数据库表、检索用表,找到二者不一致的数据ID,作为待处理数据ID,然后成批次的对待处理数据ID生成数据哈希值,通过分别对数据哈希值排序、同哈希值的数据之间通过创建时间排序,找到待处理数据ID中与待检索数据库中原有数据重复的数据。

Description

一种重复数据判断方法
技术领域
本发明涉及数据检索技术领域,具体为一种重复数据判断方法。
背景技术
在基于数据库进行数据处理的工作中,很多时候需要统计重复数据的数量。如:在统计机构对企业信用数据的归集共享工作中,不同的用户会持续的提交自身企业信用相关数据。因为提交管理不规范,导致出现数据重复提交的问题频繁发生。为了改善数据提交工作,管理部门将重复数据量作为对机关绩效考核和各地级以上考核评分项,这就需要统计每次提交的数据中的数据重复量。但是,因为每次提交的数据需要与数据库中现存的数据进行比较,而当数据库中的数据量非常大的时候,比如存储单位达到千万、上亿条,直接将每一条提交的数据与所有的现存数据进行比较,会导致查重效率很低,同时对服务器的硬件性能要求非常高。
发明内容
为了解决现有技术中基于大数据进行重复数据统计效率低并且对服务器硬件性能要求高的问题,本发明提供一种重复数据判断方法,其可以高效的完成大数据中的重复数据统计的工作,同时对服务器硬件性能要求也很低。
本发明的技术方案是这样的:一种重复数据判断方法,其包括以下步骤:
S1:获取待检索数据库的数据库表;
所述数据库表中包括:数据ID、数据的业务字段;
所述数据ID为标记该条目数据的唯一ID;
所述业务字段为表示该条目数据的实质内容的数据;数据的所述业务字段相同,则表明存在数据重复;
其特征在于,其还包括以下步骤:
S2:获取数据库中的检索用表,确认所述检索用表是否存在;
如果所述检索用表不存在,则实施步骤S3;
否则实施步骤S4;
S3:为所述数据库表中存储的所有数据,建立一个所述检索用表;
所述检索用表存储的内容包括:数据ID、数据ID对应的数据哈希值、重复状态、创建时间;
所述检索用表中的所述数据ID为所述数据库表中所述数据ID的子集;
在所述检索用表中,每一条所述数据ID与其他字段分别为1:1关系;
所述数据哈希值为基于所述数据ID对应的数据的所述业务字段使用哈希函数生成;
所述创建时间为数据存入所述待检索数据库的时间;
所述重复状态的值包括:重复、不重复;
S4:比对所述数据库表、所述检索用表;
如果所述数据库表中的所述数据ID与所述检索用表中的所述数据ID不一致,则实施步骤S5,进行本轮数据重复检索操作;
否则结束本次操作;
S5:获取存在于所述数据库表中,但不存在于所述检索用表中的所有所述数据ID,记做:待处理数据ID;
向所述检索用表中,插入所有所述待处理数据ID对应的数据哈希值;
S6:在所述检索用表中,查找重复数据;
所述查找重复数据的步骤包括:
a1:将所述检索用表中的所有所述数据ID,以所述数据哈希值进行排序;
a2:以所述数据哈希值为区分,将所有所述所述数据ID分组;
找到所有所述数据ID个数大于1的组,记做重复数据组;其余的数据记做:无重复数据;
a3:获取每组所述重复数据组,对其包括的所述数据ID以所述创建时间进行排序;
除所述创建时间最早的所述数据ID以外,将其他所有所述数据ID对应的所述重复状态字段设置为:重复;
a4:所有所述无重复数据对应的所述重复状态字段设置为:不重复;
a5:按照数据的所述创建时间将所有数据分组,找到其中所有的重复状态字段为重复的数据,即得到该批次上传到所述待检索数据库的数据中的重复数据。
其进一步特征在于:
所述数据哈希值的生成方法为:获取数据的所有所述业务字段,将所有的所述业务字段直接拼接成字符串,然后计算出此字符串的哈希值;
步骤S1实施之前,预设一个数据重复检索定时方式,按照所述重复检索定时方式,循环实施步骤S1~S6;
所述重复检索定时方式包括:设置定时启动时间、设置重复检索相隔时间T;
所述定时启动时间包括一个或者多个具体的时间,每天的所述定时启动时间到达后,实施一轮步骤S1~S6;
所述重复检索相隔时间T为两次所述数据重复检索操作之间的间隔时间,上一次的数据重复检索操作中步骤S6结束T时间后,开始实施下一轮重复数据判断方法中的步骤S1;
当所述重复检索定时方式选择所述定时启动时间时,如果因为数据量过大,导致前一次数据重复检索操作还未完成,下一次定时启动时间已经到达,则顺延下一次所述数据重复检索操作的开始时间到前次数据重复检索操作的结束时间;
步骤S5中,所述插入数据哈希值操作的步骤包括:
b1:建立临时表;
所述临时表包括:数据ID、数据哈希值;
b2:将所有的所述待处理数据ID存入所述临时表中;
b3:为所述临时表中的每一条所述待处理ID,基于其对应的业务字段生成其对应的所述数据哈希值,并存入所述临时表;
将所述临时表中的所述待处理ID、所述数据哈希值批量存入所述检索用表中;
b4:当所有的所述待处理ID的所述数据哈希值都被存入到所述检索用表中后,删除所述临时表;
步骤b3中将所述数据哈希值批量存入所述检索用表的过程,包括以下步骤:
c1:预设一个分页处理阈值M;所述分页处理阈值M表示每次生成所述数据哈希值的数据的条目数;
c2:每次获取M条所述待处理数据ID,基于所述所述数据库表,得到其对应数据的所述业务字段,分别生成所述数据哈希值;
c3:将每个所述数据哈希值存入所述临时表中;
c4:将本次M条所述待处理数据ID对应的所述数据哈希值一起存入到所述检索用表中;
c5:循环执行步骤c2~c4,直至所有的待处理数据ID对应的所述数据哈希值,都被存入到所述检索用表中。
本发明提供的一种重复数据判断方法,基于数据的业务字段生成数据哈希值,通过数据哈希值的比对,找到所有的重复数据;每次进行比对是通过比对数据库表、检索用表,找到二者不一致的数据ID,作为待处理数据ID,然后成批次的对待处理数据ID生成数据哈希值,通过分别对数据哈希值排序、同哈希值的数据之间通过创建时间排序,找到待处理数据ID中与待检索数据库中原有数据重复的数据,无需针对每一条数据分别查重,极大的提高了实施效率,同时降低了对服务器性能的要求;通过设置检索用表存储数据哈希值,以及进行数据重复检索操作,避免直接操作数据库表,而导致对服务器性能要求过高;生成数据哈希值的时候,通过建立临时表批量的生成待处理数据ID对应的数据哈希值,然后分批次的插入到检索用表中,避免了直接在检索用表中对每一条数据生成数据哈希值然后插入,导致整体效率低下的问题,进一步的提高了整个数据重复检索操作的执行效率,且降低了对服务器性能的要求。
附图说明
图1为重复数据判断方法的流程示意图。
具体实施方式
如图1所示,本发明一种重复数据判断方法,其包括以下步骤。
S1:获取待检索数据库的数据库表;
数据库表中包括:数据ID、数据的业务字段;
数据ID为标记该条目数据的唯一ID;
业务字段为表示该条目数据的实质内容的数据;本实施例中,数据的业务字段相同,则表明存在数据重复,即通过两条数据的所有的业务字段是否完全一致来判断二者是否为重复数据。
实际工作中,数据的具体结构根据其对应的业务内容不同而不同。
本实施例中,存储在待检索数据库中的数据包括如下字段:
ID、 FK_LOG_ID、 INSERT_TYPE、STATUS、 INFO_TYPE、 TASK_CODE、 CREATE_TIME、CREATE_USER、 DEPT_CODE,、DEPT_NAME、 TABLE_VERSION_ID;
CF_WSH、CF_SY、CF_XDR、XK_XDR_SHXYM、XK_XDR_ZDM、XK_XDR_LB;
其中,“CF_WSH、CF_SY、CF_XDR、XK_XDR_SHXYM、XK_XDR_ZDM、XK_XDR_LB”为数据的业务字段;其他的字段为数据存储用的固定字段,如ID为数据ID。
S2:获取数据库中的检索用表,确认检索用表是否存在;
如果检索用表不存在,则实施步骤S3;否则实施步骤S4。
因为待检索数据库的数据量非常大,所以数据库表的数据量必然很大,直接将每个数据ID对应的数据哈希值在数据库表中存储,必然会导致效率降低,所以本发明技术方案中另外建立一个检索用表,用于存储重复数据检索时用到的数据哈希值。
S3:为数据库表中存储的所有数据,建立一个检索用表;
检索用表存储的内容包括:数据ID、数据ID对应的数据哈希值、重复状态、创建时间;
检索用表中的数据ID为数据库表中数据ID的子集;
在检索用表中,每一条数据ID与其他字段分别为1:1关系;
数据哈希值为基于数据ID对应的数据的业务字段使用哈希函数生成;
创建时间为数据存入待检索数据库的时间;
重复状态的值包括:重复、不重复。
如下面表1,为一个空的检索用表的实施例1。
表1:检索用表实施例1
Figure 177120DEST_PATH_IMAGE001
表1中ID为数据ID的字段,HASH_CODE为数据ID对应的数据哈希值,CREATE_TIME为创建时间,IS_DUPLICATE为重复状态;具体实施的时候,重复状态用1、0表示,0表示不重复,1表示重复。因为检索用表是为了对数据库表中的数据进行查重而建立的表,所以检索用表中的数据ID是依据数据库表建立的,所以检索用表中的数据ID为数据库表中数据ID的子集。
创建检索用表时,直接从数据库表获取数据ID、创建时间;而数据哈希值通过临时表进行计算后插入,重复状态则在每次进行数据重复检索操作后填入。
数据哈希值的生成方法为:获取数据的所有业务字段,将数据对应的所有的业务字段直接拼接成字符串,然后计算出此字符串的哈希值。
如数据ID为1的数据的业务字段:
CF_WSH、CF_SY、CF_XDR、XK_XDR_SHXYM、XK_XDR_ZDM、XK_XDR_LB
对应的具体数值为:
10001、罚款、100、未至科技、91370104MA3MMCX3XA、法人及非法人组织
则其生成数据哈希值过程为:
首先将所有的业务字段拼接成字符串Str:
str=“10001罚款100未至科技91370104MA3MMCX3XA法人及非法人组织”
基于指定的哈希函数,计算出此字符串的数据哈希值hashCode:
hashCode=faa94af6afbfb438709ebd1e01371b89
即得到在检索用表中,数据ID:为1的数据对应的数据哈希值。
将上述数据存入检索用表中,参照下面的表2;
表2:检索用表实施例2
Figure 953315DEST_PATH_IMAGE002
S4:比对数据库表、检索用表;
如果数据库表中的数据ID与检索用表中的数据ID不一致,则实施步骤S5,进行本轮数据重复检索操作;
否则不进行数据重复检索操作,结束本次操作;
S5:获取存在于数据库表中,但不存在于检索用表中的所有数据ID,记做:待处理数据ID;
向检索用表中,插入所有待处理数据ID对应的数据哈希值。
插入数据哈希值操作的步骤包括:
b1:建立临时表;
临时表包括:数据ID、数据哈希值;
b2:将所有的待处理数据ID存入临时表中;
b3:为临时表中的每一条待处理ID,基于其对应的业务字段生成其对应的数据哈希值,并存入临时表;
将临时表中的待处理ID、数据哈希值批量存入检索用表中;
b4:当所有的待处理ID的数据哈希值都被存入到检索用表中后,删除临时表。
步骤b3中将数据哈希值批量存入检索用表的过程,包括以下步骤:
c1:预设一个分页处理阈值M;分页处理阈值M表示每次生成数据哈希值的数据的条目数;
c2:每次获取M条待处理数据ID,基于数据库表,得到其对应数据的业务字段,分别生成数据哈希值;
c3:将每个数据哈希值存入临时表中;
c4:将本次M条待处理数据ID对应的数据哈希值一起存入到检索用表中;
c5:循环执行步骤c2~c4,直至所有的待处理数据ID对应的数据哈希值,都被存入到检索用表中。
因为随着待检索数据库中数据的增加,数据库表、检索用表中的数据量必然也越来越大,
插入数据哈希值因为涉及到增量数据计算,需要记录本次数据执行到哪里了,直接读取数据库表、检索用表中千万级别的原始存量数据,对服务器的性能要求也会非常高,本发明技术方案中,创建了临时表用于保存本次需要处理原始存量数据的哪些数据,降低了对服务器性能的要求,同时对数据哈希值的存储不是逐条进行,而是通过批处理方式对检索用表进行commit等数据库操作,与逐条提交相比,提高了操作效率。
本实施例中,分页处理阈值M设置为10000条,即每10000条数据的数据哈希值会被作为一个批次存入到检索用表中。
S6:在检索用表中,查找重复数据;
查找重复数据的步骤包括:
a1:将检索用表中的所有数据ID,以数据哈希值进行排序;
a2:以数据哈希值为区分,将所有数据ID分组;
找到所有数据ID个数大于1的组,记做重复数据组;
a3:获取每组重复数据组,对其包括的数据ID以创建时间进行排序;
除创建时间最早的数据ID以外,将其他所有数据ID对应的重复状态字段设置为:重复;
a4:所有无重复数据对应的重复状态字段设置为:不重复;
a5:按照数据的创建时间将所有数据分组,找到其中所有的重复状态字段为重复的数据,即得到该批次上传到待检索数据库的数据中的重复数据。
假设,本轮数据重复检索操作的数据为如下5条数据,在临时表中生成相应的数据哈希值。
第1条:
str=“10001罚款100未至科技91370104MA3MMCX3XA法人及非法人组织”
hashCode=faa94af6afbfb438709ebd1e01371b89
第2条:
str=“10002不予处罚未至科技91370104MA3MMCX4XA法人”
hashCode=2b44839b53165ee540bf64ade693fbd6
第3条:
str=“10003罚款1000未至科技91370104MA3MMCX3XA法人及非法人组织”
hashCode=bb1d789b4197e2b2afe2e46a55822ce7
第4条:
str=“10004罚款300未至科技91370104MA3MMCX3XA法人及非法人组织”
hashCode=1ae256a9df403474f2a8e8ffe5cf991f
第5条:
str=“10002不予处罚未至科技91370104MA3MMCX4XA法人”
hashCode=2b44839b53165ee540bf64ade693fbd6
将上述5条数据的数据哈希值插入到检索用表后,参照下面表3:
表3:检索用表实施例3
Figure 857686DEST_PATH_IMAGE003
将表3中的数据,先按照数据哈希值排序后分组,发现ID为2和5的数据哈希值是相同的,将两条数据分为一组,记做重复数据组;本次查重只存在一组重复数组,则该组重复数据组的数据按照创建时间进行排序,则可知数据ID为5的数据为先提交到待检索数据库中的数据,则数据ID为5的数据对应的重复状态(IS_DUPLICATE)设置为0,数据ID为2的数据对应的重复状态设置为1;而其他的数据ID为1、3、4的数据为无重复数据,其对应的重复状态字段填写为0;如下面表4所示。
表4:检索用表实施例4
Figure 380459DEST_PATH_IMAGE004
按照数据的创建时间将所有数据分组,可知2021/9/28日提交的这批次数据中,存在3个数据,其中1个数据存在重复提交现象。
实际工作中,因为用户提交数据是不定时的持续的提交,基于本发明技术方案的数据重复检索操作需要按批次对提交到待检索数据库的数据进行操作,所以具体实施的是,通过设置定时方式,来控制发明技术方案的自动循环实施,无需人工指定开始时间,可以24小时循环进行,进一步提高了数据重复检索的效率。
步骤S1实施之前,预设一个数据重复检索定时方式,按照重复检索定时方式,循环实施步骤S1~S6;
重复检索定时方式包括:设置定时启动时间、设置重复检索相隔时间T;
定时启动时间包括一个或者多个具体的时间,每天的定时启动时间到达后,实施一轮步骤S1~S6;
重复检索相隔时间T为两次数据重复检索操作之间的间隔时间,上一次的数据重复检索操作中步骤S6结束T时间后,开始实施下一轮重复数据判断方法中的步骤S1。
同时,因为用户每次提交的数据量是不可控的,基于定时任务实现数据重复检索操作是,每轮操作的执行时间有长有短,当重复检索定时方式选择定时启动时间时,为了确保上一次的任务完成了才执行下一个任务,本发明技术方案中通过设置一个队列,将每天的定时启动时间存入队列;如果因为数据量过大,导致前一次数据重复检索操作还未完成,下一次定时启动时间已经到达,则顺延下一次数据重复检索操作的开始时间到前次数据重复检索操作的结束时间,通过对每轮数据重复检索操作开始时间的指定以及锁定,确保本专利技术方案更具实用性。
使用本发明的技术方案后,即便待检索数据库中的数据量为千万级别的数据,每轮数据重复检索操作计算下来只需要几个小时就可以得到统计结果了,与逐条计算的原始方法相比,效率提高了数百倍,同时对服务器的性能要求很低,极大的降低了系统的硬件成本。

Claims (5)

1.一种重复数据判断方法,其包括以下步骤:
S1:获取待检索数据库的数据库表;
所述数据库表中包括:数据ID、数据的业务字段;
所述数据ID为标记每条数据的唯一ID;
所述业务字段为表示每条数据的实质内容的数据;数据的所述业务字段相同,则表明存在数据重复;
其特征在于,其还包括以下步骤:
S2:获取数据库中的检索用表,确认所述检索用表是否存在;
如果所述检索用表不存在,则实施步骤S3;
否则实施步骤S4;
S3:为所述数据库表中存储的所有数据,建立一个所述检索用表;
所述检索用表存储的内容包括:数据ID、数据ID对应的数据哈希值、重复状态、创建时间;
所述检索用表中的所述数据ID为所述数据库表中所述数据ID的子集;
在所述检索用表中,每一条所述数据ID与其他字段分别为1:1关系;
所述数据哈希值为基于所述数据ID对应的数据的所述业务字段使用哈希函数生成;
所述创建时间为数据存入所述待检索数据库的时间;
所述重复状态的值包括:重复、不重复;
S4:比对所述数据库表、所述检索用表;
如果所述数据库表中的所述数据ID与所述检索用表中的所述数据ID不一致,则实施步骤S5,进行本轮数据重复检索操作;
否则结束本次操作;
S5:获取存在于所述数据库表中,但不存在于所述检索用表中的所有所述数据ID,记做:待处理数据ID;
向所述检索用表中,插入所有所述待处理数据ID对应的数据哈希值;
S6:在所述检索用表中,查找重复数据;
所述查找重复数据的步骤包括:
a1:将所述检索用表中的所有所述数据ID,以所述数据哈希值进行排序;
a2:以所述数据哈希值为区分,将所有所述数据ID分组;
找到所有所述数据ID个数大于1的组,记做重复数据组;其余的数据记做:无重复数据;
a3:获取每组所述重复数据组,对其包括的所述数据ID以所述创建时间进行排序;
除所述创建时间最早的所述数据ID以外,将其他所有所述数据ID对应的所述重复状态字段设置为:重复;
a4:所有所述无重复数据对应的所述重复状态字段设置为:不重复;
a5:按照数据的所述创建时间将所有数据分组,找到其中所有的重复状态字段为重复的数据,即得到本轮数据重复检索操作对应的上传到所述待检索数据库的数据中的重复数据。
2.根据权利要求1所述一种重复数据判断方法,其特征在于:所述数据哈希值的生成方法为:获取数据的所有所述业务字段,将所有的所述业务字段直接拼接成字符串,然后计算出此字符串的哈希值。
3.根据权利要求1所述一种重复数据判断方法,其特征在于:步骤S1实施之前,预设一个数据重复检索定时方式,按照所述重复检索定时方式,循环实施步骤S1~S6;
所述重复检索定时方式包括:设置定时启动时间、设置重复检索相隔时间T;
所述定时启动时间包括一个或者多个具体的时间,每天的所述定时启动时间到达后,实施一轮步骤S1~S6;
所述重复检索相隔时间T为两次所述数据重复检索操作之间的间隔时间,上一次的数据重复检索操作中步骤S6结束T时间后,开始实施下一轮重复数据判断方法中的步骤S1;
当所述重复检索定时方式选择所述定时启动时间时,如果因为数据量过大,导致前一次数据重复检索操作还未完成,下一次定时启动时间已经到达,则顺延下一次所述数据重复检索操作的开始时间到前次数据重复检索操作的结束时间。
4.根据权利要求1所述一种重复数据判断方法,其特征在于:步骤S5中,所述插入数据哈希值操作的步骤包括:
b1:建立临时表;
所述临时表包括:数据ID、数据哈希值;
b2:将所有的所述待处理数据ID存入所述临时表中;
b3:为所述临时表中的每一条所述待处理ID,基于其对应的业务字段生成其对应的所述数据哈希值,并存入所述临时表;
将所述临时表中的所述待处理ID、所述数据哈希值批量存入所述检索用表中;
b4:当所有的所述待处理ID的所述数据哈希值都被存入到所述检索用表中后,删除所述临时表。
5.根据权利要求4所述一种重复数据判断方法,其特征在于:步骤b3中将所述数据哈希值批量存入所述检索用表的过程,包括以下步骤:
c1:预设一个分页处理阈值M;所述分页处理阈值M表示每次生成所述数据哈希值的数据的条目数;
c2:每次获取M条所述待处理数据ID,基于所述数据库表,得到其对应数据的所述业务字段,分别生成所述数据哈希值;
c3:将每个所述数据哈希值存入所述临时表中;
c4:将本次M条所述待处理数据ID对应的所述数据哈希值一起存入到所述检索用表中;
c5:循环执行步骤c2~c4,直至所有的待处理数据ID对应的所述数据哈希值,都被存入到所述检索用表中。
CN202111259805.4A 2021-10-28 2021-10-28 一种重复数据判断方法 Active CN114064621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111259805.4A CN114064621B (zh) 2021-10-28 2021-10-28 一种重复数据判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111259805.4A CN114064621B (zh) 2021-10-28 2021-10-28 一种重复数据判断方法

Publications (2)

Publication Number Publication Date
CN114064621A CN114064621A (zh) 2022-02-18
CN114064621B true CN114064621B (zh) 2022-07-15

Family

ID=80235629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111259805.4A Active CN114064621B (zh) 2021-10-28 2021-10-28 一种重复数据判断方法

Country Status (1)

Country Link
CN (1) CN114064621B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030040A (ja) * 2001-07-12 2003-01-31 Nec Commun Syst Ltd オブジェクトデータベースシステムの複数ハッシュインデックスおよび非ユニークインデックス管理方式
JP2012194989A (ja) * 2012-05-29 2012-10-11 Hitachi Solutions Ltd 検索方法、統合検索サーバ及びコンピュータプログラム
CN103189867A (zh) * 2012-10-30 2013-07-03 华为技术有限公司 重复数据检索方法及设备
DE102013205069A1 (de) * 2012-04-05 2013-10-10 International Business Machines Corporation Erhöhte effizienz bei inline-deduplizierungen
CN104246722A (zh) * 2013-03-29 2014-12-24 株式会社东芝 用于基于哈希表排除数据重复的存储系统,存储控制器及方法
CN107632789A (zh) * 2017-09-29 2018-01-26 郑州云海信息技术有限公司 基于分布式存储的重删方法、系统及数据重复检测方法
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN111258966A (zh) * 2020-01-14 2020-06-09 软通动力信息技术有限公司 一种数据去重方法、装置、设备及存储介质
CN111832081A (zh) * 2020-07-21 2020-10-27 杭州天谷信息科技有限公司 一种ofd快捷签方法
CN112559452A (zh) * 2020-12-11 2021-03-26 北京云宽志业网络技术有限公司 数据去重处理方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003030040A (ja) * 2001-07-12 2003-01-31 Nec Commun Syst Ltd オブジェクトデータベースシステムの複数ハッシュインデックスおよび非ユニークインデックス管理方式
DE102013205069A1 (de) * 2012-04-05 2013-10-10 International Business Machines Corporation Erhöhte effizienz bei inline-deduplizierungen
JP2012194989A (ja) * 2012-05-29 2012-10-11 Hitachi Solutions Ltd 検索方法、統合検索サーバ及びコンピュータプログラム
CN103189867A (zh) * 2012-10-30 2013-07-03 华为技术有限公司 重复数据检索方法及设备
CN104246722A (zh) * 2013-03-29 2014-12-24 株式会社东芝 用于基于哈希表排除数据重复的存储系统,存储控制器及方法
CN107632789A (zh) * 2017-09-29 2018-01-26 郑州云海信息技术有限公司 基于分布式存储的重删方法、系统及数据重复检测方法
CN108121810A (zh) * 2017-12-26 2018-06-05 北京锐安科技有限公司 一种数据去重方法、系统、中心服务器及分布式服务器
CN111258966A (zh) * 2020-01-14 2020-06-09 软通动力信息技术有限公司 一种数据去重方法、装置、设备及存储介质
CN111832081A (zh) * 2020-07-21 2020-10-27 杭州天谷信息科技有限公司 一种ofd快捷签方法
CN112559452A (zh) * 2020-12-11 2021-03-26 北京云宽志业网络技术有限公司 数据去重处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114064621A (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
JP2607818B2 (ja) コンピュータシステム内にレコードが記憶されているか否かを判定する方法及び装置
CN103733195A (zh) 管理用于基于范围的搜索的数据的存储
US20120254199A1 (en) Merge optimization system
CN106709851B (zh) 大数据检索方法及装置
CN111581092B (zh) 仿真测试数据的生成方法、计算机设备及存储介质
CN110597630B (zh) 一种分布式系统中内容资源的处理方法及系统
US20120254173A1 (en) Grouping data
CN107832333B (zh) 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统
CN109033173B (zh) 一种用于生成多维指标数据的数据处理方法及装置
CN110515895B (zh) 大数据存储系统中对数据文件进行关联存储的方法及系统
CN112948429B (zh) 一种数据报送方法、装置和设备
KR101358793B1 (ko) 인덱스 파일 생성방법, 사전 인덱스 파일을 이용한 데이터 검색 방법 및 데이터 관리 시스템, 기록매체
CN114064621B (zh) 一种重复数据判断方法
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN116226108A (zh) 可实现不同治理程度的数据治理方法及系统
CN114676229B (zh) 一种技改大修工程档案管理系统及管理方法
CN104301182B (zh) 一种慢速网站访问异常信息的查询方法及装置
CN115422180A (zh) 数据校验方法及系统
CN112162991B (zh) 数据的智能管理方法及装置
CN110795425B (zh) 一种海关数据清洗合并的方法、装置、设备及介质
CN114139032A (zh) 一种基于大数据处理的电子信息的整理方法
CN108520047B (zh) 一种视频特征信息检索方法
CN109491982B (zh) 移动互联网的移动终端内创建虚拟存储单元的方法及系统
CN107885808B (zh) 共享资源文件防作弊方法
CN116541382B (zh) 基于数据安全识别级别的数据治理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant