CN117076509B - 数据查重方法、装置、设备及存储介质 - Google Patents
数据查重方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117076509B CN117076509B CN202311347591.5A CN202311347591A CN117076509B CN 117076509 B CN117076509 B CN 117076509B CN 202311347591 A CN202311347591 A CN 202311347591A CN 117076509 B CN117076509 B CN 117076509B
- Authority
- CN
- China
- Prior art keywords
- data
- checking
- identifier
- duplicate
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004898 kneading Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据查重方法、装置、设备及存储介质,涉及计算机技术领域,包括:获取待查重数据记录,待查重数据记录具有数据标识;基于数据标识的字符长度,确定查重唯一标识;对查重唯一标识进行提取运算处理,得到目标处理结果;基于查重唯一标识,在目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。本发明通过基于数据标识的字符长度,确定查重唯一标识,通过对查重唯一标识的运算处理,使得用于实际查重的字符串长度大大减少,减少查重匹配数据的计算复杂度,提高数据查重的效率,且减少了查重数据存储的空间,同时在与目标处理结果关联的查重数据库中进行数据查重,减少单个查重库的压力,增加查重的并发处理能力。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据查重方法、装置、设备及存储介质。
背景技术
现有对结构化数据记录的查重处理,不管是在数据库还是在内存中做查重处理,一般是先对数据记录,根据业务特征确定数据记录的查重唯一标识,例如,数据库表中的主键或唯一索引字段,或key-value数据结构中的key。查重唯一标识做为数据记录的唯一性逻辑规则信息。然后对于数据记录的查重处理,可根据这个查重唯一标识涉及的字段数据进行组合拼接,再进行数据记录重复逻辑判断,如果查重唯一标识已存在,则说明此数据记录重复,否则判断为不重复,从而完成查重处理。直接根据查重唯一标识进行数据查重处理,对于待查重的数据量不大,查重唯一标识的长度不长,或者对查重性能要求不高的数据处理场景,基本能满足业务需求。但是,如果待查重的数据量巨大,查重唯一标识的最大长度较长或者不固定唯一标识的长度,会导致数据查重的效率较低。
发明内容
本发明提供一种数据查重方法、装置、设备及存储介质,旨在提高数据查重的效率。
本发明提供一种数据查重方法,包括:
获取待查重数据记录,其中,所述待查重数据记录具有数据标识;
基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;
对所述查重唯一标识进行运算处理,得到目标处理结果;
基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。
根据本发明提供的一种数据查重方法,所述基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识,包括:
计算所述数据标识中所有字符对应的字符长度;
将所述数据标识的字符长度和预设长度阈值进行比较;
基于比较结果,确定所述查重唯一标识。
根据本发明提供的一种数据查重方法,所述基于比较结果,确定所述查重唯一标识,包括:
若所述字符长度小于或等于预设长度阈值,则将所述数据标识作为所述查重唯一标识;
若所述字符长度大于预设长度阈值,则对所述数据标识进行摘要计算,以将摘要计算结果作为所述查重唯一标识,其中,所述摘要计算结果的字符长度小于或等于所述预设长度阈值。
根据本发明提供的一种数据查重方法,所述对所述查重唯一标识进行运算处理,得到目标处理结果,包括:
在所述查重唯一标识中提取多个目标字符;
分别对各所述目标字符进行转码处理,得到各个转码数值;
对各所述转码数值进行累加,并将累加数值进行取模运算,得到所述目标处理结果。
根据本发明提供的一种数据查重方法,所述基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果之后,还包括:
若所述数据查重结果是查询成功结果,则确定所述查重数据库中存储有所述查重唯一标识;
若所述数据查重结果是查询失败结果,则将所述查重唯一标识缓存至所述查重数据库。
根据本发明提供的一种数据查重方法,所述基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果,包括:
基于各个预设数据库对应的数据库编号,确定数据库编号与所述目标处理结果相匹配的查重数据库;
将所述查重唯一标识和所述查重数据库中的存储记录进行查重匹配,得到所述数据查重结果。
根据本发明提供的一种数据查重方法,所述数据标识是基于如下步骤确定:
确定所述待查重数据记录关联的各个属性字段信息;
在各个属性字段信息中选取若干个目标属性信息;
将各所述目标属性字段信息进行拼接,得到所述数据标识。
本发明还提供一种数据查重装置,包括:
获取模块,用于获取待查重数据记录,其中,所述待查重数据记录具有数据标识;
确定模块,用于基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;
运算模块,用于对所述查重唯一标识进行运算处理,得到目标处理结果;
查重模块,用于基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述数据查重方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述数据查重方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述数据查重方法。
本发明提供的数据查重方法、装置、设备及存储介质,包括:获取待查重数据记录,待查重数据记录具有数据标识;基于数据标识的字符长度,确定查重唯一标识;对查重唯一标识进行提取运算处理,得到目标处理结果;基于查重唯一标识,在目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。本发明通过基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识,通过对查重唯一标识的运算处理,从而使得用于实际查重的字符串长度大大减少,减少查重匹配数据的计算复杂度,提高数据查重的效率,并且减少了查重数据存储的空间,同时在查重过程中,在与目标处理结果关联的查重数据库中进行数据查重,减少单个查重库的压力,增加查重的并发处理能力。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图逐一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据查重方法的流程示意图;
图2是本发明提供的数据查重装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”。
图1是本发明提供的数据查重方法的流程示意图。如图1所示,该数据查重方法包括:
步骤S11,获取待查重数据记录,其中,所述待查重数据记录具有数据标识;
需要说明的是,待查重数据记录关联包括有多个属性以及每一个属性对应的属性值,例如,数据记录C1(c11,c12,c13),这一条数据记录中的第一个属性(例如,购买时间)对应的属性值为c1(例如,2018年1月1日);第二个属性(例如,重量)对应的属性值为c2(例如,1千克);第三个属性(例如,材质)对应的属性值为c3(例如,为钢)。
进一步需要说明的是,所述数据标识可以是从待查重数据记录的多个属性信息形成,可选地,确定所述待查重数据记录关联的各个属性字段信息,在各个属性字段信息中选取若干个目标属性信息,将各所述目标属性字段信息进行拼接,得到所述数据标识。例如,话单属性字段包含有:会议ID、会话通道ID、主叫手机号码、被叫手机号码、通话开始时间、通话结束时间、本次通话时长和产品订购信息等等属性信息。其中,可将会议ID、会话通道ID、主叫手机号码、被叫手机号码对应的属性值组合起来,形成所述数据标识,进而可确定此业务话单的唯一性,可选地,查重唯一标识涉及的各字段长度定义如下:会议ID:64字节,若长度不足则右补空格。会话通道ID:64字节,若长度不足则右补空格。主叫手机号码:20字节,若长度不足则右补空格。被叫手机号码:20字节,若长度不足则右补空格。数据标识由以上4个字段组合拼接而成(拼接之前,可先把字段值的空格去掉,再进行拼接组合),即:数据标识最大长度为168字节。
步骤S12,基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;
需要说明的是,在查重过程中,当数据标识的字符长度过长时,会影响数据查重的效率,因此,在本实施例中,需要确定数据标识的字符长度,进而将数据标识的字符长度和预设长度阈值进行比较判断,若所述字符长度小于或等于预设长度阈值,则可直接将所述数据标识作为所述查重唯一标识,若所述字符长度大于预设长度阈值,则证明当前的数据标识的字符长度较长,为了大大减少实际查重标识的字符长度,在一实施例中,可对所述数据标识进行摘要计算,以将摘要计算结果作为所述查重唯一标识,从而得到所述待查重数据记录对应的查重唯一标识。需要说明的是,进行摘要计算的消息摘要算法是把任意长度的输入揉和而产生长度固定的伪随机输入的算法,该消息摘要算法具体有MD5消息摘要算法(MD5Message-DigestAlgorithm)算法和SHA-1算法(Secure Hash Algorithm 1,安全散列算法1)等。在其他实施例中,也可在数据标识中选取若干位字符,从而拼接形成所述查重唯一标识。
步骤S13,对所述查重唯一标识进行运算处理,得到目标处理结果;
需要说明的是,为了将各个数据进行分流至不同的数据库中,在本实施例中,预先对各个数据库设置有对应的数据库编号,在所述查重唯一标识中提取多个目标字符,分别对各所述目标字符进行转码处理,得到各个转码数值,对各所述转码数值进行累加,得到累加数值,进而将累加数值进行取模运算,以将取模结果作为所述目标处理结果,以将查重唯一标识与目标处理结果关联的查重数据库中进行数据查重,提高数据查重效率。
步骤S14,基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。
具体地,确定数据库编号与目标处理结果相匹配的查重数据库,基于所述查重唯一标识,在查重数据库中进行数据查重,得到数据查重结果。
需要说明的是,数据在导进系统时有可能是通过一次导入大批量的数据,如果查重时是按照顺序一条条数据进行处理必然影响数据查重的效率。为了提高查重的效率,在本实施例中,可采用多任务并发查重处理,若采用多任务并发处理,在操作查重数据库时,需要根据具体使用的数据库,引入记录级锁进行加锁与解锁处理,确保查重数据库资源的互斥访问,查重数据库可以是关系数据库,也可以是内存数据库等。在其他实施例中,也可采用并发线程处理,可选地,并发线程的数量与查重数据库的数量相同,线程也可进行编号,线程编号与查重数据库的数据库编号对应,从而使得线程只处理目标处理结果与线程编号相匹配的查重唯一标识,并且在查重过程中,到与线程编号相对应的查重数据库进行数据查重处理。从而进一步提升查重数据存取的性能和并发处理能力。
本发明实施例通过上述方案,包括:获取待查重数据记录,待查重数据记录具有数据标识;基于数据标识的字符长度,确定查重唯一标识;对查重唯一标识进行提取运算处理,得到目标处理结果;基于查重唯一标识,在目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。本发明通过基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识,通过对查重唯一标识的运算处理,从而使得用于实际查重的字符串长度大大减少,减少查重匹配数据的计算复杂度,提高数据查重的效率,并且减少了查重数据存储的空间,同时在查重过程中,在与目标处理结果关联的查重数据库中进行数据查重,减少单个查重库的压力,增加查重的并发处理能力。
在本发明的一个实施例中,所述基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识,包括:
计算所述数据标识中所有字符对应的字符长度;将所述数据标识的字符长度和预设长度阈值进行比较;基于比较结果,确定所述查重唯一标识。
其中,所述基于比较结果,确定所述查重唯一标识,包括:若所述字符长度小于或等于预设长度阈值,则将所述数据标识作为所述查重唯一标识;若所述字符长度大于预设长度阈值,则对所述数据标识进行摘要计算,以将摘要计算结果作为所述查重唯一标识,其中,所述摘要计算结果的字符长度小于或等于所述预设长度阈值。
具体地,需要计算所述数据标识中所有字符对应的字符长度,进而将所述数据标识的字符长度和预设长度阈值进行比较,所述预设长度阈值可根据实际情况设置,例如,设置为32字节长度。进一步地,若所述字符长度小于或等于预设长度阈值,则可直接将所述数据标识作为所述查重唯一标识;若所述字符长度大于预设长度阈值,则证明数据标识的长度较长,进而对所述数据标识进行摘要计算,得到摘要计算结果,进而将摘要计算结果作为所述查重唯一标识,其中,所述摘要计算结果的字符长度小于或等于所述预设长度阈值。从而通过利用摘要算法算法对所述数据标识进行处理,把数据记录中数据标识更改为长度更短的摘要计算结果,从而使得用于实际查重的字符串长度大大减少,进而减少查重匹配数据的计算复杂度,并大大减少了查重数据存储的空间。
在本发明的一个实施例中,所述对所述查重唯一标识进行运算处理,得到目标处理结果,包括:
在所述查重唯一标识中提取多个目标字符;分别对各所述目标字符进行转码处理,得到各个转码数值;对各所述转码数值进行累加,并将累加数值进行取模运算,得到所述目标处理结果。
具体地,在所述查重唯一标识中提取多个目标字符,例如,可在所述查重唯一标识中提取前N位目标字符,也可提取后N位目标字符,或间隔提取N位目标字符,其中,N为正整数,且N小于或等于查重唯一标识的长度。进一步地,将提取的各个目标字符转换为ASCII码对应的转码数值,进而对各所述转码数值进行累加,得到累加数值,进一步地,对累加数值进行取模运算,得到所述目标处理结果。取模运算的计算公式可表示为:ModRemainder =DupStringLenth % ModDivisor,其中,ModDivisor表示取模运算的除数,在本实施例中,ModDivisor可设置为查重数据库的数量。用DupStringLenth表示所述累加数值,ModRemainder表示所述目标处理结果。则。查重唯一标识按目标处理结果,到对应具体编号的查重数据库中。例如:ModRemainder = 1,则到数据库编号是1对应的查重数据库的进行查重。从而提升查重数据存取的性能和并发处理能力。
在本发明的一个实施例中,所述基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果,包括:
基于各个预设数据库对应的数据库编号,确定数据库编号与所述目标处理结果相匹配的查重数据库;将所述查重唯一标识和所述查重数据库中的存储记录进行查重匹配,得到所述数据查重结果。
具体地,预先为各个预设数据库配置有数据库编号,进而确定与所述目标处理结果相匹配的数据库编号所对应的查重数据库;进一步地,将所述查重唯一标识和所述查重数据库中的所有存储记录进行一一查重匹配,得到所述数据查重结果。此外,若所述数据查重结果是查询成功结果,则确定所述查重数据库中存储有所述查重唯一标识,也即,证明待查重数据记录属于重复的记录;另外,若所述数据查重结果是查询失败结果,则证明查重数据库中未存在查重唯一标识,进而将所述查重唯一标识缓存至所述查重数据库。从而通过把查重唯一标识按取模结果值自动进行数据分流,以分布存储到对应的查重数据库中,减少单个查重库的压力,增加查重的并发处理能力,提升了整体的查重性能,并减少了对查重存储资源的占用,能高效完成查重处理任务。
下面对本发明提供的数据查重装置进行描述,下文描述的数据查重装置与上文描述的数据查重方法可相互对应参照。
图2是本发明提供的数据查重装置的结构示意图,如图2所示,本发明实施例的一种数据查重装置,该装置包括:
获取模块21,用于获取待查重数据记录,其中,所述待查重数据记录具有数据标识;
确定模块22,用于基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;
运算模块23,用于对所述查重唯一标识进行运算处理,得到目标处理结果;
查重模块24,用于基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。
所述确定模块22还用于:
计算所述数据标识中所有字符对应的字符长度;
将所述数据标识的字符长度和预设长度阈值进行比较;
基于比较结果,确定所述查重唯一标识。
所述确定模块22还用于:
若所述字符长度小于或等于预设长度阈值,则将所述数据标识作为所述查重唯一标识;
若所述字符长度大于预设长度阈值,则对所述数据标识进行摘要计算,以将摘要计算结果作为所述查重唯一标识,其中,所述摘要计算结果的字符长度小于或等于所述预设长度阈值。
所述运算模块23还用于:
在所述查重唯一标识中提取多个目标字符;
分别对各所述目标字符进行转码处理,得到各个转码数值;
对各所述转码数值进行累加,并将累加数值进行取模运算,得到所述目标处理结果。
所述查重模块24还用于:
基于各个预设数据库对应的数据库编号,确定数据库编号与所述目标处理结果相匹配的查重数据库;
将所述查重唯一标识和所述查重数据库中的存储记录进行查重匹配,得到所述数据查重结果。
所述数据查重装置还包括:
若所述数据查重结果是查询成功结果,则确定所述查重数据库中存储有所述查重唯一标识;
若所述数据查重结果是查询失败结果,则将所述查重唯一标识缓存至所述查重数据库。
所述数据查重装置还包括:
确定所述待查重数据记录关联的各个属性字段信息;
在各个属性字段信息中选取若干个目标属性信息;
将各所述目标属性字段信息进行拼接,得到所述数据标识。
在此需要说明的是,本发明实施例提供的上述装置,能够实现上述方法实施例所实现的所有方法步骤,且能够达到相同技术效果,在此不再对本实施例中与方法实施例相同部分及有益效果进行具体赘述。
图3是本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、存储器(memory)320、通信接口(CommunicationsInterface)330和通信总线340,其中,处理器310,存储器320,通信接口330通过通信总线340完成相互间的通信。处理器310可以调用存储器320中的逻辑指令,以执行数据查重方法,该方法包括:获取待查重数据记录,其中,所述待查重数据记录具有数据标识;基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;对所述查重唯一标识进行运算处理,得到目标处理结果;基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。
此外,上述的存储器320中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的数据查重方法,该方法包括:获取待查重数据记录,其中,所述待查重数据记录具有数据标识;基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;对所述查重唯一标识进行运算处理,得到目标处理结果;基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的数据查重方法,该方法包括:获取待查重数据记录,其中,所述待查重数据记录具有数据标识;基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;对所述查重唯一标识进行运算处理,得到目标处理结果;基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种数据查重方法,其特征在于,包括:
获取待查重数据记录,其中,所述待查重数据记录具有数据标识;
基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;
对所述查重唯一标识进行运算处理,得到目标处理结果;
基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果;
所述基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识,包括:
计算所述数据标识中所有字符对应的字符长度;
将所述数据标识的字符长度和预设长度阈值进行比较;
基于比较结果,确定所述查重唯一标识;
所述基于比较结果,确定所述查重唯一标识,包括:
若所述字符长度小于或等于预设长度阈值,则将所述数据标识作为所述查重唯一标识;
若所述字符长度大于预设长度阈值,则对所述数据标识进行摘要计算,以将摘要计算结果作为所述查重唯一标识,其中,所述摘要计算结果的字符长度小于或等于所述预设长度阈值;
所述基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果,包括:
基于各个预设数据库对应的数据库编号,确定数据库编号与所述目标处理结果相匹配的查重数据库;
将所述查重唯一标识和所述查重数据库中的存储记录进行查重匹配,得到所述数据查重结果;
所述基于各个预设数据库对应的数据库编号,确定数据库编号与所述目标处理结果相匹配的查重数据库,包括:
采用并发线程处理,其中,并发线程的数量与查重数据库的数量相同,线程编号与查重数据库的数据库编号对应;线程只处理目标处理结果与线程编号相匹配的查重唯一标识,并且在查重过程中,到与线程编号相对应的查重数据库进行数据查重处理;
所述对所述查重唯一标识进行运算处理,得到目标处理结果,包括:
在所述查重唯一标识中提取多个目标字符;
分别对各所述目标字符进行转码处理,得到各个转码数值;
对各所述转码数值进行累加,并将累加数值进行取模运算,得到所述目标处理结果;
所述在所述查重唯一标识中提取多个目标字符,包括:
在所述查重唯一标识中提取前N位目标字符,提取后N位目标字符,或间隔提取N位目标字符,其中,N为正整数,且N小于或等于查重唯一标识的长度;
所述数据标识是基于如下步骤确定:
确定所述待查重数据记录关联的各个属性字段信息;
在各个属性字段信息中选取若干个目标属性信息;
将各所述目标属性字段信息进行拼接,得到所述数据标识。
2.根据权利要求1所述的数据查重方法,其特征在于,所述基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果之后,还包括:
若所述数据查重结果是查询成功结果,则确定所述查重数据库中存储有所述查重唯一标识;
若所述数据查重结果是查询失败结果,则将所述查重唯一标识缓存至所述查重数据库。
3.一种数据查重装置,其特征在于,包括:
获取模块,用于获取待查重数据记录,其中,所述待查重数据记录具有数据标识;
确定模块,用于基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识;
运算模块,用于对所述查重唯一标识进行运算处理,得到目标处理结果;
查重模块,用于基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果;
所述基于所述数据标识的字符长度,确定所述待查重数据记录的查重唯一标识,包括:
计算所述数据标识中所有字符对应的字符长度;
将所述数据标识的字符长度和预设长度阈值进行比较;
基于比较结果,确定所述查重唯一标识;
所述基于比较结果,确定所述查重唯一标识,包括:
若所述字符长度小于或等于预设长度阈值,则将所述数据标识作为所述查重唯一标识;
若所述字符长度大于预设长度阈值,则对所述数据标识进行摘要计算,以将摘要计算结果作为所述查重唯一标识,其中,所述摘要计算结果的字符长度小于或等于所述预设长度阈值;
所述基于所述查重唯一标识,在所述目标处理结果关联的查重数据库中进行数据查重,得到数据查重结果,包括:
基于各个预设数据库对应的数据库编号,确定数据库编号与所述目标处理结果相匹配的查重数据库;
将所述查重唯一标识和所述查重数据库中的存储记录进行查重匹配,得到所述数据查重结果;
所述基于各个预设数据库对应的数据库编号,确定数据库编号与所述目标处理结果相匹配的查重数据库,包括:
采用并发线程处理,其中,并发线程的数量与查重数据库的数量相同,线程编号与查重数据库的数据库编号对应;线程只处理目标处理结果与线程编号相匹配的查重唯一标识,并且在查重过程中,到与线程编号相对应的查重数据库进行数据查重处理;
所述对所述查重唯一标识进行运算处理,得到目标处理结果,包括:
在所述查重唯一标识中提取多个目标字符;
分别对各所述目标字符进行转码处理,得到各个转码数值;
对各所述转码数值进行累加,并将累加数值进行取模运算,得到所述目标处理结果;
所述在所述查重唯一标识中提取多个目标字符,包括:
在所述查重唯一标识中提取前N位目标字符,提取后N位目标字符,或间隔提取N位目标字符,其中,N为正整数,且N小于或等于查重唯一标识的长度;
所述数据标识是基于如下步骤确定:
确定所述待查重数据记录关联的各个属性字段信息;
在各个属性字段信息中选取若干个目标属性信息;
将各所述目标属性字段信息进行拼接,得到所述数据标识。
4.一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至2任一项所述数据查重方法。
5.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述数据查重方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311347591.5A CN117076509B (zh) | 2023-10-18 | 2023-10-18 | 数据查重方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311347591.5A CN117076509B (zh) | 2023-10-18 | 2023-10-18 | 数据查重方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076509A CN117076509A (zh) | 2023-11-17 |
CN117076509B true CN117076509B (zh) | 2024-04-09 |
Family
ID=88708464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311347591.5A Active CN117076509B (zh) | 2023-10-18 | 2023-10-18 | 数据查重方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076509B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095367A (zh) * | 2015-06-26 | 2015-11-25 | 北京奇虎科技有限公司 | 一种客户端数据的采集方法和装置 |
CN110442642A (zh) * | 2019-06-19 | 2019-11-12 | 北京航天智造科技发展有限公司 | 分布式数据库的数据处理方法、装置和存储介质 |
CN110765162A (zh) * | 2019-09-06 | 2020-02-07 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据比对方法、装置、计算机设备和存储介质 |
CN111209272A (zh) * | 2019-12-26 | 2020-05-29 | 杭州亚信云信息科技有限公司 | 一种话单查重方法、装置及系统 |
CN111708771A (zh) * | 2020-06-17 | 2020-09-25 | 深圳前海微众银行股份有限公司 | 数据查重方法、装置、设备及计算机存储介质 |
CN112329393A (zh) * | 2020-11-05 | 2021-02-05 | 广东科徕尼智能科技有限公司 | 一种短码id的生成方法、设备、存储介质 |
CN112579623A (zh) * | 2019-09-29 | 2021-03-30 | 北京国双科技有限公司 | 存储数据的方法、装置、存储介质及设备 |
CN115631273A (zh) * | 2022-10-31 | 2023-01-20 | 北京软通智慧科技有限公司 | 一种大数据的去重方法、装置、设备及介质 |
-
2023
- 2023-10-18 CN CN202311347591.5A patent/CN117076509B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095367A (zh) * | 2015-06-26 | 2015-11-25 | 北京奇虎科技有限公司 | 一种客户端数据的采集方法和装置 |
CN110442642A (zh) * | 2019-06-19 | 2019-11-12 | 北京航天智造科技发展有限公司 | 分布式数据库的数据处理方法、装置和存储介质 |
CN110765162A (zh) * | 2019-09-06 | 2020-02-07 | 上海陆家嘴国际金融资产交易市场股份有限公司 | 数据比对方法、装置、计算机设备和存储介质 |
CN112579623A (zh) * | 2019-09-29 | 2021-03-30 | 北京国双科技有限公司 | 存储数据的方法、装置、存储介质及设备 |
CN111209272A (zh) * | 2019-12-26 | 2020-05-29 | 杭州亚信云信息科技有限公司 | 一种话单查重方法、装置及系统 |
CN111708771A (zh) * | 2020-06-17 | 2020-09-25 | 深圳前海微众银行股份有限公司 | 数据查重方法、装置、设备及计算机存储介质 |
CN112329393A (zh) * | 2020-11-05 | 2021-02-05 | 广东科徕尼智能科技有限公司 | 一种短码id的生成方法、设备、存储介质 |
CN115631273A (zh) * | 2022-10-31 | 2023-01-20 | 北京软通智慧科技有限公司 | 一种大数据的去重方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117076509A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106326475B (zh) | 一种高效的静态哈希表实现方法及系统 | |
CN106101740B (zh) | 一种视频内容识别方法和装置 | |
KR20090075885A (ko) | 개별적으로 액세스 가능한 데이터 유닛의 기억 관리 방법 및 시스템 | |
CN111723360B (zh) | 凭证码处理方法、装置及存储介质 | |
EP2862101B1 (en) | Method and a consistency checker for finding data inconsistencies in a data repository | |
CN111125118B (zh) | 关联数据查询方法、装置、设备及介质 | |
CN112685612B (zh) | 一种特征码查找和匹配方法、设备及存储介质 | |
CN110675133A (zh) | 一种抢红包的方法、装置、电子设备及可读存储介质 | |
CN117076509B (zh) | 数据查重方法、装置、设备及存储介质 | |
CN111026736B (zh) | 数据血缘管理方法及装置、数据血缘解析方法及装置 | |
CN110532284B (zh) | 海量数据存储和检索方法、装置、计算机设备及存储介质 | |
CN110941831A (zh) | 基于分片技术的漏洞匹配方法 | |
CN112579591A (zh) | 数据校验方法、装置、电子设备及计算机可读存储介质 | |
CN114547050A (zh) | 批处理内容判重方法、系统、装置、终端设备及存储介质 | |
CN114064653A (zh) | 数据的插入方法、装置、计算机设备和存储介质 | |
CN111427871B (zh) | 数据处理方法、装置、设备 | |
CN111858609A (zh) | 区块链模糊查询方法及装置 | |
CN112686029A (zh) | 用于数据库审计系统的sql新语句识别方法及装置 | |
CN117150569B (zh) | 一种银行业务库的安全交互方法和系统 | |
CN111026748A (zh) | 网络访问频次管控的数据压缩方法、装置及系统 | |
CN115834179B (zh) | 策略聚合方法及装置、电子设备 | |
CN116166671B (zh) | 一种内存数据库表格预关联的处理方法、系统和介质 | |
CN117729176B (zh) | 基于网络地址和响应体的应用程序接口聚合方法及装置 | |
CN112015993B (zh) | 一种信息查询方法及装置 | |
CN109165220B (zh) | 一种数据匹配计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |