CN110134547A - 一种基于中间件的重复数据删除方法和相关装置 - Google Patents
一种基于中间件的重复数据删除方法和相关装置 Download PDFInfo
- Publication number
- CN110134547A CN110134547A CN201910350191.7A CN201910350191A CN110134547A CN 110134547 A CN110134547 A CN 110134547A CN 201910350191 A CN201910350191 A CN 201910350191A CN 110134547 A CN110134547 A CN 110134547A
- Authority
- CN
- China
- Prior art keywords
- data
- repetitive rate
- default
- repetitive
- rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
- G06F11/1453—Management of the data involved in backup or backup restore using de-duplication of the data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据传输优化,公开了一种基于中间件的重复数据删除方法和相关装置,包括:通过所述中间件获取客户端发送的数据处理消息,其中,所述数据处理消息携带数据标识和第一数据;从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,其中,N为正整数;将所述N个重复率与预设重复率进行对比;若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据,其中,0<M≤N且M为整数。实施本发明实施例,无需高要求的传输带宽,不仅有利于减轻源端机器的运行负担,还提高了存储利用率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于中间件的重复数据删除方法和相关装置。
背景技术
随着新一代信息技术的高速发展,虚拟化技术发展越来越成熟。在虚拟化场景下,为确保防止系统出现操作失误或系统故障导致数据丢失,会使用内存的虚拟化技术对数据进行备份,一般包含完全备份和增量备份,因此会产生大量重复的数据,而这些重复的数据会占用大量硬盘空间,导致存储利用率低和存储成本高。为提高存储利用率和降低存储成本,人们提出了重复数据删除的技术,以节约数据存储空间。
目前,在大部分存储系统中,一般都选择源端重删或者目标端重删。其中,源端指的是数据的发送方,源端重复数据删除就是指在数据经过网络进行传输之前,就对数据进行重复数据删除处理,然而在源端重删,可能导致源端机器运行负担重。目标端指的是数据的接收方,目标端重复数据删除就是指在数据到达目标服务器后,再进行重复数据删除,但在目标端进行重复数据删除,对传输带宽要求高。
发明内容
本发明实施例提供了一种基于中间件的重复数据删除方法和相关装置,实施本发明实施例,无需高要求的传输带宽,不仅有利于减轻源端机器运行负担,还提高了存储利用率。
本发明实施例第一方面提供了一种基于中间件的重复数据删除方法,包括:
通过所述中间件获取客户端发送的数据处理消息,其中,所述数据处理消息携带数据标识和第一数据;
从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,其中,N为正整数;
将所述N个重复率与预设重复率进行对比;
若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据,其中,0<M≤N且M为整数。
本发明实施例第二方面提供了一种基于中间件的重复数据删除装置,包括:
获取模块,用于通过所述中间件获取客户端发送的数据处理消息,其中,所述数据处理消息携带数据标识和第一数据;
确定模块,用于从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,其中,N为正整数;
对比模块,用于将所述N个重复率与预设重复率进行对比;
删除模块,用于若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据,其中,0<M≤N且M为整数。
可以看出,上述技术方案中,服务端通过所述中间件获取客户端发送的数据处理消息,无需高要求的传输带宽,便从客户端获取了数据标识和第一数据,接着,服务端从数据库中获取与数据标识匹配的N个第二数据,以确定第一数据与N个第二数据中的每个第二数据的重复率,以得到N个重复率,然后,服务端将N个重复率与预设重复率进行对比,若N个重复率中存在M个重复率超过预设重复率,则删除与M个重复率对应的M个第二数据,从而实现在目标端对重复数据的删除,减轻了源端机器的运行负担,提高了存储利用率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本发明实施例提供的一种基于中间件的重复数据删除方法的流程示意图;
图2为本发明实施例提供的又一种基于中间件的重复数据删除方法的流程示意图;
图3为本发明实施例提供的又一种基于中间件的重复数据删除方法的流程示意图;
图4为本发明实施例提供的一种基于中间件的重复数据删除装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下分别进行详细说明。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,参见图1,图1为本发明的一个实施例提供的一种基于中间件的重复数据删除方法的流程示意图。其中,如图1所示,本发明的一个实施例提供的一种基于中间件的重复数据删除方法可以包括:
101、服务端通过所述中间件获取客户端发送的数据处理消息。
其中,所述数据处理消息携带数据标识和第一数据。
其中,中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。
102、服务端从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率。
其中,N为正整数。
其中,N例如可等于1、2、3、5、6、11、13、20或其他值。
103、服务端将所述N个重复率与预设重复率进行对比。
104、若所述N个重复率中存在M个重复率超过所述预设重复率,服务端则删除与所述M个重复率对应的M个第二数据。
其中,0<M≤N且M为整数。
其中,M例如可等于1、2、3、5、6、11、13、20或其他值。
参见图2,图2为本发明的一个实施例提供的又一种基于中间件的重复数据删除方法的流程示意图。其中,如图2所示,本发明的一个实施例提供的一种基于中间件的重复数据删除方法可以包括:
201、服务端通过所述中间件获取客户端发送的数据处理消息。
其中,所述数据处理消息携带数据标识和第一数据。
其中,中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。
202、服务端从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率。
其中,N为正整数。
其中,N例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,第一方面,在本发明的一种可能的实施方式中,所述数据处理消息携带第一校验码,在所述从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率之前,包括:
对所述第一数据调用校验接口以生成第二校验码;
将所述第一校验码与所述第二校验码进行对比;
在所述第一校验码与所述第二校验码相同时,监测数据删除进程是否处于忙碌状态;
若所述数据删除进程处于忙碌状态,则将所述第一数据放入排队队列。
可选的,基于第一方面的第一种可能的实施方式中,所述第一数据包括第一文档数据,所述数据标识包括文档数据标识,所述从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,包括:
S1:若所述数据删除进程未处于忙碌状态,从所述数据库中获取与所述文档数据标识匹配的N个第二文档数据;
S2:解析所述第一文档数据,以得到所述第一文档数据中的Q个关键字段,其中,Q为正整数;
S3:将m设置为初始值为1的整数;
S4:检测m是否小于或等于N,若是,则执行步骤S5,若否,则执行步骤S9;
S5:对所述N个第二文档数据中的第m个第二文档数据进行解析,以得到所述第m个第二文档数据的J个关键字段,其中,J为正整数;
S6:将n设置为初始值为1的整数;
S7:检测n是否小于或等于Q,若是,则执行步骤S8,若否,则执行步骤S11;
S8:确定所述Q个关键字段中的第n个关键字段与所述J个关键字段中的每个关键字段的重复率,以得到J个重复率;
S9:确定所述J个重复率中的每个重复率与J个重复权重的值,以得到所述第n个关键字段的重复率,其中,所述J个重复权重之和为1;
S10:将(n+1)赋值给n,返回执行步骤S7;
S11:计算所述第n个关键字段的重复率至第(n+Q-1)个关键字段的重复率的均值,以确定所述第一文档数据与所述第m个第二文档数据的重复率,进而得到所述N个重复率中的第m个重复率;
S12:将(m+1)赋值给m,返回执行步骤S4;
S13:结束确定所述第一文档数据与所述N个第二文档数据中的每个第二文档数据的重复率。
其中,Q例如可等于1、2、3、5、6、11、13、20或其他值。
其中,J例如可等于1、2、3、5、6、11、13、20或其他值。
其中,n例如可等于1、2、3、5、6、11、13、20或其他值。
其中,m例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,上述技术方案中,通过计算关键字段与关键字段的重复率,避免通过确定第一文档数据与N个第二文档数据之间的重复率,减轻服务端的运行负担。
203、服务端将所述N个重复率与预设重复率进行对比。
204、若所述N个重复率中存在M个重复率超过所述预设重复率,服务端则删除与所述M个重复率对应的M个第二数据。
其中,0<M≤N且M为整数。
其中,M例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,第一方面,在本发明的一种可能的实施方式中,所述数据处理消息携带第一数据标识,在所述若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据之后,包括:
根据所述第一数据标识,标记所述第一数据的数据种类;
从所述数据库中选取与所述数据种类匹配的第一数据表存储所述第一数据。
可以看出,上述技术方案中,通过按照数据种类划分不同的存储区域,为后续数据的查询提供便利。
可选的,第二方面,在本发明的第一种可能的实施方式中,还包括:
若所述N个重复率中未存在所述M个重复率超过所述预设重复率,则根据所述第一数据标识确定所述第一数据的访问频率;
将所述访问频率与预设访问频率进行对比;
在所述访问频率超过所述预设访问频率时,则从所述数据库中选取与所述访问频率匹配的第二数据表存储所述第一数据。
可以看出,上述技术方案中,在未存在M个重复率超过预设重复率时,服务端根据访问频率来确定第一数据存储的区域,从而实现冷热数据分区存储,以便于更好的管理。
可选的,基于第二方面或第二方面的第一种实施方式中,在本发明的第二种可能的实施方式中,还包括:
在所述访问频率低于所述预设访问频率时,则根据所述第一数据标识确定所述第一数据的重要级别;
将所述重要级别与预设重要级别进行对比;
在所述重要级别超过所述预设重要级别时,则通过所述中间件向G个服务端发送G个数据存储消息,其中,所述G个服务端与所述G个数据存储消息一一对应,所述G个数据存储消息中的每个数据存储消息携带所述第一数据,所述G个数据存储消息用于指示所述G个服务端存储所述第一数据,所述G个数据存储消息中的第g个数据存储消息用于指示所述G个服务端中的第g个服务端存储所述第一数据,G为正整数,0<g≤G且g为整数。
其中,G例如可等于1、2、3、5、6、11、13、20或其他值。
其中,g例如可等于1、2、3、5、6、11、13、20或其他值。
可以看出,上述技术方案中,当第一数据的重要级别超过预设重要级别时,服务端通过中间件向G个服务端发送G个数据存储消息,以便于进行备份,实现对重要数据的备份。
可选的,基于第二方面或第二方面的第一种或第二种实施方式中,在本发明的第三种可能的实施方式中,还包括:
在所述重要级别低于所述预设重要级别时,则设置存储期限,其中,所述存储期限为所述第一数据存储在所述数据库的时间;
在所述存储期限落入预设存储期限范围时,则从所述数据库中选取与所述访问频率匹配的第三数据表存储所述第一数据。
可以看出,上述技术方案中,通过对重要级别低于预设重要级别的第一数据设置存储期限,在存储期限落入预设存储期限范围时,则从数据库中选取与访问频率匹配的第三数据表存储第一数据,实现对存储空间的合理利用。
可选的,基于第二方面或第二方面的第一种或第二种或第三种实施方式中,在本发明的第四种可能的实施方式中,还包括:
在所述存储期限超出所述预设存储期限时,服务端则从所述第三数据表中删除与所述第一数据标识匹配的所述第一数据。
参见图3,图3为本发明的一个实施例提供的又一种基于中间件的重复数据删除方法的流程示意图。其中,如图3所示,本发明的一个实施例提供的一种基于中间件的重复数据删除方法可以包括:
301、服务端通过所述中间件获取客户端发送的数据处理消息。
其中,所述数据处理消息携带数据标识和第一数据。
其中,中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。
302、服务端从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率。
其中,N为正整数。
其中,N例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,第一方面,在本发明的一种可能的实施方式中,所述数据处理消息携带第一校验码,在所述从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率之前,包括:
对所述第一数据调用校验接口以生成第二校验码;
将所述第一校验码与所述第二校验码进行对比;
在所述第一校验码与所述第二校验码相同时,监测数据删除进程是否处于忙碌状态;
若所述数据删除进程处于忙碌状态,则将所述第一数据放入排队队列。
可选的,基于第一方面的第一种可能的实施方式中,所述第一数据包括第一文档数据,所述数据标识包括文档数据标识,所述从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,包括:
S1:若所述数据删除进程未处于忙碌状态,从所述数据库中获取与所述文档数据标识匹配的N个第二文档数据;
S2:解析所述第一文档数据,以得到所述第一文档数据中的Q个关键字段,其中,Q为正整数;
S3:将m设置为初始值为1的整数;
S4:检测m是否小于或等于N,若是,则执行步骤S5,若否,则执行步骤S9;
S5:对所述N个第二文档数据中的第m个第二文档数据进行解析,以得到所述第m个第二文档数据的J个关键字段,其中,J为正整数;
S6:将n设置为初始值为1的整数;
S7:检测n是否小于或等于Q,若是,则执行步骤S8,若否,则执行步骤S11;
S8:确定所述Q个关键字段中的第n个关键字段与所述J个关键字段中的每个关键字段的重复率,以得到J个重复率;
S9:确定所述J个重复率中的每个重复率与J个重复权重的值,以得到所述第n个关键字段的重复率,其中,所述J个重复权重之和为1;
S10:将(n+1)赋值给n,返回执行步骤S7;
S11:计算所述第n个关键字段的重复率至第(n+Q-1)个关键字段的重复率的均值,以确定所述第一文档数据与所述第m个第二文档数据的重复率,进而得到所述N个重复率中的第m个重复率;
S12:将(m+1)赋值给m,返回执行步骤S4;
S13:结束确定所述第一文档数据与所述N个第二文档数据中的每个第二文档数据的重复率。
其中,Q例如可等于1、2、3、5、6、11、13、20或其他值。
其中,J例如可等于1、2、3、5、6、11、13、20或其他值。
其中,n例如可等于1、2、3、5、6、11、13、20或其他值。
其中,m例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,上述技术方案中,通过计算关键字段与关键字段的重复率,避免通过确定第一文档数据与N个第二文档数据之间的重复率,减轻服务端的运行负担。
可选的,基于第一方面的第二种可能的实施方式中,所述第一数据包括第一视频数据,所述数据标识包括视频数据标识,所述从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,包括:
S1:若所述数据删除进程未处于忙碌状态,从所述数据库中获取与所述视频数据标识匹配的N个第二视频数据;
S2:解析所述第一视频数据,以得到所述第一视频数据的K个图像帧,其中,K为正整数;
S3:将i设置为初始值为1的整数;
S4:检测i是否小于或等于N,若是,则执行步骤S5,若否,则执行步骤S13;
S5:对所述N个第二视频数据中的第i个第二视频数据进行解析,以得到第i个第二视频数据的L个图像帧,其中,L为正整数;
S6:将j设置为初始值为1的整数;
S7:检测j是否小于或等于K,若是,则执行步骤S8,若否,则执行步骤S11;
S8:确定所述K个图像帧中的第j个图像帧与所述L个图像帧中的每个图像帧的重复率,以得到L个重复率;
S9:确定所述L个重复率中的每个重复率与L个重复权重的值,以得到所述第j个图像帧的重复率,其中,所述L个重复权重之和为1;
S10:将(j+1)赋值给j,返回执行步骤S7;
S11:计算所述第j个图像帧的重复率至第(j+K-1)个图像帧的重复率的均值,以确定所述第一视频数据与所述第i个第二视频数据的重复率,进而得到所述N个重复率中的第i个重复率;
S12:将(i+1)赋值给i,返回执行步骤S4;
S13:结束确定所述第一视频数据与所述N个第二视频数据中的每个第二视频数据的重复率。
其中,K例如可等于1、2、3、5、6、11、13、20或其他值。
其中,L例如可等于1、2、3、5、6、11、13、20或其他值。
其中,i例如可等于1、2、3、5、6、11、13、20或其他值。
其中,j例如可等于1、2、3、5、6、11、13、20或其他值。
303、服务端将所述N个重复率与预设重复率进行对比。
304、若所述N个重复率中存在M个重复率超过所述预设重复率,服务端则删除与所述M个重复率对应的M个第二数据。
其中,0<M≤N且M为整数。
其中,M例如可等于1、2、3、5、6、11、13、20或其他值。
可选的,第一方面,在本发明的一种可能的实施方式中,所述数据处理消息携带第一数据标识,在所述若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据之后,包括:
根据所述第一数据标识,标记所述第一数据的数据种类;
从所述数据库中选取与所述数据种类匹配的第一数据表存储所述第一数据。
可以看出,上述技术方案中,通过按照数据种类划分不同的存储区域,为后续数据的查询提供便利。
305、若所述N个重复率中未存在所述M个重复率超过所述预设重复率,服务端则根据所述第一数据标识确定所述第一数据的访问频率;
306、服务端将所述访问频率与预设访问频率进行对比;
307、在所述访问频率超过所述预设访问频率时,服务端则从所述数据库中选取与所述访问频率匹配的第二数据表存储所述第一数据。
308、在所述访问频率低于所述预设访问频率时,服务端则根据所述第一数据标识确定所述第一数据的重要级别。
309、服务端将所述重要级别与预设重要级别进行对比。
310、在所述重要级别超过所述预设重要级别时,服务端则通过所述中间件向G个服务端发送G个数据存储消息。
其中,所述G个服务端与所述G个数据存储消息一一对应,所述G个数据存储消息中的每个数据存储消息携带所述第一数据,所述G个数据存储消息用于指示所述G个服务端存储所述第一数据,所述G个数据存储消息中的第g个数据存储消息用于指示所述G个服务端中的第g个服务端存储所述第一数据,G为正整数,0<g≤G且g为整数。
其中,G例如可等于1、2、3、5、6、11、13、20或其他值。
其中,g例如可等于1、2、3、5、6、11、13、20或其他值。
311、在所述重要级别低于所述预设重要级别时,服务端则设置存储期限。
其中,所述存储期限为所述第一数据存储在所述数据库的时间。
312、服务端将所述存储期限与预设存储期限进行对比。
313、在所述存储期限低于所述预设存储期限时,服务端则从所述数据库中选取与所述访问频率匹配的第三数据表存储所述第一数据。
314、在所述存储期限超出所述预设存储期限时,服务端则从所述第三数据表中删除与所述第一数据标识匹配的所述第一数据。
参见图4,本发明的一个实施例提供的一种基于中间件的重复数据删除装置400可以包括:
获取模块401,用于通过所述中间件获取客户端发送的数据处理消息。
其中,所述数据处理消息携带数据标识和第一数据。
其中,中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。
确定模块402,用于从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率。
其中,N为正整数。
其中,N例如可等于1、2、3、5、6、11、13、20或其他值。
对比模块403,用于将所述N个重复率与预设重复率进行对比。
删除模块404,用于若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据。
其中,0<M≤N且M为整数。
其中,M例如可等于1、2、3、5、6、11、13、20或其他值。
本发明实施例还提供了一种基于中间件的重复数据删除的电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,以执行包括任一项一种基于中间件的重复数据删除的方法中的步骤的指令。
本发明实施例还提供了一种计算机存储介质,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现包括任一项一种基于中间件的重复数据删除的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应所述知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应所述知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应所述理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性或者其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的全部或部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于中间件的重复数据删除方法,其特征在于,包括:
通过所述中间件获取客户端发送的数据处理消息,其中,所述数据处理消息携带数据标识和第一数据;
从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,其中,N为正整数;
将所述N个重复率与预设重复率进行对比;
若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据,其中,0<M≤N且M为整数。
2.根据权利要求1所述的方法,其特征在于,所述数据处理消息携带第一校验码,在所述从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率之前,包括:
对所述第一数据调用校验接口以生成第二校验码;
将所述第一校验码与所述第二校验码进行对比;
在所述第一校验码与所述第二校验码相同时,监测数据删除进程是否处于忙碌状态;
若所述数据删除进程处于忙碌状态,则将所述第一数据放入排队队列。
3.根据权利要求1或2所述的方法,其特征在于,所述第一数据包括第一文档数据,所述数据标识包括文档数据标识,所述从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,包括:
S1:若所述数据删除进程未处于忙碌状态,从所述数据库中获取与所述文档数据标识匹配的N个第二文档数据;
S2:解析所述第一文档数据,以得到所述第一文档数据中的Q个关键字段,其中,Q为正整数;
S3:将m设置为初始值为1的整数;
S4:检测m是否小于或等于N,若是,则执行步骤S5,若否,则执行步骤S9;
S5:对所述N个第二文档数据中的第m个第二文档数据进行解析,以得到所述第m个第二文档数据的J个关键字段,其中,J为正整数;
S6:将n设置为初始值为1的整数;
S7:检测n是否小于或等于Q,若是,则执行步骤S8,若否,则执行步骤S11;
S8:确定所述Q个关键字段中的第n个关键字段与所述J个关键字段中的每个关键字段的重复率,以得到J个重复率;
S9:确定所述J个重复率中的每个重复率与J个重复权重的值,以得到所述第n个关键字段的重复率,其中,所述J个重复权重之和为1;
S10:将(n+1)赋值给n,返回执行步骤S7;
S11:计算所述第n个关键字段的重复率至第(n+Q-1)个关键字段的重复率的均值,以确定所述第一文档数据与所述第m个第二文档数据的重复率,进而得到所述N个重复率中的第m个重复率;
S12:将(m+1)赋值给m,返回执行步骤S4;
S13:结束确定所述第一文档数据与所述N个第二文档数据中的每个第二文档数据的重复率。
4.根据权利要求1所述的方法,其特征在于,所述数据处理消息携带第一数据标识,在所述若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据之后,包括:
根据所述第一数据标识,标记所述第一数据的数据种类;
从所述数据库中选取与所述数据种类匹配的第一数据表存储所述第一数据。
5.根据权利要求1所述的方法,其特征在于,还包括:
若所述N个重复率中未存在所述M个重复率超过所述预设重复率,则根据所述第一数据标识确定所述第一数据的访问频率;
将所述访问频率与预设访问频率进行对比;
在所述访问频率超过所述预设访问频率时,则从所述数据库中选取与所述访问频率匹配的第二数据表存储所述第一数据。
6.根据权利要求5所述的方法,其特征在于,还包括:
在所述访问频率低于所述预设访问频率时,则根据所述第一数据标识确定所述第一数据的重要级别;
将所述重要级别与预设重要级别进行对比;
在所述重要级别超过所述预设重要级别时,则通过所述中间件向G个服务端发送G个数据存储消息,其中,所述G个服务端与所述G个数据存储消息一一对应,所述G个数据存储消息中的每个数据存储消息携带所述第一数据,所述G个数据存储消息用于指示所述G个服务端存储所述第一数据,所述G个数据存储消息中的第g个数据存储消息用于指示所述G个服务端中的第g个服务端存储所述第一数据,G为正整数,0<g≤G且g为整数。
7.根据权利要求6所述的方法,其特征在于,还包括:
在所述重要级别低于所述预设重要级别时,则设置存储期限,其中,所述存储期限为所述第一数据存储在所述数据库的时间;
将所述存储期限与预设存储期限进行对比;
在所述存储期限低于所述预设存储期限时,则从所述数据库中选取与所述访问频率匹配的第三数据表存储所述第一数据。
8.一种基于中间件的重复数据删除装置,其特征在于,包括:
获取模块,用于通过所述中间件获取客户端发送的数据处理消息,其中,所述数据处理消息携带数据标识和第一数据;
确定模块,用于从数据库中获取与所述数据标识匹配的N个第二数据,以确定所述第一数据与所述N个第二数据中的每个第二数据的重复率,以得到N个重复率,其中,N为正整数;
对比模块,用于将所述N个重复率与预设重复率进行对比;
删除模块,用于若所述N个重复率中存在M个重复率超过所述预设重复率,则删除与所述M个重复率对应的M个第二数据,其中,0<M≤N且M为整数。
9.一种基于中间件的重复数据删除的电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被生成由所述处理器执行,以执行权利要求1-7任一项方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述存储计算机程序被所述处理器执行,以实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350191.7A CN110134547B (zh) | 2019-04-28 | 2019-04-28 | 一种基于中间件的重复数据删除方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910350191.7A CN110134547B (zh) | 2019-04-28 | 2019-04-28 | 一种基于中间件的重复数据删除方法和相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134547A true CN110134547A (zh) | 2019-08-16 |
CN110134547B CN110134547B (zh) | 2023-08-18 |
Family
ID=67575618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910350191.7A Active CN110134547B (zh) | 2019-04-28 | 2019-04-28 | 一种基于中间件的重复数据删除方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134547B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407560A (zh) * | 2021-08-19 | 2021-09-17 | 太平金融科技服务(上海)有限公司深圳分公司 | 更新消息处理方法、数据同步方法、配置信息配置方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1464436A (zh) * | 2002-06-26 | 2003-12-31 | 联想(北京)有限公司 | 嵌入式系统的数据存放及其查找组合方法 |
CN101504603A (zh) * | 2009-02-24 | 2009-08-12 | 诚迈科技(南京)有限公司 | 一种rfid硬件中间件的过滤方法模型 |
CN101957927A (zh) * | 2010-11-12 | 2011-01-26 | 福州联迅信息科技有限公司 | 一种物联网中间件架构和基于soa架构的物联网中间件 |
KR20130098595A (ko) * | 2012-02-28 | 2013-09-05 | 부산대학교 산학협력단 | Rfid 테스트 제공 방법 및 이를 제공하는 시스템 |
US20140281258A1 (en) * | 2013-03-13 | 2014-09-18 | International Business Machines Corporation | Dynamic caching module selection for optimized data deduplication |
CN106611035A (zh) * | 2016-06-12 | 2017-05-03 | 四川用联信息技术有限公司 | 一种云存储中重复数据删除的检索算法 |
CN106919626A (zh) * | 2015-12-28 | 2017-07-04 | 北京国双科技有限公司 | 数据处理方法和装置以及数据查询方法和装置 |
CN108829560A (zh) * | 2018-06-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
CN109101531A (zh) * | 2018-06-22 | 2018-12-28 | 联想(北京)有限公司 | 文件处理方法、装置及系统 |
CN109446489A (zh) * | 2018-09-11 | 2019-03-08 | 哈尔滨金融学院 | 法律信息重复率检测系统及检测方法 |
CN109636418A (zh) * | 2018-12-06 | 2019-04-16 | 国家电网有限公司客户服务中心南方分中心 | 一种用于电网客户重复投诉识别的系统 |
-
2019
- 2019-04-28 CN CN201910350191.7A patent/CN110134547B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1464436A (zh) * | 2002-06-26 | 2003-12-31 | 联想(北京)有限公司 | 嵌入式系统的数据存放及其查找组合方法 |
CN101504603A (zh) * | 2009-02-24 | 2009-08-12 | 诚迈科技(南京)有限公司 | 一种rfid硬件中间件的过滤方法模型 |
CN101957927A (zh) * | 2010-11-12 | 2011-01-26 | 福州联迅信息科技有限公司 | 一种物联网中间件架构和基于soa架构的物联网中间件 |
KR20130098595A (ko) * | 2012-02-28 | 2013-09-05 | 부산대학교 산학협력단 | Rfid 테스트 제공 방법 및 이를 제공하는 시스템 |
US20140281258A1 (en) * | 2013-03-13 | 2014-09-18 | International Business Machines Corporation | Dynamic caching module selection for optimized data deduplication |
CN106919626A (zh) * | 2015-12-28 | 2017-07-04 | 北京国双科技有限公司 | 数据处理方法和装置以及数据查询方法和装置 |
CN106611035A (zh) * | 2016-06-12 | 2017-05-03 | 四川用联信息技术有限公司 | 一种云存储中重复数据删除的检索算法 |
CN108829560A (zh) * | 2018-06-01 | 2018-11-16 | 平安科技(深圳)有限公司 | 数据监控方法、装置、计算机设备及存储介质 |
CN109101531A (zh) * | 2018-06-22 | 2018-12-28 | 联想(北京)有限公司 | 文件处理方法、装置及系统 |
CN109446489A (zh) * | 2018-09-11 | 2019-03-08 | 哈尔滨金融学院 | 法律信息重复率检测系统及检测方法 |
CN109636418A (zh) * | 2018-12-06 | 2019-04-16 | 国家电网有限公司客户服务中心南方分中心 | 一种用于电网客户重复投诉识别的系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407560A (zh) * | 2021-08-19 | 2021-09-17 | 太平金融科技服务(上海)有限公司深圳分公司 | 更新消息处理方法、数据同步方法、配置信息配置方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110134547B (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106899680B (zh) | 多区块链的分片处理方法和装置 | |
RU2607621C2 (ru) | Способ, система и машиночитаемый носитель данных для группирования в социальных сетях | |
US9805140B2 (en) | Striping of directed graphs and nodes with improved functionality | |
US9342370B2 (en) | Server migration | |
CN105072139B (zh) | 推荐方法和装置 | |
CN110168523A (zh) | 改变监测跨图查询 | |
CN108985954A (zh) | 一种建立各标识的关联关系的方法以及相关设备 | |
CN108121716A (zh) | 处理问题单的方法和问题单处理系统 | |
CN104579765A (zh) | 一种集群系统的容灾方法和装置 | |
CN109981715A (zh) | 一种会话管理的方法及装置 | |
CN109801693A (zh) | 病案分组方法及装置、终端和计算机可读存储介质 | |
CN109413202A (zh) | 区块链交易信息的排序系统及方法 | |
CN110519782A (zh) | 一种通信网多通道选择方法及装置 | |
CN105450513B (zh) | 归档邮件附件的方法和云存储服务器 | |
CN110134547A (zh) | 一种基于中间件的重复数据删除方法和相关装置 | |
CN107885634A (zh) | 监控中异常信息的处理方法和装置 | |
CN109213742A (zh) | 日志采集方法及装置 | |
CN109672721A (zh) | 媒体文件推送方法、装置、服务端及计算机可读存储介质 | |
CN108241639B (zh) | 一种数据去重方法 | |
CN109995834A (zh) | 大流量数据处理方法、装置、计算设备及存储介质 | |
CN110222297B (zh) | 一种标签用户的识别方法以及相关设备 | |
CN105610698B (zh) | 事件结果的处理方法和装置 | |
CN109450684B (zh) | 一种网络切片系统物理节点容量扩充方法及装置 | |
CN115310137B (zh) | 一种智能结算系统的保密方法及相关装置 | |
CN110490598A (zh) | 异常检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |