CN116719483A - 数据去重方法、装置、存储设备和计算机可读存储介质 - Google Patents
数据去重方法、装置、存储设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN116719483A CN116719483A CN202310994172.4A CN202310994172A CN116719483A CN 116719483 A CN116719483 A CN 116719483A CN 202310994172 A CN202310994172 A CN 202310994172A CN 116719483 A CN116719483 A CN 116719483A
- Authority
- CN
- China
- Prior art keywords
- image data
- data
- original
- orb
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000010586 diagram Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 241001270131 Agaricus moelleri Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0625—Power saving in storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,提供了一种数据去重方法、装置、存储设备和计算机可读存储介质,所述方法包括:获取待处理的非图像数据;将非图像数据转化为灰度图;提取灰度图的ORB特征;将ORB特征和原始ORB特征进行比对,以确定非图像数据中与原始非图像数据相重复的重复数据,原始ORB特征为从原始非图像数据转化的灰度图中提取的ORB特征。本发明能够提高数据去重的效率。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据去重方法、装置、存储设备和计算机可读存储介质。
背景技术
目前,为了满足数据的高可靠性要求,通常采用数据冗余方式进行存储,即存储设备中存在大量的冗余数据,为了提高存储设备中存储空间的利用率,通常会对将数据去重后进行存储。
一种去重方式是按照定长或者变长的方式将数据裁成数据块,计算每个数据块的Hash指纹,通过比对两份数据块的Hash指纹确定两份数据块是否相同,再对冗余数据块进行去重处理。这种方式由于涉及数据块Hash指纹的逐一比对,效率低下,特别是对于变长的处理方式,实现过程复杂,计算量大,效率更低。
发明内容
本发明的目的在于提供了一种数据去重方法、装置、存储设备和计算机可读存储介质,其能够提高数据去重的效率。
本发明的实施例可以这样实现:
第一方面,本发明提供一种数据去重方法,所述方法包括:
获取待处理的非图像数据;
将所述非图像数据转化为灰度图;
提取所述灰度图的ORB特征;
将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据,所述原始ORB特征为从所述原始非图像数据转化的灰度图中提取的ORB特征。
在可选的实施方式中,所述将所述非图像数据转化为灰度图的步骤包括:
将所述非图像数据划分成多个字节;
以每一个字节作为一个像素点,将所述非图像数据转化为灰度图。
在可选的实施方式中,所述将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据的步骤包括:
若所述ORB特征和所述原始ORB特征完全相同,则将所述非图像数据确定为所述重复数据;
若所述ORB特征和所述原始ORB特征部分相同,则根据所述ORB特征从所述灰度图中确定与所述原始ORB特征相同的目标区域;
将所述非图像数据中与所述目标区域对应的数据确定为所述重复数据。
在可选的实施方式中,所述ORB特征包括多个子特征,每一所述子特征表征所述灰度图中的一个预设区域的特征,所述原始ORB特征包括多个原始子特征,每一所述原始子特征表征所述原始灰度图中的一个预设区域的特征,所述若所述ORB特征和所述原始ORB特征部分相同,则根据所述ORB特征从所述灰度图中确定与所述原始ORB特征相同的目标区域的步骤包括:
将所述多个子特征中与所述多个原始子特征重复的子特征确定为目标子特征;
将所述目标子特征表征的所述灰度图的预设区域作为所述目标区域。
在可选的实施方式中,所述方法还包括:
将所述重复数据进行存储;
将所述非图像数据中除所述重复数据之外的数据进行存储、并将所述原始非图像数据中除所述重复数据之外的数据进行存储;
建立所述重复数据与所述非图像数据之间的关联关系、并建立所述重复数据与所述原始非图像数据之间的关联关系。
在可选的实施方式中,所述提取所述灰度图的ORB特征的步骤之前,包括:
若所述非图像数据的灰度图的大小小于所述原始非图像数据的灰度图的大小,则对所述非图像数据的灰度图进行padding处理,以使得所述非图像数据的灰度图的大小等于所述原始非图像数据的灰度图的大小。
在可选的实施方式中,所述将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据的步骤之前,包括:
若所述原始非图像数据的灰度图的大小小于所述非图像数据的灰度图的大小,则对所述原始非图像数据的灰度图进行padding处理,以使所述原始非图像数据的灰度图的大小等于所述非图像数据的灰度图的大小;
将从padding处理后的所述原始非图像数据的灰度图中提取的ORB特征作为所述原始ORB特征。
第二方面,本发明提供一种数据去重装置,所述装置包括:
获取模块,用于获取待处理的非图像数据;
转化模块,用于将所述非图像数据转化为灰度图;
提取模块,用于提取所述灰度图的ORB特征;
确定模块,用于将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据,所述原始ORB特征为从所述原始非图像数据转化的灰度图中提取的ORB特征。
第三方面,本发明提供一种存储设备,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现前述实施方式中任一项所述的数据去重方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现前述实施方式中任一项所述的数据去重方法。
本发明实施例在获取待处理的非图像数据后,先将非图像数据转化为灰度图,再提取灰度图的ORB特征,通过将ORB特征和原始ORB特征进行比对,以确定非图像数据中与原始非图像数据想重复的重复数据,由于原始ORB特征是从原始非图像数据转化的灰度图中提取的ORB特征,因此,通过将两者的ORB特征进行比对,由此确定出两者之间的重复数据,由于按照数据本身的冗余度,动态实现了变长的去重处理,提高了数据去重的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的数据去重方法的流程示例图。
图2为本发明实施例提供的对非图像数据进行二维化处理过程的示例图。
图3为本发明实施例提供的非图像数据转化成灰度图的示例图。
图4为本发明实施例提供的数据去重方法的整体流程示例图。
图5为本发明实施例提供的数据去重装置的方框示例图。
图6为本发明实施例提供的存储设备的方框示例图。
图标:10-存储设备;11-处理器;12-存储器;13-总线;100-数据去重装置;110-获取模块;120-转化模块;130-提取模块;140-确定模块;150-存储模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
在当代的计算机应用中,存在大量数据冗余的情况,例如,一个文本文档只修改了其中几十个字节的内容,但是出于稳妥考虑,仍然会将其另存为一个文件,相当于存储了两个文件,而两个文件的内容差别实际上并不太大,为了减少冗余数据,提高存储效率,需要对其中重复的内容进行去重。
采用数据块的去重方式,数据块的长度可以是定长,也可以是变长,定长的实现方式不够灵活,例如,当两个比较对象中的重复数据较多时,如果数据块的长度过小,则需要计算Hash指纹的数据块的个数比较多,比对的次数也比较多,去重效率不高,而变长的实现方式虽然去重效果比较好,但是元数据处理和计算的处理都更复杂,计算量大,耗费的CPU资源也较多。
有鉴于此,本实施例提供了一种数据去重方法、装置、存储设备和计算机可读存储介质,其能够在不增加处理复杂度的前提下提高去重处理的效率,下面将对其进行详细描述。
请参考图1,图1为本发明实施例提供的数据去重方法的流程示例图,该方法包括以下步骤:
步骤S101,获取待处理的非图像数据。
在本实施例中,非图像数据可以是以文件、对象或者数据集等形式存储在存储设备中硬盘上的数据。
步骤S102,将非图像数据转化为灰度图。
在本实施例中,无论是非图像数据还是图像数据,在存储设备中存储的都是0、1的组合。灰度图,又称灰阶图,把白色与黑色之间按对数关系分为若干等级,称为灰度。用非图像数据表示灰度值,就能够在非图像数据和灰度图的灰度值之间建立起对应关系,由此将非图像数据转化为灰度图。
步骤S103,提取灰度图的ORB特征。
在本实施例中,ORB特征是一种常用的图像特征,ORB特征由关键点和描述子两部分组成,关键点是指特征点在图像中的位置,有的特征点还具有朝向、大小等信息。描述子通常是一个向量,描述了对应关键点周围像素的信息。ORB特征的关键点可以基于改进后的FAST(Features from Accelerated Segment Test)算法进行提取,ORB特征的描述子可以基于改进后的BRIEF(Binary Robust Independent Elementary Features)特征描述算法得到。对于一张灰度图,可以对其扫描提取明暗点的ORB特征,并且可以和与其类似的灰度图的ORB特征进行比较,以判断两个灰度图之间是否发生了变化,如果有变化也可以定位到变化的位置和变化区域。
步骤S104,将ORB特征和原始ORB特征进行比对,以确定非图像数据中与原始非图像数据相重复的重复数据,原始ORB特征为从原始非图像数据转化的灰度图中提取的ORB特征。
在本实施例中,原始非图像数据和非图像数据可以是内容接近的文件、对象、数据集的不同版本,而不能是绝不相关的两个文件、两个对象或者两个数据集,例如,原始非图像数据是文件a,文件a包括了一首诗ABC,非图像数据可以是基于文件a进行再次编辑后另存为的文件b,该文件b不但包括了这首诗,同时还加上了这首诗的作者及写这首诗的时间等信息。
还需要说明的是,ORB特征的灰度图和原始ORB特征的灰度图的大小是相同的,如果两者大小不相同,可以先将两者大小处理成相同,再提取其中的ORB特征。
本实施例提供的上述方法,通过将非图像数据转化为灰度图,再提取灰度图的ORB特征,通过比对非图像数据的ORB特征和原始非图像数据的ORB特征,确定出两者之间的重复数据,由于按照数据本身的冗余度,动态实现了变长的去重处理,提高了数据去重的效率。
在可选的实施方式中,由于灰度图的灰度分为256阶,发明人发现,一个字节包含8个bit,能够表示的最大值刚好也为256,基于此,本实施例提供一种将非图像数据转化为灰度图的实现方式:
将非图像数据划分成多个字节;
以每一个字节作为一个像素点,将非图像数据转化为灰度图。
在本实施例中,每一个字节作为一个像素点,以该字节的值作为像素点的值,由此,将非图像数据转化为灰度图。
在本实施例中,由于图像通常是二维数据表示,为了便于说明,将非图像数据划分的多个字节进行二维化处理,请参照图2,图2为本发明实施例提供的对非图像数据进行二维化处理过程的示例图,图2中,文件A的大小为4M字节,将其数据内容以字节为单位,划分为4M个字节,将4M个字节进行二维化处理,得到行为2K字节、列为2K字节的二维数组表示方式。将每个字节的值作为对应的像素点的像素值,可以得到一张灰度图,请参照图3,图3为本发明实施例提供的非图像数据转化成灰度图的示例图。
在可选的实施方式中,ORB特征和原始ORB特征可能完全相同、也可能部分相同,本实施例提供了一种比对ORB特征和原始ORB特征,以确定非图像数据中与原始非图像数据相重复的重复数据的实现方式:
若ORB特征和原始ORB特征完全相同,则将非图像数据确定为重复数据;
若ORB特征和原始ORB特征部分相同,则根据ORB特征从灰度图中确定与原始ORB特征相同的目标区域;
将非图像数据中与目标区域对应的数据确定为重复数据。
在本实施例中,若ORB特征和原始ORB特征完全相同,则意味着非图像数据和原始非图像数据完全一样,即整个非图像数据都是与原始非图像数据重复的重复数据。若两者部分相同,则意味着其中有部分数据是相同的,部分数据是不相同的,相同的那部分数据为重复数据,此时需要确定出相同的那部分数据。本实施例还提供了一种此场景下重复数据的确定方式:
将多个子特征中与多个原始子特征重复的子特征确定为目标子特征;
将目标子特征表征的灰度图的预设区域作为目标区域。
在本实施例中,ORB特征包括多个子特征,每一子特征表征灰度图中的一个预设区域的特征,原始ORB特征包括多个原始子特征,每一原始子特征表征原始灰度图中的一个预设区域的特征,例如,非图像数据的ORB特征包括A1、B1、C1、D1四个子特征,原始ORB特征包括A2、B2、C2、D2,其中,A1和A2相同,C1和C2相同、D1和D2相同,B1和B2不同,则目标子特征为A1、C1和D1,目标区域为A1、C1和D1分别表征的灰度图的预设区域的并集,目标区域对应的数据为重复数据,B1表征的预设区域对应的数据为不重复数据。
在本实施中,为了使存在重复数据的非图像数据和原始非图像数据存储时有效利用存储空间,本实施例还提供了一种存储实现方式:
首先,将重复数据进行存储;
其次,将非图像数据中除重复数据之外的数据进行存储、并将原始非图像数据中除重复数据之外的数据进行存储;
最后,建立重复数据与非图像数据之间的关联关系、并建立重复数据与原始非图像数据之间的关联关系。
上述存储方式,重复数据只存储了一份,非图像数据中除重复数据之外的数据存和原始非图像数据中除重复数据之外的数据各存储一份,即重复数据和非重复数据均只存储一份,降低了存储的冗余度,提高了存储空间的利用率,同时,通过建立重复数据与非图像数据之间的关联关系、并建立重复数据与原始非图像数据之间的关联关系,能够正常地访问非图像数据和原始非图像数据。
在本实施例中,当非图像数据的灰度图的大小和原始非图像数据的灰度图的大小不同时,为了能够正常地对两者的ORB特征进行比对,本实施例还提供了一种将两者大小处理为一致的实现方式,包括以下两种情况:
(1)在提取灰度图的ORB特征的步骤之前,若非图像数据的灰度图的大小小于原始非图像数据的灰度图的大小,则对非图像数据的灰度图进行padding处理,以使得非图像数据的灰度图的大小等于原始非图像数据的灰度图的大小。
(2)在将ORB特征和原始ORB特征进行比对,以确定非图像数据中与原始非图像数据相重复的重复数据的步骤之前,若原始非图像数据的灰度图的大小小于非图像数据的灰度图的大小,则对原始非图像数据的灰度图进行padding处理,以使原始非图像数据的灰度图的大小等于非图像数据的灰度图的大小;将从padding处理后的原始非图像数据的灰度图中提取的ORB特征作为原始ORB特征。
在本实施例中,一种padding处理的实现方式是:在需要paddling处理的灰度图的周边填充将字节的bit为填充为全0或者全1的方式进行处理,以将需要padding处理的灰度图的大小处理成与待比较的另一个灰度图的大小一致,例如,需要padding处理的灰度图为非图像数据的灰度图,则将其padding处理后,其大小和原始图像数据的灰度图的大小一致,反之亦然。
需要说明的是,对于进行padding处理的灰度图,还需要记录填充的是全0还是全1,以及填充的位置。
还需要说明的是,参与比对的ORB特征和原始ORB特征对应的灰度图的大小是相同的,若不相同,则需将两者处理为相同后,再提取其中的ORB特征进行比较。作为另一种实现方式,也可以在数据去重时,不先将原始非图像数据的原始ORB特征提取出来,而是分别获取非图像数据和原始非图像数据,将两者分别转化为灰度图,再比较两个灰度图的大小是否一样,若不一样,通过padding处理,将两者的大小处理为一样之后,再从各自灰度图中分别提取出非图像数据的ORB特征和原始非图像数据的原始ORB特征,再将两个ORB特征进行比较,确定非图像数据中和原始非图像数据重复的重复数据。
为了从整体流程上说明数据去重的全过程,请参照图4,图4为本发明实施例提供的数据去重方法的整体流程示例图,图4中,原始非图像数据为原始文件,非图像数据为新输入文件,分别将原始文件和新输入文件进行字节划分,对字节划分后的数据进行二维化处理,得到列为x字节、行为y字节的二维数据,得到各自对应的灰度图,如图4中灰度图中4个矩形框所示,通过ORB特征比对发现,4个矩形框中有3个矩形框是相同的,一个矩形框是不同的,将相同矩形框对应的数据记录一份,将不同矩形框对应的差异块的数据记录一份,再基于差异块记录差异元数据日志,同时建立原始文件(即图4中的版本0)和新输入文件(即图4中的版本1)和重复数据之间的关联关系,以便正常访问原始文件和新输入文件。
为了执行上述实施例及各个可能的实施方式中的相应步骤,下面给出一种数据去重装置的实现方式。请参照图5,图5为本发明实施例提供的数据去重装置100的方框示意图。需要说明的是,本实施例所提供的数据去重装置100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及指出。
数据去重装置100包括获取模块110、转化模块120、提取模块130、确定模块140及存储模块150。
获取模块110,用于获取待处理的非图像数据;
转化模块120,用于将非图像数据转化为灰度图;
提取模块130,用于提取灰度图的ORB特征;
确定模块140,用于将ORB特征和原始ORB特征进行比对,以确定非图像数据中与原始非图像数据相重复的重复数据,原始ORB特征为从原始非图像数据转化的灰度图中提取的ORB特征。
在可选的实施方式中,转化模块120具体用于:将非图像数据划分成多个字节;以每一个字节作为一个像素点,将非图像数据转化为灰度图。
在可选的实施方式中,确定模块140具体用于:若ORB特征和原始ORB特征完全相同,则将非图像数据确定为重复数据;若ORB特征和原始ORB特征部分相同,则根据ORB特征从灰度图中确定与原始ORB特征相同的目标区域;将非图像数据中与目标区域对应的数据确定为重复数据。
在可选的实施方式中, ORB特征包括多个子特征,每一子特征表征灰度图中的一个预设区域的特征,原始ORB特征包括多个原始子特征,每一原始子特征表征原始灰度图中的一个预设区域的特征,确定模块140在用于若ORB特征和原始ORB特征部分相同,则根据ORB特征从灰度图中确定与原始ORB特征相同的目标区域时具体用于:将多个子特征中与多个原始子特征重复的子特征确定为目标子特征;将目标子特征表征的灰度图的预设区域作为目标区域。
在可选的实施方式中,存储模块150用于:将重复数据进行存储;将非图像数据中除重复数据之外的数据进行存储、并将原始非图像数据中除重复数据之外的数据进行存储;建立重复数据与非图像数据之间的关联关系、并建立重复数据与原始非图像数据之间的关联关系。
在可选的实施方式中,提取模块130还用于:若非图像数据的灰度图的大小小于原始非图像数据的灰度图的大小,则对非图像数据的灰度图进行padding处理,以使得非图像数据的灰度图的大小等于原始非图像数据的灰度图的大小。
在可选的实施方式中,确定模块140还用于:若原始非图像数据的灰度图的大小小于非图像数据的灰度图的大小,则对原始非图像数据的灰度图进行padding处理,以使原始非图像数据的灰度图的大小等于非图像数据的灰度图的大小;将从padding处理后的原始非图像数据的灰度图中提取的ORB特征作为原始ORB特征。
本实施例还提供了一种存储设备10的方框示意图,请参照图6,图6为本发明实施例提供的存储设备10的方框示意图,存储设备10包括处理器11、存储器12、总线13。处理器11、存储器12通过总线13连接。
处理器11可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器11中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器11可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器12用于存储程序,例如图5中的数据去重装置100,数据去重装置100均包括至少一个可以软件或固件(firmware)的形式存储于存储器12中的软件功能模块,处理器11在接收到执行指令后,执行程序以实现本发明实施例中的数据去重方法。
存储器12可能包括高速随机存取存储器(RAM:Random Access Memory),也可能还包括非易失存储器(non-volatile memory)。可选地,存储器12可以是内置于处理器11中的存储装置,也可以是独立于处理器11的存储装置。
总线13可以是ISA总线、PCI总线或EISA总线等。图6仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现前述实施方式中任一项的数据去重方法。
综上所述,本发明实施例提供了一种数据去重方法、装置、存储设备和计算机可读存储介质,方法包括:获取待处理的非图像数据;将非图像数据转化为灰度图;提取灰度图的ORB特征;将ORB特征和原始ORB特征进行比对,以确定非图像数据中与原始非图像数据相重复的重复数据,原始ORB特征为从原始非图像数据转化的灰度图中提取的ORB特征。与现有技术相比,本实施例至少具有以下优势:(1)将非图像数据转化为灰度图,利用ORB特征比对确定重复数据,实现了按照数据本身的冗余度,动态变长的去重效果,灵活性高,效率高,适应性强;(2)创造性地将机器视觉技术应用于非图像数据的去重场景中,实现了数据去重的智能化,由于机器视觉技术的处理方式速度快,进一步提高了非图像数据的去重处理效率;(3)将重复数据存储一份、非重复数据存储一份,元数据的复杂度低、且有效地利用了存储资源。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种数据去重方法,其特征在于,所述方法包括:
获取待处理的非图像数据;
将所述非图像数据转化为灰度图;
提取所述灰度图的ORB特征;
将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据,所述原始ORB特征为从所述原始非图像数据转化的灰度图中提取的ORB特征。
2.如权利要求1所述的数据去重方法,其特征在于,所述将所述非图像数据转化为灰度图的步骤包括:
将所述非图像数据划分成多个字节;
以每一个字节作为一个像素点,将所述非图像数据转化为灰度图。
3.如权利要求1所述的数据去重方法,其特征在于,所述将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据的步骤包括:
若所述ORB特征和所述原始ORB特征完全相同,则将所述非图像数据确定为所述重复数据;
若所述ORB特征和所述原始ORB特征部分相同,则根据所述ORB特征从所述灰度图中确定与所述原始ORB特征相同的目标区域;
将所述非图像数据中与所述目标区域对应的数据确定为所述重复数据。
4.如权利要求3所述的数据去重方法,其特征在于,所述ORB特征包括多个子特征,每一所述子特征表征所述灰度图中的一个预设区域的特征,所述原始ORB特征包括多个原始子特征,每一所述原始子特征表征所述原始灰度图中的一个预设区域的特征,所述若所述ORB特征和所述原始ORB特征部分相同,则根据所述ORB特征从所述灰度图中确定与所述原始ORB特征相同的目标区域的步骤包括:
将所述多个子特征中与所述多个原始子特征重复的子特征确定为目标子特征;
将所述目标子特征表征的所述灰度图的预设区域作为所述目标区域。
5.如权利要求1所述的数据去重方法,其特征在于,所述方法还包括:
将所述重复数据进行存储;
将所述非图像数据中除所述重复数据之外的数据进行存储、并将所述原始非图像数据中除所述重复数据之外的数据进行存储;
建立所述重复数据与所述非图像数据之间的关联关系、并建立所述重复数据与所述原始非图像数据之间的关联关系。
6.如权利要求1所述的数据去重方法,其特征在于,所述提取所述灰度图的ORB特征的步骤之前,包括:
若所述非图像数据的灰度图的大小小于所述原始非图像数据的灰度图的大小,则对所述非图像数据的灰度图进行padding处理,以使得所述非图像数据的灰度图的大小等于所述原始非图像数据的灰度图的大小。
7.如权利要求1所述的数据去重方法,其特征在于,所述将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据的步骤之前,包括:
若所述原始非图像数据的灰度图的大小小于所述非图像数据的灰度图的大小,则对所述原始非图像数据的灰度图进行padding处理,以使所述原始非图像数据的灰度图的大小等于所述非图像数据的灰度图的大小;
将从padding处理后的所述原始非图像数据的灰度图中提取的ORB特征作为所述原始ORB特征。
8.一种数据去重装置,其特征在于,所述装置包括:
获取模块,用于获取待处理的非图像数据;
转化模块,用于将所述非图像数据转化为灰度图;
提取模块,用于提取所述灰度图的ORB特征;
确定模块,用于将所述ORB特征和原始ORB特征进行比对,以确定所述非图像数据中与原始非图像数据相重复的重复数据,所述原始ORB特征为从所述原始非图像数据转化的灰度图中提取的ORB特征。
9.一种存储设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序,所述处理器用于在执行所述程序时,实现权利要求1-7中任一项所述的数据去重方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1-7中任一项所述的数据去重方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310994172.4A CN116719483B (zh) | 2023-08-09 | 2023-08-09 | 数据去重方法、装置、存储设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310994172.4A CN116719483B (zh) | 2023-08-09 | 2023-08-09 | 数据去重方法、装置、存储设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116719483A true CN116719483A (zh) | 2023-09-08 |
CN116719483B CN116719483B (zh) | 2023-10-27 |
Family
ID=87870024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310994172.4A Active CN116719483B (zh) | 2023-08-09 | 2023-08-09 | 数据去重方法、装置、存储设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719483B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272902A (ja) * | 1995-04-03 | 1996-10-18 | Fuji Electric Co Ltd | 異字体異品質文字の認識方法 |
CN102930537A (zh) * | 2012-10-23 | 2013-02-13 | 深圳市宜搜科技发展有限公司 | 一种图像检测方法及系统 |
US8836548B1 (en) * | 2013-12-05 | 2014-09-16 | Emc Corporation | Method and system for data compression at a storage system |
CN109492692A (zh) * | 2018-11-07 | 2019-03-19 | 北京知道创宇信息技术有限公司 | 一种网页后门检测方法、装置、电子设备及存储介质 |
CN109543772A (zh) * | 2018-12-03 | 2019-03-29 | 北京锐安科技有限公司 | 数据集自动匹配方法、装置、设备和计算机可读存储介质 |
CN110837641A (zh) * | 2019-11-13 | 2020-02-25 | 电子科技大学广东电子信息工程研究院 | 一种基于内存分析的恶意软件检测方法及检测系统 |
US20200065016A1 (en) * | 2018-08-21 | 2020-02-27 | Samsung Electronics Co., Ltd. | Embedded reference counter and special data pattern auto-detect |
CN113110802A (zh) * | 2021-04-16 | 2021-07-13 | 维沃移动通信有限公司 | 图像块的处理方法、装置、电子设备、可读存储介质 |
CN113139201A (zh) * | 2020-01-17 | 2021-07-20 | 华为技术有限公司 | 文件检测方法、装置、存储介质及计算设备 |
CN113222930A (zh) * | 2021-05-08 | 2021-08-06 | 厦门服云信息科技有限公司 | 基于图像分析的恶意流量检测方法、终端设备及存储介质 |
CN113721859A (zh) * | 2021-09-08 | 2021-11-30 | 郑州轻工业大学 | 一种基于人工智能的图像重复数据删除方法 |
CN114915788A (zh) * | 2022-07-19 | 2022-08-16 | 中科金勃信(山东)科技有限公司 | 一种用于档案的图像压缩方法、系统及介质 |
CN115834105A (zh) * | 2022-09-26 | 2023-03-21 | 北京力控华康科技有限公司 | 工控数据流检测模型构建及工控数据流检测方法、装置 |
CN115965801A (zh) * | 2021-12-27 | 2023-04-14 | 武汉赛维尔生物科技有限公司 | 一种针对蛋白质免疫印迹条带图像的图像匹配方法及装置 |
CN116016693A (zh) * | 2022-07-06 | 2023-04-25 | 珠海趣印科技有限公司 | 一种便携打印机打印数据的压缩处理方法及其系统 |
-
2023
- 2023-08-09 CN CN202310994172.4A patent/CN116719483B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08272902A (ja) * | 1995-04-03 | 1996-10-18 | Fuji Electric Co Ltd | 異字体異品質文字の認識方法 |
CN102930537A (zh) * | 2012-10-23 | 2013-02-13 | 深圳市宜搜科技发展有限公司 | 一种图像检测方法及系统 |
US8836548B1 (en) * | 2013-12-05 | 2014-09-16 | Emc Corporation | Method and system for data compression at a storage system |
US20200065016A1 (en) * | 2018-08-21 | 2020-02-27 | Samsung Electronics Co., Ltd. | Embedded reference counter and special data pattern auto-detect |
CN109492692A (zh) * | 2018-11-07 | 2019-03-19 | 北京知道创宇信息技术有限公司 | 一种网页后门检测方法、装置、电子设备及存储介质 |
CN109543772A (zh) * | 2018-12-03 | 2019-03-29 | 北京锐安科技有限公司 | 数据集自动匹配方法、装置、设备和计算机可读存储介质 |
CN110837641A (zh) * | 2019-11-13 | 2020-02-25 | 电子科技大学广东电子信息工程研究院 | 一种基于内存分析的恶意软件检测方法及检测系统 |
CN113139201A (zh) * | 2020-01-17 | 2021-07-20 | 华为技术有限公司 | 文件检测方法、装置、存储介质及计算设备 |
CN113110802A (zh) * | 2021-04-16 | 2021-07-13 | 维沃移动通信有限公司 | 图像块的处理方法、装置、电子设备、可读存储介质 |
CN113222930A (zh) * | 2021-05-08 | 2021-08-06 | 厦门服云信息科技有限公司 | 基于图像分析的恶意流量检测方法、终端设备及存储介质 |
CN113721859A (zh) * | 2021-09-08 | 2021-11-30 | 郑州轻工业大学 | 一种基于人工智能的图像重复数据删除方法 |
CN115965801A (zh) * | 2021-12-27 | 2023-04-14 | 武汉赛维尔生物科技有限公司 | 一种针对蛋白质免疫印迹条带图像的图像匹配方法及装置 |
CN116016693A (zh) * | 2022-07-06 | 2023-04-25 | 珠海趣印科技有限公司 | 一种便携打印机打印数据的压缩处理方法及其系统 |
CN114915788A (zh) * | 2022-07-19 | 2022-08-16 | 中科金勃信(山东)科技有限公司 | 一种用于档案的图像压缩方法、系统及介质 |
CN115834105A (zh) * | 2022-09-26 | 2023-03-21 | 北京力控华康科技有限公司 | 工控数据流检测模型构建及工控数据流检测方法、装置 |
Non-Patent Citations (2)
Title |
---|
XUAN LI等: "CE-Dedup: Cost-Effective Convolutional Neural Nets Training based on Image Deduplication", 《2021 IEEE INTL CONF ON PARALLEL & DISTRIBUTED PROCESSING WITH APPLICATIONS, BIG DATA & CLOUD COMPUTING, SUSTAINABLE COMPUTING & COMMUNICATIONS, SOCIAL COMPUTING & NETWORKING (ISPA/BDCLOUD/SOCIALCOM/SUSTAINCOM)》, pages 11 - 18 * |
杨璇等: "基于不定长卷积神经网络的恶意流量分类算法", 《信息安全学报》, vol. 7, no. 4, pages 90 - 99 * |
Also Published As
Publication number | Publication date |
---|---|
CN116719483B (zh) | 2023-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11605087B2 (en) | Method and apparatus for identifying identity information | |
US8924366B2 (en) | Data storage deduplication systems and methods | |
JP5962937B2 (ja) | 画像処理方法 | |
CN111681273A (zh) | 图像分割方法、装置、电子设备及可读存储介质 | |
EP3756130B1 (en) | Image hidden information detector | |
CN111046045A (zh) | 处理数据倾斜的方法、装置、设备及存储介质 | |
CN111340207A (zh) | 浮点数转换方法及装置 | |
CN111666442A (zh) | 一种图像检索方法、装置及计算机设备 | |
US20240037914A1 (en) | Machine learning method and computing device for art authentication | |
CN114299030A (zh) | 物体检测模型处理方法、装置、设备及存储介质 | |
US9858293B2 (en) | Image processing apparatus and image processing method | |
CN116719483B (zh) | 数据去重方法、装置、存储设备和计算机可读存储介质 | |
CN113360911A (zh) | 恶意代码同源分析方法、装置、计算机设备和存储介质 | |
CN112287905A (zh) | 车辆损伤识别方法、装置、设备及存储介质 | |
CN114329030A (zh) | 一种信息处理方法、装置、计算机设备和存储介质 | |
CN114495144A (zh) | 文本图像中表格key-value信息的提取方法及装置 | |
JP6485072B2 (ja) | 画像探索装置、画像探索方法および画像探索プログラム | |
CN108665434B (zh) | 图像合成方法及装置 | |
CN113568578B (zh) | 一种图片处理方法、装置、电子设备和可读存储介质 | |
CN113365071B (zh) | 一种图像分层压缩方法及图像分层压缩装置 | |
CN112529887B (zh) | 一种基于gis地图数据懒加载方法及系统 | |
CN113436188B (zh) | 一种利用卷积计算图像哈希值的方法 | |
CN116821146B (zh) | 一种基于Apache Iceberg的数据表列更新方法及系统 | |
CN113434710A (zh) | 文档检索方法、装置、服务器以及存储介质 | |
CN113064922A (zh) | 一种数据连续性判定方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |