CN104881470B - 一种面向海量图片数据的重复数据删除方法 - Google Patents
一种面向海量图片数据的重复数据删除方法 Download PDFInfo
- Publication number
- CN104881470B CN104881470B CN201510283400.2A CN201510283400A CN104881470B CN 104881470 B CN104881470 B CN 104881470B CN 201510283400 A CN201510283400 A CN 201510283400A CN 104881470 B CN104881470 B CN 104881470B
- Authority
- CN
- China
- Prior art keywords
- data
- block
- picture
- file
- fingerprint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
Abstract
本发明公开了一种面向海量图片数据的重复数据删除方法,涉及计算机存储领域。该方法包括:根据文件后缀名识别文件类型,将图片文件的位图矩阵数据读入内存;对位图矩阵按基于图片尺寸的分块算法进行分块;用传统的唯一块判定方法或相似性判定方法判定数据块是唯一块还是冗余块;若为冗余块,则将其删除,否则根据原图片文件类型选择对应的图片压缩算法对该数据块进行压缩,然后将其存入系统。本发明提供的技术方案适用于海量图片数据去重环境,能大大缩减其实际存储的数据量。
Description
技术领域
本发明涉及数据存储研究领域,特别涉及一种面向海量图片数据的重复数据删除方法。
背景技术
随着计算机网络的发展,信息的呈现方式已逐渐转变为图片为主、文字为辅。目前社交网站、购物网站等均含有大量图片信息,这类信息在网络中呈现爆炸式增长,如何有效地存储和管理这些图片数据成为存储领域的一个热点。
重复数据删除技术能够有效减少存储系统中的冗余数据,但是现有技术对图片文件的去重效果欠佳。经研究发现,其主要原因是常见的图片文件均为压缩文件,压缩过程会使数据的二进制流发生改变,从而使原本具有冗余性的数据不再具有冗余性。
因此,研究一种能针对图片文件压缩前的数据去重的方法,则能在一定程度上提高去重率,具有重要的应用价值。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种面向海量图片数据的重复数据删除方法,该方法通过将图片文件解压,针对解压后的像素矩阵数据进行分块去重,能大大缩减其实际存储的数据量。
本发明的目的通过以下的技术方案实现:一种面向海量图片数据的重复数据删除方法,包括步骤:
(1)文件过滤:对文件类型和文件大小进行过滤;
(2)过滤后的文件类型识别与数据读取:根据文件后缀名识别图片文件类型,根据类型获取其位图矩阵数据并读入内存;
(3)对位图矩阵数据进行分块;
(4)判断分块后的各个数据块是唯一块还是冗余块,若为冗余块,则将其删除,否则执行步骤(5);
(5)根据原图片文件类型,用相应的图片压缩方法对唯一块进行压缩存储。
本发明所针对的文件具体是指后缀名为jpg、png、bmp等格式的图片文件,若非图片文件,则可按传统的重复数据删除方法进行去重。同时计算图片文件大小,若文件大小小于某个阈值,则将图片文件整体视为一个数据块,按传统的重复数据删除方法进行去重。本发明是针对文件较大的图片文件提出的处理方法。
优选的,所述步骤(2)中,若图片文件类型为压缩格式文件,则采用相应的解压算法将其解压,然后获得其位图矩阵数据,若为非压缩格式,则直接读取其位图矩阵数据;其中若图片文件类型为jpg格式文件,则在解压的同时计算文件元数据包含的亮度量化表的所有元素的和。
优选的,所述步骤(2)中的数据读取与步骤(3)中的分块过程采用多线程并行的方式,即并行读取多个图片文件的位图矩阵数据,对同一个位图矩阵采用多个线程并行地对矩阵不同区域进行分块。通过以上方法达到减少时间开销的目的。
优选的,所述步骤(3)对位图矩阵数据进行分块,采用一种基于图片尺寸的分块方法,步骤如下:
(3-1)获取图片的宽和高,以及可根据实际需求进行调节的默认块边长,用X表示最终用于分块的边长,执行步骤(3-2);
(3-2)若图片宽或高小于默认块边长,则X等于图片高、宽中的更小者,执行步骤(3-4),否则执行步骤(3-3);
(3-3)用Z表示控制每张图片通过分块所能得到的数据块个数,根据公式:Y2=图片宽*图片高/Z,计算出Y的值,并对Y取整,若Y小于默认块边长,则最终用于分块的边长X为默认块边长,否则X为Y,执行步骤(3-4);
(3-4)从行和列两个方向对位图矩阵进行划分,每隔X个元素划分一次,将划分后得到的每个矩形区域所包含的所有数据视为一个数据块。
作为一种优选方式,所述步骤(4)中,判断分块后的各个数据块是唯一块还是冗余块,采用传统的唯一块判定方法,其步骤是:计算数据块哈希指纹,并在已存储的指纹数据库中查找该指纹,若找到则标记该数据块为冗余块,否则标记该数据块为唯一块。
更进一步的,为了避免计算纯色块的哈希指纹时造成的指纹冲突,用纯色块的宽、高以及纯色块的R、G、B颜色值标记该纯色块,指纹查找过程中,若通过指纹值在指纹数据库中找到某指纹,还需对比两指纹的以上标记,若不同,则判定它们为不同的指纹。
作为另一种优选方式,所述步骤(4)中,判断分块后的各个数据块是唯一块还是冗余块,采用相似性判定方法,其步骤是:
(4-1)将已存储数据块中与待去重数据块长度相同的数据块以队列结构读入内存,执行步骤(4-2);
(4-2)若队列为空,表示系统中没有与待去重数据块长度相同的数据块,将其标记为唯一块,若队列不为空,执行步骤(4-3);
(4-3)从队列中取一个数据块,从数据起始点开始,依次计算其与待去重数据块对应字节的ASCII码值的差的绝对值,若所有计算出的绝对值均小于阈值A,且绝对值小于阈值B的个数与总个数的比例达到C,则标记待去重数据块为冗余块,否则执行步骤(4-4);A、B、C均为预设值;
(4-4)若队列不为空,执行步骤(4-3),否则标记待去重数据块为唯一块。
优选的,所述步骤(5)中,若原图片文件类型为jpg,则用图片质量判定算法选择合适的质量因子,再对唯一块进行压缩存储,图片质量判定算法步骤是:
(5-1)用sum表示压缩算法中所使用的量化表的所有元素值的和,sum与压缩算法中用于设定图片质量的质量因子一一对应,计算压缩算法所使用的每一个亮度量化表的sum,并将其加入集合C,计算完成后执行步骤(5-2);
(5-2)将集合C存入系统,执行步骤(5-3);
(5-3)读取jpg文件中的亮度量化表,计算该亮度量化表所有元素值的和a,在集合C中选取一个最接近a的元素,根据该元素获得其对应的质量因子,该质量因子即反映原jpg图片的质量。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明提出了一种针对图片文件的去重方法,该方法通过将图片文件解压,针对解压后的像素矩阵数据进行分块去重,能大大提高去重率,缩减其实际存储的数据量。
2、本发明提出了一种基于图片尺寸的分块方法,能将数据块数量限制在一定范围内,从而有效减少指纹表数据量。
3、本发明提出一种相似性判定方法,能够将视觉无法识别出差异但实际上不同的两张图片判定为相似图片。
4、本发明提出了一种jpg图片质量判定方法,通过该方法能够在一定程度上解决不同应用软件生成的jpg格式图片之间的图片质量比较问题。
附图说明
图1为本实施例方法的流程图。
图2为本实施例中基于图片尺寸的分块方法流程图。
图3为本实施例中基于图片尺寸的分块方法的分块示意图。
图4为本实施例中相似性判定方法的流程图。
图5为本实施例中jpg图片质量判定方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
参见图1,本实施例重复数据删除流程包括以下步骤:
一、文件过滤。
(1-1)读取备份流中的一个文件,根据文件后缀名判断文件是否为图片文件。
(1-2)若非图片文件,则按一般流程对文件进行去重,一般重复数据删除流程为:基于文件二进制流进行分块,计算数据块的哈希指纹,通过在指纹数据库中查找该指纹来判断数据块是否冗余,若数据块冗余,则将其删除,若数据块为唯一块,则将其存入系统,并将指纹添加到指纹数据库。
(1-3)若是图片文件,则执行步骤(1-4)。
(1-4)计算图片文件大小,若文件小于5KB,则将文件整体视为一个数据块,计算其哈希指纹,通过查找指纹数据库判断该文件是否冗余,若文件冗余则将其删除,否则将其存入系统,并添加文件指纹到指纹数据库;否则执行步骤二。
二、过滤后的文件类型识别与数据读取。
通过文件后缀名识别图片文件类型,若为png、jgp等压缩格式文件,则选择相应解压算法进行解压,获取其位图矩阵数据,对于jpg文件,在解压时还要计算其文件元数据包含的亮度量化表的所有元素的和;若为bmp等非压缩格式文件,则直接读取其位图矩阵数据。
三、将位图矩阵数据用基于图片尺寸的分块方法进行分块。
参见图2、3,选择合适的块边长对位图矩阵进行分块,分块示意图如图3所示。基于图片尺寸的分块方法见图2,步骤如下:
(3-1)获取图片的宽和高,以及可根据实际需求进行调节的默认块边长S,用X表示最终用于分块的边长,执行步骤(3-2);
(3-2)若图片宽或高小于默认块边长S,则X等于图片高、宽中的更小者,执行步骤(3-4),否则执行步骤(3-3);
(3-3)用Z表示控制每张图片通过分块所能得到的数据块个数,根据公式:Y2=图片宽*图片高/Z,计算出Y的值,并对Y取整,若Y小于默认块边长S,则最终用于分块的边长X为默认块边长S,否则X为Y,执行步骤(3-4);
(3-4)从行和列两个方向对位图矩阵进行划分,每隔X个元素划分一次,将划分后得到的每个矩形区域所包含的所有数据视为一个数据块。
四、判断分块后的各个数据块是唯一块还是冗余块。
这里可采用传统的唯一块判断方法或相似性判定方法来进行判断。
采用传统的唯一块判断方法的步骤是:计算数据块哈希指纹,并在已存储的指纹数据库中查找该指纹,若找到则标记该数据块为冗余块,否则标记该数据块为唯一块,为了避免计算纯色块的哈希指纹时造成的指纹冲突,用纯色块的宽、高以及纯色块的R、G、B颜色值标记该纯色块,指纹查找过程中,若通过指纹值在指纹数据库中找到某指纹,还需对比两指纹的以上标记,若不同,则判定它们为不同的指纹。
采用相似性判定方法的步骤如图4所示,具体如下:
(4-1)将已存储数据块中与待去重数据块长度相同的数据块以队列结构读入内存,执行步骤(4-2);
(4-2)若队列为空,表示系统中没有与待去重数据块长度相同的数据块,将其标记为唯一块,若队列不为空,执行步骤(4-3);
(4-3)从队列中取一个数据块,从数据起始点开始,依次计算其与待去重数据块对应字节的ASCII码值的差的绝对值,若所有计算出的绝对值均小于阈值A,且绝对值小于阈值B的个数与总个数的比例达到C,则标记待去重数据块为冗余块,否则执行步骤(4-4);A、B、C均为预设值;
(4-4)若队列不为空,执行步骤(4-3),否则标记待去重数据块为唯一块。
五、压缩存储。
若经过步骤四其中一个判定方法判定数据块为冗余块,则将其删除,否则根据原图片文件的文件类型,对数据块进行压缩,当原图片文件为jpg文件时,用如图5所示的图片质量判定方法选择合适的质量因子,对数据块用JPEG压缩算法压缩;若原图片文件为bmp等非压缩格式文件,则采用7z等无损压缩算法进行压缩。最后将压缩后的唯一块存入系统。
图片质量判定算法步骤是:
(5-1)用sum表示压缩算法中所使用的量化表的所有元素值的和,sum与压缩算法中用于设定图片质量的质量因子一一对应,计算压缩算法所使用的每一个亮度量化表的sum,并将其加入集合C,计算完成后执行步骤(5-2);
(5-2)将集合C存入系统,执行步骤(5-3);
(5-3)读取jpg文件中的亮度量化表,计算该亮度量化表所有元素值的和a,在集合C中选取一个最接近a的元素,根据该元素获得其对应的质量因子,该质量因子即反映原jpg图片的质量。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种面向海量图片数据的重复数据删除方法,其特征在于,包括步骤:
(1)文件过滤:对文件类型和文件大小进行过滤;步骤是:
(1-1)读取备份流中的一个文件,根据文件后缀名判断文件是否为图片文件;
(1-2)若非图片文件,则按一般重复数据删除流程对文件进行去重,一般重复数据删除流程为:基于文件二进制流进行分块,计算数据块的哈希指纹,通过在指纹数据库中查找该指纹来判断数据块是否冗余,若数据块冗余,则将其删除,若数据块为唯一块,则将其存入系统,并将指纹添加到指纹数据库;
(1-3)若是图片文件,则执行步骤(1-4);
(1-4)计算图片文件大小,若文件小于预设值,则将文件整体视为一个数据块,计算其哈希指纹,通过查找指纹数据库判断该文件是否冗余,若文件冗余则将其删除,否则将其存入系统,并添加文件指纹到指纹数据库;否则执行步骤(2);
(2)过滤后的文件类型识别与数据读取:根据文件后缀名识别图片文件类型,根据类型获取其位图矩阵数据并读入内存;
(3)对位图矩阵数据进行分块;
(4)判断分块后的各个数据块是唯一块还是冗余块,若为冗余块,则将其删除,否则执行步骤(5);
(5)根据原图片文件类型,用相应的图片压缩方法对唯一块进行压缩存储。
2.根据权利要求1所述的面向海量图片数据的重复数据删除方法,其特征在于,所述步骤(2)中,若图片文件类型为压缩格式文件,则采用相应的解压算法将其解压,然后获得其位图矩阵数据,若为非压缩格式,则直接读取其位图矩阵数据;其中若图片文件类型为jpg格式文件,则在解压的同时计算文件元数据包含的亮度量化表的所有元素的和。
3.根据权利要求1所述的面向海量图片数据的重复数据删除方法,其特征在于,所述步骤(2)中的数据读取与步骤(3)中的分块过程采用多线程并行的方式,即并行读取多个图片文件的位图矩阵数据,对同一个位图矩阵采用多个线程并行地对矩阵不同区域进行分块。
4.根据权利要求1所述的面向海量图片数据的重复数据删除方法,其特征在于,所述步骤(3)对位图矩阵数据进行分块,采用一种基于图片尺寸的分块方法,步骤如下:
(3-1)获取图片的宽和高,以及可根据实际需求进行调节的默认块边长,用X表示最终用于分块的边长,执行步骤(3-2);
(3-2)若图片宽或高小于默认块边长,则X等于图片高、宽中的更小者,执行步骤(3-4),否则执行步骤(3-3);
(3-3)用Z表示控制每张图片通过分块所能得到的数据块个数,根据公式:Y2=图片宽*图片高/Z,计算出Y的值,并对Y取整,若Y小于默认块边长,则最终用于分块的边长X为默认块边长,否则X为Y,执行步骤(3-4);
(3-4)从行和列两个方向对位图矩阵进行划分,每隔X个元素划分一次,将划分后得到的每个矩形区域所包含的所有数据视为一个数据块。
5.根据权利要求1所述的面向海量图片数据的重复数据删除方法,其特征在于,所述步骤(4)中,判断分块后的各个数据块是唯一块还是冗余块,采用传统的唯一块判定方法,其步骤是:计算数据块哈希指纹,并在已存储的指纹数据库中查找该指纹,若找到则标记该数据块为冗余块,否则标记该数据块为唯一块。
6.根据权利要求5所述的面向海量图片数据的重复数据删除方法,其特征在于,用纯色块的宽、高以及纯色块的R、G、B颜色值标记该纯色块,指纹查找过程中,若通过指纹值在指纹数据库中找到某指纹,还需对比两指纹的以上标记,若不同,则判定它们为不同的指纹。
7.根据权利要求1所述的面向海量图片数据的重复数据删除方法,其特征在于,所述步骤(4)中,判断分块后的各个数据块是唯一块还是冗余块,采用相似性判定方法,其步骤是:
(4-1)将已存储数据块中与待去重数据块长度相同的数据块以队列结构读入内存,执行步骤(4-2);
(4-2)若队列为空,表示系统中没有与待去重数据块长度相同的数据块,将其标记为唯一块,若队列不为空,执行步骤(4-3);
(4-3)从队列中取一个数据块,从数据起始点开始,依次计算其与待去重数据块对应字节的ASCII码值的差的绝对值,若所有计算出的绝对值均小于阈值A,且绝对值小于阈值B的个数与总个数的比例达到C,则标记待去重数据块为冗余块,否则执行步骤(4-4);A、B、C均为预设值;
(4-4)若队列不为空,执行步骤(4-3),否则标记待去重数据块为唯一块。
8.根据权利要求1所述的面向海量图片数据的重复数据删除方法,其特征在于,所述步骤(5)中,若原图片文件类型为jpg,则用图片质量判定算法选择合适的质量因子,再对唯一块进行压缩存储,图片质量判定算法步骤是:
(5-1)用sum表示压缩算法中所使用的量化表的所有元素值的和,sum与压缩算法中用于设定图片质量的质量因子一一对应,计算压缩算法所使用的每一个亮度量化表的sum,并将其加入集合C,计算完成后执行步骤(5-2);
(5-2)将集合C存入系统,执行步骤(5-3);
(5-3)读取jpg文件中的亮度量化表,计算该亮度量化表所有元素值的和a,在集合C中选取一个最接近a的元素,根据该元素获得其对应的质量因子,该质量因子即反映原jpg图片的质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510283400.2A CN104881470B (zh) | 2015-05-28 | 2015-05-28 | 一种面向海量图片数据的重复数据删除方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510283400.2A CN104881470B (zh) | 2015-05-28 | 2015-05-28 | 一种面向海量图片数据的重复数据删除方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104881470A CN104881470A (zh) | 2015-09-02 |
CN104881470B true CN104881470B (zh) | 2018-05-08 |
Family
ID=53948963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510283400.2A Active CN104881470B (zh) | 2015-05-28 | 2015-05-28 | 一种面向海量图片数据的重复数据删除方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104881470B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313632B (zh) * | 2016-04-22 | 2022-04-29 | 维迪阁传媒公司 | 一种用于增强网络环境中数据处理的系统和方法 |
CN107452041B (zh) * | 2016-05-31 | 2020-07-31 | 阿里巴巴集团控股有限公司 | 图片的生成方法及装置 |
CN107169057B (zh) * | 2017-04-27 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种重复图片的检测方法和装置 |
CN108549702B (zh) * | 2018-04-17 | 2020-11-06 | 厦门美图之家科技有限公司 | 一种移动终端的图片库的清理方法及移动终端 |
CN108629001A (zh) * | 2018-05-03 | 2018-10-09 | 成都瀚涛天图科技有限公司 | 一种地理信息大数据的去重方法 |
US10922281B2 (en) | 2018-10-25 | 2021-02-16 | EMC IP Holding Company LLC | Application aware deduplication |
CN110263193A (zh) * | 2019-05-31 | 2019-09-20 | 广东睿江云计算股份有限公司 | 一种图片文件存储方法及装置 |
CN111090397B (zh) * | 2019-12-12 | 2021-10-22 | 苏州浪潮智能科技有限公司 | 一种数据重删方法、系统、设备及计算机可读存储介质 |
CN111078928B (zh) * | 2019-12-20 | 2023-07-21 | 数据堂(北京)科技股份有限公司 | 一种图像去重方法及装置 |
CN111368122B (zh) * | 2020-02-14 | 2022-09-30 | 深圳壹账通智能科技有限公司 | 一种图片去重的方法及装置 |
US11514697B2 (en) * | 2020-07-15 | 2022-11-29 | Oracle International Corporation | Probabilistic text index for semi-structured data in columnar analytics storage formats |
CN112380196B (zh) * | 2020-10-28 | 2023-03-21 | 安擎(天津)计算机有限公司 | 一种用于数据压缩传输的服务器 |
CN113055127B (zh) * | 2021-03-17 | 2022-03-08 | 网宿科技股份有限公司 | 数据报文去重与传输方法、电子设备及存储介质 |
CN113672170A (zh) * | 2021-07-23 | 2021-11-19 | 复旦大学附属肿瘤医院 | 一种冗余数据标记及去除方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706825A (zh) * | 2009-12-10 | 2010-05-12 | 华中科技大学 | 一种基于文件内容类型的重复数据删除方法 |
CN103984776A (zh) * | 2014-06-05 | 2014-08-13 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567473A (zh) * | 2011-12-14 | 2012-07-11 | 鸿富锦精密工业(深圳)有限公司 | 网络信息检索系统及检索方法 |
-
2015
- 2015-05-28 CN CN201510283400.2A patent/CN104881470B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101706825A (zh) * | 2009-12-10 | 2010-05-12 | 华中科技大学 | 一种基于文件内容类型的重复数据删除方法 |
CN103984776A (zh) * | 2014-06-05 | 2014-08-13 | 北京奇虎科技有限公司 | 一种识别重复图片的方法、图片搜索去重方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104881470A (zh) | 2015-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104881470B (zh) | 一种面向海量图片数据的重复数据删除方法 | |
CN103488709B (zh) | 一种索引建立方法及系统、检索方法及系统 | |
US11677963B2 (en) | Method and system for optimized delta encoding | |
US8836548B1 (en) | Method and system for data compression at a storage system | |
CN102880726B (zh) | 一种图像过滤方法及系统 | |
CN104217023B (zh) | 一种利用打包技术解决地图瓦片存储的方法 | |
CN106470323B (zh) | 视频数据的存储方法及设备 | |
CN108171649B (zh) | 一种保持焦点信息的图像风格化方法 | |
CN103198150B (zh) | 一种大数据索引方法及系统 | |
CN113568995B (zh) | 基于检索条件的动态瓦片地图制作方法及瓦片地图系统 | |
CN110347643B (zh) | 一种磁盘间ntfs卷克隆方法及装置 | |
CN108985899B (zh) | 基于cnn-lfm模型的推荐方法、系统及存储介质 | |
CN104331515B (zh) | 一种自动生成旅游日记的方法和系统 | |
CN106293525A (zh) | 一种提高缓存使用效率的方法及系统 | |
CN109445703B (zh) | 一种基于块级数据去重的Delta压缩存储组件 | |
US20110069833A1 (en) | Efficient near-duplicate data identification and ordering via attribute weighting and learning | |
CN107368545A (zh) | 一种基于MerkleTree变形算法的去重方法及装置 | |
CN109947731A (zh) | 重复数据的删除方法和装置 | |
CN105183845A (zh) | 一种结合语义特征的ervq图片索引与检索方法 | |
CN110083487A (zh) | 一种基于数据局部性的引用数据块碎片消除方法及系统 | |
CN107423297A (zh) | 图片的筛选方法及装置 | |
EP3123360A1 (en) | Partition filtering using smart index in memory | |
CN108182209A (zh) | 一种数据索引方法、及设备 | |
CN116630687A (zh) | 级联带状混合的多层感知机模型图像识别方法及相关设备 | |
CN105468733A (zh) | 一种基于源端数据重删的卷复制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |