CN111368122A - 一种图片去重的方法及装置 - Google Patents

一种图片去重的方法及装置 Download PDF

Info

Publication number
CN111368122A
CN111368122A CN202010092574.1A CN202010092574A CN111368122A CN 111368122 A CN111368122 A CN 111368122A CN 202010092574 A CN202010092574 A CN 202010092574A CN 111368122 A CN111368122 A CN 111368122A
Authority
CN
China
Prior art keywords
picture
pictures
uploaded
fingerprint information
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010092574.1A
Other languages
English (en)
Other versions
CN111368122B (zh
Inventor
曾冰清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010092574.1A priority Critical patent/CN111368122B/zh
Publication of CN111368122A publication Critical patent/CN111368122A/zh
Application granted granted Critical
Publication of CN111368122B publication Critical patent/CN111368122B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/137Hash-based
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0641Shopping interfaces
    • G06Q30/0643Graphical representation of items or shoppers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图片去重的方法及装置,涉及图像处理技术领域,为解决现有技术中去重效率低的问题而发明。该方法主要包括:将待上传图片进行编号;采用偏移量提取算法,提取所述待上传图片的图片摘要;采用相似哈希算法,提取所述图片摘要的指纹信息;比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。本发明主要应用于在线交易平台图片上传的过程中。

Description

一种图片去重的方法及装置
技术领域
本发明涉及图像处理技术领域,特别是涉及一种图片去重的方法及装置。
背景技术
随着科技的发展和技术的进步,通过网络进行在线交易的人越来越多,在线交易平台的作用也越来越大。商户通常将产品图片上传至在线交易平台,在上传图片时可能会传入相同内容图片。相同内容图片的重复上传不仅给消费者带来不好的消费体验而且浪费系统的存储空间。
现有技术中,采用通过感知哈希算法将待去重图片中的每幅图片生成图像指纹信息,再采用多组随机的哈希映射来构建图像哈希特征字典,从而去除重复图片。现有技术中将图片构成连通图和矩阵的方式,不仅运算复杂耗时太长,而且去重效率低。
发明内容
有鉴于此,本发明提供一种图片去重的方法及装置,主要目的在于解决现有技术中去重效率低的问题。
依据本发明一个方面,提供了一种图片去重的方法,包括:
采用偏移量提取算法,提取待上传图片的图片摘要;
采用相似哈希算法,提取所述图片摘要的指纹信息;
比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
依据本发明另一个方面,提供了一种图片去重的装置,包括:
第一提取模块,用于采用偏移量提取算法,提取待上传图片的图片摘要;
第二提取模块,用于采用相似哈希算法,提取所述图片摘要的指纹信息;
生成模块,用于比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
根据本发明的又一方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述图片去重的方法对应的操作。
根据本发明的再一方面,提供了一种计算机设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述图片去重的方法对应的操作。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明提供了一种图片去重的方法及装置,首先将待上传图片进行编号,然后采用偏移量提取算法提取待上传图片的图片摘要,再采用相似哈希算法提取图片摘要的指纹信息,最后比较指纹信息清楚待上传图片中的重复图片,生成待展示图片。与现有技术相比,本发明实施例通过采用偏移量和相似哈希算法提取图片摘要的指纹信息,在比对重复图片的指纹信息时,由于比较操作是基于位运算的,所以单张重复图片的比对时间在秒级,提高比较去重效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种图片去重的方法流程图;
图2示出了本发明实施例提供的另一种图片去重的方法流程图;
图3示出了本发明实施例提供的一种图片去重的装置组成框图;
图4示出了本发明实施例提供的另一种图片去重的装置组成框图;
图5示出了本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
商户通常将产品图片上传至在线交易平台,在上传图片时可能会传入相同内容图片。相同内容图片的重复上传不仅给消费者带来不好的消费体验而且浪费系统的存储空间。本发明实施例提供了一种图片去重的方法,如图1所示,该方法包括:
101、采用偏移量提取算法,提取待上传图片的图片摘要。
待上传图片是商户选定的准备上传至在线交易平台的产品图片。在线交易平台展示待上传图片之前,将待上传图片进行去重,以使得在线交易平台只展示不相同的产品图片。将待上传图片保存至磁盘,然后对待上传图片进行编号,再依次对每张待上传图片提取图片摘要。图片编号是待上传图片的图片标识,编号时可采用顺序编号、随机编号等方法,本发明实施例中对此不做限定。
由于图片占用的内存较大,所以需要对每张图片进行摘要提取,以减少去重过程中的数据计算量。偏移量提取算法,是指从表示图片的矩阵的首行首列为起始位置,查找与起始位置相距预置偏移量的摘要位置,提取起始位置和摘要位置对应的矩阵元素,并将矩阵元素作为图片摘要。待上传图片与图片摘要是一一对应的,图片摘要可采用与待上传图片相同的编号进行标识。
102、采用相似哈希算法,提取所述图片摘要的指纹信息。
依次对每次待上传图片提取图片摘要的指纹信息。相似哈希算法,是指把任意大小的图片摘要数据,通过散列算法变化成固定长度的指纹信息输出。散列算法,也就是将图片摘要映射成指纹信息的映射方法。相同固定长度的指纹信息,便于后续比较指纹信息是否相同。图片摘要与指纹信息是一一对应的,指纹信息可以采用与图片摘要相同的编号进行标识,也就是待上传图片、待上传图片的图片摘要和待上传图片的指纹信息统一编号进行标识。
103、比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
按照编号的先后顺序,将第一编号位的指纹信息存放集合R中,将第二编号位的指纹信息与集合R中的指纹信息做比较,如果集合R中查找到相同的指纹信息则不做任何处理,如果集合R中未查找到相同的指纹信息则将第二编号位的指纹新存入集合R中。类似的,将其余编号位对应的指纹信息依次与集合R中的指纹信息做对比,如果在集合R中查找到相同的指纹信息则不做任何处理,如果在集合R中未查找到相同的指纹信息则将当前比对的指纹信息存入集合R中。通过前述方法,能够得到不包括重复指纹信息的集合R,集合R中的指纹信息对应的待上传图片即为待展示图片。
本发明提供了一种图片去重的方法,首先将待上传图片进行编号,然后采用偏移量提取算法提取待上传图片的图片摘要,再采用相似哈希算法提取图片摘要的指纹信息,最后比较指纹信息清楚待上传图片中的重复图片,生成待展示图片。与现有技术相比,本发明实施例通过采用偏移量和相似哈希算法提取图片摘要的指纹信息,在比对重复图片的指纹信息时,由于比较操作是基于位运算的,所以单张重复图片的比对时间在秒级,提高比较去重效率。
本发明实施例提供了另一种图片去重的方法,如图2所示,该方法包括:
201、采用偏移量提取算法,提取待上传图片的图片摘要。
由于图片占用的内存较大,所以需要对每张图片进行摘要提取,以减少去重过程中的数据计算量。偏移量提取算法,是指从表示图片的矩阵的首行首列为起始位置,查找与起始位置相距预置偏移量的摘要位置,提取起始位置和摘要位置对应的矩阵元素,并将矩阵元素作为图片摘要。
提取图片摘要具体包括:按照预置偏移量,提取待上传图片的摘要信息,所述待上传图片和所述摘要信息都是矩阵向量;按照预置行列调整函数,生成所述摘要信息的图片摘要,所述预置行列调整函数用于将矩阵向量转换为单行向量。其中,按照预置行列调整函数,生成所述摘要信息的图片摘要之后,所述方法还包括:按照预置更新规则,更新所述图片摘要的元素值,所述预置更新规则是将所述图片摘要中的元素值所属的编号位置与元素数值范围的乘积,与所述元素值进行加和运算,所述元素数值范围是指所述待上传图片的矩阵向量中单个数据位所能表示的最大数值。
示例性的,一张图片可以用8行8列的图片矩阵表示,图片矩阵中的每个矩阵元素用1个字节表示。每个字节包括8比特,所能表示的最大数值数值为255。图片矩阵如下:
Figure BDA0002384211390000051
假设预置偏移量为两个字节,也就是每两个自己取前一个字节,提取摘要信息。也就是提取图片矩阵中的偶数行和偶数列,得到4行4列的摘要信息的矩阵,矩阵如下:
Figure BDA0002384211390000052
将摘要信息转换为单行的图片摘要,与摘要信息对应的图片摘要为:(0,253,195,121,18,112,220,0,1,9,254,0,0,8,190,255)。为了增加不同位置的元素值区分度,按照预置更新规则更新图片摘要中的元素值。首先计算元素数值范围,由于待上传图片的矩阵向量中单个数据位为8位,其能表示的最大数据是2的8次方也就是255。然后将所述图片摘要中的元素值所属的编号位置与元素数值范围的乘积,与所述元素值进行加和运算,图片摘要为单行向量,行向量的位置编号通常从0开始计数,上述示例中图片摘要的元素值所述的编号位置按照顺序为0至15。将元素值的编号位置与255相乘,再与该元素值进行加和,获取更新后的元素值。上述示例中,更新元素值分别为0,253+255,195+255*2,121+255*3,18+255*4,112+255*5,220+255*6,0+255*7,1+255*8,9+255*9,254+255*10,0+255*11,0+255*12,8+255*13,190+255*14,255+255*15。图片摘要为(0,508,702,886,1038,1387,1750,1785,2041,2304,2804,2805,3060,3323,3760,4080)。
202、采用相似哈希算法,提取所述图片摘要的指纹信息。
提取指纹信息具体包括:构建过滤表,所述过滤表是单行向量,所述过滤表中元素的初始值相同;以所述图片摘要中的元素值为所述过滤表的有效编号位置,将所述有效编号位置的元素值替换为占位值,所述占位值与所述初始值不相同;确定所述更新后的过滤表为所述指纹信息。
以步骤201中的示例为例,继续说明本步骤。在图片摘要中最后一位元素值为255+255*15=4080,由于图片摘要的元素值计算规则以及元素值范围可知,更新后图片摘要中可能存在的最大元素值为4080。一方面为了能够表示所有的数值,另一方面为了能够用二进制标识,所以选取大于最大元素值且是2的整数次方的数值作为过滤表的数据位数,满足条件的数据为4096。过滤表包括4096个元素,范围是0-4095,将其初始值都设置为0。根据图片摘要中的元素值,确定过滤表中的有效编号位置分别为0,508,702,886,1038,1387,1750,1785,2041,2304,2804,2805,3060,3323,3760,4080。将过滤表中的有效编号位置的元素值替换为占位值,占位值与初始值不同,可以选取1为占位值。由于计算过程中机器识别的数据为二进制数,所以初始值和占位值选用0和1能够提高数据的计算速度。
203、比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
生成待展示图片,具体包括:将所述待上传图片中的第一存放位图片的指纹信息,存放至指纹信息库;依次比较所述指纹信息库中是否存在所述待上传图片中的其余存放位图片的指纹信息;如果所述比较结果为不存在,则将所述待上传图片中的其余存放位图片的指纹信息存放至所述指纹信息库;将所述指纹信息库中的指纹信息对应的所述待上传图片标记为待展示;从所述待上传图片中选取具有所述待展示标记的待展示图片。
在比较指纹信息时,依次比较过滤表中的各个数据位中的元素值是否相同即可,在比较过程中可采用同或运算,或者采用异或运算。比较过程基于位运算,判断时间在秒级,耗时短,十分高效。对于8*8的图片,该过滤器的内存容量大小只有4096比特,只需要512个字节即0.5KB内存。几乎不怎么消耗计算机内存。这种图片摘要提取和指纹比对的方法最终将用户的重复上传的图片进行去重,从而降低内存消耗,给用户更好的体验。
经前述运算,在指纹信息库中存放的指纹信息,都是不完全相同的,指纹信息对应的待上报图片都不是重复图片。将不重复的图片标记为待展示,然后将选取带展示标记的带展示图片。
将待上传图片中的其余存放位图片的指纹信息存放至所述指纹信息库之后,还包括:保存所述指纹信息库,以便于判断二次上传图片是否为重复图片。商户往往需要多次上传图片,保存第一次去重判断过程中中的指纹信息库,在后续二次上传图片时,根据原上传图片的指纹信息库,判断二次上传的图片是否与之前上传的图片是重复的,以使得每次上传的图片与当前已上传的所有图片进行比较。当然,商户删除在线平台上已展示的图片后,也相应的删除指纹信息库中的对应的指纹信息。
204、按照预置展示规则,展示所述待展示图片。
预置展示规则,可以为根据待展示图片的保存顺序展示,可以为响应商户的操作分类显示,在本发明实施例中对此不做限定。根据预置展示规则,在在线平台的展示区展示待展示图片。
本发明提供了一种图片去重的方法,首先将待上传图片进行编号,然后采用偏移量提取算法提取待上传图片的图片摘要,再采用相似哈希算法提取图片摘要的指纹信息,最后比较指纹信息清楚待上传图片中的重复图片,生成待展示图片。与现有技术相比,本发明实施例通过采用偏移量和相似哈希算法提取图片摘要的指纹信息,在比对重复图片的指纹信息时,由于比较操作是基于位运算的,所以单张重复图片的比对时间在秒级,提高比较去重效率。
进一步的,作为对上述图1所示方法的实现,本发明实施例提供了一种图片去重的装置,如图3所示,该装置包括:
第一提取模块31,用于采用偏移量提取算法,提取待上传图片的图片摘要;
第二提取模块32,用于采用相似哈希算法,提取所述图片摘要的指纹信息;
生成模块33,用于比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
本发明提供了一种图片去重的装置,首先将待上传图片进行编号,然后采用偏移量提取算法提取待上传图片的图片摘要,再采用相似哈希算法提取图片摘要的指纹信息,最后比较指纹信息清楚待上传图片中的重复图片,生成待展示图片。与现有技术相比,本发明实施例通过采用偏移量和相似哈希算法提取图片摘要的指纹信息,在比对重复图片的指纹信息时,由于比较操作是基于位运算的,所以单张重复图片的比对时间在秒级,提高比较去重效率。
进一步的,作为对上述图2所示方法的实现,本发明实施例提供了另一种图片去重的装置,如图4所示,该装置包括:
第一提取模块41,用于采用偏移量提取算法,提取待上传图片的图片摘要;
第二提取模块42,用于采用相似哈希算法,提取所述图片摘要的指纹信息;
生成模块43,用于比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
进一步的,所述第一提取模块41,包括:
提取单元411,用于按照预置偏移量,提取待上传图片的摘要信息,所述待上传图片和所述摘要信息都是矩阵向量;
生成单元412,用于按照预置行列调整函数,生成所述摘要信息的图片摘要,所述预置行列调整函数用于将矩阵向量转换为单行向量。
进一步的,所述装置还包括:
更新单元413,用于所述按照预置行列调整函数,生成所述摘要信息的图片摘要之后,按照预置更新规则,更新所述图片摘要的元素值,所述预置更新规则是将所述图片摘要中的元素值所属的编号位置与元素数值范围的乘积,与所述元素值进行加和运算,所述元素数值范围是指所述待上传图片的矩阵向量中单个数据位所能表示的最大数值。
进一步的,所述第二提取模块42,包括:
构建单元421,用于构建过滤表,所述过滤表是单行向量,所述过滤表中元素的初始值相同;
替换单元422,用于以所述图片摘要中的元素值为所述过滤表的有效编号位置,将所述有效编号位置的元素值替换为占位值,所述占位值与所述初始值不相同;
确定单元423,用于确定所述更新后的过滤表为所述指纹信息。
进一步的,所述生成模块43,包括:
存放单元431,用于将所述待上传图片中的第一存放位图片的指纹信息,存放至指纹信息库;
比较单元432,用于依次比较所述指纹信息库中是否存在所述待上传图片中的其余存放位图片的指纹信息;
所述存放单元431,还用于如果所述比较结果为不存在,则将所述待上传图片中的其余存放位图片的指纹信息存放至所述指纹信息库;
标记单元433,用于将所述指纹信息库中的指纹信息对应的所述待上传图片标记为待展示;
选取单元434,用于从所述待上传图片中选取具有所述待展示标记的待展示图片。
进一步的,所述装置还包括:
保存单元435,用于所述将所述待上传图片中的其余存放位图片的指纹信息存放至所述指纹信息库之后,保存所述指纹信息库,以便于判断二次上传图片是否为重复图片。
进一步的,所述装置还包括:
展示模块44,用于所述比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片之后,按照预置展示规则,展示所述待展示图片。
本发明提供了一种图片去重的装置,首先将待上传图片进行编号,然后采用偏移量提取算法提取待上传图片的图片摘要,再采用相似哈希算法提取图片摘要的指纹信息,最后比较指纹信息清楚待上传图片中的重复图片,生成待展示图片。与现有技术相比,本发明实施例通过采用偏移量和相似哈希算法提取图片摘要的指纹信息,在比对重复图片的指纹信息时,由于比较操作是基于位运算的,所以单张重复图片的比对时间在秒级,提高比较去重效率。
根据本发明一个实施例提供了一种计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的图片去重的方法。
图5示出了根据本发明一个实施例提供的一种计算机设备的结构示意图,本发明具体实施例并不对计算机设备的具体实现做限定。
如图5所示,该计算机设备可以包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器502,用于执行程序510,具体可以执行上述图片去重的方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算机设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
采用偏移量提取算法,提取待上传图片的图片摘要;
采用相似哈希算法,提取所述图片摘要的指纹信息;
比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (10)

1.一种图片去重的方法,其特征在于,包括:
采用偏移量提取算法,提取待上传图片的图片摘要;
采用相似哈希算法,提取所述图片摘要的指纹信息;
比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
2.如权利要求1所述的方法,其特征在于,所述采用偏移量提取算法,提取待上传图片的图片摘要,包括:
按照预置偏移量,提取待上传图片的摘要信息,所述待上传图片和所述摘要信息都是矩阵向量;
按照预置行列调整函数,生成所述摘要信息的图片摘要,所述预置行列调整函数用于将矩阵向量转换为单行向量。
3.如权利要求2所述的方法,其特征在于,所述按照预置行列调整函数,生成所述摘要信息的图片摘要之后,所述方法还包括:
按照预置更新规则,更新所述图片摘要的元素值,所述预置更新规则是将所述图片摘要中的元素值所属的编号位置与元素数值范围的乘积,与所述元素值进行加和运算,所述元素数值范围是指所述待上传图片的矩阵向量中单个数据位所能表示的最大数值。
4.如权利要求3所述的方法,其特征在于,所述采用相似哈希算法,提取所述图片摘要的指纹信息,包括:
构建过滤表,所述过滤表是单行向量,所述过滤表中元素的初始值相同;
以所述图片摘要中的元素值为所述过滤表的有效编号位置,将所述有效编号位置的元素值替换为占位值,所述占位值与所述初始值不相同;
确定所述更新后的过滤表为所述指纹信息。
5.如权利要求4所述的方法,其特征在于,所述比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片,包括:
将所述待上传图片中的第一存放位图片的指纹信息,存放至指纹信息库;
依次比较所述指纹信息库中是否存在所述待上传图片中的其余存放位图片的指纹信息;
如果所述比较结果为不存在,则将所述待上传图片中的其余存放位图片的指纹信息存放至所述指纹信息库;
将所述指纹信息库中的指纹信息对应的所述待上传图片标记为待展示;
从所述待上传图片中选取具有所述待展示标记的待展示图片。
6.如权利要求5所述的方法,其特征在于,所述将所述待上传图片中的其余存放位图片的指纹信息存放至所述指纹信息库之后,所述方法还包括:
保存所述指纹信息库,以便于判断二次上传图片是否为重复图片。
7.如权利要求5所述的方法,其特征在于,所述比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片之后,所述方法还包括:
按照预置展示规则,展示所述待展示图片。
8.一种图片去重的装置,其特征在于,包括:
第一提取模块,用于采用偏移量提取算法,提取待上传图片的图片摘要;
第二提取模块,用于采用相似哈希算法,提取所述图片摘要的指纹信息;
生成模块,用于比较所述指纹信息,清除所述待上传图片中的重复图片,生成待展示图片。
9.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的图片去重的方法对应的操作。
10.一种计算机设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的图片去重的方法对应的操作。
CN202010092574.1A 2020-02-14 2020-02-14 一种图片去重的方法及装置 Active CN111368122B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010092574.1A CN111368122B (zh) 2020-02-14 2020-02-14 一种图片去重的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010092574.1A CN111368122B (zh) 2020-02-14 2020-02-14 一种图片去重的方法及装置

Publications (2)

Publication Number Publication Date
CN111368122A true CN111368122A (zh) 2020-07-03
CN111368122B CN111368122B (zh) 2022-09-30

Family

ID=71208025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010092574.1A Active CN111368122B (zh) 2020-02-14 2020-02-14 一种图片去重的方法及装置

Country Status (1)

Country Link
CN (1) CN111368122B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579812A (zh) * 2020-12-18 2021-03-30 中国平安财产保险股份有限公司 检索图片的方法、装置和计算机设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120159175A1 (en) * 2010-12-20 2012-06-21 Jacob Yocom-Piatt Deduplicated and Encrypted Backups
CN103116628A (zh) * 2013-01-31 2013-05-22 新浪网技术(中国)有限公司 图像文件数字签名、以及重复图像文件判断方法和装置
CN103593406A (zh) * 2013-10-17 2014-02-19 北京奇虎科技有限公司 一种静态资源标识处理方法及装置
CN104021179A (zh) * 2014-06-05 2014-09-03 暨南大学 一种大数据集下相似性数据的快速识别算法
CN104636488A (zh) * 2015-02-26 2015-05-20 北京奇艺世纪科技有限公司 一种基于图片的重复视频文件确定方法及装置
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法
US20150339316A1 (en) * 2014-05-20 2015-11-26 Samsung Electronics Co., Ltd. Data deduplication method
CN105912643A (zh) * 2016-04-08 2016-08-31 浙江理工大学 一种基于内容改进型均值哈希的图像检索方法
CN106649782A (zh) * 2016-12-28 2017-05-10 电子科技大学 一种图片检索方法和系统
CN107315765A (zh) * 2017-05-12 2017-11-03 南京邮电大学 一种大规模图片集分布式近似搜索的方法
CN107729935A (zh) * 2017-10-12 2018-02-23 杭州贝购科技有限公司 相似图片的识别方法和装置、服务器、存储介质
CN108595710A (zh) * 2018-05-11 2018-09-28 杨晓春 一种快速的海量图片去重方法
CN109344276A (zh) * 2018-08-27 2019-02-15 广州企图腾科技有限公司 一种图像指纹生成方法、图像相似度比较方法及存储介质
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120159175A1 (en) * 2010-12-20 2012-06-21 Jacob Yocom-Piatt Deduplicated and Encrypted Backups
CN103116628A (zh) * 2013-01-31 2013-05-22 新浪网技术(中国)有限公司 图像文件数字签名、以及重复图像文件判断方法和装置
CN103593406A (zh) * 2013-10-17 2014-02-19 北京奇虎科技有限公司 一种静态资源标识处理方法及装置
US20150339316A1 (en) * 2014-05-20 2015-11-26 Samsung Electronics Co., Ltd. Data deduplication method
CN104021179A (zh) * 2014-06-05 2014-09-03 暨南大学 一种大数据集下相似性数据的快速识别算法
CN104636488A (zh) * 2015-02-26 2015-05-20 北京奇艺世纪科技有限公司 一种基于图片的重复视频文件确定方法及装置
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法
CN105912643A (zh) * 2016-04-08 2016-08-31 浙江理工大学 一种基于内容改进型均值哈希的图像检索方法
CN106649782A (zh) * 2016-12-28 2017-05-10 电子科技大学 一种图片检索方法和系统
CN107315765A (zh) * 2017-05-12 2017-11-03 南京邮电大学 一种大规模图片集分布式近似搜索的方法
CN107729935A (zh) * 2017-10-12 2018-02-23 杭州贝购科技有限公司 相似图片的识别方法和装置、服务器、存储介质
CN108595710A (zh) * 2018-05-11 2018-09-28 杨晓春 一种快速的海量图片去重方法
CN109344276A (zh) * 2018-08-27 2019-02-15 广州企图腾科技有限公司 一种图像指纹生成方法、图像相似度比较方法及存储介质
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579812A (zh) * 2020-12-18 2021-03-30 中国平安财产保险股份有限公司 检索图片的方法、装置和计算机设备
CN112579812B (zh) * 2020-12-18 2023-06-20 中国平安财产保险股份有限公司 检索图片的方法、装置和计算机设备

Also Published As

Publication number Publication date
CN111368122B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
CN110489466B (zh) 邀请码的生成方法、装置、终端设备及存储介质
CN111666442B (zh) 一种图像检索方法、装置及计算机设备
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN113283446A (zh) 图像中目标物识别方法、装置、电子设备及存储介质
CN115378742B (zh) 一种基于云计算的数据处理方法及装置
CN111368122B (zh) 一种图片去重的方法及装置
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
JP5829330B2 (ja) フォントを識別するための方法および装置
CN112256472A (zh) 分布式数据调取方法、装置、电子设备及存储介质
CN113095058B (zh) 一种流式文档翻页处理方法、装置、电子设备及存储介质
CN115186188A (zh) 基于行为分析的产品推荐方法、装置、设备及存储介质
CN110147531B (zh) 一种相似文本内容的识别方法、装置及存储介质
CN110737748B (zh) 一种文本去重方法及系统
CN113609313A (zh) 数据处理方法、装置、电子设备和存储介质
CN113705686A (zh) 图像分类方法、装置、电子设备及可读存储介质
CN112329393A (zh) 一种短码id的生成方法、设备、存储介质
CN112883301A (zh) 基于55进制的短链接生成方法、装置及存储介质
CN112637379B (zh) mac地址散列运算方法、装置、设备及存储介质
CN112100453A (zh) 一种字符串分布统计方法、系统、设备及计算机存储介质
CN115908678B (zh) 骨骼模型渲染方法、装置、电子设备及存储介质
CN116263792B (zh) 一种复杂互联网数据爬取的方法及系统
CN111259177B (zh) 一种黑白二值签名图片存储方法和系统
CN116841549A (zh) 图层处理方法、装置、电子设备及存储介质
CN116340558A (zh) 图文跨模态检索方法、装置、设备及存储介质
CN114841129A (zh) 数据导入方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant