CN110442738A - 图片去重方法和装置,存储介质及电子装置 - Google Patents

图片去重方法和装置,存储介质及电子装置 Download PDF

Info

Publication number
CN110442738A
CN110442738A CN201910703442.5A CN201910703442A CN110442738A CN 110442738 A CN110442738 A CN 110442738A CN 201910703442 A CN201910703442 A CN 201910703442A CN 110442738 A CN110442738 A CN 110442738A
Authority
CN
China
Prior art keywords
picture
original image
target photo
cluster
repetitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910703442.5A
Other languages
English (en)
Inventor
景逸飞
唐大闰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910703442.5A priority Critical patent/CN110442738A/zh
Publication of CN110442738A publication Critical patent/CN110442738A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图片去重方法和装置,存储介质及电子装置。其中,该方法包括:获取待去重的目标图片;从原始图片簇中确定出距离目标图片最近的至少一个目标图片簇,其中,原始图片簇为对包含目标图片的原始图片集合进行聚类处理所得到的图片簇;获取目标图片簇中每个对象图片与目标图片之间的第一距离;将第一距离小于第一阈值的对象图片标记为重复图片;从与目标图片对应的重复图片中选择一张关键图片存储到目标图片集合中。本发明解决了无法对海量图像数据高效的去重的技术问题。

Description

图片去重方法和装置,存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种图片去重方法和装置,存储介质及电子装置。
背景技术
图片去重是图像数据清洗中一个重要的环节,通过使用图片去重技术去除图片数据集中重复的图片,从而不用把计算时间花费在重复的图片上,为后续任务节省时间。因此,能够实现对海量数据的快速、高效的去重是一件很有意义的事情,但同时也是一项很具有挑战的任务。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片去重方法和装置,存储介质及电子装置,以至少解决无法对海量图像数据高效的去重的技术问题。
根据本发明实施例的一个方面,提供了一种图片去重方法,其特征在于,包括:获取待去重的目标图片;从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇;获取所述目标图片簇中每个对象图片与所述目标图片之间的第一距离;将所述第一距离小于第一阈值的所述对象图片标记为重复图片;从与所述目标图片对应的所述重复图片中选择一张关键图片存储到目标图片集合中。
作为一种可选的实施方式,在上述获取待去重的目标图片之前,还包括:通过多进程并行加载上述原始图片集合;对上述原始图片集合进行预处理,得到处理后的上述原始图片集合,其中,上述预处理包括缩放处理和归一化处理;对处理后的上述原始图片集合进行聚类处理,得到k个聚类中心,其中k为大于1的自然数;获取处理后的上述原始图片集合中每张图片与上述k个聚类中心之间的第二距离;根据上述第二距离对处理后的上述原始图片集合进行划分,得到上述原始图片簇。
作为一种可选的实施方式,上述对处理后的上述原始图片集合进行聚类处理,得到k个聚类中心包括:使用自编码器对处理后的上述原始图片集合中每张图片进行特征提取,得到图片特征;根据上述图片特征对处理后的上述原始图片集合进行聚类处理,得到上述k个聚类中心。
作为一种可选的实施方式,上述获取处理后的上述原始图片集合中每张图片与上述k个聚类中心之间的第二距离包括:依次获取上述原始图片集合中的每张图片作为当前图片;获取上述当前图片与上述k个聚类中心中每个聚类中心之间的上述第二距离;获取上述当前图片之后的下一张图片作为上述当前图片;上述根据上述第二距离对处理后的上述原始图片集合进行划分,得到上述原始图片簇包括:根据所述第二距离从所述k个聚类中心中确定出与所述当前图片距离最近的第i个聚类中心的情况下,,将上述当前图片划分至与上述第i个聚类中心对应的第i个原始图片簇,其中,i小于等于k,且大于等于1。
作为一种可选的实施方式,上述将所述第一距离小于第一阈值的所述对象图片标记为重复图片包括:获取上述重复图片的数量;在上述重复图片的数量大于1的情况下,将用于标记重复图片的索引变量设置为第一索引值;将与上述目标图片对应的上述重复图片均标记为第一索引值,其中,不同的上述目标图片对应的重复图片将被标记为不同的索引值。
作为一种可选的实施方式,在上述将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,还包括:将上述索引变量从上述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片;在所述下一张图片未被标记为任意一张已比对的目标图片的重复图片的情况下,将所述下一张图片标记为下一张待去重的目标图片。
作为一种可选的实施方式,在上述获取上述重复图片的数量之后,还包括:在上述重复图片的数量等于1的情况下,将上述重复图片标记为目标索引值,其中,上述目标索引值所标记的上述重复图片将被直接存储到上述目标图片集合中。
根据本发明实施例的另一方面,还提供了一种一种图片去重装置,包括:第一获取单元,用于获取待去重的目标图片;确定单元,用于从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇;第二获取单元,用于获取上述目标图片簇中每个对象图片与上述目标图片之间的第一距离;标记单元,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片;存储单元,用于从与上述目标图片对应的上述重复图片中选择一张关键图片存储到目标图片集合中。
作为一种可选的实施方式,还包括:加载单元,用于在上述获取待去重的目标图片之前,通过多进程并行加载上述原始图片集合;第一处理单元,用于在上述获取待去重的目标图片之前,对上述原始图片集合进行预处理,得到处理后的上述原始图片集合,其中,上述预处理包括缩放处理和归一化处理;第二处理单元,用于在上述获取待去重的目标图片之前,对处理后的上述原始图片集合进行聚类处理,得到k个聚类中心,其中k为大于1的自然数;第三获取单元,用于在上述获取待去重的目标图片之前,获取处理后的上述原始图片集合中每张图片与上述k个聚类中心之间的第二距离;划分单元,用于在上述获取待去重的目标图片之前,根据上述第二距离对处理后的上述原始图片集合进行划分,得到上述原始图片簇。
作为一种可选的实施方式,上述第二处理单元包括:提取模块,用于使用自编码器对处理后的上述原始图片集合中每张图片进行特征提取,得到图片特征;第一处理模块,用于根据上述图片特征对处理后的上述原始图片集合进行聚类处理,得到上述k个聚类中心。
作为一种可选的实施方式,上述第三获取单元通过以下步骤实现:依次获取所述原始图片集合中的每张图片作为当前图片;获取所述当前图片与所述k个聚类中心中每个聚类中心之间的所述第二距离;获取所述当前图片之后的下一张图片作为所述当前图片;上述划分单元包括:根据所述第二距离从所述k个聚类中心中确定出与所述当前图片距离最近的第i个聚类中心的情况下,将所述当前图片划分至与所述第i个聚类中心对应的第i个原始图片簇,其中,i小于等于k,且大于等于1。
作为一种可选的实施方式,上述标记单元包括:第四获取模块,用于获取上述重复图片的数量;第一标记模块,用于在上述重复图片的数量大于1的情况下,将用于标记重复图片的索引变量设置为第一索引值;第二标记模块,用于将与上述目标图片对应的上述重复图片均标记为第一索引值,其中,不同的上述目标图片对应的重复图片将被标记为不同的索引值。
作为一种可选的实施方式,还包括:调整模块,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,将所述索引变量从所述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片;第五获取模块,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,将所述索引变量从所述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片。
作为一种可选的实施方式,还包括:第三标记模块,用于在上述获取上述重复图片的数量之后,在上述重复图片的数量等于1的情况下,将上述重复图片标记为目标索引值,其中,上述目标索引值所标记的上述重复图片将被直接存储到上述目标图片集合中。
在本发明实施例中,获取待去重的目标图片;从原始图片簇中确定出目标图片簇,其中,上述目标图片簇的聚类中心与上述目标图片之间的第一距离小于第一阈值,上述原始图片簇为对包含上述目标图片的原始图片集合进行聚类处理所得到的图片簇;获取上述目标图片簇中每个对象图片与上述目标图片之间的第二距离;将上述第二距离小于第二阈值的上述对象图片标记为重复图片;从与上述目标图片对应的上述重复图片中选择一张关键图片存储到目标图片集合中,实现了提升图片的去重效果、提高了图片去重效率的技术效果,进而解决了无法对海量图像数据高效的去重的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术的一种图片去重方法的流程示意图;
图2是根据本发明实施例的一种可选的图片去重方法的示意图。
图3是根据本发明实施例的一种可选的图片去重装置的示意图;
图4是根据本发明实施例的另一种可选的图片去重装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了根据本发明实施例,提供了一种图片去重方法,如图1所示,该方法包括:
S102,获取待去重的目标图片。
S104,从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇。
S106,获取所述目标图片簇中每个对象图片与所述目标图片之间的第一距离。
S108,将所述第一距离小于第一阈值的所述对象图片标记为重复图片。
S110,从与目标图片对应的重复图片中选择一张关键图片存储到目标图片集合中。
可选的,在本实施例中,上述距离可以但不限于是欧式距离。
需要说明的是,在本实施例中,对包含大量待去重原始图片的原始图片集合进行聚类处理,进而得到原始图片簇,进一步,在原始图片簇之中确定距离最近的至少一个的目标图片簇,再将上述目标图片簇中的每一张图片与上述原始图片集合中的每一张图片进行比对,计算出相关距离,进一步,确定上述目标图片簇中计算出的相关距离小于预设距离的对应图片为重复图片,进一步,在上述重复图片中选择一张关键图片,存储在目标图片集合中,其中,上述目标图片集合中图片无重复。
进一步举例说明,可选的,在本实施例中,如图2所示,待去重原始图片集合202中共有100张,进一步,对上述100张图片进行聚类处理,从而得到原始图片簇204,其中,原始图片簇204中共有10个图片簇,进一步,选取图片1为目标图片,并计算原始图片簇204中10个图片的聚类中心与上述目标图片之间的距离,选取其中距离最近的的两个图片簇,作为目标图片簇206,其中,如图2所示,目标图片簇206中存在两个图片簇,其中,图片簇1中有一张图片,图片簇2中有两张图片,进一步,将上述目标图片分别于上述三张图片进行计算并比对距离。进一步举例说明,上述目标图片与图片簇2中的两张图片的比对结果为距离大于预设距离,则不为重复图片;上述目标图片与图片簇1中的一张图片的比对结果为距离小于预设距离,则为重复图片,进一步将图片簇1中的图片标记为重复图片,并将上述重复图片选取一张(图片簇1中仅由一张,因此选取的是图片簇1中的全部图片)存储到目标图片集合中。
通过本申请提供的实施例,利用聚类的方法将原始图片集合处理为一个或多个原始图片簇,再通过原始图片簇与待去重目标图片之间的距离计算与比对,找出与待去重目标图片最接近的重复的目标图片簇,最后再将目标图片与目标图片簇中的图片挨张比对,达到了找出重复照片的技术效果,实现了对海量图片数据快速去重的技术效果。
作为一种可选的方案,在获取待去重的目标图片之前,还包括:
S1,通过多进程并行加载原始图片集合。
S2,对原始图片集合进行预处理,得到处理后的原始图片集合,其中,预处理包括缩放处理和归一化处理。
S3,对处理后的原始图片集合进行聚类处理,得到k个聚类中心,其中k为大于1的自然数。
S4,获取处理后的原始图片集合中每张图片与k个聚类中心之间的第二距离。
S5,根据第二距离对处理后的原始图片集合进行划分,得到原始图片簇。
需要说明的是,在本实施例中,通过多进程并行的方案加载待去重的原始图片集合,并对上述原始图片集合进行缩放和归一化的预处理,进一步,对上述处理后的原始图片集合进行聚类处理,进而得到k个聚类中心,并根据上述k个聚类中心与原始图片集合中的每一张图片进行比对,得到对应距,并根据上述距离,对原始图片集合进行处理,进而得到原始图片簇。
可选的,在本实施例中,使用k均值聚类算法对抽取出的所有的图片特征进行聚类,找出k个聚类中心,其中,k=m/n,m为图片的总数量,n为对同一类重复图片的估计。
通过本申请提供的实施例,利用对原始图片集合的聚类处理与浸热使用聚类中心与原始图片中的每一张图片进行比对,达到了得到原始图片簇的技术目的,进而实现了提升海量图片去重效率的技术效果。
作为一种可选的方案,对处理后的原始图片集合进行聚类处理,得到k个聚类中心包括:
S1,使用自编码器对处理后的原始图片集合中每张图片进行特征提取,得到图片特征。
S2,根据图片特征对处理后的原始图片集合进行聚类处理,得到k个聚类中心。
需要说明的是,在本实施例中,使用自编码器来抽取图片特征,并根据上述图片特征对原始图片集合进行聚类处理,进而得到k个聚类中心。
可选的,在本实施例中,在训练过程中通过给网络相同的输出和输入让模型自动学习编码和解码部分的参数,模型训练好之后在抽取图片特征时我们使用网络中间部分的“压缩表示”来表征图片特征。
通过本申请提供的实施例,利用使用自编码器来抽取图片的特征,达到了既能实现对图片信息的压缩,又能把图片中的重要信息凸现出来的技术目的,进而实现了使取的图片特征对光照变化、图片轻微偏移以及图片中的水印都具有一定自适应性。
作为一种可选的方案,
获取处理后的原始图片集合中每张图片与k个聚类中心之间的第二距离包括:
S1依次获取原始图片集合中的每张图片作为当前图片。
S2获取当前图片与k个聚类中心中每个聚类中心之间的第二距离。
S3获取当前图片之后的下一张图片作为当前图片。
根据第二距离对处理后的原始图片集合进行划分,得到原始图片簇包括:
根据所述第二距离从所述k个聚类中心中确定出与所述当前图片距离最近的第i个聚类中心的情况下,将当前图片划分至与第i个聚类中心对应的第i个原始图片簇,其中,i小于等于k,且大于等于1。
需要说明的是,在本实施例中,以此将原始图片集合中的每一张图片分别与k个聚类中心进行比对,比对结果以距离的形式分别记录,并根据上述距离,将距离最近的原始图片划分到对应的第i个聚类中心对应的第i个原始图片簇中。
通过本申请提供的实施例,利用将原始图片集合中的每一张图片与k个聚类中心比对,达到了将每一张图片划分到其距离最小、重复率最高的原始图片簇中,实现了对海量图片快速分类的技术效果。
作为一种可选的方案,将第二距离小于第二阈值的对象图片标记为重复图片包括:
S1,获取重复图片的数量。
S2,在重复图片的数量大于1的情况下,将用于标记重复图片的索引变量设置为第一索引值。
S3,将与目标图片对应的重复图片均标记为第一索引值,其中,不同的目标图片对应的重复图片将被标记为不同的索引值。
需要说明的是,在本实施例中,在获得重复图片后,统计重复图片的数量,在上述数量大于1的情况下,标记与目标图片对应的重复图片全部标记索引变量,其中,索引变量设置为第一索引值,且不同的目标图片对应的重复图片江北标记为不同的索引值。
可选的,在本实施例中,设置标记索引的初始值c=1,对于一张待去重图片,假设找到了n张与该待检测图片重复的图片,在n大于1的情况下,将这n张图片对应的重复索引标记为c;在n等于1的情况下,将该张图片的重复索引标记为。其中,将单独成一类的图片都标记为0,其中,单独成一类图片即不与其它任何图片有重复。进一步,将c依次自增1,处理下一张待去重图片。
通过本申请提供的实施例,利用标记索引值,达到分开储存重复与不重复图片的技术目的,实现了提升对海量照片的处理效率。
作为一种可选的方案,在将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,还包括:
S1,将索引变量从第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片。
S2,在所述下一张图片未被标记为任意一张已比对的目标图片的重复图片的情况下,将所述下一张图片标记为下一张待去重的目标图片。
需要说明的是,在本实施例中,标记了第一张重复图片后,将索引变量调整为第二索引值,并继续获取下一张待去重的目标图片,且在获取下一张待去重的目标图片后,需确定上述目标图片是否有标记,只有在未被标记的情况下,才开始去重处理。
通过本申请提供的实施例,利用索引变量依次调整且通过标记的方式,达成了判别已标记目标图片以此处理其他需待去重目标图片的技术目的,实现了可处理海量图片且节约大量比对时间的技术效果。
作为一种可选的方案,在获取重复图片的数量之后,还包括:
在重复图片的数量等于1的情况下,将重复图片标记为目标索引值,其中,目标索引值所标记的重复图片将被直接存储到目标图片集合中。
需要说明的是,在本实施例中,在重复图片的数量等于1的情况下,即说明在原始图片集中,并无上述照片的重复照片,可直接标记目标索引值,并将上述照片存储到目标照片集合中,作为无重复照片存储。
可选的,如图2所示,在本实施例中,原始图片簇1中只有1张照片,当原始图片簇1作为目标图片簇与目标图片进行重复比对时,在上述目标照片无其他重复照片,即上述目标图片的重复图片数量仅为1的情况下,即代表,图片1在这待去重原始图片集合202中并无重复照片,可直接存储。
通过本申请提供的实施例,利用将重复照片数量为1的目标照片标记和直接存储的方式,达到了照片去重的技术目的,实现了减少海量照片无效去重步骤的技术效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述图片去重方法的提示信息生成装置。如图3所示,该装置包括:
第一获取单元302,用于获取待去重的目标图片;
确定单元304,用于从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇。
第二获取单元306,用于获取目标图片簇中每个对象图片与目标图片之间的第一距离。
标记单元308,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片。
存储单元310,用于从与目标图片对应的重复图片中选择一张关键图片存储到目标图片集合中。
作为一种可选的方案,包括:
加载单元,用于在获取待去重的目标图片之前,通过多进程并行加载原始图片集合。
第一处理单元,用于在获取待去重的目标图片之前,对原始图片集合进行预处理,得到处理后的原始图片集合,其中,预处理包括缩放处理和归一化处理。
第二处理单元,用于在获取待去重的目标图片之前,对处理后的原始图片集合进行聚类处理,得到k个聚类中心,其中k为大于1的自然数。
第三获取单元,用于在获取待去重的目标图片之前,获取处理后的原始图片集合中每张图片与k个聚类中心之间的第二距离。
划分单元,用于在获取待去重的目标图片之前,根据第二距离对处理后的原始图片集合进行划分,得到原始图片簇。
作为一种可选的方案,第二处理单元包括:
提取模块,用于使用自编码器对处理后的原始图片集合中每张图片进行特征提取,得到图片特征。
第一处理模块,用于根据图片特征对处理后的原始图片集合进行聚类处理,得到k个聚类中心。
作为一种可选的方案,
第三获取单元通过以下步骤实现:
依次获取所述原始图片集合中的每张图片作为当前图片;
获取所述当前图片与所述k个聚类中心中每个聚类中心之间的所述第二距离;
获取所述当前图片之后的下一张图片作为所述当前图片。
划分单元包括:
根据所述第二距离从所述k个聚类中心中确定出与所述当前图片距离最近的第i个聚类中心的情况下,将所述当前图片划分至与所述第i个聚类中心对应的第i个原始图片簇,其中,i小于等于k,且大于等于1。
作为一种可选的方案,标记单元包括:
第四获取模块402,用于获取重复图片的数量。
第一标记模块404,用于在重复图片的数量大于1的情况下,将用于标记重复图片的索引变量设置为第一索引值。
第二标记模块406,用于将与目标图片对应的重复图片均标记为第一索引值,其中,不同的目标图片对应的重复图片将被标记为不同的索引值。
作为一种可选的方案,还包括:
调整模块,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,将所述索引变量从所述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片。
第五获取模块,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,将所述索引变量从所述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片。
作为一种可选的方案,还包括:
第三标记模块,用于在获取重复图片的数量之后,在重复图片的数量等于1的情况下,将重复图片标记为目标索引值,其中,目标索引值所标记的重复图片将被直接存储到目标图片集合中。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
根据本发明实施例的又一个方面,还提供了一种用于实施上述图片去重方法的电子装置,电子装置包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
需要说明的是,对于前述的各装置实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
可选地,本领域普通技术人员可以理解,本申请实施例中的结构仅为示意,电子装置可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。本申请实施例并不对上述电子装置的结构造成限定。例如,电子装置还可包括更多或者更少的组件(如网络接口等),或者更多不同的配置。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的一种图片去重方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的证件信息比对方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器具体可以但不限于用于存储证件的关键信息与比对结果等信息。作为一种示例,上述存储器、中可以但不限于包括上述图片去重装置中的第一获取单元302、确定单元304、第二获取单元306、标记单元308、存储单元310。此外,还可以包括但不限于上述图片去重装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器,用于显示上述图片去重装置结果;和连接总线,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待去重的目标图片。
S2,从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇。
S3,获取所述目标图片簇中每个对象图片与所述目标图片之间的第一距离。
S4,将所述第一距离小于第一阈值的所述对象图片标记为重复图片。
S5,从与目标图片对应的重复图片中选择一张关键图片存储到目标图片集合中。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上上述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (16)

1.一种图片去重方法,其特征在于,包括:
获取待去重的目标图片;
从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇;
获取所述目标图片簇中每个对象图片与所述目标图片之间的第一距离;
将所述第一距离小于第一阈值的所述对象图片标记为重复图片;
从与所述目标图片对应的所述重复图片中选择一张关键图片存储到目标图片集合中。
2.根据权利要求1所述的方法,其特征在于,在所述获取待去重的目标图片之前,还包括:
通过多进程并行加载所述原始图片集合;
对所述原始图片集合进行预处理,得到处理后的所述原始图片集合,其中,所述预处理包括缩放处理和归一化处理;
对处理后的所述原始图片集合进行聚类处理,得到k个聚类中心,其中k为大于1的自然数;
获取处理后的所述原始图片集合中每张图片与所述k个聚类中心之间的第二距离;
根据所述第二距离对处理后的所述原始图片集合进行划分,得到所述原始图片簇。
3.根据权利要求2所述的方法,其特征在于,所述对处理后的所述原始图片集合进行聚类处理,得到k个聚类中心包括:
使用自编码器对处理后的所述原始图片集合中每张图片进行特征提取,得到图片特征;
根据所述图片特征对处理后的所述原始图片集合进行聚类处理,得到所述k个聚类中心。
4.根据权利要求2所述的方法,其特征在于,
所述获取处理后的所述原始图片集合中每张图片与所述k个聚类中心之间的第二距离包括:
依次获取所述原始图片集合中的每张图片作为当前图片;
获取所述当前图片与所述k个聚类中心中每个聚类中心之间的所述第二距离;
获取所述当前图片之后的下一张图片作为所述当前图片;
所述根据所述第二距离对处理后的所述原始图片集合进行划分,得到所述原始图片簇包括:
根据所述第二距离从所述k个聚类中心中确定出与所述当前图片距离最近的第i个聚类中心的情况下,将所述当前图片划分至与所述第i个聚类中心对应的第i个原始图片簇,其中,i小于等于k,且大于等于1。
5.根据权利要求1所述的方法,其特征在于,所述将所述第一距离小于第一阈值的所述对象图片标记为重复图片包括:
获取所述重复图片的数量;
在所述重复图片的数量大于1的情况下,将用于标记重复图片的索引变量设置为第一索引值;
将与所述目标图片对应的所述重复图片均标记为第一索引值,其中,不同的所述目标图片对应的重复图片将被标记为不同的索引值。
6.根据权利要求5所述的方法,其特征在于,在所述将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,还包括:
将所述索引变量从所述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片;
在所述下一张图片未被标记为任意一张已比对的目标图片的重复图片的情况下,将所述下一张图片标记为下一张待去重的目标图片。
7.根据权利要求5所述的方法,其特征在于,在所述获取所述重复图片的数量之后,还包括:
在所述重复图片的数量等于1的情况下,将所述重复图片标记为目标索引值,其中,所述目标索引值所标记的所述重复图片将被直接存储到所述目标图片集合中。
8.一种图片去重装置,其特征在于,包括:
第一获取单元,用于获取待去重的目标图片;
确定单元,用于从原始图片簇中确定出距离所述目标图片最近的至少一个目标图片簇,其中,所述原始图片簇为对包含所述目标图片的原始图片集合进行聚类处理所得到的图片簇;
第二获取单元,用于获取所述目标图片簇中每个对象图片与所述目标图片之间的第一距离;
标记单元,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片;
存储单元,用于从与所述目标图片对应的所述重复图片中选择一张关键图片存储到目标图片集合中。
9.根据权利要求8所述的装置,其特征在于,还包括:
加载单元,用于在所述获取待去重的目标图片之前,通过多进程并行加载所述原始图片集合;
第一处理单元,用于在所述获取待去重的目标图片之前,对所述原始图片集合进行预处理,得到处理后的所述原始图片集合,其中,所述预处理包括缩放处理和归一化处理;
第二处理单元,用于在所述获取待去重的目标图片之前,对处理后的所述原始图片集合进行聚类处理,得到k个聚类中心,其中k为大于1的自然数;
第三获取单元,用于在所述获取待去重的目标图片之前,获取处理后的所述原始图片集合中每张图片与所述k个聚类中心之间的第二距离;
划分单元,用于在所述获取待去重的目标图片之前,根据所述第二距离对处理后的所述原始图片集合进行划分,得到所述原始图片簇。
10.根据权利要求9所述的装置,其特征在于,所述第二处理单元包括:
提取模块,用于使用自编码器对处理后的所述原始图片集合中每张图片进行特征提取,得到图片特征;
第一处理模块,用于根据所述图片特征对处理后的所述原始图片集合进行聚类处理,得到所述k个聚类中心。
11.根据权利要求9所述的装置,其特征在于,
所述第三获取单元通过以下步骤实现:
依次获取所述原始图片集合中的每张图片作为当前图片;
获取所述当前图片与所述k个聚类中心中每个聚类中心之间的所述第二距离;
获取所述当前图片之后的下一张图片作为所述当前图片;
所述划分单元包括:
根据所述第二距离从所述k个聚类中心中确定出与所述当前图片距离最近的第i个聚类中心的情况下,将所述当前图片划分至与所述第i个聚类中心对应的第i个原始图片簇,其中,i小于等于k,且大于等于1。
12.根据权利要求8所述的装置,其特征在于,所述标记单元包括:
第四获取模块,用于获取所述重复图片的数量;
第一标记模块,用于在所述重复图片的数量大于1的情况下,将用于标记重复图片的索引变量设置为第一索引值;
第二标记模块,用于将与所述目标图片对应的所述重复图片均标记为第一索引值,其中,不同的所述目标图片对应的重复图片将被标记为不同的索引值。
13.根据权利要求12所述的装置,其特征在于,还包括:
调整模块,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,将所述索引变量从所述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片;
第五获取模块,用于将所述第一距离小于第一阈值的所述对象图片标记为重复图片之后,将所述索引变量从所述第一索引值调整为第二索引值,并从所述原始图片集合中获取所述目标图片之后的下一张图片。
14.根据权利要求12所述的装置,其特征在于,还包括:
第三标记模块,用于在所述获取所述重复图片的数量之后,在所述重复图片的数量等于1的情况下,将所述重复图片标记为目标索引值,其中,所述目标索引值所标记的所述重复图片将被直接存储到所述目标图片集合中。
15.一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7任一项中所述的方法。
16.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
CN201910703442.5A 2019-07-31 2019-07-31 图片去重方法和装置,存储介质及电子装置 Pending CN110442738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910703442.5A CN110442738A (zh) 2019-07-31 2019-07-31 图片去重方法和装置,存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910703442.5A CN110442738A (zh) 2019-07-31 2019-07-31 图片去重方法和装置,存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN110442738A true CN110442738A (zh) 2019-11-12

Family

ID=68432577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910703442.5A Pending CN110442738A (zh) 2019-07-31 2019-07-31 图片去重方法和装置,存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN110442738A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209940A (zh) * 2019-12-30 2020-05-29 南京南瑞信息通信科技有限公司 一种基于特征点匹配的图像去重方法和装置
CN111325712A (zh) * 2020-01-20 2020-06-23 北京百度网讯科技有限公司 用于检测图像有效性的方法及装置
CN111325245A (zh) * 2020-02-05 2020-06-23 腾讯科技(深圳)有限公司 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN111669495A (zh) * 2020-05-29 2020-09-15 维沃移动通信有限公司 拍照方法、拍照装置和电子设备
CN113128293A (zh) * 2019-12-31 2021-07-16 杭州海康威视数字技术股份有限公司 一种图像处理方法、装置、电子设备及存储介质
WO2021143065A1 (zh) * 2020-01-15 2021-07-22 平安科技(深圳)有限公司 图片数据清洗方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576932A (zh) * 2009-06-16 2009-11-11 阿里巴巴集团控股有限公司 近重复图片的计算机查找方法和装置
CN103390165A (zh) * 2012-05-10 2013-11-13 北京百度网讯科技有限公司 一种图片聚类的方法及装置
US20170154056A1 (en) * 2014-06-24 2017-06-01 Beijing Qihoo Technology Company Limited Matching image searching method, image searching method and devices
CN107247730A (zh) * 2017-05-04 2017-10-13 北京奇艺世纪科技有限公司 图片搜索方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576932A (zh) * 2009-06-16 2009-11-11 阿里巴巴集团控股有限公司 近重复图片的计算机查找方法和装置
CN103390165A (zh) * 2012-05-10 2013-11-13 北京百度网讯科技有限公司 一种图片聚类的方法及装置
US20170154056A1 (en) * 2014-06-24 2017-06-01 Beijing Qihoo Technology Company Limited Matching image searching method, image searching method and devices
CN107247730A (zh) * 2017-05-04 2017-10-13 北京奇艺世纪科技有限公司 图片搜索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
韩逢庆 等: "海量图片快速去重技术", 《计算机应用》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209940A (zh) * 2019-12-30 2020-05-29 南京南瑞信息通信科技有限公司 一种基于特征点匹配的图像去重方法和装置
CN113128293A (zh) * 2019-12-31 2021-07-16 杭州海康威视数字技术股份有限公司 一种图像处理方法、装置、电子设备及存储介质
WO2021143065A1 (zh) * 2020-01-15 2021-07-22 平安科技(深圳)有限公司 图片数据清洗方法、装置、计算机设备和存储介质
CN111325712A (zh) * 2020-01-20 2020-06-23 北京百度网讯科技有限公司 用于检测图像有效性的方法及装置
CN111325712B (zh) * 2020-01-20 2024-01-23 北京百度网讯科技有限公司 用于检测图像有效性的方法及装置
CN111325245A (zh) * 2020-02-05 2020-06-23 腾讯科技(深圳)有限公司 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN111325245B (zh) * 2020-02-05 2023-10-17 腾讯科技(深圳)有限公司 重复图像识别方法、装置、电子设备及计算机可读存储介质
CN111669495A (zh) * 2020-05-29 2020-09-15 维沃移动通信有限公司 拍照方法、拍照装置和电子设备
CN111669495B (zh) * 2020-05-29 2021-11-12 维沃移动通信有限公司 拍照方法、拍照装置和电子设备

Similar Documents

Publication Publication Date Title
CN110442738A (zh) 图片去重方法和装置,存储介质及电子装置
CN109815846B (zh) 图像处理方法、装置、存储介质和电子装置
CN109816009A (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN109447895A (zh) 图片生成方法和装置、存储介质及电子装置
CN109117897A (zh) 基于卷积神经网络的图像处理方法、装置及可读存储介质
CN109840793A (zh) 推广信息的推送方法和装置、存储介质、电子装置
CN109685611A (zh) 一种产品推荐方法、装置、计算机设备及存储介质
CN108108662A (zh) 深度神经网络识别模型及识别方法
CN110349082A (zh) 图像区域的裁剪方法和装置、存储介质及电子装置
CN110008999A (zh) 目标帐号的确定方法、装置、存储介质及电子装置
CN107741899A (zh) 处理终端数据的方法、装置及系统
CN110162643A (zh) 电子相册报告生成方法、装置及存储介质
CN109063776A (zh) 图像再识别网络训练方法、装置和图像再识别方法及装置
CN111126254A (zh) 图像识别方法、装置、设备及存储介质
CN111598176B (zh) 一种图像匹配处理方法及装置
CN111037554A (zh) 一种基于机器学习的垃圾清理方法、装置、设备及介质
CN112115292A (zh) 图片搜索方法及装置、存储介质、电子装置
CN114360018B (zh) 三维人脸表情的渲染方法及装置、存储介质及电子装置
CN106844412A (zh) 一种人脸数据收集方法及装置
CN110457704A (zh) 目标字段的确定方法、装置、存储介质及电子装置
CN107391608A (zh) 图片显示方法、装置、存储介质及电子设备
CN110196920A (zh) 文本数据的处理方法和装置、以及存储介质和电子装置
CN113657154A (zh) 活体检测方法、装置、电子装置和存储介质
CN110427870A (zh) 眼部图片识别方法、目标识别模型训练方法及装置
CN112116652A (zh) 物品信息的发送方法及装置、存储介质、电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191112

RJ01 Rejection of invention patent application after publication