CN111078914B - 重复图片检测方法与装置 - Google Patents

重复图片检测方法与装置 Download PDF

Info

Publication number
CN111078914B
CN111078914B CN201911308553.2A CN201911308553A CN111078914B CN 111078914 B CN111078914 B CN 111078914B CN 201911308553 A CN201911308553 A CN 201911308553A CN 111078914 B CN111078914 B CN 111078914B
Authority
CN
China
Prior art keywords
picture
inquired
repeated
existing
perceptual hash
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911308553.2A
Other languages
English (en)
Other versions
CN111078914A (zh
Inventor
钟松辉
陆明
姜东�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuhang Technology Beijing Co ltd
Original Assignee
Shuhang Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuhang Technology Beijing Co ltd filed Critical Shuhang Technology Beijing Co ltd
Priority to CN201911308553.2A priority Critical patent/CN111078914B/zh
Publication of CN111078914A publication Critical patent/CN111078914A/zh
Application granted granted Critical
Publication of CN111078914B publication Critical patent/CN111078914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供的重复图片检测方法与装置,在获取到待查询图片后,获取待查询图片的感知哈希值与深度学习特征,并判断图片信息库中是否存在与待查询图片的感知哈希值完全相同的目标感知哈希值,若是,则基于聚类簇点判断来确定待查询图片是否为重复图片;若否,则结合深度学习特征与图像相似索引来确定待查询图片是否为重复图片。本发明通过联合感知哈希算法与深度学习特征,来进行重复图像检测过程,其中利用簇点信息和深度学习特征来提高感知哈希准确度,利用深度学习特征与图片相似索引来快速召回无法被感知哈希召回的相似图片,从而能够准确且快速地检测出待查询图片是否为已有图片的重复图片,提高了重复图片检测准确率、召回率与检测效率。

Description

重复图片检测方法与装置
技术领域
本发明涉及图片检测技术领域,更具体的说,涉及重复图片检测方法与装置。
背景技术
在图片处理领域中,通常需要快速查询出待查询图片是否是图片库中已有图片的重复图片,这里的重复图片是指,与已有图片完全相同或者极其相似的图片。
在大规模的图片库中,已有图片的量级达到数亿级别,但是现有却需要在秒级别内从数亿量级的图片中,返回与待查询图片相同或相似的全部图片结果,来判断待查询图片是否为重复图片。目前常用的方法,通常是使用MD5算法来进行图片相似性的判断,以确定待查询图片是否为重复图片。但是,MD5算法只能够检索与待查询图片完全相同的图片,而无法检索出一些极其相似但是并不完全相同的图片,而且只要图片格式发生改变,该方法就会失效,而且无法满足在数亿量级下秒级查重的要求。
因此,目前迫切需要一种切实有效的重复图片检测方案,以实现重复图片的快速检测。
发明内容
有鉴于此,本发明提供了一种重复图片检测方法及装置,以解决现有技术无法充分检测重复图片,且检测效率较低,无法在大规模图片库中实现快速检测的技术问题。
为实现上述目的,本发明提供如下技术方案:
一种重复图片检测方法,包括:
获取待查询图片;
获取所述待查询图片的感知哈希值与深度学习特征;
在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值;
当所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,获取所述目标感知哈希值对应的已有图片,作为第一参考图片;判断所述待查询图片是否落入到预设簇点中;若所述待查询图片落入到所述预设簇点中,则计算所述待查询图片与所述第一参考图片之间的第一欧式距离;当所述第一欧式距离大于第一距离阈值时,确定所述待查询图片不是已有图片的重复图片;当所述第一欧式距离不大于所述第一距离阈值时,确定所述待查询图片是已有图片的重复图片;若所述待查询图片未落入到所述预设簇点中,则确定所述待查询图片不是已有图片的重复图片;
当所述图片信息库中不存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引;获取所述目标索引对应的已有图片,作为第二参考图片;根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片。
一种重复图片检测装置,包括:
待查图片获取单元,用于获取待查询图片;
图片特征获取单元,用于获取所述待查询图片的感知哈希值与深度学习特征;
感知哈希查询单元,用于在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值;
重复图片判定单元,用于当所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,获取所述目标感知哈希值对应的已有图片,作为第一参考图片;判断所述待查询图片是否落入到预设簇点中;若所述待查询图片落入到所述预设簇点中,则计算所述待查询图片与所述第一参考图片之间的第一欧式距离;当所述第一欧式距离大于第一距离阈值时,确定所述待查询图片不是已有图片的重复图片;当所述第一欧式距离不大于所述第一距离阈值时,确定所述待查询图片是已有图片的重复图片;若所述待查询图片未落入到所述预设簇点中,则确定所述待查询图片不是已有图片的重复图片;
所述重复图片判定单元,还用于当所述图片信息库中不存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引;获取所述目标索引对应的已有图片,作为第二参考图片;根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片。
从上述的技术方案可以看出,本发明提供的重复图片检测方法与装置,在获取到待查询图片后,获取待查询图片的感知哈希值与深度学习特征,通过联合感知哈希算法与深度学习特征,来进行重复图像检测过程,其中利用簇点信息和深度学习特征来提高感知哈希精度,利用深度学习特征与图片相似索引来快速召回无法被感知哈希召回的相似图片,从而能够准确且快速地检测出待查询图片是否为已有图片的重复图片,提高了重复图片检测准确率、召回率与检测效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的重复图片检测方法的流程图;
图2为本发明实施例提供的待查询图片预检过程的流程图;
图3为本发明实施例提供的基于聚类簇点判断的重复图片检测过程的流程图;
图4为本发明实施例提供的基于感知哈希的汉明距离值的重复图片检测过程的流程图;
图5为本发明实施例提供的重复图片检测工作流程的示意图;
图6为本发明实施例提供的重复图片检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例提供的重复图片检测方法的流程图。
如图1所示,本实施例的重复图片检测方法包括:
S101:获取待查询图片。
待查询图片是指,待查询是否与已有图片相重复的图片。
S102:获取所述待查询图片的感知哈希值与深度学习特征。
其中,可使用深度学习模型,来提取待查询图片的深度学习特征,例如,使用卷积神经网络模型inception v4来提取待查询图片的深度学习特征,inceptionv4模型的提取效果足够好,而且特征提取速度也非常快;当然,也可以采用其他模型来提取待查询图片的深度学习特征。
S103:判断是否存在相同感知哈希值,若是,则执行步骤S104;若否,则执行步骤S106。
在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值。若所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值,则确定存在相同感知哈希值,否则,确定不存在相同的感知哈希值。
图片信息库并不对已有图片进行存储,而是存储已有图片的相关信息,这里的相关信息除了包括已有图片的感知哈希值之外,也可以包括已有图片的深度学习特征与图片id,当然还可以包括其他有用信息。
S104:获取所述目标感知哈希值对应的已有图片,作为第一参考图片。
当所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,获取所述目标感知哈希值对应的已有图片,作为第一参考图片。
图片信息库中虽然不存储已有图片,但图片信息库中存储的已有图片的相关信息,均与已有图片之间存在对应关系,基于已有图片的相关信息与该对应关系,就可以获取到对应的已有图片。例如,基于目标感知哈希值与已有图片的对应关系,获取目标感知哈希值对应的已有图片,作为第一参考图片。
S105:通过对所述待查询图片做聚类簇点判断,确定所述待查询图片是否为已有图片的重复图片。
S106:从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引。
当所述图片信息库中不存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引。
在一示例中,步骤S106可具体为:在预置的Faiss索引中,查询所述待查询图片的深度学习特征,得到所述待查询图片的深度学习特征对应的目标Faiss索引。
使用待查询图片的深度学习特征,到预置的Faiss Index中做查询。预置的FaissIndex是基于已有图片的深度学习特征得到的,所以在查询的时候,需要用待查询图片的深度学习特征去做检索。Faiss索引的检索速度非常快,而且能不断往里面添加新的数据。
S107:获取所述目标索引对应的已有图片,作为第二参考图片。
在一示例中,步骤S107可包括:获取所述目标Faiss索引对应的参考图片id;获取所述参考图片id对应的已有图片,作为第二参考图片。
其中,获取所述参考图片id对应的已有图片,具体为:从图片信息库中,获取所述参考图片id对应的已有图片的相关信息,根据所述参考图片id对应的已有图片的相关信息,获取所述参考图片id对应的已有图片,作为第二参考图片。
更进一步地,所述获取所述目标Faiss索引对应的参考图片id,具体包括:根据所述目标Faiss索引,获取与所述目标Faiss索引之间欧式距离值最近的预设数目的参考图片id。
相应的,所述获取所述参考图片id对应的已有图片,作为第二参考图片,具体包括:根据所述预设数目的参考图片id,获取所述预设数目的已有图片,作为第二参考图片。
其中,预设数目可以是50,也可以是80,还可以是根据需求灵活设定的其他值。
S108:根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片。
其中,所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,是指所述第二参考图片的感知哈希值与所述待查询图片的感知哈希值的汉明距离值。
本实施例提供的重复图片检测方法,在获取到待查询图片后,获取待查询图片的感知哈希值与深度学习特征,通过联合感知哈希算法与深度学习特征,来进行重复图像检测过程,其中利用簇点信息和深度学习特征来提高感知哈希精度,利用深度学习特征与图片相似索引来快速召回无法被感知哈希召回的相似图片,从而能够准确且快速地检测出待查询图片是否为已有图片的重复图片,提高了重复图片检测准确率、召回率与检测效率。
请参阅图2,图2为本发明实施例提供的待查询图片预检过程的流程图。
本实施例的待查询图片预检过程,应用于获取待查询图片之后,用于对待查询图片是否为已有图片的重复图片进行预检。
如图2所示,本实施例的待查询图片预检过程包括:
S201:判断所述待查询图片是否为全黑图片或全白图片,若是,则执行步骤S202;若否,则执行步骤S203。
S202:确定所述待查询图片不是已有图片的重复图片。
当所述待查询图片为全黑图片或全白图片时,确定所述待查询图片不是已有图片的重复图片;
S203:获取所述待查询图片的感知哈希值与深度学习特征。
当所述待查询图片不是全黑图片且不是全白图片时,执行所述获取所述待查询图片的感知哈希值与深度学习特征的步骤(也即前述实施例中的步骤S102),并继续执行后续步骤。
本实施例先对图片进行白屏或者是黑屏的判断,如果是黑屏或白屏的话,则判断图片不是重复图片(业务上认为黑屏跟白屏不是重复图片)
本实施例提供的待查询图片预检过程,判断所述待查询图片是否为全黑图片或全白图片,如果待查询图片为全黑图片或全白图片,则判定待查询图片不是已有图片的重复图片,这是因为在业务上普遍认为黑屏图片与白屏图片不是重复图片,从而对待查询图片的查重实现了预检处理,进一步提高了重复图片的检测效率。
请参阅图3,图3为本发明实施例提供的基于聚类簇点判断的重复图片检测过程的流程图。
本实施例的基于聚类簇点判断的重复图片检测过程,主要用于实现前述实施例中所述通过对所述待查询图片做聚类簇点判断,确定所述待查询图片是否为已有图片的重复图片的过程。
如图3所示,本实施例的基于聚类簇点判断的重复图片检测过程包括:
S301:判断所述待查询图片是否落入到预设簇点中,若是,则执行步骤S302,若否,则执行S304。
对待查询图片做聚类簇点的判断,如果待查询图片落入到提前设定的几个簇点里面,则需要对待查询图片与基于图片信息库返回的已有图片做一个欧式距离计算;如果待查询图片未落入到提前设定的几个簇点里面,则判定待查询图片不是重复图片。
关于簇点的预设,举例来说,之前对一批图片做过k-means的聚类,聚类的簇点是5000个。由于感知哈希值对于一些头像图片和含文字较多的图片的判断效果并不是特别好,所以本发明将这些图片往5000个簇点里聚,看这些图片大部分会落入5000个簇点中的哪几个,以此来作为簇点的选取。
S302:计算所述待查询图片与所述第一参考图片之间的第一欧式距离。
若所述待查询图片落入到所述预设簇点中,则计算所述待查询图片与所述第一参考图片之间的第一欧式距离。
此外,除了根据待查询图片与第一参考图片之间的欧式距离(L2)来进行图片查重,也可以根据待查询图片与第一参考图片之间的余弦距离来进行图片查重。
S303:判断所述第一欧式距离是否大于第一距离阈值,若是,则执行S304;若否,执行S305。
其中,第一距离阈值可以设定为0.05,但也可以根据具体需求设定为其他值,在此不做具体限制。
S304:确定所述待查询图片不是已有图片的重复图片。
当所述第一欧式距离大于第一距离阈值时,确定所述待查询图片不是已有图片的重复图片。
S305:确定所述待查询图片是已有图片的重复图片。
首先,若所述待查询图片未落入到所述预设簇点中,则确定所述待查询图片不是已有图片的重复图片;其次,当所述第一欧式距离不大于所述第一距离阈值时,确定所述待查询图片是已有图片的重复图片。
本实施例提供的基于聚类簇点判断的重复图片检测过程,在图片信息库中存储待查询图片的感知哈希值的情况下,基于簇点信息与图片间的欧式距离,对待查询图片是否为重复图片进行检测,从而提高了感知哈希精度,提高了重复图片的检测准确率,提高了重复图片的检测效果。
请参阅图4,图4为本发明实施例提供的基于感知哈希的汉明距离值的重复图片检测过程的流程图。
本实施例的基于感知哈希的汉明距离值的重复图片检测过程,主要用于实现前述实施例中所述根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片的过程。
如图4所示,本实施例的基于感知哈希的汉明距离值的重复图片检测过程包括:
S401:获取所述第二参考图片与所述待查询图片的感知哈希的汉明距离值。
S402:当所述感知哈希的汉明距离值不大于第一汉明距离阈值时,确定所述待查询图片为已有图片的重复图片。
其中,第一汉明距离阈值可以设定为8,但也可以根据具体需求设定为其他值,在此不做具体限制。
S403:当所述感知哈希的汉明距离值大于第二汉明距离阈值时,确定所述待查询图片不是已有图片的重复图片。
其中,第二汉明距离阈值可以设定为20,但也可以根据具体需求设定为其他值,在此不做具体限制。
所述第二汉明距离阈值大于所述第一汉明距离阈值。
进一步地,对于一些计算出来的感知哈希的汉明距离值相对较大图片,同时也可以进行深度学习特征的欧式距离的计算,如果计算出来的欧式距离值小于设定的阈值,则判断这两张图片是重复图片,否则判断为不重复图片。
具体地,当所述感知哈希的汉明距离值大于所述第一汉明距离阈值,且不大于所述第二汉明距离阈值时,计算所述待查询图片与所述第二参考图片之间的第二欧式距离。
当所述第二欧式距离大于第二距离阈值时,确定所述待查询图片不是已有图片的重复图片。
当所述第二欧式距离不大于所述第二距离阈值时,确定所述待查询图片为已有图片的重复图片。
其中,第二距离阈值可以设定为1.5,但也可以根据具体需求设定为其他值,在此不做具体限制。
本实施例提供的基于感知哈希的汉明距离值的重复图片检测过程,在图片信息库中不存在待查询图片的感知哈希值的情况下,利用深度学习特征召回了无法被感知哈希召回的相似图片,再根据图片间的感知哈希的汉明距离值与欧式距离,来检测待查询图片是否为重复图片,从而准确、快速地判断出待查询图片是否为已有图片的重复图片,提高了重复图片的检测准确率、召回率及检测效率。
请参阅图5,图5为本发明实施例提供的重复图片检测工作流程的示意图。
如图5所示,本发明中重复图片检测方法的完整工作流程主要包括:
首先,获取待查询图片,然后判断待查询图片是否为全黑图片或全白图片,若是,则直接判定待查询图片不是重复图片;若否,则执行待查询图片的哈希值计算。
然后,在预置的图片信息库中查询待查询图片的感知哈希值(如图5中“感知哈希值:b691ca3d4e30b26d”),并通过深度学习模型(如图5中“inception v4模型”)提取待查询图片的深度学习特征(如图5中“feature array:[0.029340405,0.024325162,…,0.002218767,0.80188674]”),并判断图片信息库(如图5中“Elastic search Cluster”)中是否存在与待查询图片的感知哈希值相同的感知哈希值。
当图片信息库中存在与待查询图片的感知哈希值的相同的感知哈希值时,通过对待查询图片做聚类簇点判断,来确定待查询图片是否为重复图片。其中,如果待查询图片落入到提前设定的几个簇点里面,则需要对待查询图片与基于图片信息库返回的已有图片做一个欧式距离(L2 distance)计算,如果计算出来的欧式距离小于设定阈值(如图5中“0.05”)则判断两张图片是重复图片,如果大于设定阈值,则判断不是重复图片;如果待查询图片未落入到提前设定的几个簇点里面,则判定待查询图片不是重复图片。
当图片信息库中不存在与待查询图片的感知哈希值的相同的感知哈希值时,则使用待查询图片的深度学习特征到预设的图片相似索引(如图5中“Faiss Index”)中做查询,Faiss Index会返回与其距离最近的预设数目的图片id(如图中“top 50image ids:[10,100,523,……,10223]”,50即为预设数目),利用这预设数目图片id就可以从图片信息库中获取到这些图片id对应的图片信息,进而召回相应的预设数目的已有图片。然后,根据召回的已有图片与待查询图片计算两者的感知哈希的汉明距离值(phash distance),其中,并根据感知哈希的汉明距离值来确定待查询图片是否为重复图片。当感知哈希的汉明距离值并非过大或过小时,还可以通过计算图片间的欧式距离(L2distance),来进一步确定待查询图片是否为重复图片。
本实施例提供的重复图片检测工作流程,完整地实现了本发明的重复图片的检测方法,在获取到待查询图片后,联合感知哈希算法与深度学习特征,来开展重复图像的检测过程,其中利用簇点信息和深度学习特征来提高感知哈希精度,而且利用深度学习特征召回了无法被感知哈希召回的相似图片,并利用图片相似索引快速召回与待查询图片相似的已有图片,从而能够准确、快速地判断出待查询图片是否为已有图片的重复图片,实现了重复图片的快速检测。
本发明实施例还提供了相应的重复图片检测装置,所述重复图片检测装置用于实施本发明实施例提供的重复图片检测方法,下文所描述的重复图片检测装置的相关技术内容,可与上文描述的重复图片检测方法的技术内容相互对应参照。
请参阅图6,图6为本发明实施例提供的重复图片检测装置的结构示意图。
如图6所示,本实施例的重复图片检测装置可包括:待查图片获取单元601、图片特征获取单元602、感知哈希查询单元603、重复图片判定单元604。
待查图片获取单元601,用于获取待查询图片。
图片特征获取单元602,用于获取所述待查询图片的感知哈希值与深度学习特征。
感知哈希查询单元603,用于在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值。
重复图片判定单元604,用于当所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,获取所述目标感知哈希值对应的已有图片,作为第一参考图片;通过对所述待查询图片做聚类簇点判断,确定所述待查询图片是否为已有图片的重复图片。
所述重复图片判定单元604,还用于当所述图片信息库中不存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引;获取所述目标索引对应的已有图片,作为第二参考图片;根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片。
一示例中,所述从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引包括:
在预置的Faiss索引中,查询所述待查询图片的深度学习特征,得到所述待查询图片的深度学习特征对应的目标Faiss索引。
进一步地,所述获取所述目标索引对应的已有图片,作为第二参考图片包括:
获取所述目标Faiss索引对应的参考图片id;
获取所述参考图片id对应的已有图片,作为第二参考图片。
更进一步地,所述获取所述目标Faiss索引对应的参考图片id包括:
根据所述目标Faiss索引,获取与所述目标Faiss索引之间欧式距离值最近的预设数目的参考图片id;
相应的,所述获取所述参考图片id对应的已有图片,作为第二参考图片包括:
根据所述预设数目的参考图片id,获取所述预设数目的已有图片,作为第二参考图片。
其中,获取所述待查询图片的深度学习特征包括:
使用深度学习模型,来提取所述待查询图片的深度学习特征。
本实施例提供的重复图片检测装置,在获取到待查询图片后,获取待查询图片的感知哈希值与深度学习特征,通过联合感知哈希算法与深度学习特征,来进行重复图像检测过程,其中利用簇点信息和深度学习特征来提高感知哈希精度,利用深度学习特征与图片相似索引来快速召回无法被感知哈希召回的相似图片,从而能够准确且快速地检测出待查询图片是否为已有图片的重复图片,提高了重复图片检测准确率、召回率与检测效率。
在其他实施例中,所述重复图片检测装置还可包括:黑白图片预检单元;
所述黑白图片预检单元,用于判断所述待查询图片是否为全黑图片或全白图片;当所述待查询图片为全黑图片或全白图片时,确定所述待查询图片不是已有图片的重复图片;当所述待查询图片不是全黑图片且不是全白图片时,触发所述图片特征获取单元602执行所述获取所述待查询图片的感知哈希值与深度学习特征的步骤。
进一步地,所述重复图片判定单元604执行所述通过对所述待查询图片做聚类簇点判断,确定所述待查询图片是否为已有图片的重复图片的步骤具体包括:
判断所述待查询图片是否落入到预设簇点中;
若所述待查询图片落入到所述预设簇点中,则计算所述待查询图片与所述第一参考图片之间的第一欧式距离;
当所述第一欧式距离大于第一距离阈值时,确定所述待查询图片不是已有图片的重复图片;
当所述第一欧式距离不大于所述第一距离阈值时,确定所述待查询图片是已有图片的重复图片;
若所述待查询图片未落入到所述预设簇点中,则确定所述待查询图片不是已有图片的重复图片。
所述重复图片判定单元604执行所述根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片的步骤具体包括:
获取所述第二参考图片与所述待查询图片的感知哈希的汉明距离值;
当所述感知哈希的汉明距离值不大于第一汉明距离阈值时,确定所述待查询图片为已有图片的重复图片;
当所述感知哈希的汉明距离值大于第二汉明距离阈值时,确定所述待查询图片不是已有图片的重复图片;
所述第二汉明距离阈值大于所述第一汉明距离阈值。
所述重复图片判定单元604执行所述根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片的步骤具体还包括:
当所述感知哈希的汉明距离值大于所述第一汉明距离阈值,且不大于所述第二汉明距离阈值时,计算所述待查询图片与所述第二参考图片之间的第二欧式距离;
当所述第二欧式距离大于第二距离阈值时,确定所述待查询图片不是已有图片的重复图片;
当所述第二欧式距离不大于所述第二距离阈值时,确定所述待查询图片为已有图片的重复图片。
本发明实施例提供的重复图片检测装置,包括处理器和存储器,上述待查图片获取单元601、图片特征获取单元602、感知哈希查询单元603、重复图片判定单元604、黑白图片预检单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决目前重复图片检测准确性差、效率较低的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现前述的重复图片检测方法的步骤。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前述的重复图片检测方法的步骤。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现前述的重复图片检测方法的步骤。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有前述的重复图片检测方法的步骤的程序。
最后,还需要说明的是,在本文中,诸如第一和第一等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式来实现。基于这样的理解,本申请的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种重复图片检测方法,其特征在于,包括:
获取待查询图片;
获取所述待查询图片的感知哈希值与深度学习特征;
在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值;
当所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,获取所述目标感知哈希值对应的已有图片,作为第一参考图片;判断所述待查询图片是否落入到预设簇点中;若所述待查询图片落入到所述预设簇点中,则计算所述待查询图片与所述第一参考图片之间的第一欧式距离;当所述第一欧式距离大于第一距离阈值时,确定所述待查询图片不是已有图片的重复图片;当所述第一欧式距离不大于所述第一距离阈值时,确定所述待查询图片是已有图片的重复图片;若所述待查询图片未落入到所述预设簇点中,则确定所述待查询图片不是已有图片的重复图片;
当所述图片信息库中不存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引;获取所述目标索引对应的已有图片,作为第二参考图片;根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片。
2.如权利要求1所述的方法,其特征在于,在所述获取待查询图片之后,所述方法还包括:
判断所述待查询图片是否为全黑图片或全白图片;
当所述待查询图片为全黑图片或全白图片时,确定所述待查询图片不是已有图片的重复图片;
当所述待查询图片不是全黑图片且不是全白图片时,执行所述获取所述待查询图片的感知哈希值与深度学习特征的步骤。
3.如权利要求1所述的方法,其特征在于,所述从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引包括:
在预置的Faiss索引中,查询所述待查询图片的深度学习特征,得到所述待查询图片的深度学习特征对应的目标Faiss索引。
4.如权利要求3所述的方法,其特征在于,所述获取所述目标索引对应的已有图片,作为第二参考图片包括:
获取所述目标Faiss索引对应的参考图片id;
获取所述参考图片id对应的已有图片,作为第二参考图片。
5.如权利要求4所述的方法,其特征在于,所述获取所述目标Faiss索引对应的参考图片id包括:
根据所述目标Faiss索引,获取与所述目标Faiss索引之间欧式距离值最近的预设数目的参考图片id;
相应的,所述获取所述参考图片id对应的已有图片,作为第二参考图片包括:
根据所述预设数目的参考图片id,获取所述预设数目的已有图片,作为第二参考图片。
6.如权利要求1所述的方法,其特征在于,所述根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片包括:
获取所述第二参考图片与所述待查询图片的感知哈希的汉明距离值;
当所述感知哈希的汉明距离值不大于第一汉明距离阈值时,确定所述待查询图片为已有图片的重复图片;
当所述感知哈希的汉明距离值大于第二汉明距离阈值时,确定所述待查询图片不是已有图片的重复图片;
所述第二汉明距离阈值大于所述第一汉明距离阈值。
7.如权利要求6所述的方法,其特征在于,所述根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片,还包括:
当所述感知哈希的汉明距离值大于所述第一汉明距离阈值,且不大于所述第二汉明距离阈值时,计算所述待查询图片与所述第二参考图片之间的第二欧式距离;
当所述第二欧式距离大于第二距离阈值时,确定所述待查询图片不是已有图片的重复图片;
当所述第二欧式距离不大于所述第二距离阈值时,确定所述待查询图片为已有图片的重复图片。
8.如权利要求1所述的方法,其特征在于,获取所述待查询图片的深度学习特征包括:
使用深度学习模型,来提取所述待查询图片的深度学习特征。
9.一种重复图片检测装置,其特征在于,包括:
待查图片获取单元,用于获取待查询图片;
图片特征获取单元,用于获取所述待查询图片的感知哈希值与深度学习特征;
感知哈希查询单元,用于在预置的图片信息库中查询所述待查询图片的感知哈希值,所述图片信息库中至少存储有已有图片的感知哈希值;
重复图片判定单元,用于当所述图片信息库中存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,获取所述目标感知哈希值对应的已有图片,作为第一参考图片;判断所述待查询图片是否落入到预设簇点中;若所述待查询图片落入到所述预设簇点中,则计算所述待查询图片与所述第一参考图片之间的第一欧式距离;当所述第一欧式距离大于第一距离阈值时,确定所述待查询图片不是已有图片的重复图片;当所述第一欧式距离不大于所述第一距离阈值时,确定所述待查询图片是已有图片的重复图片;若所述待查询图片未落入到所述预设簇点中,则确定所述待查询图片不是已有图片的重复图片;
所述重复图片判定单元,还用于当所述图片信息库中不存在与所述待查询图片的感知哈希值完全相同的目标感知哈希值时,从预置的图片相似索引中,获取所述待查询图片的深度学习特征对应的目标索引;获取所述目标索引对应的已有图片,作为第二参考图片;根据所述第二参考图片与所述待查询图片的感知哈希的汉明距离值,确定所述待查询图片是否为已有图片的重复图片。
CN201911308553.2A 2019-12-18 2019-12-18 重复图片检测方法与装置 Active CN111078914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911308553.2A CN111078914B (zh) 2019-12-18 2019-12-18 重复图片检测方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911308553.2A CN111078914B (zh) 2019-12-18 2019-12-18 重复图片检测方法与装置

Publications (2)

Publication Number Publication Date
CN111078914A CN111078914A (zh) 2020-04-28
CN111078914B true CN111078914B (zh) 2023-04-18

Family

ID=70315425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911308553.2A Active CN111078914B (zh) 2019-12-18 2019-12-18 重复图片检测方法与装置

Country Status (1)

Country Link
CN (1) CN111078914B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704586A (zh) * 2021-08-30 2021-11-26 泰戈特(北京)工程技术有限公司 一种去重目标页面确定方法、装置、计算机设备及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107729935A (zh) * 2017-10-12 2018-02-23 杭州贝购科技有限公司 相似图片的识别方法和装置、服务器、存储介质
CN108052915A (zh) * 2017-12-22 2018-05-18 深圳英飞拓科技股份有限公司 一种对录像视频进行人脸检测并识别的方法及装置
CN108595710A (zh) * 2018-05-11 2018-09-28 杨晓春 一种快速的海量图片去重方法
CN109711298A (zh) * 2018-12-14 2019-05-03 南京甄视智能科技有限公司 基于faiss的高效人脸特征值检索的方法和系统
WO2019154262A1 (zh) * 2018-02-07 2019-08-15 腾讯科技(深圳)有限公司 一种图像分类方法及服务器、用户终端、存储介质
CN110362697A (zh) * 2019-07-05 2019-10-22 武汉莱博信息技术有限公司 基于卷积神经网络模型的图像查重方法、设备及存储介质
CN110413807A (zh) * 2019-06-24 2019-11-05 华中科技大学 一种基于内容语义元数据的图像查询方法与系统
CN110427895A (zh) * 2019-08-06 2019-11-08 李震 一种基于计算机视觉的视频内容相似度判别方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106682233A (zh) * 2017-01-16 2017-05-17 华侨大学 一种基于深度学习与局部特征融合的哈希图像检索方法
CN107729935A (zh) * 2017-10-12 2018-02-23 杭州贝购科技有限公司 相似图片的识别方法和装置、服务器、存储介质
CN108052915A (zh) * 2017-12-22 2018-05-18 深圳英飞拓科技股份有限公司 一种对录像视频进行人脸检测并识别的方法及装置
WO2019154262A1 (zh) * 2018-02-07 2019-08-15 腾讯科技(深圳)有限公司 一种图像分类方法及服务器、用户终端、存储介质
CN108595710A (zh) * 2018-05-11 2018-09-28 杨晓春 一种快速的海量图片去重方法
CN109711298A (zh) * 2018-12-14 2019-05-03 南京甄视智能科技有限公司 基于faiss的高效人脸特征值检索的方法和系统
CN110413807A (zh) * 2019-06-24 2019-11-05 华中科技大学 一种基于内容语义元数据的图像查询方法与系统
CN110362697A (zh) * 2019-07-05 2019-10-22 武汉莱博信息技术有限公司 基于卷积神经网络模型的图像查重方法、设备及存储介质
CN110427895A (zh) * 2019-08-06 2019-11-08 李震 一种基于计算机视觉的视频内容相似度判别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
图像检索技术研究进展;周文罡等;《南京信息工程大学学报(自然科学版)》;20171128(第06期);全文 *

Also Published As

Publication number Publication date
CN111078914A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
US10922350B2 (en) Associating still images and videos
US8498455B2 (en) Scalable face image retrieval
CN107038173B (zh) 应用查询方法和装置、相似应用检测方法和装置
KR20180122926A (ko) 학습 서비스 제공 방법 및 그 장치
US9063954B2 (en) Near duplicate images
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN110245132B (zh) 数据异常检测方法、装置、计算机可读存储介质和计算机设备
EP4057163B1 (en) Facilitating use of images as search queries
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
CN103136228A (zh) 一种图片搜索方法以及图片搜索装置
CN109284613B (zh) 标识检测及仿冒站点检测方法、装置、设备及存储介质
CN109299307B (zh) 一种基于结构分析的商标检索预警方法及装置
CN104090882A (zh) 一种广告订单的快速聚类方法及系统、服务器
CN111078914B (zh) 重复图片检测方法与装置
CN106033455B (zh) 一种处理用户操作信息的方法与设备
CN110990541A (zh) 一种实现问答的方法及装置
CN108921016B (zh) 一种基于图像识别的图书评分获取方法、电子设备及存储介质
CN110765261A (zh) 潜在专利纠纷的监控方法、装置、服务器和存储介质
CN112445926A (zh) 一种图像检索方法以及装置
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN110688995B (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
dos Santos et al. A signature-based bag of visual words method for image indexing and search
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN115374793A (zh) 基于服务场景识别的语音数据处理方法及相关装置
CN114048344A (zh) 一种相似人脸搜索方法、装置、设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant