CN111078928B - 一种图像去重方法及装置 - Google Patents

一种图像去重方法及装置 Download PDF

Info

Publication number
CN111078928B
CN111078928B CN201911327469.5A CN201911327469A CN111078928B CN 111078928 B CN111078928 B CN 111078928B CN 201911327469 A CN201911327469 A CN 201911327469A CN 111078928 B CN111078928 B CN 111078928B
Authority
CN
China
Prior art keywords
image
hash value
dct coefficient
images
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911327469.5A
Other languages
English (en)
Other versions
CN111078928A (zh
Inventor
郑继龙
丰强泽
齐红威
何鸿凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Datatang Beijing Technology Co ltd
Original Assignee
Datatang Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Datatang Beijing Technology Co ltd filed Critical Datatang Beijing Technology Co ltd
Priority to CN201911327469.5A priority Critical patent/CN111078928B/zh
Publication of CN111078928A publication Critical patent/CN111078928A/zh
Application granted granted Critical
Publication of CN111078928B publication Critical patent/CN111078928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种图像去重方法及装置,可以计算待去重的每个图像的目标哈希值,具体将图像划分为多个局部图像,分别缩小图像和每个局部图像的尺寸,分别对缩小后的图像和每个缩小后的局部图像进行DCT变换,得到图像对应的DCT系数矩阵和每个局部图像对应的DCT系数矩阵;根据图像对应的DCT系数矩阵计算图像的哈希值,以及根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值;对图像的哈希值和每个局部图像的哈希值进行整合得到图像的目标哈希值。进一步通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像,并去重。基于本发明可以对实现整体+局部的图像对比,提高了鲁棒性和精确性。

Description

一种图像去重方法及装置
技术领域
本发明涉及图像处理技术领域,更具体地说,涉及一种图像去重方法及装置。
背景技术
目前,超过半数的互联网图像数据是重复数据或近似重复数据,给深度学习引擎及人工审核带来巨大的重复工作量。因此近似图像的去重是十分必要的。
传统的感知哈希算法是一种弱哈希算法,通过图像的尺寸缩小、简化色彩、DCT变换提取图像频域特征并最终选取低频特征进行量化编码来实现图像去重。传统的感知哈希算法能够处理一定程度上的图像变化,例如一定程度的分辨率缩放、全局的亮度变化等,但是其对于图像的局部变化无法准确的识别。
发明内容
有鉴于此,为解决上述问题,本发明提供一种图像去重方法及装置。技术方案如下:
一种图像去重方法,所述方法包括:
获取待去重的多个图像;
针对所述多个图像中的每个图像,计算所述图像的目标哈希值,包括:
将所述图像划分为多个局部图像;
分别缩小所述图像和每个所述局部图像的尺寸,缩小后的所述图像的尺寸大于每个缩小后的所述局部图像的尺寸;
分别对缩小后的所述图像和每个缩小后的所述局部图像进行DCT变换,得到所述图像对应的DCT系数矩阵和每个所述局部图像对应的DCT系数矩阵;
根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,以及根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值;
对所述图像的哈希值和每个所述局部图像的哈希值进行整合得到所述图像的目标哈希值;
通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,并去重。
优选的,所述将所述图像划分为多个局部图像,包括:
将所述图像划分为多个具有重叠区域的局部图像。
优选的,所述根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,包括:
对所述图像对应的DCT系数矩阵进行均值计算得到所述图像的DCT系数均值;
根据所述图像的DCT系数均值对所述图像对应的DCT系数矩阵中各DCT系数进行量化;
根据所述图像对应的DCT系数矩阵中各DCT系数的量化结果确定所述图像的哈希值;
所述根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值,包括:
对每个所述局部图像对应的DCT系数矩阵进行均值计算得到每个所述局部图像的DCT系数均值;
根据每个所述局部图像的DCT系数均值对每个所述局部图像对应的DCT系数矩阵中各DCT系数进行量化;
根据每个所述局部图像对应的DCT系数矩阵中各DCT系数的量化结果确定每个所述局部图像的哈希值。
优选的,所述通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,包括:
对于所述多个图像中的任意一组图像,对该组图像中第一图像的目标哈希值和第二图像的目标哈希值进行异或操作;
在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果全为0的情况下,确定所述第一图像或者所述第二图像为重复图像;
在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果不全为0的情况下,获取所述第一图像的每个所述局部图像的哈希值与所述第二图像的每个所述局部图像的哈希值的第二异或结果中0的数量;
在所述第二异或结果中0的数量大于预设的数量阈值的情况下,确定所述第一图像或者所述第二图像为重复图像。
优选的,所述针对所述多个图像中的每个图像,计算所述图像的目标哈希值之后,所述方法还包括:
将所述图像的目标哈希值设置为二进制位形式。
一种图像去重装置,所述装置包括:
图像获取模块,用于获取待去重的多个图像;
目标哈希值计算模块,用于针对所述多个图像中的每个图像,计算所述图像的目标哈希值,包括:
将所述图像划分为多个局部图像;分别缩小所述图像和每个所述局部图像的尺寸,缩小后的所述图像的尺寸大于每个缩小后的所述局部图像的尺寸;分别对缩小后的所述图像和每个缩小后的所述局部图像进行DCT变换,得到所述图像对应的DCT系数矩阵和每个所述局部图像对应的DCT系数矩阵;根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,以及根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值;对所述图像的哈希值和每个所述局部图像的哈希值进行整合得到所述图像的目标哈希值;
匹配去重模块,用于通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,并去重。
优选的,用于将所述图像划分为多个局部图像的所述目标哈希值计算模块,具体用于:
将所述图像划分为多个具有重叠区域的局部图像。
优选的,用于根据所述图像对应的DCT系数矩阵计算所述图像的哈希值的所述目标哈希值计算模块,具体用于:
对所述图像对应的DCT系数矩阵进行均值计算得到所述图像的DCT系数均值;根据所述图像的DCT系数均值对所述图像对应的DCT系数矩阵中各DCT系数进行量化;根据所述图像对应的DCT系数矩阵中各DCT系数的量化结果确定所述图像的哈希值;
用于根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值的所述目标哈希值计算模块,具体用于:
对每个所述局部图像对应的DCT系数矩阵进行均值计算得到每个所述局部图像的DCT系数均值;根据每个所述局部图像的DCT系数均值对每个所述局部图像对应的DCT系数矩阵中各DCT系数进行量化;根据每个所述局部图像对应的DCT系数矩阵中各DCT系数的量化结果确定每个所述局部图像的哈希值。
优选的,用于通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像的所述匹配去重模块,具体用于:
对于所述多个图像中的任意一组图像,对该组图像中第一图像的目标哈希值和第二图像的目标哈希值进行异或操作;在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果全为0的情况下,确定所述第一图像或者所述第二图像为重复图像;在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果不全为0的情况下,获取所述第一图像的每个所述局部图像的哈希值与所述第二图像的每个所述局部图像的哈希值的第二异或结果中0的数量;在所述第二异或结果中0的数量大于预设的数量阈值的情况下,确定所述第一图像或者所述第二图像为重复图像。
优选的,所述目标哈希值计算模块,还用于:
将所述图像的目标哈希值设置为二进制位形式。
本发明提供的图像去重方法及装置,可以计算待去重的每个图像的目标哈希值,具体将图像划分为多个局部图像,分别缩小图像和每个局部图像的尺寸,分别对缩小后的图像和每个缩小后的局部图像进行DCT变换,得到图像对应的DCT系数矩阵和每个局部图像对应的DCT系数矩阵;根据图像对应的DCT系数矩阵计算图像的哈希值,以及根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值;对图像的哈希值和每个局部图像的哈希值进行整合得到图像的目标哈希值。进一步通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像,并去重。基于本发明可以对实现整体+局部的图像对比,提高了鲁棒性和精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的图像去重方法的方法流程图;
图2为本发明实施例提供的图像划分示例;
图3为本发明实施例提供的图像的DCT系数矩阵示例;
图4为本发明实施例提供的图像的哈希码示例;
图5为本发明实施例提供的Z字形排列顺序示例;
图6为本发明实施例提供的图像去重方法的部分方法流程图;
图7为本发明实施例提供的图像去重装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种图像去重方法,该方法的方法流程图如图1所示,包括如下步骤:
S10,获取待去重的多个图像。
本实施例中,图像可以由用户指定,本实施例对此不做限定。
S20,针对多个图像中的每个图像,计算图像的目标哈希值,包括:
S201,将图像划分为多个局部图像。
本实施例中,对于待去重的每个图形都会计算该图像的目标哈希值。为方便理解,以下以一个图像为例,说明该图像的目标哈希值的过程:
按照图像的宽度和高度将图像划分为多个局部图像,比如按照宽度和高度3等分形式将图像划分为3*3共计9个局部图像。参见图2所示的图像划分示例,图像被划分为9个局部图像,从左上至右下分别用1至9表示。
S202,分别缩小图像和每个局部图像的尺寸,缩小后的图像的尺寸大于每个缩小后的局部图像的尺寸。
本实施例中,对于图像和各个局部图像的缩小比例可以相同。
针对传统的感知哈希算法将图像的尺寸缩小至8*8时高频信息损失过大的缺陷。本实施例中,为增加整体信息的保留量可以将缩小后的图像的尺寸设置为高于8*8(比如设置为16*16),同时将缩小后的局部图像的尺寸设置为8*8,在总体上既保留了整体信息又保留了局部信息。
S203,分别对缩小后的图像和每个缩小后的局部图像进行DCT变换,得到图像对应的DCT系数矩阵和每个局部图像对应的DCT系数矩阵。
为方便理解,本实施例首先对DCT变化进行简单介绍:
DCT(Discrete Cosine Transform,离散余弦变换)是一种数字处理方法,经常用于数据处理。DCT是多种数字变换方法的一种,它是把空间域图像变换到频率域进行分析的方法。由于DCT的变换核构成的基向量与图像内容无关,而且变换核是可以分离的,即二维DCT可以用两次一维DCT来完成,使得数学运算难度大大简化,再配以已经发现的其它快速算法,使得DCT编码得到了广泛的应用。
本实施例中,对于缩小后的图像和各个缩小后的局部图像,可以分别设置不同的DCT变换策略。
针对传统的感知哈希算法对图像进行32*32的DCT变换导致DCT变换计算量很大、后续截取左上角8*8矩阵损失图像高频特征的缺陷。本实施例中,可以对缩小后的图像进行16*16的DCT变换,对各个缩小后的局部图像进行8*8的DCT变换,不做截取而全部保留,因为图像的局部形变在DCT变换后会落到高频区域,如果删除高频区域则无法获得对局部变化的识别能力,因此本实施例可以保证在不浪费计算资源的情况下实现整体特征和局部特征的完整性,无需配置高性能计算单元,对其他代码库的依赖也很小。
S204,根据图像对应的DCT系数矩阵计算图像的哈希值,以及根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值。
本实施例中,可以按照一定的量化规则分别对图像对应的DCT系数矩阵、各个局部图像对应的DCT系数矩阵进行量化得到各自对应的哈希值。比如,可以设置一定的阈值,DCT系数矩阵中大于等于该阈值的系数所对应的哈希码为1,DCT系数矩阵中小于该阈值的系数所对应的哈希码设置为0。
参见图3所示的一个局部图像对应的8*8DCT系数矩阵,该系数矩阵中每个DCT系数就对应其所在的图像区域,按照一定的量化规则对该8*8DCT系数矩阵进行处理得到如图4所示的哈希码,此时可以按照如图5所示的Z字形排列顺序扫描各哈希码得到如下该局部图像的哈希值:
0100111000010111001110001110001101010111011111110000011011010010。
需要说明的是,上述Z字形排列顺序只是一种扫描顺序的示例,本实施例对此并不做限定。
具体实现过程中,步骤S204中“根据图像对应的DCT系数矩阵计算图像的哈希值”可以采用如下步骤:
对图像对应的DCT系数矩阵进行均值计算得到图像的DCT系数均值;
根据图像的DCT系数均值对图像对应的DCT系数矩阵中各DCT系数进行量化。
本实施例中,将图像的DCT系数均值作为量化规则中的阈值,图像对应的DCT系数矩阵中大于等于该图像的DCT系数均值的系数所对应的哈希码设置为1,图像对应的DCT系数矩阵中小于该图像的DCT系数均值的系数所对应的哈希码设置为0。
根据图像对应的DCT系数矩阵中各DCT系数的量化结果确定图像的哈希值。
本实施例中,可以按照图5所示的Z字形排列顺序扫描各DCT系数的哈希码得到图像的哈希值。
具体实现过程中,步骤S204中“根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值”可以采用如下步骤:
对每个局部图像对应的DCT系数矩阵进行均值计算得到每个局部图像的DCT系数均值。
根据每个局部图像的DCT系数均值对每个局部图像对应的DCT系数矩阵中各DCT系数进行量化。
本实施例中,将局部图像的DCT系数均值作为量化规则中的阈值,局部图像对应的DCT系数矩阵中大于等于该局部图像的DCT系数均值的系数所对应的哈希码设置为1,局部图像对应的DCT系数矩阵中小于该局部图像的DCT系数均值的系数所对应的哈希码设置为0。
根据每个局部图像对应的DCT系数矩阵中各DCT系数的量化结果确定每个局部图像的哈希值。
本实施例中,可以按照图5所示的Z字形排列顺序扫描各局部图像的各DCT系数的哈希码得到该局部图像的哈希值。
S205,对图像的哈希值和每个局部图像的哈希值进行整合得到图像的目标哈希值。
为方便理解,继续以图2所示的1个整体的图像、局部图像1~9为例进行说明:
可以按照一定的顺序,比如图像—局部图像1—局部图像2—局部图像3—局部图像4—局部图像5—局部图像6—局部图像7—局部图像8—局部图像9的整合顺序,将图像的哈希值和各个局部图像的哈希值进行合并得到图像最终的目标哈希值:
目标哈希值=图像的哈希值+局部图像1的哈希值+局部图像2的哈希值+局部图像1的哈希值+局部图像3的哈希值+局部图像4的哈希值+局部图像5的哈希值+局部图像6的哈希值+局部图像7的哈希值+局部图像8的哈希值+局部图像9的哈希值。(当然,上述符号“+”仅是为了形象说明,在图像的目标哈希值中并不设置符号“+”)
需要说明的是,图像和各个局部图像的整合顺序可以按照实际需要进行设置,本实施例对此不做限定。而为了更好的匹配去重,优选的,所有图像的整合顺序设置一致。
此外,为提高后续特征匹配的速度,可以将图像的目标哈希值设置为二进制位形式。
S30,通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像,并去重。
为方便理解,本实施例以下以图像1和图像2为例进行说明:图像1的目标哈希值=图像1的哈希值+局部图像1的哈希值+局部图像2的哈希值+局部图像3的哈希值+……+局部图像9的哈希值。
图像2的目标哈希值=图像2的哈希值+局部图像1’的哈希值+局部图像2’的哈希值+局部图像3’的哈希值+……+局部图像9’的哈希值。
如果图像1和图像2的整合顺序相同,也就是局部图像1在图像1中所在的局部区域与局部图像2在图像2中所在的局部区域位置相同,局部图像2在图像1中所在的局部区域与局部图像2’在图像2中所在的局部区域位置相同,局部图像3与局部图像3’、……局部图像9与局部图像9’也同理。则将图像1的目标哈希值与图像2的目标哈希值进行位对位的做异或操作,如果异或结果全为0,则表示两者是同一图像(必定重复),反之如果异或结果不全为0,则表示两者是不同的图像,但是由于互联网数据中存在大量添加水印或者涂鸦等局部操作,因此两者是否重复需要进一步判定。
进一步,如果图1和图2是不同的图像,由于异或结果中一个局部图像的哈希值对应一个局部区域,因此可以根据局部图像的异或结果中0的个数来确定图1和图2中相同的局部区域。简单的,如果0的个数大于预设的数量阈值,则可以认为图1或图2为重复图像。
而由于图像整体相似、但大部分局部图像不相似的可能性很低,因此为提高去重效率,步骤S30“通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像”可以采用如下步骤:
S301,对于多个图像中的任意一组图像,对该组图像中第一图像的目标哈希值和第二图像的目标哈希值进行异或操作。
S302,在第一图像的哈希值与第二图像的哈希值的第一异或结果全为0的情况下,确定第一图像或者第二图像为重复图像。
S303,在第一图像的哈希值与第二图像的哈希值的第一异或结果不全为0的情况下,获取第一图像的每个局部图像的哈希值与第二图像的每个局部图像的哈希值的第二异或结果中0的数量。
S304,在第二异或结果中0的数量大于预设的数量阈值的情况下,确定第一图像或者第二图像为重复图像。
需要说明的是,在第二异或结果中0的数量不大于预设的数量阈值的情况下,确定第一图像和第二图像为非重复图像。
还需要说明的是,本实施例给出了通过判定局部图像哈希值的异或结果中0的数量来确定是否为重复图像的实施过程。在实际应用中,还可以通过判定局部图像哈希值的异或结果中1的数量来确定是否为重复图像,具体的,如果第一图像的每个局部图像的哈希值与第二图像的每个局部图像的哈希值的异或结果中1的数量小于预设的数量阈值(此处的数量阈值与上述第二异或结果中0的数量对应的数量阈值不同,两者可以分别设置),则可以确定第一图像或者第二图像为重复图像,反之,则为非重复图像。当然,还可以同时判定局部图像哈希值的异或结果中0的数量、局部图像哈希值的异或结果中1的数量,本实施例对此不做限定。
综上所述,针对传统的感知哈希算法简化色彩将图像由255级灰度降低到64级灰度导致图像特征大幅降低、实测中对算法精度影响很大的缺陷。本实施例中,去除了简化色彩操作,进一步保留了图像的原始信息。
本发明实施例提供的图像去重方法,可以计算待去重的每个图像的目标哈希值,具体将图像划分为多个局部图像,分别缩小图像和每个局部图像的尺寸,分别对缩小后的图像和每个缩小后的局部图像进行DCT变换,得到图像对应的DCT系数矩阵和每个局部图像对应的DCT系数矩阵;根据图像对应的DCT系数矩阵计算图像的哈希值,以及根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值;对图像的哈希值和每个局部图像的哈希值进行整合得到图像的目标哈希值。进一步通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像,并去重。基于本发明可以对实现整体+局部的图像对比,提高了鲁棒性和精确性。
基于上述实施例提供的图像去重方法,本发明实施例则提供一种执行上述图像去重方法的装置,该装置的结构示意图如图7所示,包括:
图像获取模块10,用于获取待去重的多个图像;
目标哈希值计算模块20,用于针对多个图像中的每个图像,计算图像的目标哈希值,包括:
将图像划分为多个局部图像;分别缩小图像和每个局部图像的尺寸,缩小后的图像的尺寸大于每个缩小后的局部图像的尺寸;分别对缩小后的图像和每个缩小后的局部图像进行DCT变换,得到图像对应的DCT系数矩阵和每个局部图像对应的DCT系数矩阵;根据图像对应的DCT系数矩阵计算图像的哈希值,以及根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值;对图像的哈希值和每个局部图像的哈希值进行整合得到图像的目标哈希值;
匹配去重模块30,用于通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像,并去重。
可选的,用于将图像划分为多个局部图像的目标哈希值计算模块20,具体用于:
将图像划分为多个具有重叠区域的局部图像。
可选的,用于根据图像对应的DCT系数矩阵计算图像的哈希值的目标哈希值计算模块20,具体用于:
对图像对应的DCT系数矩阵进行均值计算得到图像的DCT系数均值;根据图像的DCT系数均值对图像对应的DCT系数矩阵中各DCT系数进行量化;根据图像对应的DCT系数矩阵中各DCT系数的量化结果确定图像的哈希值;
用于根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值的目标哈希值计算模块20,具体用于:
对每个局部图像对应的DCT系数矩阵进行均值计算得到每个局部图像的DCT系数均值;根据每个局部图像的DCT系数均值对每个局部图像对应的DCT系数矩阵中各DCT系数进行量化;根据每个局部图像对应的DCT系数矩阵中各DCT系数的量化结果确定每个局部图像的哈希值。
可选的,用于通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像的匹配去重模块30,具体用于:
对于多个图像中的任意一组图像,对该组图像中第一图像的目标哈希值和第二图像的目标哈希值进行异或操作;在第一图像的哈希值与第二图像的哈希值的第一异或结果全为0的情况下,确定第一图像或者第二图像为重复图像;在第一图像的哈希值与第二图像的哈希值的第一异或结果不全为0的情况下,获取第一图像的每个局部图像的哈希值与第二图像的每个局部图像的哈希值的第二异或结果中0的数量;在第二异或结果中0的数量大于预设的数量阈值的情况下,确定第一图像或者第二图像为重复图像。
可选的,目标哈希值计算模块,还用于:
将图像的目标哈希值设置为二进制位形式。
本发明实施例提供的图像去重装置,可以计算待去重的每个图像的目标哈希值,具体将图像划分为多个局部图像,分别缩小图像和每个局部图像的尺寸,分别对缩小后的图像和每个缩小后的局部图像进行DCT变换,得到图像对应的DCT系数矩阵和每个局部图像对应的DCT系数矩阵;根据图像对应的DCT系数矩阵计算图像的哈希值,以及根据每个局部图像对应的DCT系数矩阵计算每个局部图像的哈希值;对图像的哈希值和每个局部图像的哈希值进行整合得到图像的目标哈希值。进一步通过两两匹配多个图像的目标哈希值确定多个图像中的重复图像,并去重。基于本发明可以对实现整体+局部的图像对比,提高了鲁棒性和精确性。
以上对本发明所提供的一种图像去重方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种图像去重方法,其特征在于,所述方法包括:
获取待去重的多个图像;
针对所述多个图像中的每个图像,计算所述图像的目标哈希值,包括:
将所述图像划分为多个局部图像;
分别缩小所述图像和每个所述局部图像的尺寸,缩小后的所述图像的尺寸大于每个缩小后的所述局部图像的尺寸;
分别对缩小后的所述图像和每个缩小后的所述局部图像进行DCT变换,得到所述图像对应的DCT系数矩阵和每个所述局部图像对应的DCT系数矩阵;
根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,以及根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值;
对所述图像的哈希值和每个所述局部图像的哈希值进行整合得到所述图像的目标哈希值;
通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,并去重;
所述通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,包括:
对于所述多个图像中的任意一组图像,对该组图像中第一图像的目标哈希值和第二图像的目标哈希值进行异或操作;
在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果全为0的情况下,确定所述第一图像或者所述第二图像为重复图像;
在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果不全为0的情况下,获取所述第一图像的每个所述局部图像的哈希值与所述第二图像的每个所述局部图像的哈希值的第二异或结果中0的数量;
在所述第二异或结果中0的数量大于预设的数量阈值的情况下,确定所述第一图像或者所述第二图像为重复图像。
2.根据权利要求1所述的方法,其特征在于,所述将所述图像划分为多个局部图像,包括:
将所述图像划分为多个具有重叠区域的局部图像。
3.根据权利要求1所述的方法,其特征在于,所述根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,包括:
对所述图像对应的DCT系数矩阵进行均值计算得到所述图像的DCT系数均值;
根据所述图像的DCT系数均值对所述图像对应的DCT系数矩阵中各DCT系数进行量化;
根据所述图像对应的DCT系数矩阵中各DCT系数的量化结果确定所述图像的哈希值;
所述根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值,包括:
对每个所述局部图像对应的DCT系数矩阵进行均值计算得到每个所述局部图像的DCT系数均值;
根据每个所述局部图像的DCT系数均值对每个所述局部图像对应的DCT系数矩阵中各DCT系数进行量化;
根据每个所述局部图像对应的DCT系数矩阵中各DCT系数的量化结果确定每个所述局部图像的哈希值。
4.根据权利要求1所述的方法,其特征在于,所述针对所述多个图像中的每个图像,计算所述图像的目标哈希值之后,所述方法还包括:
将所述图像的目标哈希值设置为二进制位形式。
5.一种图像去重装置,其特征在于,所述装置包括:
图像获取模块,用于获取待去重的多个图像;
目标哈希值计算模块,用于针对所述多个图像中的每个图像,计算所述图像的目标哈希值,包括:
将所述图像划分为多个局部图像;分别缩小所述图像和每个所述局部图像的尺寸,缩小后的所述图像的尺寸大于每个缩小后的所述局部图像的尺寸;分别对缩小后的所述图像和每个缩小后的所述局部图像进行DCT变换,得到所述图像对应的DCT系数矩阵和每个所述局部图像对应的DCT系数矩阵;根据所述图像对应的DCT系数矩阵计算所述图像的哈希值,以及根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值;对所述图像的哈希值和每个所述局部图像的哈希值进行整合得到所述图像的目标哈希值;
匹配去重模块,用于通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像,并去重;
用于通过两两匹配所述多个图像的目标哈希值确定所述多个图像中的重复图像的所述匹配去重模块,具体用于:
对于所述多个图像中的任意一组图像,对该组图像中第一图像的目标哈希值和第二图像的目标哈希值进行异或操作;在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果全为0的情况下,确定所述第一图像或者所述第二图像为重复图像;在所述第一图像的哈希值与所述第二图像的哈希值的第一异或结果不全为0的情况下,获取所述第一图像的每个所述局部图像的哈希值与所述第二图像的每个所述局部图像的哈希值的第二异或结果中0的数量;在所述第二异或结果中0的数量大于预设的数量阈值的情况下,确定所述第一图像或者所述第二图像为重复图像。
6.根据权利要求5所述的装置,其特征在于,用于将所述图像划分为多个局部图像的所述目标哈希值计算模块,具体用于:
将所述图像划分为多个具有重叠区域的局部图像。
7.根据权利要求5所述的装置,其特征在于,用于根据所述图像对应的DCT系数矩阵计算所述图像的哈希值的所述目标哈希值计算模块,具体用于:
对所述图像对应的DCT系数矩阵进行均值计算得到所述图像的DCT系数均值;根据所述图像的DCT系数均值对所述图像对应的DCT系数矩阵中各DCT系数进行量化;根据所述图像对应的DCT系数矩阵中各DCT系数的量化结果确定所述图像的哈希值;
用于根据每个所述局部图像对应的DCT系数矩阵计算每个所述局部图像的哈希值的所述目标哈希值计算模块,具体用于:
对每个所述局部图像对应的DCT系数矩阵进行均值计算得到每个所述局部图像的DCT系数均值;根据每个所述局部图像的DCT系数均值对每个所述局部图像对应的DCT系数矩阵中各DCT系数进行量化;根据每个所述局部图像对应的DCT系数矩阵中各DCT系数的量化结果确定每个所述局部图像的哈希值。
8.根据权利要求5所述的装置,其特征在于,所述目标哈希值计算模块,还用于:
将所述图像的目标哈希值设置为二进制位形式。
CN201911327469.5A 2019-12-20 2019-12-20 一种图像去重方法及装置 Active CN111078928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911327469.5A CN111078928B (zh) 2019-12-20 2019-12-20 一种图像去重方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911327469.5A CN111078928B (zh) 2019-12-20 2019-12-20 一种图像去重方法及装置

Publications (2)

Publication Number Publication Date
CN111078928A CN111078928A (zh) 2020-04-28
CN111078928B true CN111078928B (zh) 2023-07-21

Family

ID=70316317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911327469.5A Active CN111078928B (zh) 2019-12-20 2019-12-20 一种图像去重方法及装置

Country Status (1)

Country Link
CN (1) CN111078928B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111935506B (zh) * 2020-08-19 2023-03-28 百度时代网络技术(北京)有限公司 用于确定重复视频帧的方法和装置
CN115357742B (zh) * 2022-08-02 2023-06-30 广州市玄武无线科技股份有限公司 门店图像查重方法、系统、终端设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法
CN106612436A (zh) * 2016-01-28 2017-05-03 四川用联信息技术有限公司 一种基于dct变换下的视觉感知修正图像压缩方法
CN107464268A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种利用全局和局部特征的联合编码方法
CN107657629A (zh) * 2017-10-27 2018-02-02 广东工业大学 一种目标的跟踪方法和跟踪系统
CN108121806A (zh) * 2017-12-26 2018-06-05 湖北工业大学 一种基于局部特征匹配的图像搜索方法及系统
CN108829435A (zh) * 2018-06-19 2018-11-16 数据堂(北京)科技股份有限公司 一种图像标注方法及通用图像标注工具
GB201904182D0 (en) * 2019-03-26 2019-05-08 Sony Corp A method, apparatus and computer program product for storing images of a scene

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9628805B2 (en) * 2014-05-20 2017-04-18 AVAST Software s.r.o. Tunable multi-part perceptual image hashing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881470A (zh) * 2015-05-28 2015-09-02 暨南大学 一种面向海量图片数据的重复数据删除方法
CN106612436A (zh) * 2016-01-28 2017-05-03 四川用联信息技术有限公司 一种基于dct变换下的视觉感知修正图像压缩方法
CN107464268A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种利用全局和局部特征的联合编码方法
CN107657629A (zh) * 2017-10-27 2018-02-02 广东工业大学 一种目标的跟踪方法和跟踪系统
CN108121806A (zh) * 2017-12-26 2018-06-05 湖北工业大学 一种基于局部特征匹配的图像搜索方法及系统
CN108829435A (zh) * 2018-06-19 2018-11-16 数据堂(北京)科技股份有限公司 一种图像标注方法及通用图像标注工具
GB201904182D0 (en) * 2019-03-26 2019-05-08 Sony Corp A method, apparatus and computer program product for storing images of a scene

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于分块DCT的图像去重算法";江小平、胡雪晴、孙婧、李成华;《中南民族大学学报(自然科学版)》;20180915;第37卷(第03期);全文 *
"基于感知哈希的多媒体去重研究";胡雪晴;《信息科技辑》;20190515(第05期);第I138-1535页 *

Also Published As

Publication number Publication date
CN111078928A (zh) 2020-04-28

Similar Documents

Publication Publication Date Title
Li et al. Revealing the trace of high-quality JPEG compression through quantization noise analysis
TWI426774B (zh) 用於針對jpeg壓縮歷史紀錄分類為壓縮影像的方法、及用於針對影像是否已經過jpeg壓縮而分類影像的設備及影像分類方法
CN100490494C (zh) 解码设备、逆量化方法、分布确定方法及其程序
CN111078928B (zh) 一种图像去重方法及装置
Li et al. Detection of tampered region for JPEG images by using mode-based first digit features
CN107516301A (zh) 一种基于压缩感知在图像重建中测量矩阵的构造优化方法
JP5962937B2 (ja) 画像処理方法
CN102138162A (zh) 用于快速图像相似度搜索的基于片的纹理直方图编码
CN103218427B (zh) 局部描述子的提取方法、图像检索方法及图像匹配方法
CN110766708B (zh) 基于轮廓相似度的图像比较方法
CN106157232B (zh) 一种数字图像特征感知的通用隐写分析方法
Yao et al. An improved first quantization matrix estimation for nonaligned double compressed JPEG images
Vázquez et al. Using normalized compression distance for image similarity measurement: an experimental study
Novozámský et al. Detection of copy-move image modification using JPEG compression model
Niu et al. Machine learning-based framework for saliency detection in distorted images
CN104392207A (zh) 一种用于数字图像内容识别的特征编码方法
Sim et al. Translation, scale, and rotation invariant texture descriptor for texture-based image retrieval
CN103279914A (zh) 一种基于蛙跳优化的图像压缩感知隐写方法及装置
CN108090914B (zh) 基于统计建模与像素分类的彩色图像分割方法
US20170097981A1 (en) Apparatus and method for data compression
CN117011703A (zh) 一种输电线路巡检图像去重方法
Ardizzone et al. Detection of duplicated regions in tampered digital images by bit-plane analysis
CN116363309A (zh) 基于点云投影采样的三维信息隐藏方法与装置
CN1471674A (zh) 使用比例项、早期中止和精度细算的更快速变换
CN114170112A (zh) 一种修复图像的方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant