CN106570141A - 近似重复图像检测方法 - Google Patents

近似重复图像检测方法 Download PDF

Info

Publication number
CN106570141A
CN106570141A CN201610965340.7A CN201610965340A CN106570141A CN 106570141 A CN106570141 A CN 106570141A CN 201610965340 A CN201610965340 A CN 201610965340A CN 106570141 A CN106570141 A CN 106570141A
Authority
CN
China
Prior art keywords
hash
image
approximate
sample
index structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610965340.7A
Other languages
English (en)
Other versions
CN106570141B (zh
Inventor
胡卫明
范亚博
兴军亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201610965340.7A priority Critical patent/CN106570141B/zh
Publication of CN106570141A publication Critical patent/CN106570141A/zh
Application granted granted Critical
Publication of CN106570141B publication Critical patent/CN106570141B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本发明公开了一种近似重复图像检测方法,包括以下步骤:步骤1:对待匹配图像进行对称层次哈希编码网络特征的提取与描述,得到用于构建局部敏感哈希索引结构的图像特征;步骤2:基于步骤1得到的图像特征,构建负载均衡的局部敏感哈希索引结构;步骤3:对查询图像提取对称卷积神经网络的特征并计算查询图像的对应哈希码,基于步骤2构建的负载均衡的局部敏感哈希索引结构,对待匹配图像的相关性进行排序,选取相关性最大的图像为近似重复图像。本发明实现快速有效地进行近似重复图像检测。

Description

近似重复图像检测方法
技术领域
本发明涉及图像检测领域,具体涉及一种近似重复图像检测方法。
背景技术
随着多媒体和互联网技术的快速发展,互联网上的图像数量爆炸式增长。同文字信息相比,基于视觉信息的图像更加形象、易于理解,这种优势使数字图像应用非常广泛,比如医学图像、新闻图像、商标图像等等。互联网上的图像经常有这样一种现象:通过使用图像搜索引擎比如Google或者百度,我们会发现一幅原始的数字图像经常会有很多近似重复的图像。这种现象造成了互联网存储以及带宽资源的巨大浪费,同时也带来了诸如图像侵权等问题。因此,高效的近似重复图像检测(Near Duplicate Image Detection,NDID)算法就显得尤为重要。
近似重复图像检测问题是基于内容的图像检索(Content Based ImageRetrieval,CBIR)的子问题,NDID问题有很明确的问题定义以及明显的特性,现在得到了广泛的关注和研究。近似重复图像是指对于一幅原始图像有很多经过变换的版本,常见的变换操作有:几何仿射变换、模糊、噪声污染、图像内容增强以及压缩等,在某些情况下,侵权图像可能只保留原始图像的一部分。近似重复图像在互联网上随处可见。网络环境下的近似重复图像包括了更多更显著的图像变换,如:文字嵌入、图像剪裁拼接等等,这些变换明显改善了图像表观,都为网络近似重复图像检测带来了极大的挑战。
发明内容
为了解决上述技术问题,即解决近似重复图像的效率问题,本发明的目的在于提出一种近似重复图像检测方法,有效地提高了近似重复图像检测的效率。
本发明的一种近似重复图像检测方法,该方法包括以下步骤:
步骤1:对待匹配图像进行对称层次哈希编码网络特征的提取与描述,得到用于构建建负载均衡的局部敏感哈希索引结构的图像特征;
步骤2:基于步骤1得到的图像特征,构建负载均衡的局部敏感哈希索引结构;
步骤3:对查询图像提取对称卷积神经网络的特征并计算查询图像的对应哈希码,基于步骤2构建的负载均衡的局部敏感哈希索引结构,对待匹配图像的相关性进行排序,选取相关性最大的图像为近似重复图像。
优选地,所述步骤1具体包括如下步骤:
步骤1a:构建两个网络结构以及参数完全相同的卷积神经网络构成对称卷积神经网络;
步骤1b:利用用于图像识别的基础数据集对alexnet网络结构进行微调;
步骤1c:将微调后的alexnet网络结构参数迁移到对称卷积神经网络中,使用预先构建的训练集对对称卷积神经网络进行训练;
步骤1d:使用训练好的对称卷积神经网络从待匹配样本中提取图像特征,构建负载均衡的局部敏感哈希索引结构。
优选地,所述步骤2具体包括如下步骤:
步骤2a:根据不同的度量距离生成对应的哈希函数,完成哈希函数初始化;
步骤2b:将步骤1中提取的图像特征根据对应的哈希函数映射到相应的哈希桶中,得到未调整的哈希表;
步骤2c:通过基本局部敏感哈希索引结构计算得到负载均衡哈希桶阈值ΔLB
步骤2d:依次检查每个哈希表中哈希桶内包含的图像样本数量是否超过阈值ΔLB,如果超过阈值ΔLB,对该哈希表执行局部重分配的操作,生成调整后的哈希表,并构建负载均衡的局部敏感哈希索引结构。
优选地,所述步骤3包括:
步骤3a:针对查询图像提取对称卷积神经网络的特征,计算查询图像的对应哈希码;
步骤3b:查找所构建的负载均衡的局部敏感哈希索引结构中与查询图像的哈希码碰撞的哈希桶,提取该哈希桶中的图像样本组成近似重复候选库;
步骤3c:依据近似重复候选库中各图像的特征,计算近似重复候选库中各图像的度量距离并进行相关性进行排序,选取相关性最大的图像为近似重复图像。
优选地,步骤1a中的卷积神经网络的损失层包括两部分:损失项和规则项;
损失项的损失函数Ec
其中,q是输出的近似哈希码位数,y代表输入图像对的相似度,D是输出近似哈希码的距离,margin用来调节语义不相似图像的图像对对总体损失函数的影响;
规则项的约束函数Eh
Eh=-∑(cos(|an|,1)+cos(|bn|,1))
其中,an、bn分别为对称网络两部分网络分别输出的近似哈希码向量,1是q维元素全为1的向量。
优选地,步骤后2a中采用的度量方式为汉明距离和欧氏距离;
汉明距离函数对应的哈希函数族H为:
H={h:h(xi)→{0,1}|i=1,2,…,g}
其中,g是哈希码的位数,xi是数据x的第i维数据,函数h是随机从函数族H中选择的。
欧式距离对应的哈希函数族hw,b(x)为:
其中,w是符合高斯分布产生的g维随机数,b是随机从范围[0,r]产生的,r是根据特征数值定义的常数。
优选地,步骤2c中负载均衡哈希桶阈值ΔLB的计算公式为:
其中,n是样本数量,d是数据样本的维数,L是哈希表数量,每个哈希表中最多保存B个哈希桶,c是近似系数。
优选地,步骤2d中对该哈希表执行局部重分配的操作的方法为:
对哈希桶样本数量超过阈值ΔLB哈希桶,计算哈希桶中样本每一维数据的平均值组成虚拟中心VC,然后计算该哈希桶中的样本与虚拟中心VC的距离,并依据各样本距离虚拟中心VC的距离将样本从大到小排序,将超过阈值ΔLB的样本送到下一个哈希桶中。
本发明中负载均衡的局部敏感哈希算法(Load Balanced LSH,LB-LSH)索引结构通过均衡哈希桶,使每个哈希桶含有的样本数量趋于均衡,从而提高近似重复图像检索问题的检测效率;通过构建负载均衡的局部敏感哈希索引结构,并基于该索引结构对待匹配图像的相关性进行排序,实现快速有效地进行近似重复图像检测。
附图说明
图1为本发明近似重复图像检测的流程示意图;
图2为本发明所采用的对称层次哈希编码网络。
图3为本发明提出的两步检测模型进行近似重复图像检测流程图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的方法并不受具体硬件和编程语言的限制,用任何语言编写都可以实现本发明的方法。本发明采用一台具有2.7G赫兹中央处理器和8G字节内存的计算机,并用Matlab语言实现了本发明的方法。
本发明近似重复图像检测的流程示意图如图1所示,其方法包括:
步骤1:对待匹配图像(即索引图像)进行对称层次哈希编码网络特征的提取与描述,得到用于构建负载均衡的局部敏感哈希索引结构的图像特征;本发明所采用的对称层次哈希编码网络如图2所示;
步骤2:基于步骤1得到的图像特征,构建负载均衡的局部敏感哈希索引结构;
步骤3:对查询图像提取对称卷积神经网络的特征并计算查询图像的对应哈希码,基于步骤2构建的负载均衡的局部敏感哈希索引结构,对待匹配图像的相关性进行排序,选取相关性最大的图像为近似重复图像。
本实施例中,步骤1具体包括如下步骤:
步骤1a:构建两个网络结构以及参数完全相同的卷积神经网络构成对称卷积神经网络。
本实施例使用的网络结构如图2所示,为对称层次哈希编码网络,该网络尝试将最后一个全连接层实现类似开关的1、-1属性,从而模拟哈希编码的学习过程。采用的网络是两个对称的卷积神经网络(CNN)网络,这两个卷积神经网络的网络结构和参数是完全相同的,其中对称层次哈希编码网络的损失函数层包括两部分:损失项和规则项;损失项用于衡量查询图像和待查询图像之间相似度,其损失函数Ec如公式(1)所示:
其中,q是输出的近似哈希码位数,y代表输入图像对的相似度,D是输出近似哈希码的距离,margin用来调节语义不相似图像的图像对对总体损失函数的影响,只有当该损失在某个范围(小于margin)才计入总体损失函数。
另外,需要输出的哈希编码是二值的,为了使输出映射为二值,在网络中添加了tanh函数为激活层,但是为了提高生成哈希码的质量,需要在损失函数中体现约束哈希编码二值化形式,于是规则项的约束函数Eh如公式(2)所示:
Eh=-∑(cos(|an|,1)+cos(|bn|,1)) (2)
其中,an、bn分别为对称网络两部分网络分别输出的近似哈希码向量,1是q维元素全为1的向量,对网络输出的近似哈希码取绝对值并与1向量计算余弦距离作为规则项,可以是输出的绝对值极可能地逼近数值1。
步骤1b:利用用于图像识别的基础数据集对alexnet网络结构进行微调(Fine-tuning),以得到涵盖特定领域的图像特征表达;本实施例中用于图像识别的基础数据集可以为UKBench、或CIFAR-10数据集、或自行构建的用于图像识别的数据集。
步骤1c:将微调后的alexnet网络结构参数迁移到对称卷积神经网络中,并分别添加一个全连接层和tanh函数激活的隐藏层(隐藏层中生成q比特哈希码),最后连接损失函数层,使用预先构建的训练集对对称卷积神经网络进行训练。
步骤1d:使用训练好的对称卷积神经网络从待匹配样本中提取FC8层图像特征,构建负载均衡的局部敏感哈希索引结构。
本实施例中步骤2具体包括如下步骤:
步骤2a:根据不同的度量距离生成对应的哈希函数,完成哈希函数初始化。
本实施例中采用的度量方式为汉明距离和欧氏距离;
汉明距离函数对应的哈希函数族H如公式(3)所示:
H={h:h(xi)→{0,1}|i=1,2,…,g} (3)
其中,g是哈希码的位数,xi是数据x的第i维数据,函数h是随机从哈希函数族H中选择的。
欧式距离对应的哈希函数族hw,b(x)如公式(4)所示:
其中,w是符合高斯分布产生的g维随机数,b是随机从范围[0,r]产生的,r是根据特征数值定义的常数。
步骤2b:将步骤1中提取的图像特征根据对应的哈希函数映射到相应的哈希桶中,即样本x被映射到第i个哈希表的哈希桶h(xi)中,得到未调整的哈希表。该步骤暂时不考虑理论计算的哈希桶样本数量阈值。
步骤2c:通过基本局部敏感哈希索引结构计算得到负载均衡哈希桶阈值ΔLB
本实例提出的负载均衡局部敏感哈希索引结构的关键是均衡哈希桶数量,从而得到负载均衡的索引结构。因此哈希桶阈值是一个关键参数,需要对基本局部敏感哈希索引结构的数学理论分析得到。对于有n个d维数据样本,可以有效解决近似最近邻搜索问题的局部敏感哈希索引结构需要(dn+n1+ρ)(其中n为样本数量,d为数据样本的维数,ρ为局部敏感哈希函数的参数)的存储空间。于是,得到了理论意义上的均衡哈希桶阈值,如公式(5)所示:
其中,n是样本数量,d是数据样本的维数,L是哈希表数量,每个哈希表中最多保存B个哈希桶,c是近似系数,c=2。
步骤2d:依次检查每个哈希表中哈希桶内包含的图像样本数量是否超过阈值ΔLB,如果超过阈值ΔLB,对该哈希表执行局部重分配的操作,生成调整后的哈希表,并构建负载均衡的局部敏感哈希索引结构。
本实施例中,步骤2d中对该哈希表执行局部重分配的操作的方法为:对哈希桶样本数量超过阈值ΔLB哈希桶,计算哈希桶中样本每一维数据的平均值组成虚拟中心VC,然后计算该哈希桶中的样本与虚拟中心VC的距离,并依据各样本距离虚拟中心VC的距离将样本从大到小排序,将超过阈值ΔLB的样本送到下一个哈希桶中。
本实施例中,步骤3具体如图3所示,可以分为粗粒度检索和详尽检索,可以通过下面的步骤对检索方法进行详细描述:
步骤3a:针对查询图像提取对称卷积神经网络的特征,计算查询图像的对应哈希码,即先对检索图像提取图2网络中的FC8层特征再结合不同度量距离产生的哈希函数计算对应的哈希码。
步骤3b:查找所构建的负载均衡的局部敏感哈希索引结构中与查询图像的哈希码碰撞的哈希桶,提取该哈希桶中的图像样本组成近似重复候选库,为了配合哈希桶重分配策略,负载均衡局部敏感哈希索引结构选取多于一个哈希桶中的样本组成潜在候选图像的近似重复候选库。该步骤的设计源于LSH的特性:如果两个相似的图像样本p和e没有被哈希映射到同一个哈希桶中,那么包含样本p和e的哈希桶大概率相邻,具体来说,对于查询样本e,我们应该首先将哈希桶hi(p)-th中的样本加入近似重复候选库,然后同时检查它的np个相邻哈希桶。
步骤3c:依据近似重复候选库中各图像的特征,计算近似重复候选库中各图像的度量距离并进行相关性进行排序,选取相关性最大的图像为近似重复图像,即可以采用F7层特征计算输入的查询图像与近似重复候选库中候选图像的相似度。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种近似重复图像检测方法,其特征在于,该方法包括以下步骤:
步骤1:对待匹配图像进行对称层次哈希编码网络特征的提取与描述,得到用于构建建负载均衡的局部敏感哈希索引结构的图像特征;
步骤2:基于步骤1得到的图像特征,构建负载均衡的局部敏感哈希索引结构;
步骤3:对查询图像提取对称卷积神经网络的特征并计算查询图像的对应哈希码,基于步骤2构建的负载均衡的局部敏感哈希索引结构,对待匹配图像的相关性进行排序,选取相关性最大的图像为近似重复图像。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括如下步骤:
步骤1a:构建两个网络结构以及参数完全相同的卷积神经网络构成对称卷积神经网络;
步骤1b:利用用于图像识别的基础数据集对alexnet网络结构进行微调;
步骤1c:将微调后的alexnet网络结构参数迁移到对称卷积神经网络中,使用预先构建的训练集对对称卷积神经网络进行训练;
步骤1d:使用训练好的对称卷积神经网络从待匹配样本中提取图像特征,构建负载均衡的局部敏感哈希索引结构。
3.根据权利要求2所述的方法,其特征在于,所述步骤2具体包括如下步骤:
步骤2a:根据不同的度量距离生成对应的哈希函数,完成哈希函数初始化;
步骤2b:将步骤1中提取的图像特征根据对应的哈希函数映射到相应的哈希桶中,得到未调整的哈希表;
步骤2c:通过基本局部敏感哈希索引结构计算得到负载均衡哈希桶阈值ΔLB
步骤2d:依次检查每个哈希表中哈希桶内包含的图像样本数量是否超过阈值ΔLB,如果超过阈值ΔLB,对该哈希表执行局部重分配的操作,生成调整后的哈希表,并构建负载均衡的局部敏感哈希索引结构。
4.根据权利要求3所述的方法,其特征在于,所述步骤3包括:
步骤3a:针对查询图像提取对称卷积神经网络的特征,计算查询图像的对应哈希码;
步骤3b:查找所构建的负载均衡的局部敏感哈希索引结构中与查询图像的哈希码碰撞的哈希桶,提取该哈希桶中的图像样本组成近似重复候选库;
步骤3c:依据近似重复候选库中各图像的特征,计算近似重复候选库中各图像的度量距离并进行相关性进行排序,选取相关性最大的图像为近似重复图像。
5.根据权利要求2~4中任一项所述的方法,其特征在于,步骤1a中的卷积神经网络的损失层包括两部分:损失项和规则项;
损失项的损失函数Ec
E c = 1 2 q Σ n = 1 q ( y · D 2 + ( 1 - y ) · m a x ( m arg i n - D , 0 ) 2 )
其中,q是输出的近似哈希码位数,y代表输入图像对的相似度,D是输出近似哈希码的距离,margin用来调节语义不相似图像的图像对对总体损失函数的影响;
规则项的约束函数Eh
Eh=-Σ(cos(|an|,1)+cos(|bn|,1))
其中,an、bn分别为对称网络两部分网络分别输出的近似哈希码向量,1是q维元素全为1的向量。
6.根据权利要求3或4中任一项所述的方法,其特征在于,步骤后2a中采用的度量方式为汉明距离和欧氏距离;
汉明距离函数对应的哈希函数族H为:
H={h:h(xi)→{0,1}|i=1,2,…,g}
其中,g是哈希码的维数,xi是数据x的第i维数据,函数h是随机从函数族H中选择的。
欧式距离对应的哈希函数族hw,b(x)为:
其中,w是符合高斯分布产生的g维随机数,b是随机从范围[0,r]产生的,r是根据特征数值定义的常数。
7.根据权利要求3或4中任一项所述的方法,其特征在于,步骤2c中负载均衡哈希桶阈值ΔLB的计算公式为:
其中,n是样本数量,d是数据样本的维数,L是哈希表数量,每个哈希表中最多保存B个哈希桶,c是近似系数。
8.根据权利要求3或4中任一项所述的方法,其特征在于,步骤2d中对该哈希表执行局部重分配的操作的方法为:
对哈希桶样本数量超过阈值ΔLB哈希桶,计算哈希桶中样本每一维数据的平均值组成虚拟中心VC,然后计算该哈希桶中的样本与虚拟中心VC的距离,并依据各样本距离虚拟中心VC的距离将样本从大到小排序,将超过阈值ΔLB的样本送到下一个哈希桶中。
CN201610965340.7A 2016-11-04 2016-11-04 近似重复图像检测方法 Active CN106570141B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610965340.7A CN106570141B (zh) 2016-11-04 2016-11-04 近似重复图像检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610965340.7A CN106570141B (zh) 2016-11-04 2016-11-04 近似重复图像检测方法

Publications (2)

Publication Number Publication Date
CN106570141A true CN106570141A (zh) 2017-04-19
CN106570141B CN106570141B (zh) 2020-05-19

Family

ID=58535829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610965340.7A Active CN106570141B (zh) 2016-11-04 2016-11-04 近似重复图像检测方法

Country Status (1)

Country Link
CN (1) CN106570141B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009592A (zh) * 2017-12-15 2018-05-08 云南大学 一种糖尿病性视网膜图像自动分类方法
CN108595710A (zh) * 2018-05-11 2018-09-28 杨晓春 一种快速的海量图片去重方法
CN108665441A (zh) * 2018-03-30 2018-10-16 北京三快在线科技有限公司 一种近似重复图像检测方法及装置,电子设备
CN109344278A (zh) * 2018-09-25 2019-02-15 北京邮电大学 一种视觉搜索方法、装置及设备
CN110189279A (zh) * 2019-06-10 2019-08-30 北京字节跳动网络技术有限公司 模型训练方法、装置、电子设备及存储介质
CN110443801A (zh) * 2019-08-23 2019-11-12 电子科技大学 一种基于改进AlexNet的盐丘识别方法
CN110490250A (zh) * 2019-08-19 2019-11-22 广州虎牙科技有限公司 一种人工智能训练集的获取方法及装置
CN110688514A (zh) * 2019-08-30 2020-01-14 中国人民财产保险股份有限公司 一种保险理赔图像数据的查重方法及装置
CN111177432A (zh) * 2019-12-23 2020-05-19 北京航空航天大学 一种基于分层深度哈希的大规模图像检索方法
CN112163226A (zh) * 2020-11-30 2021-01-01 中国人民解放军国防科技大学 基于图自动编码器的二进制相似性检测方法
CN112689125A (zh) * 2020-12-18 2021-04-20 中标慧安信息技术股份有限公司 基于物联网的多终端安全监控方法和系统
CN112685580A (zh) * 2020-12-25 2021-04-20 公安部第三研究所 基于深度学习的社交网络头像比对的分布式检测系统、方法、装置、处理器及其存储介质
CN113383314A (zh) * 2019-06-26 2021-09-10 深圳市欢太科技有限公司 用户相似度计算方法、装置、服务端及存储介质
CN113610016A (zh) * 2021-08-11 2021-11-05 人民中科(济南)智能技术有限公司 视频帧特征提取模型的训练方法、系统、设备及存储介质
WO2021223629A1 (zh) * 2020-05-07 2021-11-11 京东数科海益信息科技有限公司 用于分析图像素材的方法和装置
CN113688261A (zh) * 2021-08-25 2021-11-23 深圳极视角科技有限公司 图像数据清理方法、装置、电子设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN105956020A (zh) * 2016-04-22 2016-09-21 广州精点计算机科技有限公司 一种基于感知哈希的相似图像搜索方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035949A (zh) * 2013-12-10 2014-09-10 南京信息工程大学 一种基于局部敏感哈希改进算法的相似性数据检索方法
CN105956020A (zh) * 2016-04-22 2016-09-21 广州精点计算机科技有限公司 一种基于感知哈希的相似图像搜索方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SUMIT CHOPRA: "Learning a Similarity Metric Discriminatively, with Application to Face Verification", 《IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
YABO FAN: "Load-balanced Locality-sensitive Hashing:A new method for efficient near duplicate image detection", 《ICIP2015》 *
王星祥: "大规模旅游景点图像检索", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009592A (zh) * 2017-12-15 2018-05-08 云南大学 一种糖尿病性视网膜图像自动分类方法
CN108665441A (zh) * 2018-03-30 2018-10-16 北京三快在线科技有限公司 一种近似重复图像检测方法及装置,电子设备
CN108665441B (zh) * 2018-03-30 2019-09-17 北京三快在线科技有限公司 一种近似重复图像检测方法及装置,电子设备
CN108595710B (zh) * 2018-05-11 2021-07-13 杨晓春 一种快速的海量图片去重方法
CN108595710A (zh) * 2018-05-11 2018-09-28 杨晓春 一种快速的海量图片去重方法
CN109344278A (zh) * 2018-09-25 2019-02-15 北京邮电大学 一种视觉搜索方法、装置及设备
CN110189279A (zh) * 2019-06-10 2019-08-30 北京字节跳动网络技术有限公司 模型训练方法、装置、电子设备及存储介质
CN113383314A (zh) * 2019-06-26 2021-09-10 深圳市欢太科技有限公司 用户相似度计算方法、装置、服务端及存储介质
CN113383314B (zh) * 2019-06-26 2023-01-10 深圳市欢太科技有限公司 用户相似度计算方法、装置、服务端及存储介质
CN110490250A (zh) * 2019-08-19 2019-11-22 广州虎牙科技有限公司 一种人工智能训练集的获取方法及装置
CN110443801A (zh) * 2019-08-23 2019-11-12 电子科技大学 一种基于改进AlexNet的盐丘识别方法
CN110688514A (zh) * 2019-08-30 2020-01-14 中国人民财产保险股份有限公司 一种保险理赔图像数据的查重方法及装置
CN111177432A (zh) * 2019-12-23 2020-05-19 北京航空航天大学 一种基于分层深度哈希的大规模图像检索方法
WO2021223629A1 (zh) * 2020-05-07 2021-11-11 京东数科海益信息科技有限公司 用于分析图像素材的方法和装置
CN112163226B (zh) * 2020-11-30 2021-02-26 中国人民解放军国防科技大学 基于图自动编码器的二进制函数相似性检测方法
CN112163226A (zh) * 2020-11-30 2021-01-01 中国人民解放军国防科技大学 基于图自动编码器的二进制相似性检测方法
CN112689125A (zh) * 2020-12-18 2021-04-20 中标慧安信息技术股份有限公司 基于物联网的多终端安全监控方法和系统
CN112685580A (zh) * 2020-12-25 2021-04-20 公安部第三研究所 基于深度学习的社交网络头像比对的分布式检测系统、方法、装置、处理器及其存储介质
CN113610016A (zh) * 2021-08-11 2021-11-05 人民中科(济南)智能技术有限公司 视频帧特征提取模型的训练方法、系统、设备及存储介质
CN113610016B (zh) * 2021-08-11 2024-04-23 人民中科(济南)智能技术有限公司 视频帧特征提取模型的训练方法、系统、设备及存储介质
CN113688261A (zh) * 2021-08-25 2021-11-23 深圳极视角科技有限公司 图像数据清理方法、装置、电子设备及可读存储介质
CN113688261B (zh) * 2021-08-25 2023-10-13 山东极视角科技股份有限公司 图像数据清理方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN106570141B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN106570141A (zh) 近似重复图像检测方法
Wang et al. Enhancing sketch-based image retrieval by cnn semantic re-ranking
CN108334574B (zh) 一种基于协同矩阵分解的跨模态检索方法
CN103258000B (zh) 对网页中高频关键词进行聚类的方法及装置
US6760714B1 (en) Representation and retrieval of images using content vectors derived from image information elements
CN109948149B (zh) 一种文本分类方法及装置
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
CN107729311A (zh) 一种融合文本语气的中文文本特征提取方法
CN104268140B (zh) 基于权重自学习超图和多元信息融合的图像检索方法
CN109948125A (zh) 改进的Simhash算法在文本去重中的方法及系统
Fawaid et al. Indonesia’s fake news detection using transformer network
CN105183792B (zh) 一种基于局部敏感哈希的分布式快速文本分类方法
CN113806580A (zh) 基于层次语义结构的跨模态哈希检索方法
Qi et al. Object-based image retrieval with kernel on adjacency matrix and local combined features
CN108563794A (zh) 基于高阶奇异值分解的上下文推荐方法及装置
Farhangi et al. Informative visual words construction to improve bag of words image representation
CN111090749A (zh) 一种基于TextCNN的报刊出版物分类方法及系统
Lu et al. Context-based multi-label image annotation
Venugopal et al. Online writer identification system using adaptive sparse representation framework
Azcarraga et al. SOM-based methodology for building large text archives
Zhong et al. An effective and efficient broad-based ensemble learning model for moderate-large scale image recognition
Yu et al. Error-correcting output hashing in fast similarity search
CN117056550B (zh) 长尾图像检索方法、系统、设备及存储介质
Cai-Hong et al. A hybrid PSO and active learning SVM model for relevance feedback in the content-based images retrieval
Ren et al. An Improved CMAC Neural Network Model for Web Mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant