CN107515895B - 一种基于目标检测的视觉目标检索方法与系统 - Google Patents

一种基于目标检测的视觉目标检索方法与系统 Download PDF

Info

Publication number
CN107515895B
CN107515895B CN201710574741.4A CN201710574741A CN107515895B CN 107515895 B CN107515895 B CN 107515895B CN 201710574741 A CN201710574741 A CN 201710574741A CN 107515895 B CN107515895 B CN 107515895B
Authority
CN
China
Prior art keywords
picture
target detection
target
detection model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710574741.4A
Other languages
English (en)
Other versions
CN107515895A (zh
Inventor
唐胜
肖俊斌
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201710574741.4A priority Critical patent/CN107515895B/zh
Publication of CN107515895A publication Critical patent/CN107515895A/zh
Application granted granted Critical
Publication of CN107515895B publication Critical patent/CN107515895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本发明涉及一种基于目标检测的视觉目标检索方法和系统,包括:采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对初步目标检测模型进行微调,生成最终目标检测模型;通过最终目标检测模型对待检索图片中的视觉目标进行特征提取,生成待检索图片的多个卷积特征图,通过空间注意力矩阵将卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与聚合特征向量相匹配的图片。本发明通过将视觉目标检索与检测相关联,避免了候选窗口预测步骤,并通过选择性累加特征图得到注意力矩阵,将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索,提高了检索速度和精度。

Description

一种基于目标检测的视觉目标检索方法与系统
技术领域
本发明涉及多媒体内容分析领域,特别涉及一种基于目标检测的视觉目标检索方法与系统。
背景技术
视觉目标检索为图像检索的一种,它在商品搜索、目标识别、目标跟踪等领域得到广泛的应用。区别于基于内容的近似图像检索,视觉目标检索要检索的不是与查询图像相似的图像,而是与查询图像具有同一视觉目标的图像。如图1左侧内容所示,这一视觉目标只占据图像的一小部分(白框内为目标),并且包含该目标的查询图像与图1右侧库中图像在拍摄角度、光照、形状和大小等方面存在很大的差异。研究视觉目标检索具有重要的意义,同时也具有极大的挑战性。
传统的目标检索方法通过提取图像的局部特征如SIFT、SURF等进行特征匹配,并辅以几何关系验证,在该任务上展现出了良好的鲁棒性。但由于局部特征提取和空间关系验证非常耗时,对于实时性要求高的场合难以适用。近年来,基于深度学习的目标检索技术备受关注,这些技术按照是否需要针对目标任务重新学习可分为两大类:一、利用在大规模分类数据集(如ImageNet)上预训练好的模型直接提取现成的特征进行检索,该类技术侧重于如何利用已有的网络模型提取出适用于检索的特征,避免了面向检索的训练数据集缺乏的问题,但是预训练的模型往往是通过训练面向分类的神经网络(如AlexNet、VGGNet、GoogleNet、ResNet等)而获得的,不是面向检索的网络模型,因而其检索结果很难再进一步提高。二、利用目标相关的数据集对网络进行微调。该类方法利用排序损失(Rank Loss)和对比损失(Contrastive Loss)等面向检索的损失函数端到端学习针对检索的特征。针对目标任务再次学习的方法整体上比利用现成网络模型直接提特征的方法要好,但是其结果往往严重依赖于微调的数据集与目标数据集的视觉相似度。也就是说,如果组织其他辅助数据集学习,则存在域迁移的问题。直接利用目标数据集的查询图片微调可以避免这个问题,但是查询图片的数量极其有限,难以直接用于训练深层网络。
随着目标检测的快速发展,其在检测准确度、速度等方面都取得了惊人的进步。目标检测能够获得图像目标层次的信息,也就是说能够从图像中找到要检索的目标。因此最近文献成功使用目标检测网络Faster R-CNN(Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems.2015:91-99.)的卷积层特征进行视觉目标检索,并取得了良好的检索效果,但是文献侧重于利用FasterR-CNN的RPN部分预测的候选窗口做空间重排序(Spatial Re-ranking)。其采用的策略是利用多个候选区域内的特征进行穷举匹配,然后找相似度最高的两个候选区域的相似度得分作为两张图像的最终相似度得分,该过程可以看做是查询图像预测的多个目标与库中图像预测的多个目标的一一匹配,非常耗时,平均查询一张图片花费将近2.5分钟,实用性较差。此外,文献通过采用RPN产生的候选区域来代替R-MAC中的滑动窗口,在清洗过的Landmark数据集上端到端学习一个全局特征表达,从而取得了目前视觉目标检索的最好的结果,但是其把每一个候选窗口特征同等看待,而实际上只有一个或者少数几个窗口真正包含有待检索的目标,因此会引入很多噪声,此外由于其学习的数据集主要包含地标,仅在地标检索上取得了好结果,在其他数据集上的结果不得而知,以上两种方法都是把预测的候选窗口内的特征看作是图像局部块的描述子来进行特征匹配,神经网络产生候选窗口这一步实际上是比较耗时的,而且候选窗口是矩形,与物体的实际形状存在差异。
因此已有的借助于目标检测技术来解决目标检索的方法中存在以下问题:一、利用候选窗口穷举匹配的时间复杂度高(图3所示);二、各个候选窗口同等权重考虑容易引起噪声干扰(图4所示);三、矩形的候选区域与物体的实际形状不符,如图2A与图2B所示,包含两个不同但很相近的建筑。
发明内容
为了解决上述技术问题,本发明目的在于提供一种基于检测与投票的注意力机制用于图像检索。具体地说,本发明公开了一种基于目标检测的视觉目标检索方法,其中包括:
目标检测模型训练步骤,采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合步骤,输入待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片。
该基于目标检测的视觉目标检索方法,其中该交叉熵损失函数为:
Figure BDA0001350625270000031
该交叉熵损失函数对应的梯度为:
Figure BDA0001350625270000032
式中
Figure BDA0001350625270000033
为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
该基于目标检测的视觉目标检索方法,其中该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,
Figure BDA0001350625270000034
W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
该基于目标检测的视觉目标检索方法,其中该空间注意力矩阵为:
Figure BDA0001350625270000035
其中t是一个稀疏度阈值超参数,βk代表第k个特征图的稀疏度,K为该卷积层通道数,m为卷积特征图,I为指示函数当条件满足时值为1,否则为0。
该基于目标检测的视觉目标检索方法,其中
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
本发明还提出了一种基于目标检测的视觉目标检索系统,其中包括:
目标检测模型训练模块,用于运行IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合模块,用于接收待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片。
该基于目标检测的视觉目标检索系统,其中该交叉熵损失函数为:
Figure BDA0001350625270000041
该交叉熵损失函数对应的梯度为:
Figure BDA0001350625270000042
式中
Figure BDA0001350625270000043
为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
该基于目标检测的视觉目标检索系统,其中该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,
Figure BDA0001350625270000044
W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
该基于目标检测的视觉目标检索系统,其中该空间注意力矩阵为:
Figure BDA0001350625270000045
其中t是一个稀疏度阈值超参数,βk代表第k个特征图的稀疏度,K为该卷积层通道数,m为卷积特征图,I为指示函数当条件满足时值为1,否则为0。
该基于目标检测的视觉目标检索系统,其中
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
本发明通过将视觉目标检索与检测相关联,避开了目标检测中的候选窗口预测这一步骤,直接利用检测网络的卷积特征图上呈现出来的对目标实例的良好空间分布信息,并进一步通过选择性累加特征图的机制得到空间分布的注意力矩阵,将卷积层的局部描述子带权聚合成一个全局特征表达用于视觉目标检索,相比于之前的利用目标检测网络做检索的工作加快了检索速度,提高了检索的平均精度(mAP)。
附图说明
图1为视觉目标检索示意图;
图2A、图2B为近似图像检索结果图;
图3为基于候选窗口穷举的特征匹配方式示意图;
图4为基于所有窗口特征同等权重聚合的特征匹配方式示意图;
图5为本发明基于检测与投票的注意力机制的特征匹配方式示意图;
图6为本发明基于检测与投票的注意力机制用于图像检索的整体框架图;
图7为本发明实验数据中PASCAL VOC07数据集目标检测结果表格图;
图8为本发明实验数据中Oxford5K数据集检索结果表格图;
图9为本发明在公共数据集上的检索结果与现有检索方法的比较表格图。
具体实施方式
针对以上问题,本发明提出一种基于检测与投票的注意力机制用于图像检索(图5所示),并下文特举实施例,并配合说明书附图作详细说明如下。本发明属于基于深度学习的以图搜图技术。本发明整的技术框架如图6所示,图6中下半部分对应离线网络训练阶段,为Faster R-CNN的框架图,其通过IDF(inverse document frequency)带权的交叉熵损失函数训练得到一个目标检测模型,即下文中的最终目标检测模型;图6中上半部分对应在线特征提取阶段,为利用该最终目标检测模型提取待检索图片的卷积层的特征向量,并通过注意力系数带权将该特征向量聚合成全局特征用于目标检索。其中该待检索图片数目为多个,在本发明中对每张待检索图像进行处理得到一个聚合特征向量,通过该聚合特征向量可以把注意力集中到待检索的视觉目标上,将图像之间的相似度匹配转化为特征向量间的相似性度量。相应地,本发明采用注意力机制主要考虑到以下两方面:一、针对目标检测训练好的最终目标检测模型在其卷积层特征图上会呈现良好的空间分布信息,也就是说用于检测的最终目标检测模型能够成功的关注到目标实例区域,从而该区域对应的局部描述子的响应会更强。二、通过选择性累加多张卷积特征图可以进一步选择出最突出的视觉目标区域,使得目标区域的局部描述子在聚合的时候具有更大的权重。下面主要从离线目标检测网络训练和在线卷积特征聚合两个阶段对本发明进行详细介绍。
1、离线目标检测网络训练,即目标检测模型训练,采用两阶段训练策略,在公共(通用)的目标检测数据集上采用Faster R-CNN算法,训练得到一个初步目标检测模型,然后利用包含多个目标查询图片的检索数据集对该初步目标检测模型进行微调(fine-tune),该微调属于深度专有名词,指当目标数据集规模太小,直接利用目标数据集训练网络难以收敛时,可以利用一个更大的辅助数据集将网络训练收敛到一定程度,然后利用目标数据对网络进行微小的调节,使网络能够感知目标数据的特点。微调后生成最终目标检测模型,以使网络学习到待检索的目标实例信息,其中该目标查询图片是指包含有待检索目标的图片,例如:查找某个建筑,那么该目标查询图片需包含要查找的该建筑,这样系统可以学习到需要查找图片中的哪个目标,但不局限于带检索图片,重要的是图片中的某个目标。其中该微调技术上与前面所述的初步目标检测模型训练一样,只是在一些超参数的选取上不同,例如减少训练的迭代次数,减小初始的学习率等,此外因为公共目标检测数据集如PASCVOC中定义的感兴趣的目标(如人、车、狗和植物等)与检索数据集中感兴趣的目标可能存在差异,例如Oxford Buildings数据集感兴趣的为地标建筑,特别是,当检索的目标与前面检测的目标出现在同一张图像中时(例如人站在建筑前,建筑旁边有植物),会给检索带来很大的干扰。为了增强通用网络的泛化性能,在训练的时候,本发明通过引入一个IDF权重形式的交叉熵(cross entropy)损失函数指导该最终目标检测模型的训练,在本实例中即为指导Faster R-CNN中的VGG16层的网络进行训练,该损失函数在训练初始目标检测模型时使用。该损失函数如下:
Figure BDA0001350625270000071
对应的梯度为:
Figure BDA0001350625270000072
公式(1)(2)中,
Figure BDA0001350625270000073
为标准的Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,Sj表示第j个类别的IDF权重系数。I为指示函数,当条件满足时值为1,否则为0,θ指需要学习的全部网络参数。Sj是新引入的与每个类别数目相关的IDF权重系数,其具体形式为:
Figure BDA0001350625270000074
其中Sj表示第j个类别的IDF权重系数,ci表示训练样本中属于第i个类别的视觉目标的数目,ε为一个很小的常数,用于防止分母为0。该IDF权重系数的意义为当某个类别的样本数目比较多时,会给该类别分配较小的权重,相反,当某个类别的数目比较少时,会给其分配比较大的权重。这种训练样本分布信息将由损失函数传递给误差梯度,作用到整个网络的学习过程中。网络的训练采用FasterR-CNN的端到端训练方式,所有参数与Faster原论文保持不变,除了微调的次数减少为7000次。本发明通过损失函数把数据的分布当做先验知识加入到后向传播的梯度中,一定程度上缓解了数据类别分布严重不均衡的问题,使得网络的训练损失平滑下降,学到的网络模型泛化性更好。
2、特征提取与聚合。本部分重点介绍如何利用上一阶段得到的最终目标检测模型提取待检索图片的特征向量,并将该特征向量聚合成一个全局图像表达用于检索。在本实施例中上一阶段得到的最终目标检测模型属于FasterR-CNN模型,因此本阶段承接上一阶段继续使用FasterR-CNN模型提取特征向量。需要注意的是目标检测模型包含区域提取网络和分类网络,分类网络有很多选择,本发明实施例中采用的分类网络为VGG16网络。特征向量聚合是本发明的关键点,下面对其进行详细介绍。
2.1选择性累加
一种基于检测和投票的注意力机制,其中投票是通过选择性累加特征图的方式体现的。该机制使得图像中目标区域所对应的局部特征的响应更强,并且对应的权重也更大,目标区域的特征在整张图像的特征中占主导地位,能够显著提高视觉目标检索的速度与平均准确率(meanaverageprecision,mAP)。
设F={f1,f2,f3,...,fK},F为聚合后的k维的聚合特征向量,其中fk可以根据下式计算得到:
Figure BDA0001350625270000081
其中W、H和K分别为最终目标检测模型最后一个卷积层的宽、高和通道数。m为卷积的特征图,即未使用本发明做后处理(根据注意力矩阵加权)的特征图,i、j分别是特征图内某个数值的索引,mijk表示第k个特征图内的第i行第j列的元素。α为空间注意力矩阵,注意力矩阵中的元素称为注意力系数,α通过选择性累加特征图的方式得到:
Figure BDA0001350625270000082
这里t是一个稀疏度阈值超参数,根据以往实验数据t一般取0.6,超参数是指需要人为设定的参数,与算法中需要优化的参数进行区分。βk代表第k个特征图的稀疏度,这里本发明采用先统计每张特征图上非0元素所占的百分比:
Figure BDA0001350625270000083
然后采用如下IDF形式计算出稀疏度:
Figure BDA0001350625270000084
这里ε为一个很小的常数,用于防止分母为0,使其计算稳定,在接下来的实施例中为了计算方便将其设为0。根据公式(6),特征图越稀疏,则其稀疏度β值越大。在公式(5)算完得到α矩阵之后,α将进一步采用L2归一化进行数据平滑。
公式(5)中,本发明抛弃稀疏度大的特征图而选择稀疏度较小的特征图进行累加,是因为太稀疏的特征图往往只包含少数几个孤立的响应点,这些点很大概率是噪声引起,所以本发明将其对应的特征图抛弃掉。
2.2 Hellinger距离
本发明采用基于选择性累加和Hellinger距离的深度卷积特征聚合方式。通过多个特征图投票的方式得到特征分布的注意力矩阵,特征聚合的时候,可以起到进一步强化目标区域特征的作用。具体包括,如果将公式(4)得到的特征向量F直接采用欧氏距离进行相似性度量,会有一个问题。因为在注意力矩阵中,视觉突出部分的值会很大,那么原来稠密的特征图矩阵加权求和后得到的值相对而言会比较大。进行距离度量时,整个特征向量的欧氏距离将偏向于维度明显大的值,容易引起偏差。本发明采用Hellinger距离进行度量。Hellinger距离由Hellinger核引出,用于度量两个概率分布的相似度。
假设A、B为两个L1归一化的概率分布,Hellinger核定义为:
Figure BDA0001350625270000091
其与欧氏距离紧密相关,因为:
Figure BDA0001350625270000092
根据(7)可知,在实际计算过程中,依然可以使用欧氏距离,只是在计算时,先将特征向量进行L1归一化,然后开根号即可,也就是说,本发明进一步将公式(4)进行如下转变:
Figure BDA0001350625270000093
由上式得到的特征经过L2归一化,PCA白化处理,已及再次L2归一化后用于最终的图像检索。
实验结果展示。如图7所示oLoss与wLoss分别表示使用原Faster R-CNN的损失函数与本发明提出的IDF权重损失函数直接训练。*_Ft表示利用FasterR-CNN公布的模型微调。从图7中可以看出不管是直接训练还是微调,本发明的IDF权重形式的损失函数都优于原来的损失函数。
如图8所示Oxford5K数据集检索结果。(w/o)表示不使用查询扩展。CLS表示仅使用分类的损失函数训练的模型,oDET和wDET分别表示使用原来的损失函数训练与使用IDF权重损失训练得到的模型。CroW是文献(Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weighting for aggregated deep convolutional features[C]//EuropeanConference on Computer Vision.Springer International Publishing,2016:685-701.)提出的特征聚合方式,RSSP是本发明提出的聚合方式。图表中的第1行与第2行,第3行与第4行,第5行与第6行的结果对比充分说明了本发明提出的RSSP特征聚合的有效性。表中第1行与3行,第2行与第3行对比说明了使用目标检测的注意力机制的有效性。表中最后一行说明了基于检测和投票的注意力机制具有互补性,二者相得益彰,取得最佳结果。
如图9所示的DVA#2表示使用Flickr100K数据集训练PCA。本发明提出的检索方法(DVA)与目前最好的结果对比。在不使用查询扩展的情况下,本发明的方法在所有数据集上都取得了最好结果。使用查询扩展的情况下,本发明的方法在Oxford5k上依然领先最好的结果,在其他数据集上DIR展现了良好的性能,主要是因为DIR使用的排序损失,因此排在前面的样本更有效。此外,DIR训练过程复杂,而且需要专门组织与目标数据集相似的数据训练。
以下为与上述方法实施例对应的系统实施例,本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效,为了减少重复,这里不再赘述。相应地,本实施系统中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于目标检测的视觉目标检索系统,其中包括:
目标检测模型训练模块,用于运行IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合模块,用于接收待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片。
该基于目标检测的视觉目标检索系统,其中该交叉熵损失函数为:
Figure BDA0001350625270000101
该交叉熵损失函数对应的梯度为:
Figure BDA0001350625270000102
式中
Figure BDA0001350625270000103
为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
该基于目标检测的视觉目标检索系统,其中该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,
Figure BDA0001350625270000111
W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
该基于目标检测的视觉目标检索系统,其中该空间注意力矩阵为:
Figure BDA0001350625270000112
其中t是一个稀疏度阈值超参数,βk代表第k个特征图的稀疏度,K为该卷积层通道数,m为卷积特征图,I为指示函数当条件满足时值为1,否则为0。
该基于目标检测的视觉目标检索系统,其中
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。

Claims (8)

1.一种基于目标检测的视觉目标检索方法,其特征在于,包括:
目标检测模型训练步骤,采用IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合步骤,输入待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片;
该交叉熵损失函数为:
Figure FDA0002237307180000011
该交叉熵损失函数对应的梯度为:
Figure FDA0002237307180000012
式中
Figure FDA0002237307180000013
为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
2.如权利要求1所述的基于目标检测的视觉目标检索方法,其特征在于,该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,
Figure FDA0002237307180000014
W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
3.如权利要求1所述的基于目标检测的视觉目标检索方法,其特征在于,该空间注意力矩阵为:
Figure FDA0002237307180000015
其中t是一个稀疏度阈值超参数,βk代表第k个特征图的稀疏度,K为该卷积层通道数,m为卷积特征图,I为指示函数当条件满足时值为1,否则为0。
4.如权利要求1所述的基于目标检测的视觉目标检索方法,其特征在于,
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
5.一种基于目标检测的视觉目标检索系统,其特征在于,包括:
目标检测模型训练模块,用于运行IDF带权的交叉熵损失函数对公共目标检测数据集进行训练,生成初步目标检测模型;采用包含用户指定目标类型的检索数据集对该初步目标检测模型进行微调,生成最终目标检测模型;
特征提取与聚合模块,用于接收待检索图片,通过该最终目标检测模型对该待检索图片中的视觉目标进行特征提取,生成该待检索图片的多个卷积特征图,通过空间注意力矩阵将该卷积特征图进行聚合,生成聚合特征向量,以在图片库中检索与该聚合特征向量相匹配的图片;
该交叉熵损失函数为:
Figure FDA0002237307180000021
该交叉熵损失函数对应的梯度为:
Figure FDA0002237307180000022
式中
Figure FDA0002237307180000023
为标准Softmax函数,C为训练数据总的类别个数,x和y分别为一个训练样本的特征和类别标签,I为指示函数,当条件满足时值为1,否则为0,Sj是与第j个类别数目相关的IDF权重系数,θ为需要学习的网络参数。
6.如权利要求5所述的基于目标检测的视觉目标检索系统,其特征在于,该聚合特征向量为:F={f1,f2,f3,...,fK},其中F为该聚合特征向量,
Figure FDA0002237307180000024
W、H和K分别为该最终目标检测模型中最后一个卷积层的宽、高和通道数,m为卷积特征图,α为空间注意力矩阵,i、j分别是特征图内某个数值的索引。
7.如权利要求5所述的基于目标检测的视觉目标检索系统,其特征在于,该空间注意力矩阵为:
Figure FDA0002237307180000031
其中t是一个稀疏度阈值超参数,βk代表第k个特征图的稀疏度,K为该卷积层通道数,m为卷积特征图,I为指示函数当条件满足时值为1,否则为0。
8.如权利要求5所述的基于目标检测的视觉目标检索系统,其特征在于,
该图片库中包括多个图片,每个该图片对应一个图片特征向量;
其中该相匹配的图片,是通过计算该聚合特征向量与每个该图片特征向量间的Hellinger距离得到的。
CN201710574741.4A 2017-07-14 2017-07-14 一种基于目标检测的视觉目标检索方法与系统 Active CN107515895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710574741.4A CN107515895B (zh) 2017-07-14 2017-07-14 一种基于目标检测的视觉目标检索方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710574741.4A CN107515895B (zh) 2017-07-14 2017-07-14 一种基于目标检测的视觉目标检索方法与系统

Publications (2)

Publication Number Publication Date
CN107515895A CN107515895A (zh) 2017-12-26
CN107515895B true CN107515895B (zh) 2020-06-05

Family

ID=60721794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710574741.4A Active CN107515895B (zh) 2017-07-14 2017-07-14 一种基于目标检测的视觉目标检索方法与系统

Country Status (1)

Country Link
CN (1) CN107515895B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108447048B (zh) * 2018-02-23 2021-09-14 天津大学 基于关注层的卷积神经网络图像特征处理方法
KR102480323B1 (ko) * 2018-03-22 2022-12-23 광동 오포 모바일 텔레커뮤니케이션즈 코포레이션 리미티드 비디오 시간 세그먼트를 검색하는 방법과 시스템
CN108556795A (zh) * 2018-04-08 2018-09-21 广州大学 一种车辆智能电控设备集成控制方法及系统
CN109033950B (zh) * 2018-06-12 2020-07-17 浙江工业大学 基于多特征融合级联深度模型的车辆违停检测方法
CN109035233B (zh) * 2018-07-24 2021-09-21 西安邮电大学 视觉注意力网络系统及工件表面缺陷检测方法
CN110751163B (zh) * 2018-07-24 2023-05-26 杭州海康威视数字技术股份有限公司 目标定位方法及其装置、计算机可读存储介质和电子设备
CN109300114A (zh) * 2018-08-30 2019-02-01 西南交通大学 高铁接触网支撑装置极小目标零部件顶紧缺失检测方法
CN109460483B (zh) * 2018-09-26 2021-05-04 北京理工大学 一种基于深度注意力机制的图片新闻封面自动选择方法
CN111127509B (zh) * 2018-10-31 2023-09-01 杭州海康威视数字技术股份有限公司 目标跟踪方法、装置和计算机可读存储介质
CN109635926B (zh) * 2018-11-30 2021-11-05 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
CN109829427B (zh) * 2019-01-31 2022-05-17 福州大学 一种基于纯度检测和空间注意力网络的人脸聚类方法
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN109948700B (zh) * 2019-03-19 2020-07-24 北京字节跳动网络技术有限公司 用于生成特征图的方法和装置
CN110321451B (zh) * 2019-04-25 2022-08-05 吉林大学 基于分布熵增益损失函数的图像检索算法
CN110334226B (zh) * 2019-04-25 2022-04-05 吉林大学 融合特征分布熵的深度图像检索方法
CN110580525B (zh) * 2019-06-03 2021-05-11 北京邮电大学 适用于资源受限的设备的神经网络压缩方法及系统
CN110347854B (zh) * 2019-06-13 2022-02-22 西安理工大学 基于目标定位的图像检索方法
CN110598037B (zh) * 2019-09-23 2022-01-04 腾讯科技(深圳)有限公司 一种图像搜索方法、装置和存储介质
CN110765291A (zh) * 2019-10-28 2020-02-07 广东三维家信息科技有限公司 检索方法、装置及电子设备
CN111553372B (zh) * 2020-04-24 2023-08-08 北京搜狗科技发展有限公司 一种训练图像识别网络、图像识别搜索的方法及相关装置
CN111340509B (zh) * 2020-05-22 2020-08-21 支付宝(杭州)信息技术有限公司 一种虚假交易识别方法、装置及电子设备
CN111814726B (zh) * 2020-07-20 2023-09-22 南京工程学院 一种探测机器人视觉目标检测方法
CN111914110A (zh) * 2020-07-29 2020-11-10 厦门大学 一种基于深度激活显著区域的实例检索方法
CN113177546A (zh) * 2021-04-30 2021-07-27 中国科学技术大学 一种基于稀疏注意力模块的目标检测方法
CN113901250B (zh) * 2021-10-09 2023-07-21 南京航空航天大学 一种基于显著性注意力的美容产品检索方法
CN115222896B (zh) * 2022-09-20 2023-05-23 荣耀终端有限公司 三维重建方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311334B2 (en) * 2008-10-31 2012-11-13 Ntt Docomo, Inc. Complexity regularized pattern representation, search, and compression
CN104794534A (zh) * 2015-04-16 2015-07-22 国网山东省电力公司临沂供电公司 一种基于改进深度学习模型的电网安全态势预测方法
CN105243154A (zh) * 2015-10-27 2016-01-13 武汉大学 基于显著点特征和稀疏自编码的遥感图像检索方法及系统
CN105844627A (zh) * 2016-03-21 2016-08-10 华中科技大学 一种基于卷积神经网络的海面目标图像背景抑制方法
CN106844524A (zh) * 2016-12-29 2017-06-13 北京工业大学 一种基于深度学习和Radon变换的医学图像检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8311334B2 (en) * 2008-10-31 2012-11-13 Ntt Docomo, Inc. Complexity regularized pattern representation, search, and compression
CN104794534A (zh) * 2015-04-16 2015-07-22 国网山东省电力公司临沂供电公司 一种基于改进深度学习模型的电网安全态势预测方法
CN105243154A (zh) * 2015-10-27 2016-01-13 武汉大学 基于显著点特征和稀疏自编码的遥感图像检索方法及系统
CN105844627A (zh) * 2016-03-21 2016-08-10 华中科技大学 一种基于卷积神经网络的海面目标图像背景抑制方法
CN106844524A (zh) * 2016-12-29 2017-06-13 北京工业大学 一种基于深度学习和Radon变换的医学图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
移动视觉搜索综述;贾佳 等;《计算机辅助设计与图形学学报》;20170615;全文 *

Also Published As

Publication number Publication date
CN107515895A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107515895B (zh) 一种基于目标检测的视觉目标检索方法与系统
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
CN110851645B (zh) 一种基于深度度量学习下相似性保持的图像检索方法
CN111177446B (zh) 一种用于足迹图像检索的方法
CN107368807B (zh) 一种基于视觉词袋模型的监控视频车型分类方法
CN108280187B (zh) 一种基于卷积神经网络深度特征的分级图像检索方法
CN104239898B (zh) 一种快速卡口车辆比对和车型识别方法
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
US20080063264A1 (en) Method for classifying data using an analytic manifold
CN110188225B (zh) 一种基于排序学习和多元损失的图像检索方法
CN110097060B (zh) 一种面向树干图像的开集识别方法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN102663447B (zh) 基于判别相关分析的跨媒体检索方法
CN112101430A (zh) 用于图像目标检测处理的锚框生成方法及轻量级目标检测方法
CN108897791B (zh) 一种基于深度卷积特征和语义相似度量的图像检索方法
CN110751027B (zh) 一种基于深度多示例学习的行人重识别方法
CN109871379B (zh) 一种基于数据块学习的在线哈希最近邻查询方法
CN108763295A (zh) 一种基于深度学习的视频近似拷贝检索算法
CN112163114B (zh) 一种基于特征融合的图像检索方法
CN105760875A (zh) 基于随机森林算法的判别二进制图像特征相似实现方法
Song et al. Deep region hashing for generic instance search from images

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant