CN108460114B - 一种基于层次注意力模型的图像检索方法 - Google Patents

一种基于层次注意力模型的图像检索方法 Download PDF

Info

Publication number
CN108460114B
CN108460114B CN201810134366.6A CN201810134366A CN108460114B CN 108460114 B CN108460114 B CN 108460114B CN 201810134366 A CN201810134366 A CN 201810134366A CN 108460114 B CN108460114 B CN 108460114B
Authority
CN
China
Prior art keywords
layer
size
convolutional
output
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810134366.6A
Other languages
English (en)
Other versions
CN108460114A (zh
Inventor
余春艳
徐小丹
杨素琼
陈立
王秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810134366.6A priority Critical patent/CN108460114B/zh
Publication of CN108460114A publication Critical patent/CN108460114A/zh
Application granted granted Critical
Publication of CN108460114B publication Critical patent/CN108460114B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于层次注意力模型的图像检索方法。包括S1.建立层次注意力模型以得出图像的显著性目标及其对应的显著值,并按其显著性值排序;S2.利用层次注意力模型将数据库图像分成背景与显著性目标区域,并对每个显著性目标区域提取SIFT特征、HSV颜色直方图及语义特征;S3.对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征;S4.将待搜寻图像的特征与数据库图像进行特征相似度匹配,对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果。本发明将图像显著性加入到图像检索中,并按显著性目标的重要程度进行检索与加权,从而能够将检索结果按重要度分级,使得检索结果可以区分主次。

Description

一种基于层次注意力模型的图像检索方法
技术领域
本发明涉及一种基于层次注意力模型的图像检索方法,尤其涉及一种能实现按检索目标的重要程度进行区分的图像检索。
背景技术
随着微信、微博等数据共享平台的流行,图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。针对这些包含丰富视觉信息的海量图片,如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像,成为多媒体信息检索领域研究的热点。
然而,现有的图像检索基本都是针对整体图像来提取图像的底层特征,再对数据库中的图像进行检索,搜索出来的图像没有针对性且容易搜索到与背景相关的图像。而注意力模型能够快速而有效地把注意力集中在最感兴趣的区域上的同时抑制冗余的信息。且实际场景中,人眼通常可以同时关注好几个显著性对象,而且对不同显著性对象的重要程度有不同的认知,因此引入注意力模型来进行图像检索。
发明内容
本发明的目的在于针对现有图像检索没有针对性的问题,提供一种基于层次注意力模型的图像检索方法,可以对待搜索图像的显著性目标的重要程度进行区分,以检索更重要的信息,具有针对性强、有主次性等优点。
为实现上述目的,本发明的技术方案是:一种基于层次注意力模型的图像检索方法,所述方法包括;
步骤S1:建立层次注意力模型以得出图像的显著性目标及其对应的显著值,并按其显著性值排序;
步骤S2:利用层次注意力模型将数据库图像分成背景与显著性目标区域,并对每个显著性目标区域提取SIFT特征、HSV颜色直方图及语义特征;
步骤S3:对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征,将待搜寻图像的特征与数据库图像进行特征相似度匹配,对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果。
在本发明一实施例中,步骤S1中层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成,具体包括以下步骤:
步骤S11:由显著性区域检测模型得到低层的显著性图;
步骤S12:通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图;
步骤S13:用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图。
在本发明一实施例中,步骤S11包括以下具体步骤:
步骤S111:根据显著性区域检测模型得到的显著性图将像素分为显著性像素V={vt}和背景像素B={Bt},将显著性对象检测模型得到的显著性对象包含的像素记为
Figure GDA0001610040260000021
N表示显著性对象个数。
步骤S112:将背景视为N+1类,根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图:
假设1:如果显著性像素vt只被标签为k的显著性对象检测框覆盖,那么显著性像素vt属于第n个显著性对象的概率为1;
假设2:如果显著性像素vt未被任何显著性对象检测框覆盖,那么vt属于N+1个类的概率都为1/N;
假设3:如果显著性像素vt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签分别为l1,…,lq,…,lQ,那么显著性像素vt属于第q个显著性对象的概率为
Figure GDA0001610040260000022
即若
Figure GDA0001610040260000023
Figure GDA0001610040260000024
假设4:如果背景像素bt未被任何显著性对象检测框覆盖,那么么背景像素bt属于背景的概率为1;
假设5:如果背景像素bt被标签为k的显著性对象检测框覆盖,且标签为k的显著性对象检测框有覆盖显著性像素,那么背景像素bt为背景的概率为1;
假设6:如果背景像素bt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签为l1,…,lq,…,lQ,若对于标签为lq的显著性对象检测框有覆盖显著性像素,那么背景像素bt属于第lq个显著性对象的概率为0,反之则背景bt属于lq的概率都为1/Q+1,背景像素bi属于背景的概率为1/Q+1;
步骤S113:用全连接条件随机场对显著性对象概率图进行修正,其能量函数如下所示:
Figure GDA0001610040260000031
其中
Figure GDA0001610040260000032
为一元势函数;
Figure GDA0001610040260000033
为二元势函数。
进一步的,显著性区域检测模型的网络结构具体如下:
第一层为输入层,输入图像;
第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为ReLU函数;
第三层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第五层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第七层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第九层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为ReLU函数;
第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为ReLU函数;
第十三层由两个卷积层与一个归一化层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,1024),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第十四层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十三层输出;剪切层,根据第十二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十五层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十四层输出;剪切层,根据第八层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十六层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用256个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十五层输出;剪切层,根据第六层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第六层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十七层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用128个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十六层输出;剪切层,根据第四层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第四层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十八层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用64个卷积核,尺寸为(4,4,128),激活函数为ReLU函数,输入为第十七层输出;剪切层,根据第二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十九层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(4,4,512),卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十层由两个去卷积层与一个剪切层组成,其中第一个去卷积层使用1个卷积核,尺寸为(8,8,2),第二个去卷积层使用1个卷积核,尺寸为(8,8,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十一层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第十九层输出,使用2个卷积核,尺寸为(4,4,2),卷积层的输入为第十五层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十二层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(16,16,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十三层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十一层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十六层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十四层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(8,8,2),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十五层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十三层输出,使用4个卷积核,尺寸为(4,4,4),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,128),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十六层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(4,4,3),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十七层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十五层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十八层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(2,2,4),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十九层由一个级联层与卷积层组成,级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接,卷积层使用1个卷积核,尺寸为(1,1,5),激活函数为Sigmoid函数,得到最终输出结果。
进一步的,显著性对象检测模型的网络结构具体如下:
第一层为输入层,输入图像;
第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为ReLU函数;
第三层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第五层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第七层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第九层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为ReLU函数;
第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为ReLU函数;
第十三层由两个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第十四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,512),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第十五层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,256),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第十六层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用256个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十五层输出;卷积层使用256个卷积核,尺寸为(1,1,256),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十四层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十四层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十七层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十六层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十三层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十三层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十八层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十七层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十二层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十九层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十八层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第八层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第二十层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用16个卷积核,尺寸为(1,1,512),输入为第十九层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十一层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用8个卷积核,尺寸为(1,1,512),输入为第十九层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十二层为PriorBox层,使用第一层与第十九层输出作为输入,最大最小尺寸参数分别为44.8与22.4,长宽比率参数为2;
第二十三层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十八层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十四层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十八层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十五层为PriorBox层,使用第一层与第十八层输出作为输入,最大最小尺寸参数分别为96.32与44.8,长宽比率参数为2和3;
第二十六层为由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十七层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十七层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十七层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十八层为PriorBox层,使用第一层与第十七层输出作为输入,最大最小尺寸参数分别为147.84与96.32,长宽比率参数为2和3;
第二十九层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十六层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十六层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十一层为PriorBox层,使用第一层与第十六层输出作为输入,最大最小尺寸参数分别为199.36与147.84,长宽比率参数为2和3;
第三十二层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十四层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十三层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十四层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;;
第三十四层为PriorBox层,使用第一层与第十四层输出作为输入,最大最小尺寸参数分别为250.88与199.36,长宽比率参数为2和3;
第三十五层为Concat层,对第二十层、第二十三层、第二十六层、第二十九层、第三十二层输出进行通道连接;
第三十六层为Concat层,对第二十一层、第二十四层、第二十七层、第三十层、第三十三层输出进行通道连接;
第三十七层为Concat层,对第二十二层、第二十五层、第二十八层、第三十一层、第三十四层输出进行通道连接;
第三十八层为Reshape层,改变第三十六层输出维度,参数为(0,-1,2),激活函数为Softmax函数;
第三十九层为Flatten层,将第三十八层输出平铺成一维;
第四十层为DetectionOutput层,输入为第三十六层、第三十九层、第三十七层,类别参数为2,得到最终结果;
进一步的,所述HSV特征的提取,通过提取显著性目标区域的像素,将RGB值转换为HSV值,量化成256维的颜色直方图。所述SIFT特征的提取,通过提取显著性目标区域的像素,用DoG检测器检测关键点,然后用128维向量描述每个关键点的信息。所述CNN语义特征的提取,将显著性目标区域缩放成224*224大小,输入到显著性对象检测模型与显著性区域检测模型中,分别提取第八层与第八层输出作为CNN特征向量,并进行归一化。
在本发明一实施例中,还包括步骤S4中,使用加权的特征距离计算查询图像的显著性目标和数据库中每一幅图像的显著性目标之间的相似度,再通过显著性值加权计算查询图像和数据库中每一幅图像的相似度,按从大到小的顺序返回图像检索结果。
与现有技术相比,本发明将图像显著性加入到图像检索中,并按显著性目标的重要程度进行检索与加权,从而能够将检索结果按重要度分级,使得检索结果可以区分主次。
附图说明
图1是本发明的基于层次注意力模型的图像检索方法的结构示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明的一种基于层次注意力模型的图像检索方法其特征在于,如图1所示,所述方法包括:
步骤S1:建立层次注意力模型以得出图像的显著性目标及其对应的显著值,并按其显著性值排序;
步骤S2:利用层次注意力模型将数据库图像分成背景与显著性目标区域,并对每个显著性目标区域提取SIFT特征、HSV颜色直方图及语义特征;
步骤S3:对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征,将待搜寻图像的特征与数据库图像进行特征相似度匹配,对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果。
在本发明一实施例中,所述层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成,具体为:
先由显著性区域检测模型得到低层的显著性图,再通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图,最后用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图,即得到了显著性目标区域及其显著性值。具体步骤如下:
(1)根据显著性区域检测模型得到的显著性图将像素分为显著性像素V={vt}和背景像素B={Bt},将显著性对象检测模型得到的显著性对象包含的像素记为
Figure GDA0001610040260000102
N表示显著性对象个数。
(2)将背景视为N+1类,根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图。
假设1如果显著性像素vt只被标签为k的显著性对象检测框覆盖,那么显著性像素vt属于第n个显著性对象的概率为1。
假设2如果显著性像素vt未被任何显著性对象检测框覆盖,那么vt属于N+1个类的概率都为1/N。
假设3如果显著性像素vt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签分别为l1,…,lq,…,lQ,那么显著性像素vt属于第q个显著性对象的概率为
Figure GDA0001610040260000103
即若
Figure GDA0001610040260000104
Figure GDA0001610040260000105
假设4如果背景像素bt未被任何显著性对象检测框覆盖,那么么背景像素bt属于背景的概率为1。
假设5如果背景像素bt被标签为k的显著性对象检测框覆盖,且标签为k的显著性对象检测框有覆盖显著性像素,那么背景像素bt为背景的概率为1。
假设6如果背景像素bt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签为l1,…,lq,…,lQ,若对于标签为lq的显著性对象检测框有覆盖显著性像素,那么背景像素bt属于第lq个显著性对象的概率为0,反之则背景bt属于lq的概率都为1/Q+1,背景像素bi属于背景的概率为1/Q+1。
(3)用全连接条件随机场对显著性对象概率图进行修正。其能量函数如下所示:
Figure GDA0001610040260000101
其中一元势函数
Figure GDA0001610040260000111
定义如下:
Figure GDA0001610040260000112
其中二元势函数
Figure GDA0001610040260000113
定义如下:
Figure GDA0001610040260000114
其中x表示标签{1,…,N+1},P(xi)表示像素i分配为标签x的显著性值,μ(xi,xj)表示指示函数,当xi≠xj时μ(xi,xj)=1,反之,其值为0。Ii和pi分别为像素值和像素xi的位置。在实验中参数ω12αβγ分别取值为5、5、60、7、7。
其中显著性区域检测模型的网络结构具体如下:
第一层为输入层,输入图像;
第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为ReLU函数;
第三层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第五层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第七层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第九层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为ReLU函数;
第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为ReLU函数;
第十三层由两个卷积层与一个归一化层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,1024),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第十四层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十三层输出;剪切层,根据第十二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十五层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十四层输出;剪切层,根据第八层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十六层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用256个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十五层输出;剪切层,根据第六层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第六层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十七层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用128个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十六层输出;剪切层,根据第四层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第四层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十八层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用64个卷积核,尺寸为(4,4,128),激活函数为ReLU函数,输入为第十七层输出;剪切层,根据第二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十九层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(4,4,512),卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十层由两个去卷积层与一个剪切层组成,其中第一个去卷积层使用1个卷积核,尺寸为(8,8,2),第二个去卷积层使用1个卷积核,尺寸为(8,8,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十一层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第十九层输出,使用2个卷积核,尺寸为(4,4,2),卷积层的输入为第十五层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十二层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(16,16,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十三层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十一层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十六层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十四层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(8,8,2),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十五层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十三层输出,使用4个卷积核,尺寸为(4,4,4),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,128),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十六层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(4,4,3),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十七层由一个去卷积层、一个卷积层、一个级联层组成,,去卷积层的输入为第二十五层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十八层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(2,2,4),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十九层由一个级联层与卷积层组成,级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接,卷积层使用1个卷积核,尺寸为(1,1,5),激活函数为Sigmoid函数,得到最终输出结果;
其中显著性对象检测模型的网络结构具体如下:
第一层为输入层,输入图像;
第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为ReLU函数;
第三层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第五层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第七层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第九层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为ReLU函数;
第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为ReLU函数;
第十三层由两个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第十四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,512),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第十五层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,256),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第十六层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用256个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十五层输出;卷积层使用256个卷积核,尺寸为(1,1,256),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十四层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十四层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十七层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十六层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十三层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十三层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十八层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十七层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十二层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十九层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十八层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第八层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第二十层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用16个卷积核,尺寸为(1,1,512),输入为第十九层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十一层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用8个卷积核,尺寸为(1,1,512),输入为第十九层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十二层为PriorBox层,使用第一层与第十九层输出作为输入,最大最小尺寸参数分别为44.8与22.4,长宽比率参数为2;
第二十三层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十八层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十四层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十八层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十五层为PriorBox层,使用第一层与第十八层输出作为输入,最大最小尺寸参数分别为96.32与44.8,长宽比率参数为2和3;
第二十六层为由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十七层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十七层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十七层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十八层为PriorBox层,使用第一层与第十七层输出作为输入,最大最小尺寸参数分别为147.84与96.32,长宽比率参数为2和3;
第二十九层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十六层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十六层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十一层为PriorBox层,使用第一层与第十六层输出作为输入,最大最小尺寸参数分别为199.36与147.84,长宽比率参数为2和3;
第三十二层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十四层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十三层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十四层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;;
第三十四层为PriorBox层,使用第一层与第十四层输出作为输入,最大最小尺寸参数分别为250.88与199.36,长宽比率参数为2和3;
第三十五层为Concat层,对第二十层、第二十三层、第二十六层、第二十九层、第三十二层输出进行通道连接;
第三十六层为Concat层,对第二十一层、第二十四层、第二十七层、第三十层、第三十三层输出进行通道连接;
第三十七层为Concat层,对第二十二层、第二十五层、第二十八层、第三十一层、第三十四层输出进行通道连接;
第三十八层为Reshape层,改变第三十六层输出维度,参数为(0,-1,2),激活函数为Softmax函数;
第三十九层为Flatten层,将第三十八层输出平铺成一维;
第四十层为DetectionOutput层,输入为第三十六层、第三十九层、第三十七层,类别参数为2,得到最终结果;
进一步的,所述HSV特征的提取,通过提取显著性目标区域的像素,将RGB值转换为HSV值,量化成256维的颜色直方图。所述SIFT特征的提取,通过提取显著性目标区域的像素,用DoG检测器检测关键点,然后用128维向量描述每个关键点的信息。所述CNN语义特征的提取,将显著性目标区域缩放成224*224大小,输入到显著性对象检测模型与显著性区域检测模型中,分别提取第八层与第八层输出作为CNN特征向量,并进行归一化。
所述步骤S4中,本发明的相似度计算使用的相似度计算策略如下:
设有待搜寻图像Q有N个显著性目标(s1,…,sN),其对应的显著性值为c1,…,cN;数据库图像I有M个显著性目标(s′1,…,s′M)。
(1)计算待搜寻显著性目标si与数据库图像I的显著性目标s′j的HSV颜色直方图相似度、SIFT匹配数得分及CNN特征相似度,将这三种相似度以乘法法则融合得到显著性目标si与显著性目标s′j的相似度。
其中,HSV颜色直方图相似度为
Figure GDA0001610040260000171
SIFT匹配数得分为
Figure GDA0001610040260000181
Figure GDA0001610040260000182
分别表示显著性目标s′j与数据库图像I的显著性目标s′j中SIFT特征,
Figure GDA0001610040260000183
表示两SIFT特征的匹配函数,匹配则为1,不匹配则为0,idf表示倒排文档频率,||si||2表示词频的欧式范数。
CNN特征相似度为
Figure GDA0001610040260000184
显著性目标si与显著性目标s′j的相似度为S(si,s′j)=Sh(si,s′j)0.2×Ss(si,s′j)0.1×Sc(si,s′j)0.7
(2)根据(1)计算显著性目标si与图像I的M个显著性目标(s′1,…,s′M)的相似度,取最高的相似度作为显著性目标si与图像I的相似度。
(3)同理,计算得出待搜寻图像Q的N个显著性目标(s1,…,sN)与图像I的相似度s1I,…,sNI,使用显著性值对相似度分配权重得到待搜寻图像与图像I的相似度
Figure GDA0001610040260000185
(4)通过上述步骤计算出待搜寻图像Q与图像数据库中所有图像的相似度值,之后按照相似度值从大到小的顺序返回图像检索结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (5)

1.一种基于层次注意力模型的图像检索方法,其特征在于:包括以下步骤:
步骤S1:建立层次注意力模型以得出图像的显著性目标及其对应的显著值,并按其显著性值排序;
步骤S2:利用层次注意力模型将数据库图像分成背景与显著性目标区域,并对每个显著性目标区域提取SIFT特征、HSV颜色直方图及语义特征;
步骤S3:对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征,将待搜寻图像的特征与数据库图像进行特征相似度匹配,对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果;
步骤S1中层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成,
具体包括以下步骤:
步骤S11:由显著性区域检测模型得到低层的显著性图;
步骤S 12:通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图;
步骤S13:用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图;
步骤S11包括以下具体步骤:
步骤S111:根据显著性区域检测模型得到的显著性图将像素分为显著性像素V={vt}和背景像素B={Bt},将显著性对象检测模型得到的显著性对象包含的像素记为
Figure FDA0003178903130000011
N表示显著性对象个数;
步骤S112:将背景视为N+1类,根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图:
假设1:如果显著性像素vt只被标签为k的显著性对象检测框覆盖,那么显著性像素vt属于第n个显著性对象的概率为1;
假设2:如果显著性像素vt未被任何显著性对象检测框覆盖,那么vt属于N+1个类的概率都为1/N;
假设3:如果显著性像素vt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签分别为l1,...,lq,...,lQ,那么显著性像素vt属于第q个显著性对象的概率为
Figure FDA0003178903130000021
即若
Figure FDA0003178903130000022
Figure FDA0003178903130000023
假设4:如果背景像素bt未被任何显著性对象检测框覆盖,那么背景像素bt属于背景的概率为1;
假设5:如果背景像素bt被标签为k的显著性对象检测框覆盖,且标签为k的显著性对象检测框有覆盖显著性像素,那么背景像素bt为背景的概率为1;
假设6:如果背景像素bt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签为l1,...,lq,...,lQ,若对于标签为lq的显著性对象检测框有覆盖显著性像素,那么背景像素bt属于第lq个显著性对象的概率为0,反之则背景bt属于lq的概率都为1/Q+1,背景像素bt属于背景的概率为1/Q+1;
步骤S113:用全连接条件随机场对显著性对象概率图进行修正,其能量函数如下所示:
Figure FDA0003178903130000024
其中
Figure FDA0003178903130000025
为一元势函数;
Figure FDA0003178903130000026
为二元势函数;
步骤S11中显著性区域检测模型的网络结构具体如下:
第一层为输入层,输入图像;
第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为ReLU函数;
第三层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第五层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第七层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第九层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为ReLU函数;
第十二层由两个卷积层构成,其 中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为ReLU函数;
第十三层由两个卷积层与一个归一化层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,1024),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第十四层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十三层输出;剪切层,根据第十二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十五层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十四层输出;剪切层,根据第八层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十六层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用256个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十五层输出;剪切层,根据第六层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第六层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十七层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用128个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十六层输出;剪切层,根据第四层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第四层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十八层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用64个卷积核,尺寸为(4,4,128),激活函数为ReLU函数,输入为第十七层输出;剪切层,根据第二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十九层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(4,4,512),卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;第二十层由两个去卷积层与一个剪切层组成,其中第一个去卷积层使用1个卷积核,尺寸为(8,8,2),第二个去卷积层使用1个卷积核,尺寸为(8,8,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十一层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十九层输出,使用2个卷积核,尺寸为(4,4,2),卷积层的输入为第十五层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十二层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(16,16,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十三层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十一层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十六层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十四层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(8,8,2),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十五层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十三层输出,使用4个卷积核,尺寸为(4,4,4),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,128),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十六层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(4,4,3),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十七层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十五层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十八层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(2,2,4),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十九层由一个级联层与卷积层组成,级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接,卷积层使用1个卷积核,尺寸为(1,1,5),激活函数为Sigmoid函数,得到最终输出结果。
2.根据权利要求1所述的基于层次注意力模型的图像检索方法,其特征在于:步骤S12中显著性对象检测模型的网络结构具体如下:
第一层为输入层,输入图像;
第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为ReLU函数;
第三层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第五层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第七层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第九层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为ReLU函数;
第十二层由两个卷积层构成,其中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为ReLU函数;
第十三层由两个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第十四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,512),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第十五层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,256),第二个卷积层使用256个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第十六层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成;其中去卷积层,使用256个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十五层输出;卷积层使用256个卷积核,尺寸为(1,1,256),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十四层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十四层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十七层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成;其中去卷积层,使用512个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十六层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十三层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十三层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十八层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成;其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十七层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第十二层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第十九层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成;其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十八层输出;卷积层使用512个卷积核,尺寸为(1,1,512),激活函数为Sigmoid函数,输入为去卷积层输出;第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加,激活函数为ReLU函数;剪切层,根据第八层输出的尺寸对第一个Eltwise层输出进行剪切;第二个Eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;
第二十层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用16个卷积核,尺寸为(1,1,512),输入为第十九层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十一层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用8个卷积核,尺寸为(1,1,512),输入为第十九层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十二层为PriorBox层,使用第一层与第十九层输出作为输入,最大最小尺寸参数分别为44.8与224,长宽比率参数为2;
第二十三层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十八层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十四层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十八层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十五层为PriorBox层,使用第一层与第十八层输出作为输入,最大最小尺寸参数分别为96.32与448,长宽比率参数为2和3;
第二十六层为由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用24个卷积核,尺寸为(1,1,512),输入为第十七层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十七层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用12个卷积核,尺寸为(1,1,512),输入为第十七层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第二十八层为PriorBox层,使用第一层与第十七层输出作为输入,最大最小尺寸参数分别为147.84与96.32,长宽比率参数为2和3;
第二十九层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十六层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十六层输出;Permute层,对特征进行重新排列,顺序为(O,2,3,1);Flatten层,将特征平铺成一维;
第三十一层为PriorBox层,使用第一层与第十六层输出作为输入,最大最小尺寸参数分别为199.36与147.84,长宽比率参数为2和3;
第三十二层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用24个卷积核,尺寸为(1,1,256),输入为第十四层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十三层由一个卷积层、一个Permute层、一个Flatten层组成;其中卷积层使用12个卷积核,尺寸为(1,1,256),输入为第十四层输出;Permute层,对特征进行重新排列,顺序为(0,2,3,1);Flatten层,将特征平铺成一维;
第三十四 层为PriorBox层,使用第一层与第十四层输出作为输入,最大最小尺寸参数分别为250.88与199.36,长宽比率参数为2和3;
第三十五层为Concat层,对第二十层、第二十三层、第二十六层、第二十九层、第三十二层输出进行通道连接;
第三十六层为Concat层,对第二十一层、第二十四层、第二十七层、第三十层、第三十三层输出进行通道连接;
第三十七层为Concat层,对第二十二层、第二十五层、第二十八层、第三十一层、第三十四层输出进行通道连接;
第三十八层为Reshape层,改变第三十六层输出维度,参数为(0,-1,2),激活函数为Softmax函数;
第三十九层为Flatten层,将第三十八层输出平铺成一维;
第四十层为DetectionOutput层,输入为第三十六层、第三十九层、第三十七层,类别参数为2,得到最终结果。
3.根据权利要求2所述的基于层次注意力模型的图像检索方法,其特征在于:步骤S3中特征提取包括SIFT特征、HSV颜色直方图及语义特征;
其中HSV特征的提取包括以下步骤:通过提取显著性目标区域的像素,将RGB值转换为HSV值,量化成256维的颜色直方图;
SIFT特征的提取如下,通过提取显著性目标区域的像素,用DoG检测器检测关键点,然后用128维向量描述每个关键点的信息;
CNN语义特征的提取如下,将显著性目标区域缩放成224*224大小,输入到显著性对象检测模型与显著性区域检测模型中,分别提取第八层与第八层输出作为CNN特征向量,并进行归一化。
4.根据权利要求1所述的基于层次注意力模型的图像检索方法,其特征在于:还包括步骤S4:使用加权的特征距离计算查询图像的显著性目标和数据库中每一幅图像的显著性目标之间的相似度,再通过显著性值加权计算查询图像和数据库中每一幅图像的相似度,按从大到小的顺序返回图像检索结果。
5.根据权利要求4所述的基于层次注意力模型的图像检索方法,其特征在于:步骤S4包括以下具体步骤:
步骤S41:设有待搜寻图像Q有N个显著性目标(s1,…,sN),其对应的显著性值为c1,…,cN;数据库图像I有M个显著性目标(s′1,…,s′M);
步骤S42:计算待搜寻显著性目标si与数据库图像I的显著性目标s′j的HSV颜色直方图相似度、SIFT匹配数得分及CNN特征相似度,将这三种相似度以乘法法则融合得到显著性目标si与显著性目标s′j的相似度;
其中HSV颜色直方图相似度为
Figure FDA0003178903130000091
SIFT匹配数得分为
Figure FDA0003178903130000092
Figure FDA0003178903130000093
分别表示显著性目标s′j与数据库图像I的显著性目标s′j中SIFT特征,
Figure FDA0003178903130000094
表示两SIFT特征的匹配函数,匹配则为1,不匹配则为0,idf表示倒排文档频率,||si||2表示词频的欧式范数;
CNN特征相似度为
Figure FDA0003178903130000095
显著性目标si与显著性目标s′j的相似度为S(si,s′j)=Sh(si,s′j)0.2×Ss(si,s′j)0.1×Sc(si,s′j)0.7
步骤S43:根据步骤S41计算显著性目标si与图像I的M个显著性目标(s′1,…,s′M)的相似度,取最高的相似度作为显著性目标si与图像I的相似度;
步骤S44:计算得出待搜寻图像Q的N个显著性目标(s1,…,sN)与图像I的相似度s1I,…,sNI,使用显著性值对相似度分配权重得到待搜寻图像与图像I的相似度
Figure FDA0003178903130000096
步骤S45:通过上述步骤计算出待搜寻图像Q与图像数据库中所有图像的相似度值,之后按照相似度值从大到小的顺序返回图像检索结果。
CN201810134366.6A 2018-02-09 2018-02-09 一种基于层次注意力模型的图像检索方法 Expired - Fee Related CN108460114B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810134366.6A CN108460114B (zh) 2018-02-09 2018-02-09 一种基于层次注意力模型的图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810134366.6A CN108460114B (zh) 2018-02-09 2018-02-09 一种基于层次注意力模型的图像检索方法

Publications (2)

Publication Number Publication Date
CN108460114A CN108460114A (zh) 2018-08-28
CN108460114B true CN108460114B (zh) 2021-08-31

Family

ID=63239842

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810134366.6A Expired - Fee Related CN108460114B (zh) 2018-02-09 2018-02-09 一种基于层次注意力模型的图像检索方法

Country Status (1)

Country Link
CN (1) CN108460114B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272044A (zh) * 2018-09-19 2019-01-25 郑州云海信息技术有限公司 一种图像相似度确定方法、装置、设备及存储介质
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
CN110188217A (zh) 2019-05-29 2019-08-30 京东方科技集团股份有限公司 图像查重方法、装置、设备和计算机可读储存介质
CN110251076B (zh) * 2019-06-21 2021-10-22 安徽大学 融合视觉注意力基于对比度的显著性检测方法及装置
CN112308199B (zh) * 2019-07-26 2024-05-10 杭州海康威视数字技术股份有限公司 数据块的处理方法、装置及存储介质
CN112883233B (zh) * 2021-01-26 2024-02-09 济源职业技术学院 一种5g音视频记录仪
CN116164751B (zh) * 2023-02-21 2024-04-16 浙江德清知路导航科技有限公司 一种室内音频指纹定位方法、系统、介质、设备及终端

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096824A (zh) * 2011-02-18 2011-06-15 复旦大学 基于选择性视觉注意机制的多光谱图像舰船检测方法
CN106649487A (zh) * 2016-10-09 2017-05-10 苏州大学 基于兴趣目标的图像检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096824A (zh) * 2011-02-18 2011-06-15 复旦大学 基于选择性视觉注意机制的多光谱图像舰船检测方法
CN106649487A (zh) * 2016-10-09 2017-05-10 苏州大学 基于兴趣目标的图像检索方法

Also Published As

Publication number Publication date
CN108460114A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN108460114B (zh) 一种基于层次注意力模型的图像检索方法
Chaudhuri et al. Multilabel remote sensing image retrieval using a semisupervised graph-theoretic method
Mehmood et al. Content-based image retrieval and semantic automatic image annotation based on the weighted average of triangular histograms using support vector machine
EP2955645B1 (en) System for automated segmentation of images through layout classification
Tang et al. SAR image content retrieval based on fuzzy similarity and relevance feedback
CN106126585B (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
US7401062B2 (en) Method for resource allocation among classifiers in classification systems
CN102890700A (zh) 一种基于体育比赛视频的相似视频片段检索方法
Rad et al. Image annotation using multi-view non-negative matrix factorization with different number of basis vectors
Dharani et al. Content based image retrieval system using feature classification with modified KNN algorithm
Dubey et al. Interactive Biogeography Particle Swarm Optimization for Content Based Image Retrieval
Zhou et al. Region convolutional features for multi-label remote sensing image retrieval
CN110956213A (zh) 遥感影像特征库生成、遥感影像检索方法及装置
Wong et al. Deep learning-based racing bib number detection and recognition
Salih et al. Two-layer content-based image retrieval technique for improving effectiveness
Pavithra et al. An improved seed point selection-based unsupervised color clustering for content-based image retrieval application
Al-Jubouri Content-based image retrieval: Survey
Meng et al. Merged region based image retrieval
WO2024027347A1 (zh) 内容识别方法、装置、设备、存储介质及计算机程序产品
Yin et al. Combining pyramid representation and AdaBoost for urban scene classification using high-resolution synthetic aperture radar images
Seddati et al. Triplet networks feature masking for sketch-based image retrieval
Szűcs et al. Content-based image retrieval for multiple objects search
Saravanan et al. Image retrieval by image feature using data mining technique
More et al. AgroSearch: A web based search tool for pomegranate diseases and pests detection using image processing
Podder et al. IHIRD: A Data Set for Indian Heritage Image Retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210831

Termination date: 20220209