CN108460114B

CN108460114B - 一种基于层次注意力模型的图像检索方法

Info

Publication number: CN108460114B
Application number: CN201810134366.6A
Authority: CN
Inventors: 余春艳; 徐小丹; 杨素琼; 陈立; 王秀
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2021-08-31
Anticipated expiration: 2038-02-09
Also published as: CN108460114A

Abstract

本发明涉及一种基于层次注意力模型的图像检索方法。包括S1.建立层次注意力模型以得出图像的显著性目标及其对应的显著值，并按其显著性值排序；S2.利用层次注意力模型将数据库图像分成背景与显著性目标区域，并对每个显著性目标区域提取SIFT特征、HSV颜色直方图及语义特征；S3.对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征；S4.将待搜寻图像的特征与数据库图像进行特征相似度匹配，对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果。本发明将图像显著性加入到图像检索中，并按显著性目标的重要程度进行检索与加权，从而能够将检索结果按重要度分级，使得检索结果可以区分主次。

Description

一种基于层次注意力模型的图像检索方法

技术领域

本发明涉及一种基于层次注意力模型的图像检索方法，尤其涉及一种能实现按检索目标的重要程度进行区分的图像检索。

背景技术

随着微信、微博等数据共享平台的流行，图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。针对这些包含丰富视觉信息的海量图片，如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像，成为多媒体信息检索领域研究的热点。

然而，现有的图像检索基本都是针对整体图像来提取图像的底层特征，再对数据库中的图像进行检索，搜索出来的图像没有针对性且容易搜索到与背景相关的图像。而注意力模型能够快速而有效地把注意力集中在最感兴趣的区域上的同时抑制冗余的信息。且实际场景中，人眼通常可以同时关注好几个显著性对象，而且对不同显著性对象的重要程度有不同的认知，因此引入注意力模型来进行图像检索。

发明内容

本发明的目的在于针对现有图像检索没有针对性的问题，提供一种基于层次注意力模型的图像检索方法，可以对待搜索图像的显著性目标的重要程度进行区分，以检索更重要的信息，具有针对性强、有主次性等优点。

为实现上述目的，本发明的技术方案是：一种基于层次注意力模型的图像检索方法，所述方法包括；

步骤S1：建立层次注意力模型以得出图像的显著性目标及其对应的显著值，并按其显著性值排序；

步骤S2：利用层次注意力模型将数据库图像分成背景与显著性目标区域，并对每个显著性目标区域提取SIFT特征、HSV颜色直方图及语义特征；

步骤S3：对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征，将待搜寻图像的特征与数据库图像进行特征相似度匹配，对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果。

在本发明一实施例中，步骤S1中层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成，具体包括以下步骤：

步骤S11：由显著性区域检测模型得到低层的显著性图；

步骤S12：通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图；

步骤S13：用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图。

在本发明一实施例中，步骤S11包括以下具体步骤：

步骤S111：根据显著性区域检测模型得到的显著性图将像素分为显著性像素V＝{v_t}和背景像素B＝{B_t}，将显著性对象检测模型得到的显著性对象包含的像素记为

N表示显著性对象个数。

步骤S112：将背景视为N+1类，根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图：

假设1：如果显著性像素v_t只被标签为k的显著性对象检测框覆盖，那么显著性像素v_t属于第n个显著性对象的概率为1；

假设2：如果显著性像素v_t未被任何显著性对象检测框覆盖，那么v_t属于N+1个类的概率都为1/N；

假设3：如果显著性像素v_t同时被Q个显著性对象检测框覆盖，Q个显著性对象检测框对应的标签分别为l₁,…,l_q,…,l_Q，那么显著性像素v_t属于第q个显著性对象的概率为

即若

则

假设4：如果背景像素b_t未被任何显著性对象检测框覆盖，那么么背景像素b_t属于背景的概率为1；

假设5：如果背景像素b_t被标签为k的显著性对象检测框覆盖，且标签为k的显著性对象检测框有覆盖显著性像素，那么背景像素b_t为背景的概率为1；

假设6：如果背景像素b_t同时被Q个显著性对象检测框覆盖，Q个显著性对象检测框对应的标签为l₁,…,l_q,…,l_Q，若对于标签为l_q的显著性对象检测框有覆盖显著性像素，那么背景像素b_t属于第l_q个显著性对象的概率为0，反之则背景b_t属于l_q的概率都为1/Q+1，背景像素b_i属于背景的概率为1/Q+1；

步骤S113：用全连接条件随机场对显著性对象概率图进行修正，其能量函数如下所示：

其中

为一元势函数；

为二元势函数。

进一步的，显著性区域检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第二层由两个卷积层构成，其中第一个卷积层使用64个卷积核，尺寸为(4，4，3)，第二个卷积层使用64个卷积核，尺寸为(3，3，64)，激活函数为ReLU函数；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第四层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为(3，3，64)，第二个卷积层使用128个卷积核，尺寸为(3，3，128)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第六层由三个卷积层构成，其中第一个卷积层使用256个卷积核，尺寸为(3，3，128)，第二个卷积层使用256个卷积核，尺寸为(3，3，256)，第三个卷积层使用256个卷积核，尺寸为(3，3，256)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第八层由三个卷积层构成，其中第一个卷积层使用512个卷积核，尺寸为(3，3，256)，第二个卷积层使用512个卷积核，尺寸为(3，3，512)，第三个卷积层使用512个卷积核，尺寸为(3，3，512)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第十层由三个卷积层构成，其中第一个卷积层使用512个卷积核，尺寸为(3，3，512)，第二个卷积层使用512个卷积核，尺寸为(3，3，512)，第三个卷积层使用512个卷积核，尺寸为(3，3，512)，激活函数为ReLU函数；

第十一层为池化层，尺寸为(3，3)，扩充边缘尺寸为1，激活函数为ReLU函数；

第十二层由两个卷积层构成，其中第一个卷积层使用1024个卷积核，尺寸为(3，3，512)，第二个卷积层使用512个卷积核，尺寸为(3，3，1024)，激活函数为ReLU函数；

第十三层由两个卷积层与一个归一化层构成，其中第一个卷积层使用256个卷积核，尺寸为(3，3，1024)，第二个卷积层使用512个卷积核，尺寸为(3，3，256)，激活函数为ReLU函数；

第十四层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成，其中去卷积层，使用512个卷积核，尺寸为(4，4，512)，激活函数为ReLU函数，输入为第十三层输出；剪切层，根据第十二层输出的尺寸对去卷积层输出进行剪切；Eltwise层，对第十二层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；最后为归一化层，对Eltwise层输出进行归一化操作；

第十五层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成，其中去卷积层，使用512个卷积核，尺寸为(4，4，512)，激活函数为ReLU函数，输入为第十四层输出；剪切层，根据第八层输出的尺寸对去卷积层输出进行剪切；Eltwise层，对第八层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；最后为归一化层，对Eltwise层输出进行归一化操作；

第十六层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成，其中去卷积层，使用256个卷积核，尺寸为(4，4，512)，激活函数为ReLU函数，输入为第十五层输出；剪切层，根据第六层输出的尺寸对去卷积层输出进行剪切；Eltwise层，对第六层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；最后为归一化层，对Eltwise层输出进行归一化操作；

第十七层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成，其中去卷积层，使用128个卷积核，尺寸为(4，4，256)，激活函数为ReLU函数，输入为第十六层输出；剪切层，根据第四层输出的尺寸对去卷积层输出进行剪切；Eltwise层，对第四层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；最后为归一化层，对Eltwise层输出进行归一化操作；

第十八层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成，其中去卷积层，使用64个卷积核，尺寸为(4，4，128)，激活函数为ReLU函数，输入为第十七层输出；剪切层，根据第二层输出的尺寸对去卷积层输出进行剪切；Eltwise层，对第二层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；最后为归一化层，对Eltwise层输出进行归一化操作；

第十九层由一个去卷积层、一个卷积层、一个级联层组成，去卷积层的输入为第十四层输出，使用1个卷积核，尺寸为(4，4，512)，卷积层的输入为第十四层输出，使用1个卷积核，尺寸为(1，1，512)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

第二十层由两个去卷积层与一个剪切层组成，其中第一个去卷积层使用1个卷积核，尺寸为(8，8，2)，第二个去卷积层使用1个卷积核，尺寸为(8，8，1)，使用剪切层将去卷积层结果剪切成与原图一样的尺寸，激活函数为Sigmoid函数；

第二十一层由一个去卷积层、一个卷积层、一个级联层组成，，去卷积层的输入为第十九层输出，使用2个卷积核，尺寸为(4，4，2)，卷积层的输入为第十五层输出，使用1个卷积核，尺寸为(1，1，512)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

第二十二层由一个去卷积层与一个剪切层组成，其中去卷积层使用1个卷积核，尺寸为(16，16，1)，使用剪切层将去卷积层结果剪切成与原图一样的尺寸，激活函数为Sigmoid函数；

第二十三层由一个去卷积层、一个卷积层、一个级联层组成，去卷积层的输入为第二十一层输出，使用3个卷积核，尺寸为(4，4，3)，卷积层的输入为第十六层输出，使用1个卷积核，尺寸为(1，1，256)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

第二十四层由一个去卷积层与一个剪切层组成，其中去卷积层使用1个卷积核，尺寸为(8，8，2)，使用剪切层将去卷积层结果剪切成与原图一样的尺寸，激活函数为Sigmoid函数；

第二十五层由一个去卷积层、一个卷积层、一个级联层组成，，去卷积层的输入为第二十三层输出，使用4个卷积核，尺寸为(4，4，4)，卷积层的输入为第十七层输出，使用1个卷积核，尺寸为(1，1，128)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

第二十六层由一个去卷积层与一个剪切层组成，其中去卷积层使用1个卷积核，尺寸为(4，4，3)，使用剪切层将去卷积层结果剪切成与原图一样的尺寸，激活函数为Sigmoid函数；

第二十七层由一个去卷积层、一个卷积层、一个级联层组成，，去卷积层的输入为第二十五层输出，使用3个卷积核，尺寸为(4，4，3)，卷积层的输入为第十七层输出，使用1个卷积核，尺寸为(1，1，256)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

第二十八层由一个去卷积层与一个剪切层组成，其中去卷积层使用1个卷积核，尺寸为(2，2，4)，使用剪切层将去卷积层结果剪切成与原图一样的尺寸，激活函数为Sigmoid函数；

第二十九层由一个级联层与卷积层组成，级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接，卷积层使用1个卷积核，尺寸为(1，1，5)，激活函数为Sigmoid函数，得到最终输出结果。

进一步的，显著性对象检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第十三层由两个卷积层构成，其中第一个卷积层使用256个卷积核，尺寸为(3，3，512)，第二个卷积层使用512个卷积核，尺寸为(3，3，256)，激活函数为ReLU函数；

第十四层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为(3，3，512)，第二个卷积层使用256个卷积核，尺寸为(3，3，128)，激活函数为ReLU函数；

第十五层由两个卷积层构成，其中第一个卷积层使用128个卷积核，尺寸为(3，3，256)，第二个卷积层使用256个卷积核，尺寸为(3，3，128)，激活函数为ReLU函数；

第十六层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层，使用256个卷积核，尺寸为(4，4，256)，激活函数为ReLU函数，输入为第十五层输出；卷积层使用256个卷积核，尺寸为(1，1，256)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第十四层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第十四层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第十七层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层，使用512个卷积核，尺寸为(4，4，256)，激活函数为ReLU函数，输入为第十六层输出；卷积层使用512个卷积核，尺寸为(1，1，512)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第十三层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第十三层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第十八层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层，使用512个卷积核，尺寸为(4，4，512)，激活函数为ReLU函数，输入为第十七层输出；卷积层使用512个卷积核，尺寸为(1，1，512)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第十二层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第十二层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第十九层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成。其中去卷积层，使用512个卷积核，尺寸为(4，4，512)，激活函数为ReLU函数，输入为第十八层输出；卷积层使用512个卷积核，尺寸为(1，1，512)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第八层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第八层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第二十层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用16个卷积核，尺寸为(1，1，512)，输入为第十九层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十一层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用8个卷积核，尺寸为(1，1，512)，输入为第十九层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十二层为PriorBox层，使用第一层与第十九层输出作为输入，最大最小尺寸参数分别为44.8与22.4，长宽比率参数为2；

第二十三层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核，尺寸为(1，1，512)，输入为第十八层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十四层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核，尺寸为(1，1，512)，输入为第十八层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十五层为PriorBox层，使用第一层与第十八层输出作为输入，最大最小尺寸参数分别为96.32与44.8，长宽比率参数为2和3；

第二十六层为由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核，尺寸为(1，1，512)，输入为第十七层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十七层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核，尺寸为(1，1，512)，输入为第十七层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十八层为PriorBox层，使用第一层与第十七层输出作为输入，最大最小尺寸参数分别为147.84与96.32，长宽比率参数为2和3；

第二十九层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核，尺寸为(1，1，256)，输入为第十六层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第三十层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核，尺寸为(1，1，256)，输入为第十六层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第三十一层为PriorBox层，使用第一层与第十六层输出作为输入，最大最小尺寸参数分别为199.36与147.84，长宽比率参数为2和3；

第三十二层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用24个卷积核，尺寸为(1，1，256)，输入为第十四层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第三十三层由一个卷积层、一个Permute层、一个Flatten层组成。其中卷积层使用12个卷积核，尺寸为(1，1，256)，输入为第十四层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；；

第三十四层为PriorBox层，使用第一层与第十四层输出作为输入，最大最小尺寸参数分别为250.88与199.36，长宽比率参数为2和3；

第三十五层为Concat层，对第二十层、第二十三层、第二十六层、第二十九层、第三十二层输出进行通道连接；

第三十六层为Concat层，对第二十一层、第二十四层、第二十七层、第三十层、第三十三层输出进行通道连接；

第三十七层为Concat层，对第二十二层、第二十五层、第二十八层、第三十一层、第三十四层输出进行通道连接；

第三十八层为Reshape层，改变第三十六层输出维度，参数为(0，-1，2)，激活函数为Softmax函数；

第三十九层为Flatten层，将第三十八层输出平铺成一维；

第四十层为DetectionOutput层，输入为第三十六层、第三十九层、第三十七层，类别参数为2，得到最终结果；

进一步的，所述HSV特征的提取，通过提取显著性目标区域的像素，将RGB值转换为HSV值，量化成256维的颜色直方图。所述SIFT特征的提取，通过提取显著性目标区域的像素，用DoG检测器检测关键点，然后用128维向量描述每个关键点的信息。所述CNN语义特征的提取，将显著性目标区域缩放成224*224大小，输入到显著性对象检测模型与显著性区域检测模型中，分别提取第八层与第八层输出作为CNN特征向量，并进行归一化。

在本发明一实施例中，还包括步骤S4中，使用加权的特征距离计算查询图像的显著性目标和数据库中每一幅图像的显著性目标之间的相似度，再通过显著性值加权计算查询图像和数据库中每一幅图像的相似度，按从大到小的顺序返回图像检索结果。

与现有技术相比，本发明将图像显著性加入到图像检索中，并按显著性目标的重要程度进行检索与加权，从而能够将检索结果按重要度分级，使得检索结果可以区分主次。

附图说明

图1是本发明的基于层次注意力模型的图像检索方法的结构示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明的一种基于层次注意力模型的图像检索方法其特征在于，如图1所示，所述方法包括：

在本发明一实施例中，所述层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成，具体为：

先由显著性区域检测模型得到低层的显著性图，再通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图，最后用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图，即得到了显著性目标区域及其显著性值。具体步骤如下：

(1)根据显著性区域检测模型得到的显著性图将像素分为显著性像素V＝{v_t}和背景像素B＝{B_t}，将显著性对象检测模型得到的显著性对象包含的像素记为

N表示显著性对象个数。

(2)将背景视为N+1类，根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图。

假设1如果显著性像素v_t只被标签为k的显著性对象检测框覆盖，那么显著性像素v_t属于第n个显著性对象的概率为1。

假设2如果显著性像素v_t未被任何显著性对象检测框覆盖，那么v_t属于N+1个类的概率都为1/N。

假设3如果显著性像素v_t同时被Q个显著性对象检测框覆盖，Q个显著性对象检测框对应的标签分别为l₁,…,l_q,…,l_Q，那么显著性像素v_t属于第q个显著性对象的概率为

即若

则

假设4如果背景像素b_t未被任何显著性对象检测框覆盖，那么么背景像素b_t属于背景的概率为1。

假设5如果背景像素b_t被标签为k的显著性对象检测框覆盖，且标签为k的显著性对象检测框有覆盖显著性像素，那么背景像素b_t为背景的概率为1。

假设6如果背景像素b_t同时被Q个显著性对象检测框覆盖，Q个显著性对象检测框对应的标签为l₁,…,l_q,…,l_Q，若对于标签为l_q的显著性对象检测框有覆盖显著性像素，那么背景像素b_t属于第l_q个显著性对象的概率为0，反之则背景b_t属于l_q的概率都为1/Q+1，背景像素b_i属于背景的概率为1/Q+1。

(3)用全连接条件随机场对显著性对象概率图进行修正。其能量函数如下所示：

其中一元势函数

定义如下：

其中二元势函数

定义如下：

其中x表示标签{1,…,N+1}，P(x_i)表示像素i分配为标签x的显著性值，μ(x_i,x_j)表示指示函数，当x_i≠x_j时μ(x_i,x_j)＝1，反之，其值为0。I_i和p_i分别为像素值和像素x_i的位置。在实验中参数ω₁,ω₂,θ_α,θ_β,θ_γ分别取值为5、5、60、7、7。

其中显著性区域检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第二十九层由一个级联层与卷积层组成，级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接，卷积层使用1个卷积核，尺寸为(1，1，5)，激活函数为Sigmoid函数，得到最终输出结果；

其中显著性对象检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第三十九层为Flatten层，将第三十八层输出平铺成一维；

所述步骤S4中，本发明的相似度计算使用的相似度计算策略如下：

设有待搜寻图像Q有N个显著性目标(s₁,…,s_N)，其对应的显著性值为c₁,…,c_N；数据库图像I有M个显著性目标(s′₁,…,s′_M)。

(1)计算待搜寻显著性目标s_i与数据库图像I的显著性目标s′_j的HSV颜色直方图相似度、SIFT匹配数得分及CNN特征相似度，将这三种相似度以乘法法则融合得到显著性目标s_i与显著性目标s′_j的相似度。

其中，HSV颜色直方图相似度为

SIFT匹配数得分为

分别表示显著性目标s′_j与数据库图像I的显著性目标s′_j中SIFT特征，

表示两SIFT特征的匹配函数，匹配则为1，不匹配则为0，idf表示倒排文档频率，||s_i||₂表示词频的欧式范数。

CNN特征相似度为

显著性目标s_i与显著性目标s′_j的相似度为S(s_i,s′_j)＝S_h(s_i,s′_j)^0.2×S_s(s_i,s′_j)^0.1×S_c(s_i,s′_j)^0.7

(2)根据(1)计算显著性目标s_i与图像I的M个显著性目标(s′₁,…,s′_M)的相似度，取最高的相似度作为显著性目标s_i与图像I的相似度。

(3)同理，计算得出待搜寻图像Q的N个显著性目标(s₁,…,s_N)与图像I的相似度s_1I,…,s_NI，使用显著性值对相似度分配权重得到待搜寻图像与图像I的相似度

(4)通过上述步骤计算出待搜寻图像Q与图像数据库中所有图像的相似度值，之后按照相似度值从大到小的顺序返回图像检索结果。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于层次注意力模型的图像检索方法，其特征在于：包括以下步骤：

步骤S3：对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征，将待搜寻图像的特征与数据库图像进行特征相似度匹配，对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果；

步骤S1中层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成，

具体包括以下步骤：

步骤S11：由显著性区域检测模型得到低层的显著性图；

步骤S 12：通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图；

步骤S13：用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图；

步骤S11包括以下具体步骤：

N表示显著性对象个数；

假设3：如果显著性像素v_t同时被Q个显著性对象检测框覆盖，Q个显著性对象检测框对应的标签分别为l₁，...，l_q，...，l_Q，那么显著性像素v_t属于第q个显著性对象的概率为

即若

则

假设4：如果背景像素b_t未被任何显著性对象检测框覆盖，那么背景像素b_t属于背景的概率为1；

假设6：如果背景像素b_t同时被Q个显著性对象检测框覆盖，Q个显著性对象检测框对应的标签为l₁，...，l_q，...，l_Q，若对于标签为l_q的显著性对象检测框有覆盖显著性像素，那么背景像素b_t属于第l_q个显著性对象的概率为0，反之则背景b_t属于l_q的概率都为1/Q+1，背景像素b_t属于背景的概率为1/Q+1；

其中

为一元势函数；

为二元势函数；

步骤S11中显著性区域检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第十九层由一个去卷积层、一个卷积层、一个级联层组成，去卷积层的输入为第十四层输出，使用1个卷积核，尺寸为(4，4，512)，卷积层的输入为第十四层输出，使用1个卷积核，尺寸为(1，1，512)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；第二十层由两个去卷积层与一个剪切层组成，其中第一个去卷积层使用1个卷积核，尺寸为(8，8，2)，第二个去卷积层使用1个卷积核，尺寸为(8，8，1)，使用剪切层将去卷积层结果剪切成与原图一样的尺寸，激活函数为Sigmoid函数；

第二十一层由一个去卷积层、一个卷积层、一个级联层组成，去卷积层的输入为第十九层输出，使用2个卷积核，尺寸为(4，4，2)，卷积层的输入为第十五层输出，使用1个卷积核，尺寸为(1，1，512)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

第二十五层由一个去卷积层、一个卷积层、一个级联层组成，去卷积层的输入为第二十三层输出，使用4个卷积核，尺寸为(4，4，4)，卷积层的输入为第十七层输出，使用1个卷积核，尺寸为(1，1，128)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

第二十七层由一个去卷积层、一个卷积层、一个级联层组成，去卷积层的输入为第二十五层输出，使用3个卷积核，尺寸为(4，4，3)，卷积层的输入为第十七层输出，使用1个卷积核，尺寸为(1，1，256)，级联层将去卷积层与卷积层的输出进行通道连接，激活函数为ReLU函数；

2.根据权利要求1所述的基于层次注意力模型的图像检索方法，其特征在于：步骤S12中显著性对象检测模型的网络结构具体如下：

第一层为输入层，输入图像；

第三层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第五层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第七层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第九层为池化层，尺寸为(2，2)，激活函数为ReLU函数；

第十六层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成；其中去卷积层，使用256个卷积核，尺寸为(4，4，256)，激活函数为ReLU函数，输入为第十五层输出；卷积层使用256个卷积核，尺寸为(1，1，256)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第十四层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第十四层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第十七层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成；其中去卷积层，使用512个卷积核，尺寸为(4，4，256)，激活函数为ReLU函数，输入为第十六层输出；卷积层使用512个卷积核，尺寸为(1，1，512)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第十三层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第十三层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第十八层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成；其中去卷积层，使用512个卷积核，尺寸为(4，4，512)，激活函数为ReLU函数，输入为第十七层输出；卷积层使用512个卷积核，尺寸为(1，1，512)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第十二层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第十二层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第十九层由一个去卷积层、一个卷积层、一个剪切层、两个Eltwise层组成；其中去卷积层，使用512个卷积核，尺寸为(4，4，512)，激活函数为ReLU函数，输入为第十八层输出；卷积层使用512个卷积核，尺寸为(1，1，512)，激活函数为Sigmoid函数，输入为去卷积层输出；第一个Eltwise层对去卷积层输出与卷积层输出进行逐像素相加，激活函数为ReLU函数；剪切层，根据第八层输出的尺寸对第一个Eltwise层输出进行剪切；第二个Eltwise层，对第八层输出与剪切层输出进行逐像素相乘，激活函数为ReLU函数；

第二十层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用16个卷积核，尺寸为(1，1，512)，输入为第十九层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十一层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用8个卷积核，尺寸为(1，1，512)，输入为第十九层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十二层为PriorBox层，使用第一层与第十九层输出作为输入，最大最小尺寸参数分别为44.8与224，长宽比率参数为2；

第二十三层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用24个卷积核，尺寸为(1，1，512)，输入为第十八层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十四层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用12个卷积核，尺寸为(1，1，512)，输入为第十八层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十五层为PriorBox层，使用第一层与第十八层输出作为输入，最大最小尺寸参数分别为96.32与448，长宽比率参数为2和3；

第二十六层为由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用24个卷积核，尺寸为(1，1，512)，输入为第十七层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十七层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用12个卷积核，尺寸为(1，1，512)，输入为第十七层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第二十九层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用24个卷积核，尺寸为(1，1，256)，输入为第十六层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第三十层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用12个卷积核，尺寸为(1，1，256)，输入为第十六层输出；Permute层，对特征进行重新排列，顺序为(O，2，3，1)；Flatten层，将特征平铺成一维；

第三十二层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用24个卷积核，尺寸为(1，1，256)，输入为第十四层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第三十三层由一个卷积层、一个Permute层、一个Flatten层组成；其中卷积层使用12个卷积核，尺寸为(1，1，256)，输入为第十四层输出；Permute层，对特征进行重新排列，顺序为(0，2，3，1)；Flatten层，将特征平铺成一维；

第三十九层为Flatten层，将第三十八层输出平铺成一维；

第四十层为DetectionOutput层，输入为第三十六层、第三十九层、第三十七层，类别参数为2，得到最终结果。

3.根据权利要求2所述的基于层次注意力模型的图像检索方法，其特征在于：步骤S3中特征提取包括SIFT特征、HSV颜色直方图及语义特征；

其中HSV特征的提取包括以下步骤：通过提取显著性目标区域的像素，将RGB值转换为HSV值，量化成256维的颜色直方图；

SIFT特征的提取如下，通过提取显著性目标区域的像素，用DoG检测器检测关键点，然后用128维向量描述每个关键点的信息；

CNN语义特征的提取如下，将显著性目标区域缩放成224*224大小，输入到显著性对象检测模型与显著性区域检测模型中，分别提取第八层与第八层输出作为CNN特征向量，并进行归一化。

4.根据权利要求1所述的基于层次注意力模型的图像检索方法，其特征在于：还包括步骤S4：使用加权的特征距离计算查询图像的显著性目标和数据库中每一幅图像的显著性目标之间的相似度，再通过显著性值加权计算查询图像和数据库中每一幅图像的相似度，按从大到小的顺序返回图像检索结果。

5.根据权利要求4所述的基于层次注意力模型的图像检索方法，其特征在于：步骤S4包括以下具体步骤：

步骤S41：设有待搜寻图像Q有N个显著性目标(s₁，…，s_N)，其对应的显著性值为c₁，…，c_N；数据库图像I有M个显著性目标(s′₁，…，s′_M)；

步骤S42：计算待搜寻显著性目标s_i与数据库图像I的显著性目标s′_j的HSV颜色直方图相似度、SIFT匹配数得分及CNN特征相似度，将这三种相似度以乘法法则融合得到显著性目标s_i与显著性目标s′_j的相似度；

其中HSV颜色直方图相似度为

SIFT匹配数得分为

表示两SIFT特征的匹配函数，匹配则为1，不匹配则为0，idf表示倒排文档频率，||s_i||₂表示词频的欧式范数；

CNN特征相似度为

显著性目标s_i与显著性目标s′_j的相似度为S(s_i，s′_j)＝S_h(s_i，s′_j)^0.2×S_s(s_i，s′_j)^0.1×S_c(s_i，s′_j)^0.7

步骤S43：根据步骤S41计算显著性目标s_i与图像I的M个显著性目标(s′₁，…，s′_M)的相似度，取最高的相似度作为显著性目标s_i与图像I的相似度；

步骤S44：计算得出待搜寻图像Q的N个显著性目标(s₁，…，s_N)与图像I的相似度s_1I，…，s_NI，使用显著性值对相似度分配权重得到待搜寻图像与图像I的相似度

步骤S45：通过上述步骤计算出待搜寻图像Q与图像数据库中所有图像的相似度值，之后按照相似度值从大到小的顺序返回图像检索结果。