CN112528061B

CN112528061B - 一种基于选择性卷积描述符聚合的多目标图像检索方法

Info

Publication number: CN112528061B
Application number: CN202011086073.9A
Authority: CN
Inventors: 廖开阳; 范冰; 郑元林; 曹从军; 黄港
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2024-05-28
Anticipated expiration: 2040-10-12
Also published as: CN112528061A

Abstract

本发明公开了一种基于选择性卷积描述符聚合的多目标图像检索方法，首先利用假设选择的方法选取出多目标对象图片里面的对象片段，然后对选取出来的对象片段进行处理，先分别将对象片段的卷积特征在深度方向做加和，之后获得聚合映射图片，保留关键的特征卷积描述符对图像数据库中的图像特征进行相似性度量，根据度量后的不同相似度对比，得到相似度排名。本发明不但提高了多目标对象的图像的检索精度，特别是相似度高的图片，如不同图像里面包含相同单个对象或者相同背景里面对象不同等，同时还可以适用于差别较小的物种识别。

Description

一种基于选择性卷积描述符聚合的多目标图像检索方法

技术领域

本发明属于图像检索方法技术领域，涉及一种基于选择性卷积描述符聚合的多目标图像检索方法。

背景技术

随着数码设备的流行以及互联网的快速发展，图像对于人们的日常生活的重要性也日渐增长，大量的图片、视频数据在工业产权、医学影像、遥感系统、数字图书馆等多个领域得到了应用，从而存在了对能够有效的检索多媒体数据系统的需求。因此，用户所需图像在大量的图像中能够被快速精确地检索到的研究成为一个很有意义且需要迫切解决的课题。

图像检索实现了对图像库的有效查询和管理，它是指从大规模图像数据库中检索出与问文本查询或视觉查询相关的图像。目前图像检索主要有基于文本的图像检索(text-based image retrieval,TBIR)、基于内容的图像检索(content-based image retrieval,CBIR)和基于语义的图像检索(semantic-based image retrieval,SBIR)。基于文本的图像检索，主要是利用文本描述图像的特征，然后再通过文本匹配进行图像的检索。目前基于文本的检索技术已经发展成熟，如概率方法、Page-Rank方法、位置方法、词性标注法、聚类方法等(Cheng A,Friedman E.Manipulability of PageRank under sybil strategies[J].NetEcon,2006.)。基于内容的图像检索技术，它是对图像的内容，如图像的形状、纹理等低层特征进行查询和分析的图像检索技术。通过对图像的视觉内容进行数学描述来提取图像特征，利用这些低层特征的数学描述去反映图像本身的视觉内容。基于语义的图像检索技术，与CBIR不同的是，SBIR是基于文字的查询，包含了传统的图像检索技术和自然语言处理。SBIR是解决“语义鸿沟”的重要方法及思路，它不但考虑了低层视觉特征，而且考虑了图像的高层特征，如场景、情感和空间关系等方面的图像信息。在2012年，Krizhevsky等(Krizhevsky A,Sutskever I,Hinton G E.Imagenet clas sification with deepconvolutional neural networks[c]//Advances in neural information processingsystems,2012:1097-1105.)在ImageNet LSVRC大赛上利用AlexNet获得了最高的准确率，从那之后兴起了一些基于深度学习的图像检索算法，广泛应用在图像语义分割、目标识别、图像分类以及图像检索等领域。在深度学习算法中特别是卷积神经网络的检索效果最好，它利用多个池化层和卷积层的组合得到图像的视觉特征，并与反馈及分类技术相结合从而实现了较好的检索结果。

目前面对的问题是对于多目标对象的图像的检索精度还有待提高，特别是相似度高的图片，如不同图像里面包含相同单个对象或者相同背景里面对象不同等。因此在图像检索的时候，针对复杂图像包含的多个目标对象作相应处理，对多目标图像检索精度得到提高具有重大的意义。

发明内容

本发明的目的是提供一种基于选择性卷积描述符聚合的多目标图像检索方法，本方法能够通过对图像数据库中的图像进行识别和检索，并检索需要的图片后提取出来。

本发明所采用的技术方案是，一种基于选择性卷积描述符聚合的多目标图像检索方法，具体按以下步骤实施：

步骤1，首先根据图像包含的目标对象对原始图像进行假设提取；

步骤2，将经步骤1中提取的假设框进行筛选得到包含单个目标的对象片段；

步骤3，对步骤2筛选出来的对象片段分别处理，将对象片段的卷积特征在深度方向做加和，之后获得聚合映射图片Aggregation Map(H×W)；

步骤4，分别计算出所有对象片段的二维图中的H×W个元素的均值，AggregationMap中大于m的元素位置的卷积特征需要保留；小于m的元素位置的卷积特征丢弃；

步骤5，对经步骤4保留下来的深度特征，分别做以平均和最大池化操作，之后级联组成最终的图像表示；

步骤6，利用上述步骤得到的特征对图像数据库中的图像特征进行相似性度量，根据度量后的不同相似度对比，得到相似度排名。

本发明的特点还在于：

其中步骤1具体内容包括：

采用BING和EdgeBoxs两种方法生成假设，然后使用假设选择(HS)的方法来选择假设到生成的建议，给定的图像的生成的假设包围盒作为H＝{h1,h₂,…hn}，其中n是假设数；构造一个n*亲和矩阵W，其中W_ij(i；j<＝n)是h_i和h_j之间的IoU值，定义为：

其中|·|用于测量像素的数目；

其中步骤2具体内容包括：

采用归一化分割算法将假设包围盒分组到M群中，不同的颜色指示不同的簇；过滤面积或较高的高宽或宽高比的假设；对于每个集群，选择BING或EdgeBoxes生成的预测得分最高的前1种假设，并将其调整为方形；

其中步骤2中过滤面积为过滤小于900像素的假设，过滤宽高或高宽比大于4的假设；

其中步骤3具体包括以下内容：

首先利用选择性卷积描述符聚合SCDA的方法处理步骤2筛选得到的对象片段图片；

然后将处理后的对象片段经过池化层，分别用三维的向量T(H×W×D)进行表达；将所有channel相加，然后特征图就由H×W×D变成了H×W，叫做Aggregation map A：

式中，Sn是最大池化后最后一个卷积层的激活中的第n个特征映射，每一个对象片段都做以上相同的操作得到A₁,A2…A_n；

其中步骤4具体包括以下内容：

步骤4.1，分别计算A_n的平均值a作为阈值，以决定哪些位置定位对象，与A_n相同大小的mask map M可得：

式中，(i，j)是这些h×w位置的特定位置；

步骤4.2，使用bicubic差值方法，将M的尺寸调整成和原图大小相同，Bicubic差值方法具体如下：

假设源图像A大小为m*n，缩放K倍后的目标图像B的大小为M*N，即K＝M/m，首先找出像素(X,Y)在源图像A中对应的像素(x,y)，再根据源图像A距离像素(x,y)最近的16个像素点作为计算目标图像B(X,Y)处像素值的参数，利用BiCubic基函数求出16个像素点的权重，图B像素(x,y)的值就等于16个像素点的加权叠加；

根据比例关系x/X＝m/M＝1/K，得到B(X,Y)在A上的对应坐标为A(x,y)＝A(X*(m/M),Y*(n/N))＝A(X/K,Y/K)；设P点就是目标图像B在(X,Y)处对应于源图像A中的位置，假设P的坐标为P(x+u,y+v)，其中x,y分别表示整数部分，u,v分别表示小数部分，得到最近16个像素的位置，用a(i,j)(i,j＝0,1,2,3)来表示；

构造BiCubic函数：

求出BiCubic函数中的参数x，从而获得16个像素所对应的权重W(x)；

将像素点的行与列分开计算，BiCubic函数中的参数x表示该像素点到P点的距离，如a₀₀距离P(x+u,y+v)的距离为(1+u,1+v)，因此a₀₀的横坐标权重i_0＝W(1+u)，纵坐标权重j_0＝W(1+v)，a₀₀对B(X,Y)的贡献值为：(a₀₀像素值)*i_0*j_0；因此，a_0X的横坐标权重分别为W(1+u)，W(u)，W(1-u)，W(2-u)；a_y0的纵坐标权重分别为W(1+v)，W(v)，W(1-v)，W(2-v)；B(X,Y)像素值为：

加权算法：

f(i+u，j+v)＝ABC^T (6)

A＝[S(u+1) S(u) S(u-1)S(u-2)] (7)

A＝[S(v+1) S(v) S(v-1)S(v-2)] (8)

B＝f(i-1：i+2，j-1：j+2) (9)

其中S(x)为三次插值核函数，可由如下式子近似：

其中步骤5具体包括以下内容：

选用两种池化方式来聚合深度描述符，分别是平均池化p_avg和最大池化p_max：

p_max＝max_i，jx(i，j) (12)

式中，p_avg和p_max都是1×d维，N是所选描述符的数目。

其中步骤6具体按照以下步骤实施：

利用上述步骤处理图片后，再根据输入图片的多个对象片段的特征对图像数据库中的图像特征进行相似性度量，根据度量后的不同相似度对比，得到相似度排名。

本发明的有益效果是：

本发明的一种基于选择性卷积描述符聚合的多目标图像检索方法利用假设选择的方法选取出多目标对象图片里面的对象片段，然后对选取出来的对象片段进行处理，先分别将对象片段的卷积特征在深度方向做加和，之后获得聚合映射图片，保留关键的特征卷积描述符对图像数据库中的图像特征进行相似性度量，根据度量后的不同相似度对比，得到相似度排名。在使用SCDA方法聚合描述符时，不但可以挖掘深度卷积特征，而且能够有效的定位图像主要目标，丢弃噪声背景并保留有用的深度描述符。使用的图像数据库是本发明提高了多目标对象的图像的检索精度，特别是相似度高的图片，如不同图像里面包含相同单个对象或者相同背景里面对象不同等，同时还可以适用于差别较小的物种识别。

附图说明

图1是本发明的一种基于选择性卷积描述符聚合的多目标图像检索方法中Bicubic差值方法的补充示意图；

图2是本发明的一种基于选择性卷积描述符聚合的多目标图像检索方法的示意图；

图3是是本发明的一种基于选择性卷积描述符聚合的多目标图像检索方法的具体流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种基于选择性卷积描述符聚合的多目标图像检索方法，如图2和图3所示，具体按照以下步骤实施：

步骤1，如图2所示，根据图像中包含的目标对象对原始图像进行假设提取：

采用BING和EdgeBoxs两种方法生成假设，因为他们具有高的计算效率和高的对象检测召回率，尽管与一般的滑动窗口范例相比，由BING和EdgeBox生成的假设数量非常少，但对于本实验来说仍然非常大。为了解决这个问题，我们使用假设选择(HS)的方法来选择假设到生成的建议。表示给定的图像的生成的假设包围盒作为H＝{h1,h2,…hn}，其中n是假设数。构造一个n*亲和矩阵W，其中Wij(i；j<＝n)是hi和hj之间的IoU值，它可以定义为：

式中，|·|用于测量像素的数目；

步骤2，将经步骤1中提取的假设框进行筛选得到包含单个目标的对象片段：

采用归一化分割算法将假设包围盒分组到M群中，不同的颜色指示不同的簇，根据经验过滤那些面积(<900像素)或较高的高宽(或宽高)比(>4)的假设，对于每个集群，选择BING或EdgeBoxes生成的预测得分最高的前1种假设，并将其调整为方形；

步骤3，对步骤2筛选出来的对象片段分别处理，将对象片段的卷积特征在深度方向做加和，之后获得聚合映射图片Aggregation Map(H×W)：

由于选取的对象片段还是具有背景或噪声，所以我们使用选择性卷积描述符聚合(SCDA)的方法处理这些片段图片，SCDA只需要用预训练模型就能够挖掘深度卷积特征，这种特征能够有效的定位图像主要目标，丢弃噪声背景并保留有用的深度描述符；

接下来将这些对象片段经过池化层，然后分别用三维的向量T(H×W×D)进行表达，这是一种分布的表达，分布表达通过卷积编码获得，在深度学习中分布表达意味着不同形式间的内在联系，每一个概念(concept)是神经网络激活的结果；每一个神经元参与多个concept的表达；一般来说单一的通道对于定位目标物体的是没有用的，但是当很多通道都在同一区域激活时，这个区域是目标物体的概率较高；所以将所有channel相加，然后特征图(feature map)就由H×W×D变成了H×W，叫做Aggregation map A

步骤4，分别计算出所有对象片段的二维图中的H×W个元素的均值，AggregationMap中大于m的元素位置的卷积特征需要保留；小于m的元素位置的卷积特征丢弃：

分别计算A_n的平均值a作为阈值，以决定哪些位置定位对象。与A_n相同大小的maskmap M可得：

式中，(i，j)是这些h×w位置的特定位置；

使用bicubic差值方法，将M的尺寸调整成和原图大小相同，Bicubic差值方法具体如下：

假设源图像A大小为m*n，缩放K倍后的目标图像B的大小为M*N，即K＝M/m。A的每一个像素点是已知的，B是未知的，我们想要求出目标图像B中每一像素点(X,Y)的值，必须先找出像素(X,Y)在源图像A中对应的像素(x,y)，再根据源图像A距离像素(x,y)最近的16个像素点作为计算目标图像B(X,Y)处像素值的参数，利用BiCubic基函数求出16个像素点的权重，图B像素(x,y)的值就等于16个像素点的加权叠加；

根据比例关系x/X＝m/M＝1/K，我们可以得到B(X,Y)在A上的对应坐标为A(x,y)＝A(X*(m/M),Y*(n/N))＝A(X/K,Y/K)。如图1所示P点就是目标图像B在(X,Y)处对应于源图像A中的位置，P的坐标位置会出现小数部分，所以我们假设P的坐标为P(x+u,y+v)，其中x,y分别表示整数部分，u,v分别表示小数部分(大点到a₁₁方格中小点的距离)。那么我们就可以得到如图所示的最近16个像素的位置，在这里用a(i,j)(i,j＝0,1,2,3)来表示，如图1所示。构造BiCubic函数：

求出BiCubic函数中的参数x，从而获得上面所说的16个像素所对应的权重W(x)；BiCubic基函数是一维的，而像素是二维的，所以我们将像素点的行与列分开计算，BiCubic函数中的参数x表示该像素点到P点的距离；

例如，a₀₀距离P(x+u,y+v)的距离为(1+u,1+v)，因此a₀₀的横坐标权重i_0＝W(1+u)，纵坐标权重j_0＝W(1+v)，a00对B(X,Y)的贡献值为：(a₀₀像素值)*i_0*j_0。因此，a_0X的横坐标权重分别为W(1+u)，W(u)，W(1-u)，W(2-u)；a_y0的纵坐标权重分别为W(1+v)，W(v)，W(1-v)，W(2-v)；B(X,Y)像素值为：

加权算法(a可以不取-0.5)：

f(i+u，j+v)＝ABC^T (6)

A＝[S(u+1) S(u) S(u-1)S(u-2)] (7)

A＝[S(v+1) S(v) S(v-1)S(v-2)] (8)

B＝f(i-1：i+2，j-1：j+2) (9)

其中S(x)为三次插值核函数，可由如下式子近似：

步骤5，对经步骤4保留下来的深度特征，分别做以平均和最大池化操作，之后级联组成最终的图像表示：

p_max＝max_i，jx(i，j) (12)

式中，p_avg和p_max都是1×d维，N是所选描述符的数目；

Claims

1.一种基于选择性卷积描述符聚合的多目标图像检索方法，其特征在于，具体按以下步骤实施：

步骤4，分别计算出所有对象片段的二维图中的H×W个元素的均值，Aggregation Map中大于m的元素位置的卷积特征需要保留；小于m的元素位置的卷积特征丢弃，具体包括以下内容：

式中，(i，j)是这些h×w位置的特定位置；

构造BiCubic函数：

加权算法：

f(i+u，j+v)＝ABC^T (6)

A[S(u+1) S(u) S(u-1) S(u-2)] (7)

A[S(v+1) S(v) S(v-1) S(v-2)] (8)

B＝f(i-1：i+2，j-1：j+2) (9)

其中S(x)为三次插值核函数，可由如下式子近似：

2.根据权利要求1所述的一种基于选择性卷积描述符聚合的多目标图像检索方法，其特征在于，所述步骤1具体内容包括：

其中|·|用于测量像素的数目。

3.根据权利要求1所述的一种基于选择性卷积描述符聚合的多目标图像检索方法，其特征在于，所述步骤2具体内容包括：

采用归一化分割算法将假设包围盒分组到M群中，不同的颜色指示不同的簇；过滤面积或较高的高宽或宽高比的假设；对于每个集群，选择BING或EdgeBoxes生成的预测得分最高的前1种假设，并将其调整为方形。

4.根据权利要求1所述的一种基于选择性卷积描述符聚合的多目标图像检索方法，其特征在于，所述步骤2中过滤面积为过滤小于900像素的假设，过滤宽高或高宽比大于4的假设。

5.根据权利要求1所述的一种基于选择性卷积描述符聚合的多目标图像检索方法，其特征在于，所述步骤3具体包括以下内容：

首先利用选择性卷积描述符聚合SCDA的方法处理步骤3筛选得到的对象片段图片；

式中，Sn是最大池化后最后一个卷积层的激活中的第n个特征映射，每一个对象片段都做以上相同的操作得到A₁,A2…A_n。

6.根据权利要求1所述的一种基于选择性卷积描述符聚合的多目标图像检索方法，其特征在于，所述步骤5具体包括以下内容：

p_max＝max_i，jx(i，j) (12)

式中，p_avg和p_max都是1×d维，N是所选描述符的数目。