CN107169090A

CN107169090A - 一种利用内容环绕信息提取图像表征的特定对象检索方法

Info

Publication number: CN107169090A
Application number: CN201710333971.1A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2017-09-15

Abstract

本发明中提出的一种利用内容环绕信息提取图像表征的特定对象检索方法，其主要内容包括：卷积网络结构、区域卷积特征最大值、环绕内容信息提取、带权重的区域卷积特征最大值，其过程为，首先使用已经预训练的深度卷积网络进行网络截取，将得到的特征图通过不同通道叠加的方让其张量从三维转换为二维，接着将得到的中间结果进行固定等长度编码，使之成为特征向量，进行L2范数的归一化处理后，图像之间通过点积运算计算相似性。本发明可以处理检索图像中特定物体的提取与比较，同时根据现实情况利用上下文环境信息，极大程度上提高检索精度。

Description

一种利用内容环绕信息提取图像表征的特定对象检索方法

技术领域

本发明涉及图像内容检索领域，尤其是涉及了一种利用内容环绕信息提取图像表征的特定对象检索方法。

背景技术

基于内容的图像检索是大规模数字图像内容检索的分支，近年来吸引了广泛关注。在如今时代，随着网页内容、移动互联网的快速发展，图像以海量级别增长，以社交领域新浪微博为例，每月活跃用户上传照片数以亿计，以购物平台淘宝为例，其后台储存图片达300亿张。显而易见，如今在数字图像领域，限制发展的不再是储存容量、传输速度，而是检索能力，因此这个问题的解决，将在人机交互领域、远程服务器内容搜查，特别在远洋深海中有着极大的应用前景，例如长距离大面积的船舶定位、安全航道轨迹的统计，甚至在国际海洋权益的争议中，实现侵权目标的快速查找和有效识别分析，可以为海洋执法机构提供证据或决策依据。

如何在海量的图像中迅速找到自己所需内容，已经成为了当今的挑战。由于特定内容检索需要海量数据建模，同时不同嵌体的检索图像其上下文环境内容信息不尽相同，因此非感兴趣区域之外的信息如何处理才能提高检索的精度给任务造成了一定难度。

本发明提出了一种基于深度卷积网络进行图像内容信息表征的新框架。使用已经预训练的深度卷积网络进行网络截取，将得到的特征图通过不同通道叠加的方让其张量从三维转换为二维，接着将得到的中间结果进行固定等长度编码，使之成为特征向量，进行L2范数的归一化处理后，图像之间通过点积运算计算相似性。本发明可以处理检索图像中特定物体的提取与比较，同时根据现实情况利用上下文环境信息，极大程度上提高检索精度。

发明内容

针对解决在海量图像中寻找特定目标的检索问题，本发明的目的在于提供一种利用内容环绕信息提取图像表征的特定对象检索方法，提出了一种基于深度卷积网络进行图像内容信息表征的新框架。

为解决上述问题，本发明提供一种利用内容环绕信息提取图像表征的特定对象检索方法，其主要内容包括：

(一)卷积网络结构；

(二)区域卷积特征最大值；

(三)环绕内容信息提取；

(四)带权重的区域卷积特征最大值。

其中，所述的卷积网络结构，采取总共34层的预训练卷积网络拓扑，具体为：

(1)输入图像；

(2)首先经过卷积核为7×7、特征图数为64个的卷积层共1层；

(3)继续经过采样率为二分之一的池化层共1层；

(4)经过卷积核为3×3、特征图数为64个的卷积层共6层，其中每两层特征合并；

(5)继续经过卷积核为3×3、特征图数为128个的卷积层共8层，其中除首层外每两层特征合并；

(6)继续经过卷积核为3×3、特征图数为256个的卷积层共10层，其中除首层外每两层特征合并；

(7)继续经过卷积核为3×3、特征图数为512个的卷积层共6层，其中除首层外每两层特征合并；

(8)继续经过均值池化层共1层；

(9)最后经过神经元为1000的全连接层共1层，输出图像表征。

进一步地，所述的区域卷积特征最大值，包括卷积网络截层和特征图谱编码。

进一步地，所述的卷积网络截层，给定一个卷积网络结构，用于图像表征可不沿用预训练中最终层输出，而是使用最后一层卷积层或者池化层所得到的向量，具体地，对于具有L层的卷积网络，给定图像则对应的输出层l∈L结果是一个三维张量其中K是通道的数量，W×H是输出特征图的空域维度；

特征图X^l可分解为K个二维特征图的序列，即与平面图像的像素相对，这些二维特征图称作卷积层中的激活因子，而这些激活因子在特征图中的空域位置表示为所有的p点组合起来可表征为S＝[1,W]×[1,H]，每一层都计算的是比上一层更高阶的抽象信息。

进一步地，所述特征图谱编码，对于特征图抽象概括的信息维度非常庞大，输入图像为3×3时，该网络的特征图谱维度为23×13×2048，因此需要将维度庞大的信息编码到固定长度的全局信息，具体为：对于给定层l的特征图X^l，首先产生一序列正方形区域R＝{R_i},i＝1,…,N，其中R_i∈S且N由特征图的尺寸所决定，接着，区域卷积特征最大值由横跨K个通道的空域所计算得到，即对每个区域R_i都会产生一个1×K的向量

则区域卷积特征最大值有：

每个区域向量都进行L₂范数均一化得到中间结果，接着用主成分分析法对中间结果进行白化处理，最后将白化完的结果再进行L₂范数均一化，因此可以得到最终此输入图像的聚集总和表征为：

此时得到的最终图像表征f仍然是1×K的向量，需要将其再次进行L₂范数均一化，这样通过简单的点积运算就能计算图像之间的相似性。

进一步地，所述的环绕内容信息提取，包括环绕信息区域分类、空间关注度以及计算模型。

进一步地，所述的环绕信息区域分类，对于图像中感兴趣的区域之外，所有的图像信息都可以称作上下文环绕信息，简称环绕信息，这些环绕信息跟感兴趣区域信息捆绑在一起进行分类时，有时候会增加检索的成功率，但有时候会降低，而其中环绕信息可以分为三类：

(1)全图信息：整幅检索图像都输入到深度卷积网络中，得到的图像表征编码成固定长度的特征向量；

(2)兴趣信息：只截取感兴趣区域的信息输入到深度卷积网络中，得到的图像表征编码成固定长度的特征向量；

(3)兴趣投影信息：先用整幅检索图像输入到深度卷积网络，在前向反馈中得到不同层特征图的表征，然后计算每一层特征图中兴趣区域的投影，最终积累的特征图投影编码成固定长度的特征向量。

进一步地，所述的空间关注度，三类环绕信息各有优劣，为了合并三类信息达到最优结果，利用三类信息各自的有点合并成一个空间关注度模型，用来提取深度卷积网络表征，具体为：

(1)兴趣信息和兴趣投影信息具有对图像最高的响应度，其中兴趣信息具有本身表征的能力，而兴趣投影信息则具有更高的上下文环绕信息的表征；

(2)全图信息由于含有不具备先验知识的环绕信息，当全图被输入深度卷积网络时，会产生大量的不明确的分类信息，因此在全局考虑中需要将其比重降至最低；

(3)关注度模型产生的最终表征不仅应该包含远离兴趣区域的信息，更要包含兴趣区域本身的信息，这是空间关注度的约束条件。

进一步地，所述的计算模型，用关注度图谱初始化特征图X^l，对于此关注度图谱中所有K个通道中的元素p，其中A_p∈[0,1]，活跃度可以表征为：

其中R_l是特征图X^l中兴趣信息投影区域，M是显著性图谱；对于在特征图X^l中位置p∈R_l激活因子按照以下公式调整：

g(·)是一个单调函数，具体为：

g(a)＝λ₁+λ₂a^φ (6)

其中，常量λ₁设置为0.5，常量λ₂设置为0.4，φ设置为4。

进一步地，所述的带权重的区域卷积特征最大值，改变公式(3)中的区域卷积特征最大值均等贡献权重的做法，在对检索图像不存在先验知识的情况下，增加兴趣区域R_l的个数能确保更高的兴趣物体检索覆盖度，但同时会增加不相关区域的信息干扰，因此，根据公式(3)增加一个带权重的聚集综合表征：

其中，是区域信息的权重，由一种显著性映射方式取得，具体为：给定特征图，通过叠加不同的通道，则将其张量从三维X^l映射为二维M，即因此有：

ψ(X^l)＝M (8)

其中，最终的权重计算可由下得到：

此外，显著性映射还会进行最大值均一化操作，使得M_p∈[0,1]。

附图说明

图1是本发明一种利用内容环绕信息提取图像表征的特定对象检索方法的系统流程图。

图2是本发明一种利用内容环绕信息提取图像表征的特定对象检索方法的深度卷积网络结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种利用内容环绕信息提取图像表征的特定对象检索方法的系统流程图。主要包括卷积网络结构；区域卷积特征最大值；环绕内容信息提取；带权重的区域卷积特征最大值。

采取总共34层的预训练卷积网络拓扑，具体为：

(1)输入图像；

(2)首先经过卷积核为7×7、特征图数为64个的卷积层共1层；

(3)继续经过采样率为二分之一的池化层共1层；

(8)继续经过均值池化层共1层；

(9)最后经过神经元为1000的全连接层共1层，输出图像表征。

区域卷积特征最大值，包括卷积网络截层和特征图谱编码。

卷积网络截层，给定一个卷积网络结构，用于图像表征可不沿用预训练中最终层输出，而是使用最后一层卷积层或者池化层所得到的向量，具体地，对于具有L层的卷积网络，给定图像则对应的输出层l∈L结果是一个三维张量其中K是通道的数量，W×H是输出特征图的空域维度；

特征图谱编码，对于特征图抽象概括的信息维度非常庞大，输入图像为3×3时，该网络的特征图谱维度为23×13×2048，因此需要将维度庞大的信息编码到固定长度的全局信息，具体为：对于给定层l的特征图X^l，首先产生一序列正方形区域R＝{R_i},i＝1,…,N，其中R_i∈S且N由特征图的尺寸所决定，接着，区域卷积特征最大值由横跨K个通道的空域所计算得到，即对每个区域R_i都会产生一个1×K的向量

则区域卷积特征最大值有：

环绕内容信息提取，包括环绕信息区域分类、空间关注度以及计算模型。

环绕信息区域分类，对于图像中感兴趣的区域之外，所有的图像信息都可以称作上下文环绕信息，简称环绕信息，这些环绕信息跟感兴趣区域信息捆绑在一起进行分类时，有时候会增加检索的成功率，但有时候会降低，而其中环绕信息可以分为三类：

空间关注度，三类环绕信息各有优劣，为了合并三类信息达到最优结果，利用三类信息各自的有点合并成一个空间关注度模型，用来提取深度卷积网络表征，具体为：

计算模型，用关注度图谱初始化特征图X^l，对于此关注度图谱中所有K个通道中的元素p，其中A_p∈[0,1]，活跃度可以表征为：

g(·)是一个单调函数，具体为：

g(a)＝λ₁+λ₂a^φ (6)

其中，常量λ₁设置为0.5，常量λ₂设置为0.4，φ设置为4。

带权重的区域卷积特征最大值，改变公式(3)中的区域卷积特征最大值均等贡献权重的做法，在对检索图像不存在先验知识的情况下，增加兴趣区域R_l的个数能确保更高的兴趣物体检索覆盖度，但同时会增加不相关区域的信息干扰，因此，根据公式(3)增加一个带权重的聚集综合表征：

ψ(X^l)＝M (8)

其中，最终的权重计算可由下得到：

图2是本发明一种利用内容环绕信息提取图像表征的特定对象检索方法的深度卷积网络结构图。如图所示，可以观察到网络结构按照序列进行排列，下一层处理的数据为上一层产生的输出。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种利用内容环绕信息提取图像表征的特定对象检索方法，其特征在于，主要包括卷积网络结构(一)；区域卷积特征最大值(二)；环绕内容信息提取(三)；带权重的区域卷积特征最大值(四)。

2.基于权利要求书1所述的卷积网络结构(一)，其特征在于，采取总共34层的预训练卷积网络拓扑，具体为：

(1)输入图像；

(2)首先经过卷积核为7×7、特征图数为64个的卷积层共1层；

(3)继续经过采样率为二分之一的池化层共1层；

(8)继续经过均值池化层共1层；

(9)最后经过神经元为1000的全连接层共1层，输出图像表征。

3.基于权利要求书1所述的区域卷积特征最大值，其特征在于，包括卷积网络截层和特征图谱编码。

4.基于权利要求书3所述的卷积网络截层，其特征在于，给定一个卷积网络结构，用于图像表征可不沿用预训练中最终层输出，而是使用最后一层卷积层或者池化层所得到的向量，具体地，对于具有L层的卷积网络，给定图像则对应的输出层l∈L结果是一个三维张量其中K是通道的数量，W×H是输出特征图的空域维度；

5.基于权利要求书3所述特征图谱编码，其特征在于，对于特征图抽象概括的信息维度非常庞大，输入图像为3×3时，该网络的特征图谱维度为23×13×2048，因此需要将维度庞大的信息编码到固定长度的全局信息，具体为：对于给定层l的特征图X^l，首先产生一序列正方形区域R＝{R_i},i＝1,…,N，其中R_i∈S且N由特征图的尺寸所决定，接着，区域卷积特征最大值由横跨K个通道的空域所计算得到，即对每个区域R_i都会产生一个1×K的向量

则区域卷积特征最大值有：

<mrow> <msub> <mi>f</mi> <mrow> <msub> <mi>R</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>p</mi> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> </mrow> </munder> <msubsup> <mi>X</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>p</mi> </mrow> <mi>l</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>f</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>f</mi> <msub> <mi>R</mi> <mi>i</mi> </msub> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

6.基于权利要求书1所述的环绕内容信息提取，其特征在于，包括环绕信息区域分类、空间关注度以及计算模型。

7.基于权利要求书6所述的环绕信息区域分类，其特征在于，对于图像中感兴趣的区域之外，所有的图像信息都可以称作上下文环绕信息，简称环绕信息，这些环绕信息跟感兴趣区域信息捆绑在一起进行分类时，有时候会增加检索的成功率，但有时候会降低，而其中环绕信息可以分为三类：

8.基于权利要求书6所述的空间关注度，其特征在于，三类环绕信息各有优劣，为了合并三类信息达到最优结果，利用三类信息各自的有点合并成一个空间关注度模型，用来提取深度卷积网络表征，具体为：

9.基于权利要求书6所述的计算模型，其特征在于，用关注度图谱初始化特征图X^l，对于此关注度图谱中所有K个通道中的元素p，其中A_p∈[0,1]，活跃度可以表征为：

g(·)是一个单调函数，具体为：

g(a)＝λ₁+λ₂a^φ (6)

其中，常量λ₁设置为0.5，常量λ₂设置为0.4，φ设置为4。

10.基于权利要求书1所述的带权重的区域卷积特征最大值，其特征在于，改变公式(3)中的区域卷积特征最大值均等贡献权重的做法，在对检索图像不存在先验知识的情况下，增加兴趣区域R_l的个数能确保更高的兴趣物体检索覆盖度，但同时会增加不相关区域的信息干扰，因此，根据公式(3)增加一个带权重的聚集综合表征：

ψ(X^l)＝M (8)

其中，最终的权重计算可由下得到：

<mrow> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> <mrow> <mi>p</mi> <mo>&Element;</mo> <msub> <mi>R</mi> <mi>i</mi> </msub> </mrow> </munder> <msub> <mi>M</mi> <mi>p</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>