CN108021920A

CN108021920A - 一种图像对象协同发现的方法

Info

Publication number: CN108021920A
Application number: CN201711098053.1A
Authority: CN
Inventors: 张见威; 赵菁
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2018-05-11

Abstract

本发明公开了一种图像对象协同发现的方法，包括下述方法：对图像数据集中的每一幅图像执行以下相同的操作，先基于图像显著性特征，完成粗糙的对象发现，将显著窗口中的对象作为协同发现的候选对象靶；再提取每一幅图像的强边缘‑Harris角点作为关键点，并以关键点为中心提取图像特征块；然后构造Color‑Texture‑Color‑Color四层聚类塔，对提取的图像特征块进行聚类，将所有的聚类中心图像块逐一匹配，确定各自归属的整个聚类的图像块之间匹配成功，标注成功匹配的所有聚类图像块的中心点，计算中心点的凸包，凸包发现的对象即为一个与候选对象靶相似的对象，实现了对象的协同发现。本发明可以更有效地对象发现，发现单幅图像对象的同时，利用对象之间的相似性，发现多幅图像中的相似对象。

Description

一种图像对象协同发现的方法

技术领域

本发明涉及计算机视觉领域，更具体地说，涉及一种图像对象协同发现的方法。

背景技术

对象发现是计算机视觉领域的一个重要研究内容，是目标识别、目标检测、图像分类以及分割等研究的基础。其目的是从图像中发现对象，实现准确定位，其实质就是从图像中找到一个窗口或者闭合的区域边界，并且窗口或者闭合区域内包含一个对象。由于图像背景的复杂性和对象多样性，特别是在多对象的复杂场景中，单纯根据颜色、纹理、对比度等特征来发现对象，存在很大的困难。

目前对象发现的方法，根据发现对象的类别，可以简单分为单类对象发现和多类对象发现。单类对象发现，目前已有很多先进的方法，其针对于特定的某一类对象进行研究，比如人脸，汽车等，专门应用于特殊的场合或领域，最常见的应用有人脸识别,车辆识别等。多类对象发现不局限于单类对象，而是把图像中所有对象进行挖掘，生成的窗口可以包含任意类别的对象。目前窗口生成的方法主要包括分组法和窗口评分法。分组法往往是无监督的，利用图像特征，获得大量与对象可能相关的图像碎片，采取某种线索(比如超像素的形状、外观或者边界)合并碎片，通过直接处理图像，区分对象与背景来发现对象。分组法本质可以看成分割和合并两个过程，具体可以采用超像素、图割或者边缘轮廓的形式，但存在计算量大，分割过程容易过分割，增加合并代价，并且难以选择合适的合并策略等问题。窗口评分法,先利用某种方法从在图像中获得大量候选窗口，再计算候选窗口中包含对象可能的概率,根据概率决定候选窗口是否是真正的对象窗口。研究人员对此类方法进行了大量研究，从传统的滑动窗口模式到与显著性和边缘结合的新方法。

以上对象发现方法均基于对单幅图像的处理，需要独立计算每一幅图像的特征，识别对象和背景，计算量大，我们可以同时对多幅图像进行处理，利用不同图像中对象的相似性进行更有效的对象发现，减少计算量，提高识别准确率，同时自然而然判断出哪些对象相似，为此本文提出了一种图像对象协同发现的方法，可以发现单一图像中的对象，也可以用于挖掘图像对象的相关性，识别和发现相似对象。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提出了对象协同发现的概念，并且提供了一种图像对象协同发现的方法。本发明基于协同分割、协同显著度，将协同的概念与对象发现相结合，提出了对象协同发现的概念。对象协同发现的定义包含3点：(1)同时处理多幅图像，进行对象发现操作；(2)对于单一图像，可以发现图像中可能存在的对象；(3)不同图像可能存在相同或者相似的对象，可以识别出这些相似的对象。满足以上3个条件的任务，称之为对象协同发现。其目的在于发现对象的同时，更好的利用和挖掘图像对象之间的相关性，很自然的得到哪些对象是相似的。

本发明提出了协同发现的方法，主要原理如下：对图像数据集中的每一幅图像执行以下相同的操作，先基于图像显著性特征，完成粗糙的对象发现，将显著窗口中的对象作为协同发现的候选对象靶；再提取每一幅图像的强边缘-Harris角点作为关键点，并以关键点为中心提取图像特征块；然后构造Color-Texture-Color-Color四层聚类塔，对提取的图像特征块进行聚类，并标记聚类中心图像块。利用深度学习方法构造训练神经网络，将每一幅图像中属于候选对象靶的聚类中心图像块与其他图像中所有的聚类中心图像块逐一匹配，根据成功匹配的聚类中心图像块，确定各自归属的整个聚类的图像块之间匹配成功，标注成功匹配的所有聚类图像块的中心点，计算中心点的凸包，凸包发现的对象即为一个与候选对象靶相似的对象，实现了单幅图像的对象发现以及多幅图像相同(相似)对象识别、发现的双重目标。

为了达到上述目的，本发明采用以下技术方案：

本发明提供了一种图像对象协同发现的方法，包括如下步骤：

S1、定位候选对象靶，基于图像显著性特征，快速发现图像中的存在的显著对象，这一过程是完成粗糙的对象发现，发现图像中的所有可能的显著对象，对于协同发现图像集{I_i}中的每一幅图像I_i得到粗糙的对象窗口P_ij，其中P_ij为图像I_i提取的第j个窗口，每一个窗口P_ij中可能包含一个对象O_target，以此作为协同发现的候选对象靶；所述候选对象靶是指单一图像中易于发现的可能对象，把它们作为协同发现的靶子，来寻找其他不易于发现的或者相似的对象；

S2、对图像I_i提取关键点和关键部位图像块，通过提取强边缘-Harris角点，以关键点为中心提取大小相同的图像块；

S3、构造颜色、纹理聚类塔，对S2提取的图像块进行聚类，标记聚类中心图像块C_im，表示图像I_i中聚类得到的第m个聚类中心图像块；

S4、对图像集中的每一幅图像I_i，执行上述S1-S3步骤；

S5、构造、训练神经网络，成对的处理图像块，将S4中图像I_i中属于候选对象靶窗口P_ij中的聚类中心图像块C_im和图像I_j的所有聚类中心图像块C_jn进行相似度匹配；

S6、通过S5成功匹配的聚类中心图像块，确定各自归属的整个聚类的图像块之间匹配成功，标注成功匹配的所有聚类图像块的中心点，计算中心点的凸包，协同发现对象。

作为优选的技术方案，所述图像对象协同发现的概念定义为利用多幅图像中对象的相似性进行更有效地对象发现，包括以下三点：

(1)同时处理多幅图像，进行对象发现操作；

(2)对于单一图像，可以发现图像中可能存在的对象；

(3)不同图像可能存在相同或者相似的对象，可以识别出这些相似的对象；

满足以上3个条件的任务，称之为对象协同发现。

作为优选的技术方案，步骤S1中，所述定位候选对象靶具体采用SalCNN+MAP方法来获取显著对象窗口P，并获得窗口内的对象O_target。

作为优选的技术方案，步骤S2中，对图像I_i提取关键点和关键部位图像块，采用下述具体方法：

S2.1、提取图像中的角点作为粗糙的关键点；

S2.2、提取图像中强边缘E，去掉大量细碎的边缘信息，最大限度的提取对象相对较强的轮廓信息,具体采用Pablo Arbelaez提出的gPb方法；

S2.3、筛选关键点，提取强边缘-Harris角点；

S2.4、以关键点为中心，提取图像中的关键图像块，具体操作：以强边缘-Harris角点p_eh为中心，提取45*45像素的大小相等的图像块，其中patch_in表示中心为p_eh-in的图像块，同理，patch_out表示中心为p_eh-out的图像块，即patch_in为显著对象区域提取的图像块，属于候选对象靶，patch_out为非显著对象区域提取的图像块。

作为优选的技术方案，步骤S3中，构造颜色、纹理聚类塔，对S2提取的图像块进行聚类，标记聚类中心图像块C，具体包括下述方法：

S3.1、对每一个大小为45*45像素的图像块，计算颜色和纹理特征，颜色采用RGB颜色空间，纹理采用灰度梯度共生矩阵；

S3.2、构建Color-Texture-Color-Color四层聚类塔进行图像块聚类，所述聚类过程用最简单的颜色和纹理特征，由粗到细，逐层递减，逐渐实现细致的聚类效果；所述Color-Texture-Color-Color四层聚类塔的每一层均为聚类操作，下一层针对上一层聚类结果不够细致的小聚类进行更细致的划分，这样的四层结构可实现较好的聚类效果，当然层数越多，聚类越细，但是对于发现对象，将对象进行过度细致的划分，失去了聚类减少匹配计算量的意义；第一层Color层使用颜色特征，对所有的图像块进行颜色粗聚类，将图像块大致分为明显的几类，第二层Texture层使用纹理特征，对第一层所得结果不够细致的类再进行纹理聚类，同理，在前面一层聚类结果上进行新的聚类，完成四层聚类，形成一个逐渐细致的塔状聚类结构；对于每一张图像I_i的聚类具体涉及到分别对I_i中提取的patch_in和patch_out进行聚类操作，得到多个聚类中心C_in和C_out。

作为优选的技术方案，步骤S3.2中，聚类的具体方法如下：

S3.2.1、聚类基于Alex Podriguez提出的方法进行改进，来确定聚类中心，聚类中心的选择参考两个因素，局部密度ρ和高密度点之间的距离δ：

其中，ρ_i是第i块图像块的局部密度，d_ij是第i块图像块和第j块图像块特征向量的欧式距离，d_c是截断距离，d_c＝0.5，可见局部密度ρ_i表示为在以d_c为半径的圆形区域内点的个数；

计算局部密度之后，对局部密度从高到低排序，再计算高密度点之间的距离δ：

结合以上两个因素，聚类中心C包括两类，一是ρ和δ均很高的点，这样的点具有高的局部密度，而且距离次高密度点比较远，二是ρ很高，δ很小，甚至接近0和1，其中，ρ＞0.8，对原有方法改进，不再把这一类点当做异常点，而是选作聚类中心，在提取图形块的过程中，的确会出现稀少的但具有代表性的特征图像块；

S3.2.2、采用逐层递减的方式确定聚类中心数目，各层数目K：

K₁＝5，K₂＝3，K₃＝K₄＝2

在聚类塔中，当上层聚类完成后，只对聚类中图像块数目Num大于一定值的进行下层聚类，其中，Num＝10。

作为优选的技术方案，步骤S5中，图像块匹配采用深度学习的方法，具体为：

S5.1、数据集和标签的制作；

所述数据集是成对制作的，样本正样本为480对相似的图像块，负样本为520对不相似的图像块；其中正样本是通过随机选择聚类Cluster_i和Cluster_j，i≠j，其聚类中心C_i和C_j相似，然后从中随机选择patch_m和patch_n，其中m≠n，patch_m和patch_n可以属于同一个聚类，也可以属于不同聚类，标签Sim＝1；负样本是通过随机选择聚类Cluster_i和Cluster_j，i≠j，其聚类中心C_i和C_j不相似，然后从中随机选择图像块patch_m和patch_n，其中patch_m∈Cluster_i且patch_n∈Cluster_j，标签Sim＝0；

S5.2、构造和训练一个双分支的神经网络，两个图像块分别送入两个分支，分支的结构相同，基本结构是VGG16，包括8个部分，其中是5个group的卷积、2层全连接fc图像特征和1层fc分类特征，最后分类特征是2维向量，最后连接Contrastive Loss损失层；

S5.3、匹配图像块，测试过程，网络成对输入的图像块均为聚类中心的特征图像块，记为C_m和C_n，匹配结果R(C_m,C_n)为：

作为优选的技术方案，步骤S6中，协同发现对象，进行定位采用的方法是关键点求凸包，具体包括下述方法：

对于匹配结果R(C_m,C_n)，如果R(C_m,C_n)＝1，说明聚类中心图像块C_m和C_n匹配成功，即以C_m和C_n为中心的聚类Cluster_i和Cluster_j，其包含的图像块均含有某种相关性；

如果C_m和C_n分别属于图像I_i和I_j，i＝j，说明它们属于同一幅图像，即图像中含有多个相似对象；

如果C_m和C_n分别属于图像I_i和I_j，i≠j，说明两幅图像中的对象相似；对图像I_i在S1中所提取的窗口P，即候选对象靶，其包含的聚类中心图像块集合为C，图像I_j中与C中的图像块匹配的聚类中心图像块构成集合C′，得到以C′为聚类中心的所有聚类中的图像块，将这些图像块的中心点，即S2提取的关键点逐一标注在图像上，计算一个包含所有标注点的凸包，凸包发现了一个对象，即协同发现一个与候选对象靶中对象O_target相似的对象。

本发明与现有技术相比，具有如下优点和有益效果：

(1)提出了对象协同发现的概念，不仅能发现单幅图像中的对象，对于多幅图像，还能识别对象，利用相关性协同发现相同或相似对象，解决了图像多类对象发现的需求，适用于大数据集的分析和挖掘，不限定于特定类别。

(2)提供了一种图像对象协同发现的方法，利用显著区域作为候选对象靶，提取有代表性的图像块，协同发现非显著区域的对象。协同分割和协同显著度均存在弊端，前者假设图像中存在相同或相似的分割目标，后者假设图像中存在相同或相似的显著目标，而本发明的协同发现方法很好的解决了这一问题，不需要前提假设，能够自动识别图像中的对象是否具有相关性。

(3)通过提取强边缘-Harris角点，得到具有代表性的，包含对象关键特征的图像块，以图像块作为基本单位，与像素级和超像素级的处理方式相比，减少计算量，提高了速度，同时提取的关键点都是位于边缘上，利于发现和定位对象。

(4)构建颜色、纹理四层聚类塔，用最基本、最简单的特征得到较好的聚类效果，获得合理的聚类中心，只匹配聚类中心的图像块，减少了计算量和匹配复杂性。

(5)通过深度学习的方法，构建双分支网络，提取到图像块中更具有表达力度的深层特征，用少量数据训练，学习到适合相似性度量的特征表达和方法，与传统的方法相比，更加准确、易于扩展。

本发明提出的图像对象协同方法，是无类别标签的，利用深度学习匹配图像块，挖掘对象之间相关性，可以识别各种对象。

附图说明

图1为本发明的一种图像对象协同发现方法的整体流程图，先对图像进行定位候选对象靶，提取关键点和特征图像块的操作，然后对特征图像块进行聚类，通过对图像块的匹配实现相似对象和不相似对象的发现；

图2为图1中特征块聚类步骤中构建的聚类塔结构图，其是一个Color-Texture-Color-Color的四层塔结构，分别完成对图像特征块的颜色粗聚类、纹理粗聚类以及2次颜色细聚类；

图3为图1中匹配特征块的步骤流程图，利用深度学习的方法，提取图像特征块的卷积神经网络特征，通过计算特征的对比损失，判断图像块的相似性；

图4为图1中匹配特征块使用的深度学习框架的网络结构图，其是一个双分支的网络结构，利用特征的对比损失，训练优化网络。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

实施例如图1所示，本发明提出的一种图像对象协同发现方法，对象协同发现的定义需要满足以下3点：(1)同时处理多幅图像，进行对象发现操作；(2)对于单一图像，可以发现图像中可能存在的对象；(3)不同图像可能存在相同或者相似的对象，可以识别出这些相似的对象。首先利用显著性特征，完成粗糙的对象发现，定位候选对象靶，基于显著度的对象发现减少了计算时间，有利于后续处理。然后通过提取强边缘-Harris角点，经过筛选，只保留强边缘上的Harris角点，以角点为中心提取大小相同的图像块，用于表达对象局部的重要特征。图像提取特征块后，粗糙对象区域内的特征块很好的表达了对象的特征，区域外的特征块则意味着可能存在其他对象，很好的克服了的粗糙发现过程中基于显著性的弊端。然后构造颜色、纹理聚类塔，对图像块进行聚类，获得聚类中心。接着基于深度学习，训练网络实现图像特征块的匹配，通过匹配不同聚类中心的图像块，得到聚类之间是否存在关联，通过这种关联性，将同一张或者不同图像中的相似对象联系起来，达到协同发现的目的。最后匹配完成后，寻找聚类中图像块的凸壳，发现对象。

具体包括如下步骤：

S1基于图像显著性特征，只粗糙的发现图像I_i中可能存在的显著对象，并用对象窗口定位，窗口集合记为P，用P_ij表示图像I_i提取的第j个窗口，以P_ij作为协同发现的候选对象靶，来寻找其他不易于发现的或者相似的对象。

显著区域或者显著对象的检测，作为计算机视觉领域的重要研究课题之一，目前已有很多方法可以实现。本文选择采用Jianming Zhan等提出的SalCNN+MAP方法来获取显著对象窗口，也可以选择传统特征来计算显著度图，粗糙的获取大概的显著区域。

定位候选对象靶具体包括如下步骤：

S1.1利用VGG16模型结构，用100维的线性层和Sigmoid层替换掉fc8全连接层，预训练模型，生成大量候选窗口Proposals。训练集包括5500幅图像，带有ground-truth的bounding boxes，其表示为一个4维向量：

bb＝(x_min,y_min,x_max,y_max) (1)

其中，bb表示图像中ground-truth的边界框，x_min,y_min表示bounding boxes左上角点的坐标，x_max,y_max表示右下角的坐标。

S1.2利用MAP方法优化、筛选窗口Proposals，得到显著对象窗口P_ij作为候选对象靶，每一个窗口P_ij中可能包含对象O_target；

S2提取关键部位图像块，以图像块为单位进行后续处理，不选择像素和超像素，不仅节省了计算时间，而且有代表性的关键图像块往往包含对象的重要特征，这是单个像素和超像素无法表达的。

提取图像块的具体操作方法如下：

S2.1提取角点作为粗糙的关键点

提取角点目前有很多方法，本发明采用Harris算子，但方法并不局限于此。Harris角点检测是基于图像灰度，在局部小窗口内计算所得。当一个窗口在图像上移动，在平滑区域，窗口灰度在各个方向上几乎没有变化。窗口在边缘上移动，沿着边缘的方向变化很小。窗口在角点处，窗口在各个方向上灰度均发生很大变化。通过窗口在各个方向上的变化程度，来检测是否为角点。

计算灰度变化程度：

其中，I(x,y)表示像素灰度值，u，v分别表示窗口沿着x和y方向的微小移动。

将上式(2)右边泰勒展开得：

其中，I_x和I_y是I(x,y)的偏导数。

整理并将上式(3)表示为：

考虑窗函数，w(x,y)为加权函数，本例选用高斯加权，可假设:

计算每个像素的Harris响应值R，设置一个阈值T，将小于T的响应值R置为0：

采用非极大抑制的方法，检测窗口中高响应的像素点即为Harris角点，本例窗口大小为7*7，阈值T＝0.05。

对于图像I_i，提取Harris角点p_harris，点p_k∈p_harris，其中k＝1,2,...,N_harris，N_harris为图像I_i提取的Harris角点的个数，按照角点是否在S1中提取的窗口P内，可将关键点标记为两类：

从上式(7)可见，p_in是属于显著区域候选对象靶的关键点。

S2.2提取强边缘E

图像中的对象往往具有完整的闭合边界，因此我们提取了图像中的强边缘。本例采用Pablo Arbelaez提出的gPb方法，该方法去掉大量细碎的边缘信息，最大限度的提取了相对较强的轮廓信息，这里的强边缘提取方法并不局限。

S2.3提取强边缘-Harris角点

首先将强边缘E膨胀为3个像素的宽度，然后只保留那些落在强边缘E上的Harris角点，记为强边缘-Harris角点，这些关键点既保留了边界信息，也保留角点所包含的重要信息，然后按照角点p_eh是否在窗口集合P内，相应的将其标记为两类：

p_eh＝{p_harris|p_harris∈E} (8)

p_eh-in＝{p_eh|p_eh∈P} (9)

其中，P是图像I_i提取的粗糙的显著对象窗口，E是图像I_i提取的强边缘，p_eh是强边缘-Harris角点，p_eh-in是显著区域的强边缘-Harris角点，p_eh-out是非显著区域的强边缘-Harris角点。

S2.4提取关键图像块

以强边缘-Harris角点p_eh为中心，提取45*45像素的大小相等的图像块，其中patch_in表示中心为p_eh-in的图像块，同理，patch_out表示中心为p_eh-out的图像块，即patch_in为显著对象区域提取的图像块，patch_out为非显著对象区域提取的图像块。

S3构建聚类塔对图像块进行聚类处理，以减少后续匹配工程的运算量，因为实现聚类之后，只需要对聚类中心图像块进行相似度计算，如果聚类中心图像块相似，则各自归属的聚类中的所有图像块均相似。这里采用Color-Texture-Color-Color四层聚类塔，选择最基本的特征，采用逐一细化聚类的方法，但塔的结构和层数不限于此。聚类的具体过程如下：

S3.1计算图像块的颜色和纹理特征

对每一个大小为45*45像素的图形块，计算颜色和纹理特征。这里颜色采用RGB颜色空间，因此每一个像素表示为(r,g,b)的3维向量，纹理采用灰度梯度共生矩阵，表示为(T₁,T₂,...T₁₅)的15维向量，其中T₁-T₁₅依次为小梯度优势、大梯度优势、灰度分布的不均匀性、梯度分布的不均匀性、能量、灰度平均值、梯度平均值、灰度均方差、梯度均方差、相关性、灰度熵、梯度熵、混合熵、惯性以及逆差矩。这里颜色和纹理特征并不局限。

S3.2构建聚类塔聚类

如图2所示，构建聚类塔来实现图像特征块聚类，用最简单的颜色和纹理特征，由粗到细，逐层递减，逐渐实现细致的聚类效果。Color-Texture-Color-Color四层聚类塔的每一层均为聚类操作，下一层针对上一层聚类结果不够细致的小聚类进行更细致的划分，这样的四层结构可实现较好的聚类效果，当然层数越多，聚类越细，但是对于发现对象，将对象进行过度细致的划分，失去了聚类减少匹配计算量的意义。第一层Color层使用颜色特征，对所有的图像块进行颜色粗聚类，将图像块大致分为明显的几类，第二层Texture层使用纹理特征，对第一层所得结果不够细致的类再进行纹理聚类，同理，在前面一层聚类结果上进行新的聚类，完成四层聚类，形成一个逐渐细致的塔状聚类结构。对于每一张图像I_i的聚类具体涉及到分别对I_i中提取的patch_in和patch_out进行聚类操作，得到多个聚类中心C_in和C_out。

聚类涉及的细节如下：

S3.2.1聚类针对图像块之间的特征距离，选择简单的欧氏距离对图像块集合中的图像块两两成对的计算特征距离，这里距离度量方法并不局限。

S3.2.2聚类基于Alex Podriguez提出的方法进行改进，来确定聚类中心，聚类中心的选择参考两个因素，局部密度ρ和高密度点之间的距离δ：

其中，ρ_i是第i块图像块的局部密度，d_ij是第i块图像块和第j块图像块特征向量的欧式距离，d_c是截断距离，d_c＝0.5，可见局部密度ρ_i表示为在以d_c为半径的圆形区域内点的个数。

结合以上两个因素，聚类中心C包括两类，一是ρ和δ均很高的点，这样的点具有高的局部密度，而且距离次高密度点比较远，二是ρ很高，δ很小，甚至接近0和1，这里ρ＞0.8，对原有方法改进，不再把这一类点当做异常点，而是选作聚类中心，因为在提取图像块的过程中，的确会出现稀少的但具有代表性的特征图像块。

S3.2.3采用逐层递减的方式确定聚类中心数目，各层数目K：

K₁＝5，K₂＝3，K₃＝K₄＝2

在聚类塔中，当上层聚类完成后，只对聚类中图像块数目Num大于一定值的进行下层聚类，在这里Num＝10。

S4对图像集中的每一幅图像I_i进行相同的操作，即逐一完成S1-S3的定位候选对象靶，提取强边缘-Harris角点和关键图像块以及聚类塔聚类的操作，便于后续挖掘图像对象之间的相关性，而且可以弥补协同分割、协同显著度目标显著中，假设相同或者相似的待处理对象是显著的这一前提。如果图像I_i和I_j包含的对象之间具有某种相关性，即使对象不一定都是显著的，即无法通过S1的显著对象窗口得到，也可以在S2、S3步骤中获取到非显著对象的一些关键特征。

S5基于聚类结果，通过深度学习的方式，实现图像块的匹配。如图3所示，对于聚类中心特征图像块C_i和C_j，通过神经网络分别得到其特征向量，计算特征向量之间的损失，采用对比损失来判断两个图像块是否匹配。

S5.1只选择聚类中心的图像块进行匹配，如果聚类中心C_i和C_j匹配，则聚类Cluster_i内的所有图像块和Cluster_j内的所有图像块均匹配，这样大大减少了计算量；

S5.2采用对比损失，用它来衡量成对图像块的匹配程度，训练提取特征的网络模型，对比损失Contrastive Loss函数定义如下：

其中，E为对比损失，d＝||a_n-b_n||，表示两个图像块特征向量的欧氏距离，y为两个图像块是否匹配的标签，y＝1表示两个样本相似或者匹配，y＝0表示不匹配，margin为设定的阈值，margin＝0.5。

在上式(14)中，当y＝1，即样本相似时，损失函数只剩下前项特征欧氏距离，如果相似样本在特征空间的欧式距离d较大，则说明当前的模型不好，应当惩罚，损失值较大；

在上式(14)中，当y＝0时，即样本不相似时，损失函数E＝max(margin-d,0)²，如果不相似的样本在特征空间的欧式距离d较小，也应予以惩罚，损失值较大；

因此当经过模型训练后，损失较小，说明模型可以得到的特征符合图像块匹配的需求。

S5.3利用深度学习，构造一个双分支的神经网络，网络结构如图4所示，输入一对图像块和相应的标签，获得成对标签之间的对比损失。

具体的技术要点如下：

S5.3.1数据集和标签的制作

本实例的数据集是成对制作的，样本正样本为480对相似的图像块，负样本为520对不相似的图像块。其中正样本是通过随机选择聚类Cluster_i和Cluster_j，i≠j，其聚类中心C_i和C_j相似，然后从中随机选择patch_m和patch_n，其中m≠n，patch_m和patch_n可以属于同一个聚类，也可以属于不同聚类，标签Sim＝1；负样本是通过随机选择聚类Cluster_i和Cluster_j，i≠j，其聚类中心C_i和C_j不相似，然后从中随机选择图像块patch_m和patch_n，其中patch_m∈Cluster_i且patch_n∈Cluster_j，标签Sim＝0。

S5.3.2构建神经网络模型

如图4所示，整个模型为双分支的网络，输入为一对图像块和一个表示图像块是否匹配的标签，两个图像块分别送入两个分支，分支的结构相同，基本结构是VGG16，VGG16是8个部分，包括5个group的卷积、2层全连接fc图像特征和1层fc分类特征，比如第3部分的配置为Part3：3*3conv，256→3*3conv，256→1*1conv，256，pool/2，表示一个卷积核为3*3，输出为256的卷积层，连接一个卷积核为3*3，输出为256的卷积层，然后连接一个卷积核为1*1，输出为256的卷积层，最后连接一个2*2的maxpooling层；第8部分的配置Part8:FC-2表示全连接层输出单元为2。

本发明对8个部分的具体配置如下：

Part1:3*3conv，64→3*3conv，64，pool/2

Part2:3*3conv，128→3*3conv，128，pool/2

Part3:3*3conv，256→3*3conv，256→1*1conv，256，pool/2

Part4:3*3conv，512→3*3conv，512→1*1conv，512,pool/2

Part5:3*3conv，512→3*3conv，512→1*1conv，512,pool/2

Part6:FC-4096

Part7:FC-4096

Part8:FC-2

Part8后接Contrastive Loss层。

S5.3.3训练网络模型

在Linux系统上，配置GPU进行训练。训练过程采用分批训练，batchsize＝16，每次输入16对图像块，采用随机梯度下降算法求解最优参数，每训练30次进行一次测试，学习率为0.001，最大迭代次数为20000次。

S5.3.4测试网络模型，匹配图像块

训练好网络模型以后，输入一对图像块，它们均为聚类中心的图像块，记为C_m和C_n，输出Contrastive Loss，匹配结果R(C_m,C_n)为：

S6对象定位，实现协同发现对象。

基于S5的深度学习图像块匹配结果R(C_m,C_n)，如果R(C_m,C_n)＝1，说明聚类中心图像块C_m和C_n匹配成功，即以C_m和C_n为中心的聚类Cluster_i和Cluster_j，其包含的图像块均含有某种相关性。

如果C_m和C_n分别属于图像I_i和I_j，i≠j，说明两幅图像中的对象相似。对图像I_i在S1中所提取的窗口P，即候选对象靶，其包含的聚类中心图像块集合为C，图像I_j中与C中的图像块匹配的聚类中心图像块构成集合C′，得到以C′为聚类中心的所有聚类中的图像块，将这些图像块的中心点，即S2提取的关键点逐一标注在图像上，计算一个包含所有标注点的凸包，凸包发现了一个对象，即协同发现一个与候选对象靶中对象O_target相似的对象。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种图像对象协同发现的方法，其特征在于，包括如下步骤：

S4、对图像集中的每一幅图像I_i，执行上述S1-S3步骤；

2.根据权利要求1所述的图像对象协同发现的方法，其特征在于，所述图像对象协同发现的概念定义为利用多幅图像中对象的相似性进行更有效地对象发现，包括以下三点：

(1)同时处理多幅图像，进行对象发现操作；

(2)对于单一图像，可以发现图像中可能存在的对象；

满足以上3个条件的任务，称之为对象协同发现。

3.根据权利要求1所述的图像对象协同发现的方法，其特征在于，步骤S1中，所述定位候选对象靶具体采用SalCNN+MAP方法来获取显著对象窗口P，并获得窗口内的对象O_target。

4.根据权利要求1所述的图像对象协同发现的方法，其特征在于，步骤S2中，对图像I_i提取关键点和关键部位图像块，采用下述具体方法：

S2.1、提取图像中的角点作为粗糙的关键点；

S2.3、筛选关键点，提取强边缘-Harris角点；

5.根据权利要求1所述的图像对象协同发现的方法，其特征在于，步骤S3中，构造颜色、纹理聚类塔，对S2提取的图像块进行聚类，标记聚类中心图像块C，具体包括下述方法：

6.根据权利要求5所述的图像对象协同发现的方法，其特征在于，步骤S3.2中，聚类的具体方法如下：

<mrow> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>:</mo> <mi>j</mi> <mo>&NotEqual;</mo> <mi>i</mi> </mrow> </munder> <mi>&chi;</mi> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>d</mi> <mi>c</mi> </msub> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&delta;</mi> <mi>i</mi> </msub> <mo>=</mo> <munder> <mi>min</mi> <mrow> <mi>j</mi> <mo>:</mo> <msub> <mi>&rho;</mi> <mi>j</mi> </msub> <mo>></mo> <msub> <mi>&rho;</mi> <mi>i</mi> </msub> </mrow> </munder> <mrow> <mo>(</mo> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow>

S3.2.2、采用逐层递减的方式确定聚类中心数目，各层数目K：

K₁＝5，K₂＝3，K₃＝K₄＝2

7.根据权利要求1所述的图像对象协同发现的方法，其特点在于，步骤S5中，图像块匹配采用深度学习的方法，具体为：

S5.1、数据集和标签的制作；

8.根据权利要求1所述的图像对象协同发现的方法，其特点在于，步骤S6中，协同发现对象，进行定位采用的方法是关键点求凸包，具体包括下述方法：

如果C_m和C_n分别属于图像I_i和I_j，i≠j，说明两幅图像中的对象相似；对图像I_i在S1中所提取的窗口P，即候选对象靶，其包含的聚类中心图像块集合为C，图像I_j中与C中的图像块匹配的聚类中心图像块构成集合C′，得到以C′为聚类中心的所有聚类中的图像块，将这些图像块的中心点，即步骤S2提取的关键点逐一标注在图像上，计算一个包含所有标注点的凸包，凸包发现了一个对象，即协同发现一个与候选对象靶中对象O_target相似的对象。