CN108830313B

CN108830313B - 一种共生模式图像挖掘方法

Info

Publication number: CN108830313B
Application number: CN201810556701.1A
Authority: CN
Inventors: 杨剑宇; 黄瑶; 邓宇阳; 朱晨
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2021-11-09
Anticipated expiration: 2038-05-31
Also published as: CN108830313A

Abstract

本发明公开了一种共生模式图像挖掘方法，包括如下步骤：（1）利用SIFT算法提取图像中的视觉基元；（2）利用语境感知聚类将视觉基元聚类成语境相似组；（3）利用空间聚类将语境相似组分成对象组；（4）合并匹配模式，圈定对象组；（5）对每个对象组进行共生频率检测,在共生频率检测规则下筛出有意义的共生模式。本发明能快速，准确的发现图片中的共生视觉模式，以便于后续的视觉任务。

Description

一种共生模式图像挖掘方法

技术领域

本发明涉及一种共生模式图像挖掘方法，属于图像检索技术领域。

背景技术

有意义的共生视觉模式被定义为在具有相似空间结构的图像中多次出现的模式。与背景相比，有意义的图案具有高视觉显着性，有意义的视觉模式是图像的重要特征，所以它们通常会使图像更加鲜明。发现有意义的经常性视觉模式在计算机视觉中有许多应用，例如图像识别和分割，图像编码，压缩和汇总，图像分类和注释以及对象检索。目前基本上有两种方法来挖掘发现图像中的主题模式：(1)成对匹配，比较特征点之间的数量；(2)语境感知聚类，它在聚类时考虑了视觉基元的空间结构。然而，这两种方法存在严重的问题：即使已经采用优化方法，成对匹配算法中特征点之间的搜索和匹配过程也会导致高的计算复杂度。对于语境感知聚类算法，尽管寻找共生模式时可以避免搜索和匹配，但问题是无法从聚类结果中的所有模式中挑出最有意义的视觉模式。

目前，多媒体数据暴增，互联网上很多图片、视频亟待被提取主题，以便于分类，检索。没有先验知识，很难确定目标群体的重要性。因此，寻找一种快速，简洁，有效的共生模式挖掘算法就显得尤为重要。凭借这一算法，一些具有共生模式的图片/视频可以被自动提取出来，并根据提取出的共生模式进行图片/视频分类，显然是有必要的。

发明内容

本发明的发明目的是提供一种共生模式图像挖掘方法，能快速，准确的发现图片中的共生视觉模式。

为达到上述发明目的，本发明采用的技术方案是：一种共生模式图像挖掘方法，包括如下步骤：

(1)利用SIFT算法提取图像中的视觉基元；

(2)利用语境感知聚类将视觉基元聚类成语境相似组；

(3)利用空间聚类将语境相似组分成对象组；

(4)合并匹配模式，圈定对象组；

(5)对每个对象组进行共生频率检测,在共生频率检测规则下筛出有意义的共生模式。

优选地，步骤(2)在所述语境感知聚类中，使用原始特征的K均值聚类，将视觉基元分类为M个不同的视觉词汇，然后在每个基元的预定空间邻域内产生一个M维合集矢量，然后采用嵌套EM算法来最小化损失函数并且最终获得

个语境相似组。

优选地，所述步骤(3)具体包括：应用K均值算法来生成空间分离的图案；采用轮廓系数方法来评估K均值算法在不同簇数量下的分类性能，确定空间聚类的数量，通过评估，选择最佳数量的簇，通过空间聚类，获得模式的中级描述，即对象组。

优选地，所述步骤(4)具体包括：对于对象组

它的空间中心记为

由下式计算得：

其中x_j是v_j的位置；用

表示

和

之间的欧几里得距离，如果

其中ξ是阈值参数，则将

记为一个匹配对，这种联合对的频率被定义为：

如果F(p,q)＞ηP，将组W_p和W_q合并，其中P是所有上下文相同的组中的对象组的总体量，并且η是阈值参数；对于合并的W组，再次应用空间聚类来将其划分为对象组；利用最大得分法定位对象组

使用矩形区域

圈定对象组

使其内部得分最高；当圈定对象组

时，将正得分ξ分配给属于

的视觉基元，而负得分ζ被分配给图像中的其他像素。

优选地，所述步骤(5)具体包括：统计每个语境相似组

中的每个

内部视觉基元在同语境相似组内其他对象组中出现的配对的数量

然后计算

中配对出现的频率

其中

是

中基元与其他对象组基元所有可能配对的数目，如果

即保留这个对象组。

上述技术方案中，步骤(2)中的语境感知聚类旨在将所有视觉基元分类为更高级别的候选模式，以发现有意义的共生模式。共生视觉模式通常具有相似的空间结构以及相似的特征描述符。因此，为了将视觉基元在特征域聚类，采用语境感知聚类作为算法的第一步。在语境感知聚类中，通过使用原始特征的K均值聚类，视觉基元被分类为M个不同的视觉词汇。然后，在每个基元的预定空间邻域内，可以产生一个M维合集(视觉短语)矢量，它表示在邻域中出现的不同类别的视觉基元的共现。这些合集使我们能够通过进一步应用K均值聚类发现更高层次的空间模式。语境感知聚类算法通过对视觉基元和视觉合集的K均值聚类目标进行联合优化，可以减少视觉原始聚类的模糊性，提高模式挖掘结果。因此，使用语境感知聚类来挖掘视觉模式。

在语境感知聚类中，损失函数可以表示为：

其中r_ij是视觉基元的二进制指示标，r_ij＝1代表第i个视觉基元被标记为第j个视觉词语，反之亦然；r‘_ij是视觉合集的二进制指示标，r’_ij＝1代表第i个视觉合集被标记为第j个视觉短语，反之亦然。d(f_i,u_j)代表f_i和u_j的欧式距离，

代表t_i和

间的汉明距离。

损失函数的第一项表示视觉基元{f_i}与视觉词语中心{u_j}之间的失真，而第二项表示交易{t_i}和视觉短语中心

之间的失真。结合这两个方面，具有相似特征和空间结构的视觉基元可以归入同一组。采用嵌套EM算法来最小化损失函数并且最终获得

个语境相似组。在相同的语境相似组中的视觉基元表现出它们的在特征描述符和空间结构上的相似性，这暗示这些基元是特定视觉模式的组成元素。

嵌套EM算法是用来优化语境聚类的损失函数的迭代算法，对于损失函数：

其中J₁和J₂项是耦合的，意味着无法通过分别最小化这两项来最小化J。因此，对损失函数做如下变形：先定义矩阵Q，Q中元素q_ij＝1表示第i个视觉基元属于第j个视觉基元的空间上下文。因此合集的数据集T可以被表示为T＝RQ。视觉合集与视觉短语的失真矩阵

可表示为

于是，损失函数可以表示为：

首先固定住R，更新

令

便得到

这时我们只要更新J₂，因为J₁是常数，

然后固定住

更新R：

令

便得到

这时只要更新J₃，因为J₄是常数。

然后，根据得到的标记矩阵R和

可以计算出新的失真矩阵D和

如此往复更新损失函数，直至算法收敛。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

本发明能快速，准确的发现图片中的共生视觉模式，以便于后续的视觉任务：例如图像识别和分割，图像编码，压缩和汇总，图像分类和注释以及对象检索。

附图说明

图1是本发明的流程示意图。

图2是本发明实施例一中通过语境感知聚类得到的语境相似的组的示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见图1所示，为本发明的流程示意图，现有一张含有共生模式的图像，

(1)首先用SIFT(尺度不变特征变换)算法提取出视觉基元，

(2)然后用语境感知聚类对这些基元进行聚类。通过使用原始特征的K均值聚类，视觉基元被分类为M个不同的视觉词汇。然后，在每个基元的预定空间邻域内，可以产生一个M维合集(视觉短语)矢量，它表示在邻域中出现的不同类别的视觉基元的共现。这些合集能够通过进一步应用K均值聚类发现更高层次的空间模式。

我们的目标是最小化其损失函数：

采用嵌套EM算法来优化这个损失函数，先将损失函数改写：

首先固定住R，更新

令

便得到

这时我们只要更新J₂，因为J₁是常数

然后固定住

更新R：

令

我们便得到

这时我们只要更新J₃，因为J₄是常数。

然后，根据得到的标记矩阵R和

可以计算出新的失真矩阵D和

如此往复更新损失函数，直至算法收敛。

(3)在语境感知聚类之后，获得了

个语境相似的组，参见图2所示。每个语境相似组表示为W_k＝{v_j}，其中v_j是由SIFT检测到的视觉基元。再次应用K均值算法来生成空间分离的图案。为了确定空间聚类的数量，我们采用轮廓系数方法来评估K均值算法在不同簇数量下的分类性能。通过评估，我们可以选择最佳数量的簇。通过空间聚类，获得模式的中级描述，即对象组。我们使用

来表示W_k中第j个对象组。每个对象组

是一个候选视觉模式。

(4)在空间聚类之后，W_k可以从对象组推导出：

虽然不同的语境相似的组代表不同的模式，但是我们仍然可以使用它们之间的空间相关性来挖掘更高级别的模式。假设对象组

和

一直一起出现，这种空间依赖性可能表明了一种潜在的高级模式。也就是说，

可能是一种匹配模式。在这种情况下，为了完美地复原共生模式，W_p和W_q应该被合并。

对于对象组

它的空间中心记为

由下式计算得：

其中x_j是v_j的位置。

用

表示

和

之间的欧几里得距离。如果

其中ξ是阈值参数，

被记为成为一个匹配对。那么这种联合对的频率可以被定义为：

如果F(p,q)＞ηP，组W_p和W_q将被合并，其中P是所有上下文相同的组中的对象组的总体量，并且η是阈值参数。对于合并的W组，需要再次应用空间聚类来将其划分为对象组。

为了定位对象组，采用最大得分法。当圈定对象组

时，将正得分ξ分配给属于

的视觉基元，而负得分ζ被分配给图像中的其他像素。

(5)对于W_k中的每个

统计它内部视觉基元在同语境相似组内其他对象组中出现的配对的数量

然后

中配对出现的频率

便可计算出：

其中

是

中基元与其他对象组基元所有可能配对的数目。如果

即保留这个对象组。