CN108764258B

CN108764258B - 一种用于群体图像插入的最优图像集选取方法

Info

Publication number: CN108764258B
Application number: CN201810507679.1A
Authority: CN
Inventors: 吴炜; 许冬梅
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2022-03-04
Anticipated expiration: 2038-05-24
Also published as: CN108764258A

Abstract

本发明提出了一种用于群体图像插入的最优图像集选取方法，旨在为待插入图像选取出与其相似度最高的图像集，实现步骤为：提取训练图像的SIFT特征；建立视觉词典；取群体图像每个图像集中各图像的SIFT特征；获取每个图像集的视觉单词直方图；获取待插入图像的视觉单词直方图；计算待插入图像与群体图像中每个图像集的相似性；选取最优插入图像集。本发明发掘了待插入图像与图像集之间的关系，可以为添加到群体图像中的图像选取出与其相似度最高的图像集，可用于云端群体图像管理以及图像数据库管理的场景中插入图像的情况。

Description

一种用于群体图像插入的最优图像集选取方法

技术领域

本发明属于图像编码技术领域，涉及一种最优图像集选取方法，具体涉及一种用于群体图像插入的基于词包模型的最优图像集选取方法，可用于云端群体图像管理以及图像数据库管理的场景中向群体图像中插入图像的情况，可以为待插入的图像选取出与其相似度最高的图像集。

背景技术

在最近十年中.随着互联网相关产业的飞速发展，数字图像等多媒体内容也呈现出爆炸式的增长。据全球最大社交网络服务公司Facebook报告，其存储的照片己经超过二千二百亿张，并正以每天三亿张的速度增加。规模巨大的图像视频数据为带宽存储等方面带来了极大的压力。为此，研究者一直在努力改进数字图像压缩技术。相同场景下拍摄的很多图片具有很大的相似性，但他们的单独采用JPEG或JPEG-2000对图像进行编码，将会造成存储空间大、编码效率不够高。因此，对于相似图像的压缩存储很有必要。群体图像编码利用存在于群体图像之间的相关性，通过一系列处理从而得到伪视频序列，最后通过该序列进行视频压缩编码的方法可以获得更高的图像压缩比。群体图像中存在多个图像集，每个图像集中包含多张图像，每个图像集中的图像具有一定的相似性，会整体进行编码。因此群体图像对于图像的添加缺少了灵活性，需要进行图像集的管理。对于向群体图像中添加图像来说，首先需要找到与添加图像相似度最高的图像集。目前一般通过人眼进行主观判断，效率较低。

词包模型最初被应用于文本信息检索领域中，忽略文档中单词的位置信息和语义信息，统计单词在文档中出现的频率，利用构建的单词分布直方图来描述文档的语义内容，通过文档到数值向量的转化将文本语言的处理分析转化为数学向量的问题，方便计算机快速的检索文本。

在图像场景分类和检索的领域中，词包模型仿照由单词分布特性来表达文档内容的原理，提取图像的局部特征，通过对图像的局部特征进行训练生成合适的视觉单词，通过统计视觉单词的分布特性来表达图像的语义信息。

发明内容

本发明的目的在于克服上述现有技术存在的缺陷，提出了一种用于群体图像插入的最优图像集选取方法，旨在提高查找与插入到群体图像中的图像相似度最高的图像集的效率。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)提取多张训练图像的SIFT特征：

从图像样本库中选取多张训练图像，并提取每张训练图像的SIFT特征，得到训练图像的SIFT特征向量集合；

(2)建立视觉词典：

对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类，得到多个聚类簇，并将每个聚类簇的聚类中心作为一个视觉单词，得到由多个视觉单词组成的视觉词典；

(3)提取群体图像每个图像集中各图像的SIFT特征：

分别提取群体图像中每个图像集中各图像的SIFT特征，得到每个图像集的SIFT特征向量集合；

(4)获取每个图像集的视觉单词直方图：

(4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索，得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词；

(4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数，并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图；

(5)获取待插入图像的视觉单词直方图：

(5a)提取待插入图像的SIFT特征，得到待插入图像的SIFT特征向量集合，并对待插入图像中的每个SIFT特征向量进行最近邻搜索，得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词；

(5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数，并将其作为待插入图像的视觉单词直方图；

(6)计算待插入图像与群体图像中每个图像集的相似性：

采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值，并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性，得到多个待插入图像与图像集的相似性；

(7)选取最优插入图像集：

从群体图像的所有图像集中选取与待插入图像相似性最大的图像集作为最优的插入图像集。

本发明与现有技术相比，具有以下优点：

本发明通过引用词包模型可以生成待插入图像的视觉单词直方图与图像集的视觉单词直方图，并通过待插入图像的视觉单词直方图与图像集的视觉单词直方图的相似性判定，解决了待插入图像与图像集之间相似性判定的问题，可以直接对图像集进行检索，与现有技术只能通过人眼进行主观判断的情况下相比查找效率更高，节省更多的人力。

附图说明

图1是本发明的实现流程框图；

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述：

参照图1,本发明包括如下步骤：

步骤1)提取训练图像的SIFT特征：

根据需求从图像样本库中选取多张训练图像，使用opencv库中提供的SIFT特征提取函数分别提取每张训练图像的SIFT特征，保存提取到的SIFT特征向量到一个训练图像的SIFT特征向量集合中；

步骤2)建立视觉词典：

其中，聚类采用K-means聚类方法对SIFT特征向量进行聚类，K-means聚类的实现步骤如下：

步骤2a)对聚类参数进行初始化：

给定最大迭代次数KMEANS_MAX_ITERATION的值为4，令初始迭代次数t为1，从训练图像的SIFT特征向量集合中随机选取k个SIFT特征向量作为初始的聚类中心，k的值为10000；

步骤2b)遍历所有SIFT特征向量，计算每个SIFT特征向量到各个聚类中心的距离，距离最近的作为该SIFT特征向量的聚类中心，并将该SIFT特征向量纳入聚类中心所在的聚类簇中；为各个SIFT特征向量选择聚类中心时，采用穷举法精确度较高，但因SIFT特征向量数量巨大，因此采用最近邻搜索，即在寻找每个对象最近的聚类中心时使用KD-Tree树结构来加速查找；首先，对聚类中心建立KD-Tree索引，KD-Tree是对二叉搜索树的推广；然后，通过KD-Tree索引对聚类中心进行最近邻搜索得到各个SIFT特征向量的聚类中心；

步骤2c)对每个聚类簇的聚类中心进行更新：

对于每个聚类簇，计算聚类簇中SIFT特征向量的平均值，并将其作为该聚类簇新的聚类中心；

步骤2d)令t＝t+1，并判断新的聚类中心的值与更新前的聚类中心的值是否相同，若是，则输出每个新的聚类中心的值；否则，执行步骤(2e)；

步骤2e)判断当前迭代次数是否大于最大迭代次数，若是，迭代停止，输出每个新的聚类中心的值；否则执行步骤(2b)；

步骤3)提取群体图像每个图像集中各图像的SIFT特征：

使用opencv库中提供的SIFT特征提取函数分别提取每个图像集中各图像的SIFT特征，得到每个图像集的SIFT特征向量集合；

步骤4)获取每个图像集的视觉单词直方图：

步骤4a)对每个图像集的SIFT特征向量集合中的各SIFT特征向量进行最近邻搜索，得到每个SIFT特征向量在视觉词典中对应的距离最近的视觉单词，最近邻搜素采用欧式距离进行距离判定；

步骤4b)统计每个视觉单词在图像集SIFT特征向量集合中出现的次数，并将每个视觉单词出现的次数作为被统计的SIFT特征向量集合对应的图像集的视觉单词直方图；

步骤5)获取待插入图像的视觉单词直方图：

步骤5a)提取待插入图像的SIFT特征，得到待插入图像的SIFT特征向量集合，并对待插入图像中的每个SIFT特征向量进行最近邻搜索，得到多个SIFT特征向量在视觉词典中对应的距离最近的视觉单词；

步骤5b)统计每个视觉单词在待插入图像的SIFT特征向量集合中出现的次数，并将其作为待插入图像的视觉单词直方图；

步骤6)计算待插入图像与群体图像中每个图像集的相似性：

本发明需要计算的是图像与图像集之间的相似性，各图像集由于所包含的图像数量不同，因此其视觉单词直方图中元素的数值可能差异较大，而且图像的视觉单词直方图向量与图像集的视觉单词直方图向量中元素的数值可能根本不在同一数量级上，为了更好的表示图像和图像集之间的相似性和实现的可能性，本发明采用余弦相似度来计算待插入图像视觉单词直方图和图像集的视觉单词直方图之间的余弦值，依次计算待插入图像视觉单词直方图与每个图像集的视觉单词直方图之间的余弦值，并将每一个余弦值作为待插入图像与余弦值对应的图像集的相似性，其中余弦值的计算公式为

其中G为图像集的视觉单词直方图向量，P为待插入图像的视觉单词直方图向量，G_i表示图像集视觉单词直方图向量第i个元素的值，P_i表示待插入图像视觉单词直方图向量第i个元素的值，n表示视觉单词直方图向量中元素的个数；

步骤7)选取最优插入图像集：

以下结合仿真试验，对本发明的效果作进一步说明：

1)实验条件：

本发明仿真实验是在windows Server 2008系统，处理器Intel(R)Xeon(R)CPUE5-2650v2@2.60GHz，RAM 64GB的环境下进行的。编程语言是C++,编程软件为VS2010。

实验测试图像集的详细信息如表1所示：

表1

这些图像集中的图像在亮度和拍摄角度上均有一定的差异。

2)实验内容及结果分析：

分别从表1所示的图像集中抽取出某些图像作为待插入图像，图像集中剩余图像构成群体图像中的图像集。采用本发明得到待插入图像与各个图像集视觉单词直方图之间的余弦相似度，结果只保留了与待插入图像最相似图像集和次相似图像集的结果值，如表2所示。

表2

通过对比分析，本发明选取出的最相似图像集与人眼主观判定情况一致。而且最相似图像集和次相似图像集与插入图像的余弦相似度一般具有较大差异，因此本发明适用于为群体图像中插入图像选取与其相似度最高的图像集。

Claims

1.一种用于群体图像插入的最优图像集选取方法，其特征在于，包括如下步骤：

(1)提取多张训练图像的SIFT特征：

(2)建立视觉词典：

(3)提取群体图像每个图像集中各图像的SIFT特征：

(4)获取每个图像集的视觉单词直方图：

(5)获取待插入图像的视觉单词直方图：

(6)计算待插入图像与群体图像中每个图像集的相似性：

(7)选取最优插入图像集：

2.根据权利要求1所述的一种用于群体图像插入的最优图像集选取方法，其特征在于，步骤(2)中所述的对训练图像的SIFT特征向量集合中的SIFT特征向量进行聚类，实现步骤为：

(2a)对聚类参数进行初始化：

给定最大迭代次数的值，令初始迭代次数t为1，随机分配k个SIFT特征向量作为聚类中心；

(2b)建立聚类中心的KD-Tree索引，遍历每个SIFT特征向量，通过KD-Tree索引对聚类中心进行最近邻搜索，得到每次进行最近邻搜索的SIFT特征向量的聚类中心，并将与聚类中心对应的SIFT特征向量纳入聚类中心所在的聚类簇中；

(2c)对每个聚类簇的聚类中心进行更新：

(2d)令t＝t+1，并判断新的聚类中心的值与更新前的聚类中心的值是否相同，若是，则输出每个新的聚类中心的值；否则，执行步骤(2e)；

(2e)判断当前迭代次数是否大于最大迭代次数，若是，迭代停止，输出每个新的聚类中心的值；否则执行步骤(2b)。

3.根据权利要求1所述的一种用于群体图像插入的最优图像集选取方法，其特征在于，步骤(6)中所述的采用余弦相似度计算待插入图像视觉单词直方图与每个图像集视觉单词直方图之间的余弦值，计算公式为：

其中G为图像集的视觉单词直方图，P为待插入图像的视觉单词直方图，G_i表示图像集视觉单词直方图中第i个元素的值，P_i表示待插入图像视觉单词直方图中第i个元素的值，n表示视觉单词直方图中元素的个数。