CN107391599A

CN107391599A - 基于风格特征的图像检索方法

Info

Publication number: CN107391599A
Application number: CN201710523175.4A
Authority: CN
Inventors: 陈长宝; 杜红民; 侯长生; 孔晓阳; 王茹川; 郭振强; 郧刚; 王磊; 王莹莹; 肖进胜
Original assignee: Central Plains Wisdom Urban Design Research Institute Co Ltd
Current assignee: Central Plains Wisdom Urban Design Research Institute Co Ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2017-11-24
Anticipated expiration: 2037-06-30
Also published as: CN107391599B

Abstract

本发明提供一种基于风格特征的图像检索方法，采用格拉姆矩阵作为描述图像风格特征的算子，提取给定图片库的所有训练样本的风格特征并构建图片索引，提取待检测图片的风格特征，查找与待检测图片相似度最高的图片的索引号并根据索引号返回相似图片集，通过这种方法实现对抽象图片的检索，具有方法简单、检索效果好的优点。

Description

基于风格特征的图像检索方法

技术领域

本发明涉及一种图像检索方法，具体的说，涉及了一种基于风格特征的图像检索方法。

背景技术

图片检索有两类，一类是基于文本的图像检索TBIR，另一类是基于内容的图像检索CBIR。其中CBIR通过详细分析图像所包含的具体的对象或场景来进行检索，其实现的关键在于对图像特征的提取，常见的提取特征方式有基于颜色、形状和纹理特征的提取，通过匹配像之间的底层视觉特征达到检索目的。这种检索方法着重于探测图片中某一实际物体，而对于没有实际物体的抽象图片检索效果不佳。

为了解决以上存在的问题，人们一直在寻求一种理想的技术解决方案。

发明内容

本发明的目的是针对现有技术的不足，从而提供了一种基于风格特征的图像检索方法，方法简单、具有通用性。

为了实现上述目的，本发明所采用的技术方案是：一种基于风格特征的图像检索方法，包括以下步骤：

搭建平台

S1，利用基于Theano的框架Keras搭建处理平台；

构建图片索引

S2，大规模图像数据集ImageNet上训练一个卷积神经网络VGG-19，并使用给定图片库的训练样本对VGG-19进行参数微调，得到迁移学习后的卷积神经网络，记为VGG-19-FT；

S3，将给定图片库的训练样本依次输入VGG-19-FT中提取风格特征，并对提取出的风格特征进行降维处理，获得降维风格特征；

S4，将提取出的每个训练样本的降维风格特征存储在一个文件中，并根据每个训练样本的图片地址构建图片索引；

图片查询

S5，将待检索图片输入VGG-19-FT中进行风格特征提取，并进行降维处理；

S6，通过降维风格特征相似度比较方法,分别计算带检索图片的降维风格特征与图片索引内每个降维风格特征的相似度距离，并将相似度距离最近的降维风格特征所对应的图片的索引号作为结果返回给给定图片库；

S7，根据获得的索引号查找给定图片库，返回相似图片集。

基于上述，计算VGG-19-FT特定层的各个滤波器之间的相关性关系，生成格拉姆矩阵来描述图像的风格特征。

基于上述，特定层的层级越高，所提取的风格特征越接近图像的整体特征；特定层的层级越低，所提的风格特征越接近图像的细节特征。

基于上述，VGG-19包括16个卷积层和3个全连接层，迁移学习时保留原始VGG-16参数集的前16层参数，而只重新训练后3层的参数。

本发明相对现有技术具有突出的实质性特点和显著的进步，具体的说，本发明用格拉姆矩阵作为描述图像风格特征的算子，提取给定图片库的所有训练样本的风格特征并构建图片索引，提取待检测图片的风格特征，查找与待检测图片相似度最高的图片的索引号并根据索引号返回相似图片集，通过这种方法实现对抽象图片的检索，具有方法简单、检索效果好的优点。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面通过具体实施方式，对本发明的技术方案做进一步的详细描述。

如图1所示，一种基于风格特征的图像检索方法，包括以下步骤：

搭建平台

S1，利用基于Theano的框架Keras搭建处理平台：

（1）服务器配置

带有TitanX 显卡的服务器，至强四核处理器、32GB内存；

（2）操作系统：

采用Linux操作系统；

（3）开发环境

采用Python语言以及PyCharm IDE开发环境；

（4）框架搭建

采用Keras深度学习框架，底层封装Theano。Keras是一个极简化的第三方神经网络库，由于其具有高度模块化的特点，可以充分发挥GPU和CPU操作。

（5）客户端工具

支持HTML5的浏览器；

构建图片索引

S2，大规模图像数据集ImageNet上训练一个卷积神经网络VGG-19，并使用给定图片库的训练样本对VGG-19进行参数微调，得到迁移学习后的卷积神经网络，记为VGG-19-FT；具体的，给定图片库的训练样本个数为1000，VGG-19包括16个卷积层和3个全连接层；

S3，将给定图片库的训练样本依次输入VGG-19-FT中提取风格特征，并对提取出的风格特征进行降维处理，获得降维风格特征；具体的，图像的风格特征用VGG-19-FT特定层的格拉姆矩阵来描述，格拉姆矩阵描述的是各个滤波器之间的相关性关系；

图片查询

S6，通过降维风格特征相似度比较方法,分别计算带检索图片的降维风格特征与图片索引内每个降维风格特征的相似度距离，并将相似度距离最近的降维风格特征所对应的图片的索引号作为结果返回给给定图片库，优选的，相似度距离为欧式距离；

S7，根据获得的索引号查找给定图片库，返回相似图片集。

步骤3中，将给定图片库的训练样本依次输入VGG-19-FT中提取风格特征，经过提取的图像风格特征有4096维，相对于一些高维度的特征而言不算高，但是由于实际图像检索中图像库的数量巨大，这种维度大小仍然会降低系统性能，所以还是要降低维度。

具体的，机器学习中常采用的四大降维方位包括主成分分析算法(PrincipalComponent Analysis, PCA)、线性判别分析(Linear Discriminant Analysis, LDA)、局部线性嵌入(Locally linear embedding, LLE)、拉普拉斯特征映射(LaplacianEigenmaps)，优选的，本发明采用PCA主成分分析算法进行降维操作。

由于深层神经网络中越接近输入层的特征具备越高的普适性，越接近输出层的特征越具备针对某一数据集的特殊性。因此本发明在迁移学习中保留原始VGG-19参数集中的前16层的参数，而只重新训练后3层的参数。这样既可以充分利用原始参数集的普适性参数，又可以经过重新训练获得针对给定图片库的特殊性参数。

由于神经网络的特性，特定层的层级越高，所提取的风格特征越接近图像的整体特征；特定层的层级越低，所提的风格特征越接近图像的细节特征，如颜色、纹理等。

因此，在图像检索中，若采用低层神经网络的格拉姆矩阵描述图像的风格特征，则查询到的相似图片会在颜色、纹理等细节特征上和待查询图片相似，图像检索的查全率高；若采用高层神经网络的格拉姆矩阵描述图像的风格特征，则查询到的相似图片会在整体特征上和待查询图片相似，图像检索的查准率高；具体采用低层神经网络的进行图片检索还是采用高层神经网络进行图片检索，则需要根据对检索结果的查全率要求或查准率要求进行选取。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制；尽管参照较佳实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换；而不脱离本发明技术方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

Claims

1.一种基于风格特征的图像检索方法，其特征在于，包括以下步骤：

搭建平台

S1，利用基于Theano的框架Keras搭建处理平台；

构建图片索引

图片查询

S7，根据获得的索引号查找给定图片库，返回相似图片集。

2.根据权利要求1所述的基于风格特征的图像检索方法，其特征在于：计算VGG-19-FT特定层的各个滤波器之间的相关性关系，生成格拉姆矩阵来描述图像的风格特征。

3.根据权利要求2所述的基于风格特征的图像检索方法，其特征在于：特定层的层级越高，所提取的风格特征越接近图像的整体特征；特定层的层级越低，所提的风格特征越接近图像的细节特征。

4.根据权利要求1或2或3所述的基于风格特征的图像检索方法，其特征在于：VGG-19包括16个卷积层和3个全连接层，迁移学习时保留原始VGG-19参数集的前16层参数，而只重新训练后3层的参数。