CN107958067A

CN107958067A - 一种基于无标注自动特征提取的大规模电商图片检索系统

Info

Publication number: CN107958067A
Application number: CN201711265073.3A
Authority: CN
Inventors: 张�杰; 李仁勇; 崇志宏
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-04-24

Abstract

基于无标注自动特征提取的大规模电商图片检索系统，包含三个模块：特征提取模块，检索模块、以及图像数据库；特征提取模块：特征提取模块包含图像预处理和特征提取；先进行图像预处理操作，对原始图像进行缩放和裁剪到相同的图像大小；特征提取部分为基于深度神经网络的特征提取方式，提出使用一种无监督的深度模型作为图片的特征提取器；判别网络接受真实图像数据和伪造数据作为输入并判别输入数据真伪，使用对抗训练交替优化两个网络，最后使用判别网络中的卷积层输出作为图像特征；对提取的原始特征在存储到图像数据库和检索之前进行特征降维，本系统使用机器学习中的PCA降维方法。

Description

一种基于无标注自动特征提取的大规模电商图片检索系统

技术领域

本发明涉及图像检索领域，具体涉及一种基于内容的图像检索技术，可广泛应用于电商平台、图像信息检索等领域。

背景技术

图像检索按描述图像内容方式的不同可以分为两类，一类是基于文本的图像检索(TBIR,Text Based Image Retrieval)，另一类是基于内容的图像检索(CBIR,ContentBased Image Retrieval)。

基于文本的图像检索技术发展自上世纪70年代，这项技术将图像存储在数据库中，利用文本标注的方式对图像中的内容进行描述，从而为每幅图像形成描述这幅图像内容的关键词，比如图像中的物体、场景等。用户检索时通过对关键词的精确匹配或概率匹配，从图像数据库中检索出图像结果。这种基于文本描述的图像检索方式由于易于实现，且在标注时有人工介入，所以其查准率也相对较高。但是这种检索方式的缺点也是非常明显的，由于其需要人工介入对图像数据进行标注，对于大规模图像数据需要耗费大量人力和时间。同时由于检索通过关键字进行，需要通过简短的文字准确描述检索请求，用户有时很难准确描述。再者，人工标注过程不可避免的会受到标注者的认知水平、言语使用以及主观判断等的影响，因此会导致标注数据没有一个统一的标准。

随着图像数据规模的增长，基于文本的图像检索技术问题日益突出。上世纪90年代，基于内容的图像检索技术应运而生。基于内容的图像检索技术是一种综合集成技术，其利用图像处理、机器视觉的方法，对图像进行分析提取特征向量，并存入图像特征库中。当用户输入一张查询图像时，用相同的特征提取方法提取查询图像的特征得到查询向量，然后以某种相似性度量准则计算查询向量与特征库中各个特征的相似性大小，最后按相似性大小进行排序并顺序输出对应的图片。

近些年来，深度学习在图像、影音、自然语言上取得重大突破，尤其是以深度卷积神经网络(Deep Convolution neural Network，DCNN)为代表的深度学习技术在图像处理上取得的突破性进展，越来越多的研究人员将深度学习技术融入到图像检索任务中，取得了不错的效果。其中最常见的是利用深度卷积神经网络作为图像的特征自动提取器，取代之前的SIFT、SURF特征提取方式，通过卷积神经网络更强的特征提取能力，改善图像检索的性能。然而，采用CNN作为图像特征提取引入了另一种问题：CNN网络的训练。图像检索的类别成千上万，随着类别的增多，要求的能够提取的图像特征越精细，训练一个好的CNN特征提取器非常困难，图像检索的难度显著增强。同时，训练一个CNN网络通常是使用监督学习，即输入的训练数据是图像和图像类别的数据对。当网络的结构复杂 (网络深度、宽度很大)时，为了防止过拟合训练模型需要海量的数据，而对于大规模数据进行人工标注将会耗费大量人力物力。

发明内容

针对以上图像检索系统的问题，本发明目的是，提出一种新型的基于内容的图像检索系统及方法，通过无监督学习的方式提取图像的特征并进行相似性检索，可以避免传统方法中需要大量人工标注数据的缺点，大大减少系统成本。

本发明的技术方案是，基于无标注自动特征提取的大规模电商图片检索系统，系统主要包含三个模块：特征提取模块，检索模块、以及图像数据库。

特征提取模块：特征提取模块包含两个部分，图像预处理和特征提取。由于输入的图像受到图像格式和图像像素大小的影响，可能与特征提取器的要求输入不同，因此需要有相应的图像预处理操作。在本系统中图像预处理部分主要是对原始图像进行缩放和裁剪到相同的图像大小；对于单通道的灰度图将其转化为三通道的RGB三色图；并将0～255RGB值归一化到-0.5～+0.5区间。特征提取部分为基于深度神经网络的特征提取方式，提出使用一种无监督的深度模型作为图片的特征提取器。深度模型由两个深度神经网络组成，采样网络从随机噪声中采样生成与真实图片类似的伪造图片；判别网络接受真实图像数据和伪造数据作为输入并判别输入数据真伪。采样网络负责使用对抗训练交替优化两个网络，最后使用判别网络中的卷积层输出作为图像特征；

检索模块：使用两种距离度量方法(欧几里得距离和夹角余弦距离)计算两两图像特征的相似性距离，然后根据相似性距离排序返回与查询图像相似的图片。在本系统中得到的图像原始特征是上万维的高维特征向量，但是高维的特征会带来计算成本和存储成本的增加，因此考虑到系统的计算效率和存储效率，本系统对提取的原始特征在进行存储和检索之前采用PCA降维方法进行特征降维。降维后的图像维度越低，随后的特征检索计算和存储代价越小，但是不可避免地因为降维带来的精度损失会越大。为了平衡性能和精度的要求，需要合理选择降维维度。

图像数据库：图像数据库中存储了所有待检索的图像数据。

图像检索分为三个阶段，第一个阶段使用真实图像数据训练特征提取网络，然后使用其中的一个子网络作为特征提取器。图像预处理部分主要是对原始图像进行缩放和裁剪到相同的图像大小；对于单通道的灰度图将其转化为三通道的RGB三色图；并将0～255RGB值归一化到-0.5～+0.5区间。特征提取模块工作，现有的各种基于内容的图像检索技术的差异主要体现在特征提取部分的方法选择，本系统为了克服传统的特征提取需要大量人工参与，自主性差的问题，提出了一种新的基于深度神经网络的特征提取方式。该模型是一种无监督模型，不需要人工标注数据或进行手工特征工程，仅需要真实的图片数据作为数据集，而不包含任何人工的附加数据。与传统的基于有监督深度学习的检索系统相比本系统能在以损失少量精度的情况下，大幅度的减少人工标注数据的成本。第二个阶段是对于图像数据库进行离线特征提取、以及降维工作。在本系统中得到的图像原始特征是上万维的高维特征向量，但是高维的特征会带来计算成本和存储成本的增加，因此考虑到系统的计算效率和存储效率，本系统对提取的原始特征在进行存储和检索之前进行特征降维。降维后的图像维度越低，随后的特征检索计算和存储代价越小，但是不可避免地因为降维带来的精度损失会越大。为了平衡性能和精度的要求，需要合理选择降维维度。

第三个阶段是将系统部署上线。

在训练模型阶段，首先从网站的商品图片中采样生成训练数据，用于模型的训练。本系统使用的到特征提取网络结构如图2所示，包含两个子网络：一个是采样网络G(图2上)，另一个是判别网络D(图2下)。

采样网络的目标是学习关于图像数据的真实联合分布P，从而能采样生成新的伪造图像。判别网络其作用是通过观察到的图像输入来判定数据是属于真实图片的概率，类似一个二分类网络。

采样网络总共5层，第一层是一个线性层，将噪声分布数据Z映射到4x 4x 512维，然后输入到反卷积层，反卷积核的参数设置均为5x5，步长为2，除最后一层输出层使用tanh激活函数外其他层均使用Relu激活。最后通过多层的反卷积，输出64x 64x 3数据。判别网络是一个常见的 4层卷积+1层全连接层的网络，与通常5层网络不同的是，判别网络中的采用带步长的卷积层替换池化层，卷积核参数设置与G网络一致，同时激活函数为Leakly-Relu，最后一层的激活函数为 Sigmoid函数。

通过交替的训练判别网络和采样网络，我们得到训练好的模型。对于图像数据库中的每一张图片，进行图像特征预提取。本系统使用判别网络的前四层提取图像的特征，然后对于提取到的8192 维特征进行降维到300维，并保存到特征数据库中。上述部分离线进行，从而确保检索过程的响应速度。

当用户输入示例图片进行检索时，首先经过特征提取器提取图像的原始特征并降维，然后与图像特征库中数据进行相似匹配，可以采用多种距离度量方式，得到图像数据库中按相似程度排序的检索结果。

为了提升检索的速率，采用的办法是预先计算出所有图像的特征数据，并保存在图像特征库中。当示例查询提交时，直接将查询特征与图像库中的所有特征匹配，加快查询速度。同时当图像数据库更新时，只需要对图像特征库作相应更新即可。

有益效果，本发明提出的新型的基于内容的图像检索系统及方法，是一种无标注自动特征提取的检索系统，通过无监督学习的方式提取图像的特征并进行相似性检索，可以避免传统方法中需要大量人工标注数据的缺点，大大减少系统成本。下面结合附图说明和具体实施方式，对本发明进一步说明。

附图说明

图1为本系统的图像检索流程。

图2为特征提取网络结构示意图。

图3为特征提取网络中两个子网络的详细结构.其中，图3A、3B分别是采样网络和判别网络详细结构, 图3A采样，图3B为图像数据库进行离线特征提取、以及降维工作。

具体实施方式

下面就以电商平台图片检索为例介绍本系统实施方式。

如图1，图像检索分为三个阶段，第一个阶段需使用真实图像数据训练特征提取网络，然后使用其中的一个子网络作为特征提取器。第二个阶段是对于图像数据库进行离线特征提取、以及降维工作。第三个阶段是将系统部署上线。

在训练模型阶段，首先从网站的商品图片中采样生成训练数据，用于模型的训练。本系统使用的到特征提取网络结构如图2所示，包括两个子网络：一个是采样网络G(图2上)，另一个是判别网络D(图2下)。采样网络的目标是学习关于图像数据的真实联合分布P，从而能采样生成新的伪造图像。判别网络其作用是通过观察到的图像输入来判定数据是属于真实图片的概率，类似一个二分类网络。

如图3是本系统中使用的网络的详细结构。图3A、3B分别是采样网络和判别网络详细结构, 图3A采样，图3B为图像数据库进行离线特征提取、以及降维工作；

采样网络总共5层，第一层是一个线性层，将噪声分布数据Z映射到4x 4x 512维，然后输入到反卷积层，反卷积核的参数设置均为5x5，步长为2，除最后一层输出层使用tanh激活函数外其他层均使用Relu激活。最后通过多层的反卷积，输出64x 64x 3数据。判别网络是一个常见的4层卷积+1层全连接层的网络，与通常5层网络不同的是，判别网络中的采用带步长的卷积层替换池化层，卷积核参数设置与G网络一致，同时激活函数为Leakly-Relu，最后一层的激活函数为 Sigmoid。判别网络的前四层卷积层可以视作图片的特征提取器，因此我们使用第四层卷积层的输出作为图像特征。

通过交替的训练判别网络和采样网络，我们得到训练好的模型，然后对于图像数据库中的每一张图片，输入到判别网络提取特征。当得到所有图片的特征后再使用PCA降维方法对提取到的图像特征降维到300维，并保存到特征数据库中。上述部分离线进行，从而确保检索过程的响应速度。

当用户输入示例图片进行检索时，首先经过特征提取器提取图像的原始特征，然后使用PCA降维，再与图像特征库中数据进行相似匹配，可以采用多种距离度量方式，得到图像数据库中按相似程度排序的检索结果。

本发明并不限于上述实施方式，采用与本发明上述实施实例相同或近似的结构，而得到的其它结构设计，均在本发明的保护范围之内。

Claims

1.基于无标注自动特征提取的大规模电商图片检索系统，其特征是系统包含三个模块：特征提取模块，检索模块、以及图像数据库；

特征提取模块：特征提取模块包含两个部分，图像预处理和特征提取；由于输入的图像受到图像格式和图像像素大小的影响，先进行图像预处理操作；在本系统中图像预处理部分是对原始图像进行缩放和裁剪到相同的图像大小；对于单通道的灰度图将其转化为三通道的RGB三色图；并将0～255RGB值归一化到-0.5～+0.5区间；特征提取部分为基于深度神经网络的特征提取方式，提出使用一种无监督的深度模型作为图片的特征提取器；深度模型由两个深度神经网络组成，采样网络从随机噪声中采样生成与真实图片类似的伪造图片；判别网络接受真实图像数据和伪造数据作为输入并判别输入数据真伪，使用对抗训练交替优化两个网络，最后使用判别网络中的卷积层输出作为图像特征；

检索模块：对提取的原始特征在存储到图像数据库和检索之前进行特征降维，本系统使用机器学习中的PCA降维方法；进行检索时，将查询图像与数据库中所有图像匹配，计算图像特征间的欧几里得距离和夹角余弦距离，然后按距离排序返回检索结果。

2.根据权利要求1所述的检索系统，其特征是在训练模型阶段，首先从网站的商品图片中采样生成训练数据，用于模型的训练；特征提取网络一个是采样网络G和判别网络D；

采样网络的目标是学习关于图像数据的真实联合分布P，从而能采样生成新的伪造图像；判别网络其作用是通过观察到的图像输入来判定数据是属于真实图片的概率，类似一个二分类网络；采样网络总共5层，第一层是一个线性层，将噪声分布数据Z映射到4x 4x512维，然后输入到反卷积层，反卷积核的参数设置均为5x5，步长为2，除最后一层输出层使用tanh激活函数外其他层均使用Relu激活；最后通过多层的反卷积，输出64x 64x 3数据；

判别网络是一个常见的4层卷积+1层全连接层的网络；判别网络中的采用带步长的卷积层替换池化层，卷积核参数设置与G网络一致，同时激活函数为Leakly-Relu，最后一层的激活函数为Sigmoid。

3.根据权利要求1所述的检索系统，其特征是通过交替的训练判别网络和采样网络，对于图像数据库中的每一张图片，进行图像特征预提取；系统使用判别网络的前四层提取图像的特征，然后对于提取到的8192维特征使用PCA降维到300维，并保存到特征数据库中；上述部分离线进行，从而确保检索过程的响应速度。

4.根据权利要求1所述的检索系统，其特征是当用户输入示例图片进行检索时，首先经过特征提取器提取图像的原始特征并降维，然后与图像特征库中数据进行相似匹配，采用两种距离度量方式即欧几里得距离和夹角余弦距离，得到图像数据库中按相似程度排序的检索结果。

5.根据权利要求1所述的检索系统，其特征是预先计算出所有图像的特征数据，并保存在图像特征库中；当查询提交时，直接将查询特征与图像库中的所有特征匹配，加快查询速度。

6.根据权利要求1所述的检索系统，其特征是当图像数据库更新时，只需要对图像特征库作相应更新。

7.根据权利要求2所述的检索系统，其特征是采样网络总共5层，第一层是一个线性层，将噪声分布数据Z映射到4x 4x 512维，然后输入到反卷积层，反卷积核的参数设置均为5x5，步长为2，除最后一层输出层使用tanh激活函数外其他层均使用Relu激活。最后通过多层的反卷积，输出64x 64x 3数据。判别网络是一个常见的4层卷积+1层全连接层的网络，与通常5层网络不同的是，判别网络中的采用带步长的卷积层替换池化层，卷积核参数设置与G网络一致，同时激活函数为Leakly-Relu，最后一层的激活函数为Sigmoid。判别网络的前四层卷积层可以视作图片的特征提取器，因此我们使用第四层卷积层的输出作为图像特征。

8.根据权利要求2所述的检索系统，其特征是通过交替的训练判别网络和采样网络，我们得到训练好的模型，然后对于图像数据库中的每一张图片，输入到判别网络提取特征；当得到所有图片的特征后再使用PCA降维方法对提取到的图像特征降维到300维，并保存到特征数据库中；上述过程离线进行。

9.根据权利要求2所述的检索系统，其特征是当用户输入示例图片进行检索时，首先经过特征提取器提取图像的原始特征，然后使用PCA降维，再与图像特征库中数据进行相似匹配，采用多种距离度量方式，得到图像数据库中按相似程度排序的检索结果。