CN109685121B

CN109685121B - 图像检索模型的训练方法、图像检索方法、计算机设备

Info

Publication number: CN109685121B
Application number: CN201811510095.6A
Authority: CN
Inventors: 程诚; 汪浩源; 王旭光
Original assignee: Suzhou Institute of Nano Tech and Nano Bionics of CAS
Current assignee: Suzhou Institute of Nano Tech and Nano Bionics of CAS
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2023-07-18
Anticipated expiration: 2038-12-11
Also published as: CN109685121A

Abstract

本发明公开了图像检索模型的训练方法、图像检索方法、存储介质和计算机设备。训练方法包括：获取训练样本集，训练样本集包括用户拍摄场景图片集和高清广告场景图片集；构建特征提取网络和属性分类器；将训练样本集中的图片输入特征提取网络，以对特征提取网络进行训练，并输出训练特征向量集；将特征向量集输入至属性分类器，以对属性分类器进行训练。检索方法包括：将待检索图像和图像库中的图像分别输入进图像检索模型，图像检索模型分别输出待检索特征向量以及图像库特征向量集；计算进行哈希编码后的待检索特征向量与图像库特征向量集中各个特征向量的汉明距离值；按照汉明距离值从小至大的顺序将图像库中的图像排序。

Description

图像检索模型的训练方法、图像检索方法、计算机设备

技术领域

本发明属于计算机视觉和图像处理技术领域，具体地讲，涉及一种图像检索模型的训练方法、图像检索方法、存储介质、计算机设备。

背景技术

随着移动互联网的快速发展，手机购物平台已成为电子商务领域最具吸引力的一个发展的方向，而基于内容的服装检索技术则为手机购物注入了强有力的发展动力。基于内容的服装检索是指利用计算机视觉和模式识别技术，从服装数据库中检索出感兴趣的服装，其检索关键词通常是待检索的服装照片，而输出则是数据库中按相关性排序的服装照片。由于待检索图像(手机拍照)和服装数据库中图像(通常是高清照片)在拍摄角度、光照、背景、分辨率等方面会存在较大差异(以下称为不同场景)，所以面向移动购物平台的服装检索是跨场景检索问题。基于手机购物平台进行服装检索的流程通常是：用户发现了一件自己喜欢的服装，于是就用手机拍下了自己喜欢的服装的照片，并且通过购物软件上传到电子商务平台的服务器端。电子商务平台会从自己的服装数据库中检索出同款或相似款式的服装推荐给用户。但是用户拍摄的照片或图像常常会与电子商务平台上卖家数据库中所提供的服装图片存在许多不同，比如说：存在拍摄角度的不同、拍摄设备清晰度不同、服装穿戴方式多样化、复杂的背景、光照变化和图片质量等。因此，想要快速并准确地检索同款服装其实难度系数很高，然而现有服装检索系统的性能仍然很低。

本发明的提出源于移动互联网电子商务发展的迫切需求，其目标在于提升移动购物平台基于手机拍照进行服装检索的性能，从而提高用户的购物体验。

发明内容

(一)本发明所要解决的技术问题

本发明解决的技术问题是：如何解决跨场景图像检索中数据不均衡的问题。

(二)本发明所采用的技术方案

一种图像检索模型的训练方法，包括：

获取训练样本集，所述训练样本集包括用户拍摄场景图片集和高清广告场景图片集；

构建基于深度卷积神经网络的图像检索模型，所述图像检索模型包括特征提取网络和属性分类器；

将所述训练样本集中的图片输入所述特征提取网络，以对所述特征提取网络进行训练，并通过所述特征提取网络输出训练特征向量集；

将所述特征向量集输入至所述属性分类器，以对所述属性分类器进行训练。

优选地，所述特征提取网络包括共享子网络、第一子网络和第二子网络；其中所述将所述训练样本集中的样本输入所述特征提取网络，以对所述特征提取网络进行训练的具体方法为：

分别将用户拍摄场景图片集和高清广告场景图片集中的样本输入至所述共享子网络，以对所述共享子网络进行训练，所述共享子网络分别输出与所述用户拍摄场景图片集相对应的第一底层特征向量集以及与所述高清广告场景图片集相对应的第二底层特征向量集；

将所述第一底层特征向量集输入至所述第一子网络，以对所述第一子网络进行训练，所述第一子网络输出第一高层特征向量集；

将所述第二底层特征向量输入至所述第二子网络，以对所述第二子网络进行训练，所述第二子网络输出第二高层特征向量集，所述第二高层特征向量集和所述第二高层特征向量集组成所述训练特征向量集；

利用所述训练特征向量集更新三元组损失函数，并根据更新后的三元组损失函数，利用反向传播算法更新所述特征提取网络的模型参数。

优选地，所述利用所述特征向量集更新三元组损失函数的具体方法为：

利用贝叶斯参数估计算法分别从第一高层特征向量集筛选出第一组三元组数据和从第二高层特征向量集筛选出第二组三元组数据；

分别利用所述第一组三元组数据和所述第二组三元组数据更新三元组损失函数。

优选地，在所述通过所述特征提取网络输出特征向量集之后，所述训练方法方法还包括：

利用贝叶斯参数估计算法所述特征向量集中各个特征向量之间的类别相似度；

根据更新后的类别相似度生成样本选择标准，其中所述样本选择标准用作在下一次迭代时从所述训练样本集中选取样本时的选取标准。

优选地，所述属性分类器包括属性分类子网络和属性关联子网络，其中将所述特征向量集输入至所述属性分类器，以对所述属性分类器进行训练的具体方法为：

将所述训练特征向量集输入至所述属性分类子网络中，以对所述属性分类子网络进行训练，并通过所述属性分类子网络输出属性特征向量集；

将所述属性特征向量集输入至所述属性关联子网络，以对所述属性关联子网络进行训练。

优选地，所述图像检索模型还包括噪声线性网络；所述训练方法还包括：

当图像检索模型的训练次数达到预设次数时，将所述特征提取网络输出的特征向量集输入至所述噪声线性网络，以对所述噪声线性网络进行训练。

优选地，所述用户拍摄场景图片集中的图片为用户自行拍摄的服装图片，所述高清广告场景图片集中的图片为网络高清服装图片。

本发明还公开了一种图像检索方法，包括：

将待检索图像和图像库中的图像分别输入进由任一种上述的训练方法得到的图像检索模型，并通过图像检索模型分别输出与待检索图像对应的待检索特征向量以及与图像库中的图像对应的图像库特征向量集；

对所述待检索特征向量和所述图像库特征向量集中各个特征向量进行哈希编码；

计算进行哈希编码后的所述待检索特征向量与所述图像库特征向量集中各个特征向量的汉明距离值；

按照汉明距离值从小至大的顺序将图像库中的图像排序，以得到检索结果。

本发明还公开了一种存储介质，所述存储介质存储有图像检索模型的训练程序，所述图像检索模型的训练程序被处理器执行时实现任一种上述的图像检索模型的训练方法。

本发明还公开了一种计算机设备，所述计算机设备包括存储器、处理器和存储在所述存储器中的图像检索模型的训练程序，所述图像检索模型的训练程序被处理器执行时实现任一种上述的图像检索模型的训练方法。

(三)有益效果

(1)选择合适的样本训练图像检索模型。本发明从样本和类别两个角度考虑，系统地研究合理的样本选择准则，并建立对应的数学模型，以及在此模型下实现快速的图像检索模型训练算法。

(2)针对训练数据中存在噪声的问题，在图像检索模型中增加噪声线性层来预测噪声分布，对实际应用场景大量数据中噪声的处理，保证图像检索模型的鲁棒性，即增加了图像检索系统的抗噪性能。

(3)通过设置共享子网络、第一子网络和第二子网络来解决跨场景图像检索过程中样本数据不均衡的问题，减少了训练样本这种不均衡对模型性能造成的负面影响，同时利用了海量数据优势，以提高图像检索模型的识别准确率。

(4)利用属性之间的相关性来辅助属性分类。由多个相关属性的分类结果共同得到某个属性分类器的输出，而属性之间的相关性是通过学习得到的。

(5)将浮点运算转为整数运算大大提高模型训练以及测试的速度。

附图说明

图1为发明的实施例一的图像检索模型的训练方法的流程图；

图2为发明的实施例一的特征提取模型的训练方法流程图；

图3为发明的实施例二的图像检索方法的流程图；

图4为发明的实施例三的计算机设备原理框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一

如图1所示，根据本发明的实施例1的图像检索模型的训练方法包括如下步骤：

步骤S10：获取训练样本集，训练样本集包括用户拍摄场景图片集和高清广告场景图片集。

其中，用户拍摄场景图片集中的图片为用户自行拍摄的图片，高清广告场景图片集中的图片为在线商城的高清广告场景图片，例如高清广告场景图片一般来自淘宝、天猫和亚马逊等电商平台，这种照片大多是模特摆拍、背景简单的高质量照片，而且高清广告场景图片的数量非常多，可达到千万量级别。作为优选实施例，用户拍摄场景图片集中的图片为用户自行拍摄的服装图片，高清广告场景图片集中的图片为电商平台的网络高清服装图片。然而，用户自行拍摄的图片一般为拍摄角度交叉、光照不好、背景复杂、分辨率较低的低质量照片，且该类照片的数量非常少。现有的基于内容的图片检索模型中，一般是直接将待检索的图片输入进搜索框中，然后可以得到按照相关度排列的若干相似图片。但是目前的图片检索模型，一般是针对单一场景的图片来训练的，例如仅仅用高清广告场景图片集来训练图片检索模型，这样训练得到的模型对高清广告场景图片具有较好的识别能力，对用户拍摄场景图片的识别能力较差。当然，也有仅仅用用户拍摄场景图片集来训练图片检索模型，这样训练得到的模型对用户拍摄场景图片具有较好的识别能力，对高清广告场景图片的识别能力较差，同时用户拍摄场景图片的数量较少，训练得到的模型的识别准确率较低。因此，本实施例中训练样本集包括了两个场景的图片，这样既利用了高清广告场景图片的海量优势，又兼顾了用户拍摄场景图片，考虑跨场景图像检索中数据不均衡的问题，以提高跨场景图像检索的低性能问题。

步骤S20：构建基于深度卷积神经网络的图像检索模型，图像检索模型包括特征提取网络和属性分类器。

具体地，为了数据不均衡的问题，本实施例的特征提取网络优选包括共享子网络、第一子网络和第二子网络，其中共享子网络可利用两个场景的图片进行训练，第一子网络可利用用户拍摄场景图片来训练，第二子网络可利用高清场景图片来训练。

步骤S30：将所述训练样本集中的样本输入所述特征提取网络，以对所述特征提取网络进行训练，并通过所述特征提取网络输出训练特征向量集。如图2所示，该步骤S20包括如下步骤：

步骤S301：分别将用户拍摄场景图片集和高清广告场景图片集中的样本输入至共享子网络，以对共享子网络进行训练，共享子网络分别输出与用户拍摄场景图片集相对应的第一底层特征向量集以及与所述高清广告场景图片集相对应的第二底层特征向量集。

具体来说，用户拍摄场景图片和高清场景图片的分辨率、光照强度、拍摄角度虽然不同，但是对于同一类图片来说，即使是从两个场景获取的图片，其底层特征是基本相同的，因此可用来训练共享子网络，实现底层参数共享，发挥高清广告场景图片的海量优势，以提高检索性能。作为优选实施例，每一次迭代时，从训练样本集中选取M类图像，每一类图像选取N张，即每一次迭代总共选取M*N张图片，其中M*N张图片包括用户拍摄场景图片和高清场景图片。当利用用户拍摄场景图片来训练共享子网络时，共享子网络输出第一底层特征向量集；当利用高清场景图片来训练共享子网络时，共享子网络输出第二底层特征向量集。

步骤S302：将第一底层特征向量集输入至第一子网络，以对第一子网络进行训练，第一子网络输出第一高层特征向量集。

步骤S303：将第二底层特征向量输入至第二子网络，以对第二子网络进行训练，第二子网络输出第二高层特征向量集，第二高层特征向量集和第二高层特征向量集组成训练特征向量集。

具体地，当训练共享子网络完，需要将两个场景图片对应的特征分开，以分别对两个不同子网络进行训练。具体来说共享子网络输出的第一底层特征向量集和第二底层特征向量集的特征向量的总数为M*N。其中，将用户拍摄场景图片对应的第一底层特征向量输入至第一子网络，以对第一子网络进行训练，且第一子网络输出第一高层特征向量集。将高清场景图片对应的第二底层特征向量输入至第二子网络，以对第二子网络进行训练，且第二子网络输出第二高层特征向量集。第一底层特征向量集和第二高层特征向量集共同组成训练特征向量集，训练特征向量集的特征向量总数为M*N。

步骤S304：利用训练特征向量集更新三元组损失函数，并根据更新后的三元组损失函数，利用反向传播算法更新特征提取网络的模型参数。

具体地，本实施例优选采用三元组(triplet)样本来更新损失函数。在每一次迭代中，特征提取网络输出M*N个训练特征向量，对M*N个训练特征向量进行排列组合，得到N*M*(M-1)*N*(N-1)个triplet样本。由于太难的数据可能是噪声数据，太简单的数据对模型没有帮助，现有技术方法是从中选取M*N*(N-1)个中等难度triplet样本用于训练。本实施例在在贝叶斯理论的基础上，从类别和样本两个方面考虑，设计出合适的样本选择方法来训练深度卷积神经网络(DCNN)模型，从而加快模型的训练效率和鲁棒性。即用参数方法或非参数方法估计triplet样本类内和类间的条件概率，并在此基础上对三元组损失函数(triplet loss)的条件概率密度和后验概率的影响程度进行判断，动态地选择triplet样本并实时更新条件概率模型。

进一步地，本实施例的三元组损失函数：

其中，分别表示第i个源图像与同类别图像的差异值，第i个源图像与不同类别图像的差异值，二分类分类器的标签分别设为1和0。

进一步地，利用贝叶斯参数估计算法分别从第一高层特征向量集筛选出第一组三元组数据和从第二高层特征向量集筛选出第二组三元组数据，第一组三元组数据和第二组三元组数据的总数量为K，其中M*N<K<M*N(N-1)。即利用这K个第一组三元组数据和第二组三元组数据分别依次更新三元组损失函数。三元组损失函数每次被更新一次，就利用反向传播算法更新一次特征提取网络的参数。其中，经过贝叶斯参数估计算法筛选出的K个第一组三元组数据和第二组三元组数据中，每个三元组数据的特点是类内距离大，类间距离中等或者小的，利用这些三元组数据去更新三元组损失函数，可提高模型训练效率和提升模型的鲁棒性。

进一步地，在所述通过所述特征提取网络输出特征向量集之后，所述训练方法方法还包括：

利用贝叶斯参数估计算法特征向量集中各个特征之间的类别相似度。作为优选实施例，每次迭代过程中，特征提取网络输出M*N个特征向量，计算每两个向量之间的余弦距离来更新各个特征的类别相似度。

进一步地，根据更新后的类别相似度生成样本选择标准，其中样本选择标准用作在下一次迭代时从训练样本集中选取样本时的选取标准。通过该样本选择标准，可保证在下一次迭代时选取的图片样本中，相同类别之间的各个图片的相似度小，不同类别之间的各个图片相似度高，利用这类图片样本去训练图像检索模型，一方面可提高模型的训练效率，另一方面可提高模型的鲁棒性。

进一步地，为了实现图像检索模型训练的快速运算，首先将目前基于浮点运算的操作转换为整数运算；然后设计特定的激活函数，让输出值都为2的指数，如果定义为short型，参数会有16位，并且限定图像检索模型的参数也只能是2的指数。这样所有的乘法和除法都可以通过位移实现，大大加快的运算速度。与原始的只做异或操的运算方法作相比，本发明实施例的计算能力会大大增强。

步骤S40：将特征向量集输入至属性分类器，以对属性分类器进行训练。

具体来说，属性分类器包括属性分类子网络和属性关联子网络，该步骤S40具体包括如下步骤：

步骤S41：将特征向量集输入至属性分类子网络中，以对属性分类子网络进行训练，并通过属性分类子网络输出属性特征向量集。

步骤S42：将属性特征向量集输入至所述属性关联子网络，以对所述属性关联子网络进行训练。

举例来说，冬季的服装都偏厚，夏季的服装都偏薄，因此，服装的薄厚和服装的季节肯定是相关的。服装的裤长、裤型就和领型、修型一般不能同时出现，因为裤长和裤型一般是指裤子，领型和修型一般是指上衣。因此，在利用服装属性任务优化图像检索模型的参数时，不仅要利用服装的视觉特征，还可以利用属性之间的依赖关系。

具体来说，每个属性分类子网络都是采用softmax进行优化，其输出都是这种属性对每个类别输出的概率。针对每个属性分类任务，我们在设置属性关联子网络。这种方式使我们既可以训练属性分类子网络，又可以通过属性关联子网络学习属性关联子网络之间的依赖关系，同时符合深度学习端到端的方式，具有更好的属性分类结果且易于模型训练。

进一步地，作为优选实施例，图像检索模型还包括噪声线性网络。图像检索模型训练方法还包括：

当图像检索模型的训练次数达到预设次数时，将特征提取网络输出的特征向量集输入至噪声线性网络，以对噪声线性网络进行训练。

具体来说，我们定义一个大小为K*K的噪声分布矩阵Q，该矩阵是表示真实样本标记是i但是被标记为j分布，如果完全没有噪声，Q就是一个单位矩阵)。在图像检索模型训练到一定程度以后，通过最小化tr(Q)来模拟噪声分布。由于噪声线性层与分类层是连接的，该信号也能通过反向传播传输到分类层和卷积层，从而克服噪声数据对基础模型的影响，得到更好的分类性能。

本发明的实施例一提供的图像检索模型的训练方法具有如下特点：

实施例二

如图3所示，本发明的实施例二还公开了一种图像检索方法，该图像检索方法具体包括如下步骤：

步骤S1：将待检索图像和图像库中的图像分别输入进由实施例一的训练方法得到的图像检索模型，并通过图像检索模型分别输出与待检索图像对应的待检索特征向量以及与图像库中的图像对应的图像库特征向量集。

步骤S2：对所述待检索特征向量和所述图像库特征向量集中各个特征向量进行哈希编码；

步骤S3：计算进行哈希编码后的所述待检索特征向量与所述图像库特征向量集中各个特征向量的汉明距离值；

步骤S4：按照汉明距离值从小至大的顺序将图像库中的图像排序，以得到检索结果。

实施例三

如图4所示，根据本发明的实施例三的计算机设备包括计算机设备包括存储器100、处理器200和存储在存储器中的图像检索模型的训练程序300，图像检索模型的训练程序被处理器200执行时实现如实施例一中的图像检索模型的训练方法。

进一步地，本发明还公开了一种存储介质，存储介质存储有图像检索模型的训练程序，所述图像检索模型的训练程序被处理器执行时实现如实施例一中的图像检索模型的训练方法。

上面对本发明的具体实施方式进行了详细描述，虽然已表示和描述了一些实施例，但本领域技术人员应该理解，在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下，可以对这些实施例进行修改和完善，这些修改和完善也应在本发明的保护范围内。

Claims

1.一种图像检索模型的训练方法，其特征在于，包括：

将所述特征向量集输入至所述属性分类器，以对所述属性分类器进行训练；

所述特征提取网络包括共享子网络、第一子网络和第二子网络；其中所述将所述训练样本集中的样本输入所述特征提取网络，以对所述特征提取网络进行训练的具体方法为：

2.根据权利要求1所述的图像检索模型的训练方法，其特征在于，所述利用所述特征向量集更新三元组损失函数的具体方法为：

3.根据权利要求1所述的图像检索模型的训练方法，其特征在于，在所述通过所述特征提取网络输出特征向量集之后，所述训练方法方法还包括：

4.根据权利要求1所述的图像检索模型的训练方法，其特征在于，所述属性分类器包括属性分类子网络和属性关联子网络，其中将所述特征向量集输入至所述属性分类器，以对所述属性分类器进行训练的具体方法为：

5.根据权利要求1所述的图像检索模型的训练方法，其特征在于，所述图像检索模型还包括噪声线性网络；所述训练方法还包括：

6.根据权利要求1所述的图像检索模型的训练方法，其特征在于，所述用户拍摄场景图片集中的图片为用户自行拍摄的服装图片，所述高清广告场景图片集中的图片为网络高清服装图片。

7.一种图像检索方法，其特征在于，包括：

将待检索图像和图像库中的图像分别输入进由权利要求1至6任一项所述的训练方法得到的图像检索模型，并通过图像检索模型分别输出与待检索图像对应的待检索特征向量以及与图像库中的图像对应的图像库特征向量集；

8.一种存储介质，其特征在于，所述存储介质存储有图像检索模型的训练程序，所述图像检索模型的训练程序被处理器执行时实现如权利要求1至6任一项所述的图像检索模型的训练方法。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器和存储在所述存储器中的图像检索模型的训练程序，所述图像检索模型的训练程序被处理器执行时实现如权利要求1至6任一项所述图像检索模型的训练方法。