CN104346629A

CN104346629A - 一种模型参数训练方法、装置及系统

Info

Publication number: CN104346629A
Application number: CN201410579249.2A
Authority: CN
Inventors: 唐胜; 万吉; 柴振华
Original assignee: Huawei Technologies Co Ltd
Current assignee: Open source Internet of things (Guangzhou) Co., Ltd.
Priority date: 2014-10-24
Filing date: 2014-10-24
Publication date: 2015-02-11
Anticipated expiration: 2034-10-24
Also published as: WO2016062044A1; CN104346629B

Abstract

本发明实施例公开了一种模型参数训练方法、装置及系统，用于快速的进行图像检索或图像分类的参数训练。本发明实施例方法包括：使用模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数，若所述迭代计算的结果不满足终止条件，则确定所述目标函数在所述模型参数上的第一梯度，并根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率，根据所述学习速率和所述第一梯度更新所述模型参数，重复上述步骤，直至所述迭代计算的结果满足所述终止条件，获取满足所述终止条件的所述迭代计算的结果对应的模型参数。

Description

一种模型参数训练方法、装置及系统

技术领域

本发明涉及通信技术，尤其涉及一种模型参数训练方法、装置及系统。

背景技术

传统的基于关键字去检索图像的方法存在语义鸿沟问题，往往导致用户经常检索不到自己想搜的图片。而基于内容的图片检索(CBIR，Content BasedImage Retrieval)方法则是一种更类似人类思维的一种检索方式。当前的CBIR系统主要依赖于一些浅层机器学习算法，其性能受到很大的制约。而深度学习(Deep Learning)是近年来机器学习领域最令人瞩目的方向。其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。深度学习的概念源于人工神经网络的研究，其基本学习结构是多层神经网络。与传统机器学习算法的“浅”层学习结构不同，深度学习通过多个变换、表达步骤来模仿人脑的“深”层学习结构。通过探索深层结构，可以从数据中学习得到逐渐抽象的层次化特征。

深度学习引起了学术界和工业界的广泛关注，产生出一系列的深度神经网络(Deep Neural Network，简称DNN)模型，例如，深度置信网(Deep Belief Nets，简称DBNs)、深度玻尔兹曼机(Deep Boltzmann Machines，简称DBMs)、卷积神经网络(Convolutional Neural Networks，简称CNNs)等。

研究高效的深度神经网络的学习算法，实现海量数据的快速训练，是从事深度学习技术研发首先要解决的问题。因此，深度神经网络的学习算法的研究尤其重要。

在机器进行图像训练的过程中，首先将要解决的图像检索问题抽象成一个最优化问题，定义目标函数，然后通过相应的最优化算法来对其进行求解。定义待解决的优化问题如下：

\min_{w} L (w) = \underset{x &Element; X}{Σ} l (w; x)

其中，w是模型参数，X是训练数据集合，l(w；x)是代价函数。求解的目标就是找到一组最优的模型参数w^*,使得模型在训练数据集上总的代价最小。以分类问题为例，l(w；x)通常与分类错误率相关，因而最小化目标函数L(w)就相当于最小化分类错误率。

特别的，在深度学习中，L(w)通常是复杂的非线性函数，往往无法求得全局最优解w^*，而只能求得局部最优解对问题的求解需要在训练数据上迭代进行，常用的方法有随机梯度下降法、牛顿法和拟牛顿法。

在现有技术中，随机梯度下降法(Stochastic Gradient Descent，简称SGD)是深度学习中广泛采用的一种优化方法。其优点是容易实现，速度快，可用于大规模训练集。

随机梯度下降法的基本过程为：使用初始的模型参数对代价函数进行迭代计算，判断迭代计算的结果是否满足终止条件，若否，则根据预设的学习速率和当前的梯度值更新模型参数，继续进行迭代计算，直至迭代计算的结果满足终止条件为止。

现有技术中的随机梯度下降法的缺点是需要人工进行参数选择，包括学习速率，终止条件等。当学习速率设置得过小时，训练过程会十分缓慢；当学习速率设置得过大时，则可能在更新模型参数进行迭代计算时跳过局部最优解，使得收敛的速度不降反升，甚至导致不收敛。

发明内容

本发明实施例提供了一种模型参数训练方法、装置及系统，用于快速的进行图像检索或图像分类的参数训练。

本发明实施例第一方面提供的模型参数训练方法，包括:

使用模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数，

若所述迭代计算的结果不满足终止条件，

则确定所述目标函数在所述模型参数上的第一梯度，并根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率，

根据所述学习速率和所述第一梯度更新所述模型参数，

重复上述步骤，直至所述迭代计算的结果满足所述终止条件，获取满足所述终止条件的所述迭代计算的结果对应的模型参数。

结合第一方面，在第一种可能的实现方式中，所述根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率，包括：

根据所述目标函数在前一次模型参数上的梯度，及所述第一梯度更新所述学习速率。

结合第一方面第一种可能的实现方式，在第二种可能的实现方式中，所述根据所述目标函数在前一次模型参数上的梯度，及所述第一梯度更新所述学习速率，包括：

对所述模型参数中每一个元素对应的学习速率进行更新，当对所述模型参数中的第j个元素进行处理时，根据如下公式对所述学习速率进行更新；

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| {Δw}_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

所述表示所述模型参数的第j个元素在第k+1次模型参数更新所对应的所述学习速率，所述表示所述模型参数的第j个元素在第k+1次模型参数更新所对应的所述模型参数变化量，所述表示所述模型参数的第j个元素在第k+1次模型参数更新所对应的第一梯度，所述表示所述前一次模型参数的第j个元素在第k次模型参数更新所对应的梯度，所述k为大于零的整数，所述j大于或等于零的整数。

本发明实施例第二方面提供的图像训练装置，包括：

计算单元，终止判定单元，梯度确定单元，速率更新单元以及参数更新单元；

所述计算单元用于使用模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数；

所述终止判定单元用于判定所述迭代计算的结果是否满足终止条件，若否，则所述执行梯度确定单元以及所述速率更新单元；若是，则获取满足所述终止条件的所述迭代计算的结果对应的模型参数；

所述梯度确定单元用于确定所述目标函数在所述模型参数上的第一梯度；

所述速率更新单元用于根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；

所述参数更新单元，用于根据所述学习速率和所述第一梯度更新所述模型参数，并触发所述计算单元及所述终止判定单元。

结合第二方面，在第一种可能的实现方式中，所述速率更新单元具体用于：

结合第二方面第一种可能的实现方式，在第二种可能的实现方式中，所述速率更新单元具体用于：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| {Δw}_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

本发明实施例第三方面提供的图像检索系统，包括：

图像训练装置，检索装置和图像数据库；

所述图像训练装置包括：计算单元，终止判定单元，梯度确定单元，速率更新单元以及参数更新单元；所述计算单元用于使用模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数；

所述终止判定单元用于判定所述迭代计算的结果是否满足终止条件，若否，则所述执行梯度确定单元以及所述速率更新单元；若是，则获取满足所述终止条件的所述迭代计算的结果对应的模型参数；所述梯度确定单元用于确定所述目标函数在所述模型参数上的第一梯度；所述速率更新单元用于根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；所述参数更新单元，用于根据所述学习速率和所述第一梯度更新所述模型参数，并触发所述计算单元及所述终止判定单元。所述检索装置用于根据所述图像训练装置确定的模型参数对输入的图像数据进行神经网络特征提取，并根据所述神经网络特征在所述图像数据库中进行图像检索，输出所述图像检索的结果。

结合第三方面，在第一种可能的实现方式中，所述速率更新单元具体用于：

结合第三方面第一种可能的实现方式，在第二种可能的实现方式中，所述速率更新单元具体用于：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| {Δw}_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例的迭代过程中，若迭代计算的结果不满足终止条件，则继续进行迭代计算，在进行下一次迭代计算之前，根据所述模型参数在所述目标函数所表现出的参数分布特征更新学习速率，再使用所述学习速率更新下一次迭代计算所使用的模型参数，使得模型参数的变化幅度可以根据目标函数的参数分布特征进行适应性调整，从而在远离模型参数的局部最优值时，可以通过学习速率设置较大的模型参数的变化幅度，以加快迭代计算的进程，在接近模型参数的局部最优值时，可以通过更新学习速率设置较小的模型参数的变化幅度，提高了迭代计算的效率，进而在兼顾提高了进行图像训练的速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的图像检索装置的架构示意图；

图2是本发明实施例中的模型参数训练方法的一个流程示意图；

图3是本发明实施例中的模型参数训练方法的另一个流程示意图；

图4是本发明实施例中的目标函数曲线的一个示意图；

图5是本发明实施例中的目标函数曲线的另一个示意图；

图6是本发明实施例中的目标函数曲线的另一个示意图；

图7是本发明实施例中的目标函数曲线的另一个示意图；

图8是本发明实施例中的收敛测试的一个示意图；

图9是本发明实施例中的图像训练装置的结构示意图；

图10是本发明实施例中基于模型参数训练方法的图像训练装置的计算机结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中模型参数训练方法应用于图1所示图像检索系统，具体的：

在实际应用中，为了使计算机在检索时可以输出人类想要的结果，需要计算机装置进行深度学习，以建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，图像训练装置通过多个变换、表达步骤来模仿人脑的深层学习结构，通过探索深层结构，可以从数据中学习得到逐渐抽象的层次化特征。因此，为了实现深度学习，则需要在图像检索系统中会设置图像训练装置11，进行海量数据的训练，确定进行图像检索的模型参数。

在用户需要进行图像检索时，在图像检索系统的检索装置12中输入图像数据，检索装置12根据图像训练装置11确定的模型参数对所述图像数据进行神经网络特征提取，并根据所述神经网络特征在所述图像数据库13中进行图像的对比查找，输出所述图像检索的结果，具体的，可以根据图像的相似性以降序的方式输出所述图像检索的结果。

在图像训练装置11进行图像训练的过程中，首先将要解决的图像检索问题抽象成一个最优化问题，定义目标函数，然后通过相应的最优化算法来对其进行求解，求解目标就是找到一组最优的模型参数，使得模型在训练数据集上总的代价最小。

现有技术中，可以使用随机梯度下降法求解最优的模型参数，但是，图像训练的速度不理想，本发明实施例中模型参数训练方法针对该随机梯度下降法进行优化改进，具体请参阅以下实施：

在实际应用中，在进行目标函数的迭代计算时，需要设定初始的模型参数以及初始的学习速率。具体的，除首次的进行迭代计算之外，当前迭代计算中使用的模型参数皆为前一次迭代计算之后更新的模型参数。为了便于描述，本发明实施例中，将当前迭代计算中使用的模型参数作为第一模型参数，将前一次迭代计算中使用的模型参数作为第二模型参数；将所述目标函数在所述第一模型参数上的梯度作为第一梯度；将所述目标函数在所述第二模型参数上的梯度作为第二梯度。

首次进行迭代计算时，该初始的模型参数作为第一模型参数，当首次迭代计算不满足终止条件时，使用该初始的学习速率首次对初始的模型参数进行更新，将更新后的模型参数作为下一次迭代计算的第一模型参数；本发明实施例的模型参数训练方法，都应用在所述“首次对初始的模型参数进行更新”之后的迭代计算中。

请参阅图2，本发明实施例中模型参数训练方法的一个实施例包括：

201、使用第一模型参数对目标函数进行迭代计算；

图像训练装置使用第一模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数。

示例性的，以度量学习为例，定义w为卷积神经网络参数，输入图像x为3个图片构成的三元组，x＝{q,q⁺,q^-}，其中(q,q⁺)为相似图像对，(q,q^-)为不相似图像对。输入图像通过神经网络的映射为(φ_w(q),φ_w(q⁺),φ_w(q^-)}，其中φ_w(q),φ_w(q⁺),φ_w(q^-)均为一维列向量，用作图像特征表述，则所述代价函数可以为：

l(w,x)＝max(0,γ-φ_x(q)·φ_w(q⁺)+φ_w(q)·φ_w(q^-))；

可以理解的是，在实际应用中，所述代价函数还可以有其它表现形式，具体需要根据实际需求而定，此处不作限定。

202、若所述迭代计算的结果不满足终止条件，则确定第一梯度并更新学习速率；

在图像训练装置使用第一模型参数对目标函数进行迭代计算之后，图像训练装置判断当前的迭代计算的结果是否满足终止条件，若否，则确定所述目标函数在所述模型参数上的第一梯度，并根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；所述学习速率用于确定所述第一模型参数的更新幅度。

具体的，“所述模型参数在所述目标函数中所表现出的参数分布特征”可以表示为目标函数的函数图像上相应的参数点的梯度变化。

具体的，在实际应用中，所述终止条件可以有多种表现形式，如，当第一模型参数在目标函数的结算结果满足某段数值范围时，所述迭代计算终止；又如，当所述迭代计算的次数达到某个阈值时，所述迭代计算终止。可以理解的是，所述终止条件在实际应用中还可以有更多的表现形式，此处具体不作限定。

203、根据所述学习速率和所述第一梯度更新所述第一模型参数；

图像训练装置根据所述学习速率和所述第一梯度更新所述第一模型参数，具体的所述学习速率可以用于确定所述第一模型参数的更新幅度，所述第一梯度可以用于确定所述第一模型参数的更新方向。

第一模型参数的完成更新之后，再依次触发步骤201和步骤202，直至所述迭代计算的结果满足所述终止条件，则停止所述迭代计算，获取满足所述终止条件的第一模型参数。

在本发明实施例的迭代过程中，若迭代计算的结果不满足终止条件，则继续进行迭代计算，在进行下一次迭代计算之前，根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率，再使用所述学习速率更新下一次迭代计算所使用的模型参数，使得模型参数的变化幅度可以根据目标函数的参数分布特征进行适应性调整，从而在远离模型参数的局部最优值时，可以通过学习速率设置较大的模型参数的变化幅度，以加快迭代计算的进程，在接近模型参数的局部最优值时，可以通过更新学习速率设置较小的模型参数的变化幅度，提高了迭代计算的效率，进而在兼顾提高了进行图像训练的速度。

在实际应用中，训练数据的迭代计算还可以使用牛顿法和拟牛顿法，但是计算过程中需要计算二阶偏导数和海森矩阵，计算复杂度高，有时目标函数的海森矩阵无法保持正定，从而令牛顿法或拟牛顿法失效。本发明实施例提出的模型参数确定方法不需要二阶导数的信息和计算或近似计算海森矩阵，所以比牛顿法和拟牛顿法更为高效，可以用来解决其他无约束、约束或大规模的非线性优化问题。

下面对本发明实施例中的模型参数确定方法进行详细描述，在本发明实施例中，下标k表示当前正在进行所述迭代计算对应的参数，上标j表示与所述第一模型参数中第j个元素对应的参数，请参阅图3，本发明实施例中模型参数确定方法的另一个实施例包括：

301、使用第一模型参数对目标函数进行迭代计算；

302、判断所述迭代计算的结果是否满足终止条件；

在图像训练装置使用第一模型参数对目标函数进行迭代计算之后，图像训练装置判断当前的迭代计算的结果是否满足终止条件，若是，停止所述迭代计算，获取满足所述终止条件的第一模型参数；若否，则执行步骤303。

303、确定第一梯度并更新学习速率；

图像训练装置确定所述目标函数在所述模型参数上的第一梯度，并根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；所述学习速率用于确定所述第一模型参数的更新幅度。

具体的，所述根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率，包括：

示例性的，在计算目标函数L(w)在第一模型参数w_k处的梯度值g_k具体可以为：

g_k＝L′(w_k)

示例性的，所述根据第二梯度、模型参数变化量及所述第一梯度更新学习速率，具体为：

对所述第一模型参数中每一个元素对应的学习速率进行更新，当对所述第一模型参数中的第j个元素进行处理时，根据公式一对所述学习速率进行更新；

所述公式一为：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| {Δw}_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

具体的，对于模型参数中的一个元素而言，所述模型参数变化量为所述第一模型参数中的元素与所述第二模型参数中相应次序或位置的元素的差，再取绝对值。

下面对所述公式一的推导过程进行详细的描述：

在实际应用中，随机梯度下降法中第一模型参数的更新方法为：

公式二：w_k+1＝w_k-η_kg_k；

对所述公式二进行变形，可以得到公式三，模型参数w的模型参数变化量Δw_k为：

公式三：Δw_k＝w_k+1-w_k＝-η_kg_k；

由于所述Δw的变化是连续性的，因此，学习速率η_k和前一次迭代计算的模型参数变化量的绝对值|Δw_k-1|成比例，其关系式为，其中

公式四：η_k＝λ_k|w_k-w_k-1|＝λ_k|Δw_k-1|；

其中，所述λ_k为学习速率与模型参数变化量之间的比例参数。

根据所述公式三和公式四可以得到Δw_k与λ_k的关系：

公式五：Δw_k＝-λ_k|Δw_k-1|g_k；

进一步的，基于所述公式五可得：

公式六：w_k+1＝w_k+Δw_k＝w_k-λ_k|Δw_k-1|g_k；

当需要对所述第一模型参数中的第j个元素进行处理时，则根据公式六换算可得：

公式七：

将所述公式七代入所述公式五可得：

公式八：

结合公式八和公式三，可以学习速率η_k的关系式为：

公式一：

304、根据所述学习速率和所述第一梯度更新所述第一模型参数；

第一模型参数的完成更新之后，再依次触发步骤301和步骤302，直至所述迭代计算的结果满足所述终止条件，则停止所述迭代计算，获取满足所述终止条件的第一模型参数。

下面以一维(即j＝1,多维可以此类推)的情况为例对本发明实施例中学习速率的更新的有效性进行分析：

首先，当时，由式所述公式八可知：

公式九：

| {Δw}_{k}^{j} | = \frac{| g_{k}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |} | {Δw}_{k - 1}^{j} |;

当|g_k|＝|g_k-1|时，请参阅图4，A点为第k-1次迭代计算所对应的参数点，B点为第k次迭代计算所对应的参数点，C点为目标函数中的一个局部最优值对应的参数点。根据所述公式九可得：这可使下一步迭代(第k+1次迭代)刚好落在点A和点B的中间，刚好自适应地接近局部最优参数点C。

当|g_k|＜|g_k-1|时，请参阅图5，A点为第k-1次迭代计算所对应的参数点，B点为第k次迭代计算所对应的参数点，C点为目标函数中的一个局部最优值对应的参数点。根据所述公式九可得：|g_k|＜|g_k-1|，这可使下一步迭代(第k+1次迭代)落在点A和点B之间靠近B点处，自适应地接近局部最优参数点C。

当|g_k|＞|g_k-1|时，请参阅图6，A点为第k-1次迭代计算所对应的参数点，B点为第k次迭代计算所对应的参数点，C点为目标函数中的一个局部最优值对应的参数点。根据所述公式九可得：这可使下一步迭代(第k+1次迭代)落在点A和点B之间靠近A点处，自适应地接近局部最优参数点C。

其次，当g_k×g_k-1＞0时，由式所述公式八可知：

公式十：

| {Δw}_{k} | = \frac{| g_{k} |}{1 - | g_{k} | + | g_{k - 1} |} | {Δw}_{k - 1} |;

请参阅图7，A点为第k-1次迭代计算所对应的参数点，B点为第k次迭代计算所对应的参数点，C点为目标函数中的一个局部最优值对应的参数点。根据所述公式十可得：|g_k-1|-|g_k|的绝对值越大，即当前梯度和前一次梯度的变化越大，的值越小，从而使学习速率自适应地减小；反之亦然。

为验证本发明实施例中模型参数训练方法的有效性，在巴黎数据集上进行了图像检索实验。该数据集共有6,412幅图片，包含巴黎11个标志性建筑(地标)。其中每个地标选出5幅图像用作查询。首先在ImageNet数据集上提取CNNs特征，然后在巴黎数据集上，利用SGD和本发明方法进行学习和调整(模型调优)。由于该模型包含约6千万个参数，因此牛顿法和拟牛顿法均无法用于模型训练。因此，在实验中仅对比了本发明方法和目前广泛使用的SGD方法。比较了SGD和提出的方法在模型调优中的收敛速度，以及调优后学习模型在图像检索任务中平均准确率(mAP)。

图8是SGD算法和本发明实施例中模型参数训练方法在模型调优时训练的收敛速度对比。由于训练使用随机抽取的3元组，损失函数波动比较大，取了最近一百次迭代的平均，以平滑收敛曲线。可以看到，本发明实施例中模型参数训练方法的收敛速度显著快于SGD算法，而且本发明实施例中模型参数训练方法的迭代误差(hinge loss)远低于SGD，在迭代10000次时的误差已经达到了SGD的最终(10万次)收敛误差(0.0125)，也就是在相同误差终止条件下，本发明实施例中模型参数训练方法提高了10倍速度。

下面对实现本发明实施例中的模型参数训练方法的图像训练装置进行描述，需要说明的是，上述模型参数训练方法各实施例中所记载的方法可实施于本发明的图像训练装置。请参阅图9，本发明实施例中的图像训练装置的一个实施例包括：

计算单元901，终止判定单元902，梯度确定单元903，速率更新单元904以及参数更新单元905；

所述计算单元901用于使用模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数；

所述终止判定单元902用于判定所述迭代计算的结果是否满足终止条件，若否，则所述执行梯度确定单元903以及所述速率更新单元904；若是，则获取满足所述终止条件的所述迭代计算的结果对应的模型参数；

所述梯度确定单元903用于确定所述目标函数在所述模型参数上的第一梯度；

所述速率更新单元904用于根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；

所述参数更新单元905，用于根据所述学习速率和所述第一梯度更新所述模型参数，并触发所述计算单元901及所述终止判定单元902。

进一步的，所述速率更新单元904具体用于：

在更新学习速率的过程中，对所述第一模型参数中每一个元素对应的学习速率进行更新，当对所述第一模型参数中的第j个元素进行处理时，根据公式一对所述学习速率进行更新；

所述公式一为：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| {Δw}_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

下面对本发明实施例中各个单元的工作流程进行描述：

计算单元901使用第一模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数。

在使用第一模型参数对目标函数进行迭代计算之后，终止判定单元902判断当前的迭代计算的结果是否满足终止条件，若否，则执行梯度确定单元903和速率更新单元904。

梯度确定单元903根据所述目标函数确定第一梯度，所述第一梯度为所述目标函数在所述第一模型参数处的梯度。示例性的，在计算目标函数L(w)在第一模型参数w_k处的梯度值g_k具体可以为：

g_k＝L′(w_k)

速率更新单元904根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率，所述学习速率用于确定所述第一模型参数的更新幅度。

对所述第一模型参数中每一个元素对应的学习速率进行更新，当对所述第一模型参数中的第j个元素进行处理时，根据公式一对所述学习速率进行更新；所述公式一为：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| {Δw}_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

参数更新单元905根据所述学习速率和所述第一梯度更新所述第一模型参数，具体的所述学习速率可以用于确定所述第一模型参数的更新幅度，所述第一梯度可以用于确定所述第一模型参数的更新方向。

第一模型参数的完成更新之后，再次触发计算单元901，使用更新后的第一模型参数对所述目标函数继续进行所述迭代计算，直至所述迭代计算的结果满足所述终止条件，则停止所述迭代计算，获取满足所述终止条件的第一模型参数。

图10是本发明实施例图像训练装置20的结构示意图。图像训练装置20可包括输入设备210、输出设备220、处理器230和存储器240。

本发明实施例提供的图像训练装置20应用于流计算系统，所述流计算系统用于调度并处理业务，所述流计算系统包括主控节点与多个工作节点；所述主控节点用于将所述业务包含的各个子业务调度到所述多个工作节点进行处理。

存储器240可以包括只读存储器和随机存取存储器，并向处理器230提供指令和数据。存储器240的一部分还可以包括非易失性随机存取存储器(NVRAM)。

存储器240存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集:

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

在本发明实施例中，处理器230通过调用存储器240存储的操作指令(该操作指令可存储在操作系统中)，执行如下操作：

所述处理器330具体用于使用第一模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数；若所述迭代计算的结果不满足终止条件，则确定所述目标函数在所述模型参数上的第一梯度，并根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；根据所述学习速率和所述第一梯度更新所述第一模型参数；重复上述步骤，直至所述迭代计算的结果满足所述终止条件，获取满足所述终止条件的第一模型参数。

处理器230控制图像训练装置20的操作，处理器230还可以称为CPU(Central Processing Unit，中央处理单元)。存储器240可以包括只读存储器和随机存取存储器，并向处理器230提供指令和数据。存储器240的一部分还可以包括非易失性随机存取存储器(NVRAM)。具体的应用中，图像训练装置20的各个组件通过总线系统250耦合在一起，其中总线系统250除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统250。

上述本发明实施例揭示的方法可以应用于处理器230中，或者由处理器230实现。处理器230可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器230中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器230可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器240，处理器230读取存储器240中的信息，结合其硬件完成上述方法的步骤。

下面对实现本发明实施例中的模型参数训练方法的图像检索系统进行描述，需要说明的是，上述模型参数训练方法各实施例中所记载的方法可实施于本发明的图像检索系统。请参阅图1，本发明实施例中的图像检索系统的一个实施例包括：

图像训练装置11，检索装置12和图像数据库13；

所述图像训练装置11包括：计算单元，终止判定单元，梯度确定单元，速率更新单元以及参数更新单元；所述计算单元用于使用模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数；所述终止判定单元用于判定所述迭代计算的结果是否满足终止条件，若否，则所述执行梯度确定单元以及所述速率更新单元；若是，则获取满足所述终止条件的所述迭代计算的结果对应的模型参数；所述梯度确定单元用于确定所述目标函数在所述模型参数上的第一梯度；所述速率更新单元用于根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；所述参数更新单元，用于根据所述学习速率和所述第一梯度更新所述模型参数，并触发所述计算单元及所述终止判定单元。所述检索装置用于根据所述图像训练装置确定的模型参数对输入的图像数据进行神经网络特征提取，并根据所述神经网络特征在所述图像数据库中进行图像检索，输出所述图像检索的结果。

所述检索装置12用于根据所述图像训练装置确定的模型参数对输入的图像数据进行神经网络特征提取，并根据所述神经网络特征在所述图像数据库13中进行图像检索，输出所述图像检索的结果。

进一步的，所述速率更新单元具体用于：

对所述第一模型参数中每一个元素对应的学习速率进行更新，当对所述第一模型参数中的第j个元素进行处理时，根据如下公式对所述学习速率进行更新；

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| {Δw}_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

本发明实施例中的图像检索系统的具体操作可以参考前述实施例，此处不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种模型参数训练方法，其特征在于，包括：

若所述迭代计算的结果不满足终止条件，

根据所述学习速率和所述第一梯度更新所述模型参数，

2.根据所述权利要求1所述的方法，其特征在于，所述根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率，包括：

3.根据所述权利要求2所述的方法，其特征在于，所述根据所述目标函数在前一次模型参数上的梯度，及所述第一梯度更新所述学习速率，包括：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| Δ w_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

4.一种图像训练装置，其特征在于，包括：

5.根据所述权利要求4所述的方法，其特征在于，所述速率更新单元具体用于：

6.根据所述权利要求5所述的方法，其特征在于，所述速率更新单元具体用于：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| Δ w_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};

7.一种图像检索系统，其特征在于，包括：

图像训练装置，检索装置和图像数据库；

所述图像训练装置包括：计算单元，终止判定单元，梯度确定单元，速率更新单元以及参数更新单元；所述计算单元用于使用模型参数对目标函数进行迭代计算，所述目标函数为用于进行图像训练的代价函数；所述终止判定单元用于判定所述迭代计算的结果是否满足终止条件，若否，则所述执行梯度确定单元以及所述速率更新单元；若是，则获取满足所述终止条件的所述迭代计算的结果对应的模型参数；所述梯度确定单元用于确定所述目标函数在所述模型参数上的第一梯度；所述速率更新单元用于根据所述模型参数在所述目标函数中所表现出的参数分布特征更新学习速率；所述参数更新单元，用于根据所述学习速率和所述第一梯度更新所述模型参数，并触发所述计算单元及所述终止判定单元；所述检索装置用于根据所述图像训练装置确定的模型参数对输入的图像数据进行神经网络特征提取，并根据所述神经网络特征在所述图像数据库中进行图像检索，输出所述图像检索的结果。

8.根据所述权利要求7所述的方法，其特征在于，所述速率更新单元具体用于：

9.根据所述权利要求8所述的方法，其特征在于，所述速率更新单元具体用于：

η_{k}^{j} = \{\begin{matrix} \frac{| Δ w_{k - 1}^{j} |}{| g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} < 0 \\ \frac{| Δ w_{k - 1}^{j} |}{1 - | g_{k}^{j} | + | g_{k - 1}^{j} |}; g_{k}^{j} \times g_{k - 1}^{j} > 0 \end{matrix};