CN111950602A

CN111950602A - 一种基于随机梯度下降和多示例多标签学习的图像标引方法

Info

Publication number: CN111950602A
Application number: CN202010704143.6A
Authority: CN
Inventors: 包翔; 汪满容
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-11-17
Anticipated expiration: 2040-07-21
Also published as: CN111950602B

Abstract

本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法，属于图像标引技术领域。本发明进行图像标引时，用于确定测试集图像所属类别的预测的输出矩阵，由迭代参数W_t、未标引的图像与所述神经网络隐层节点之间的距离矩阵

计算得到，迭代参数W_t利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数进行迭代分析得到，参数迭代分析是在最小化误差矩阵E的过程中进行的。本发明避免了直接运用奇异值分解法，造成误差不断的增加，实现未标引图像快速精确的自动标引。

Description

一种基于随机梯度下降和多示例多标签学习的图像标引方法

技术领域

本发明涉及图像标引技术领域，特别涉及一种基于随机梯度下降和多示例多标签学习的图像标引方法，适用于图书馆信息标引工作。

背景技术

随着信息技术的发展和互联网服务的进步，现实生活中每天都产生海量的图像，这些图像大部分不单反映一个内容，可能涉及多个主题，包含很多的语义信息，例如，一幅关于海滩的图像，可能包括行人、大海、白云、树木、海滩等不同的主题。

而产生的海量图像，不具有能够充分描述图像内容的分类标签，如果单纯以人工图像标引，则费时费力。多示例多标签学习图像标引的目的是通过具有多个标签的图像学习，给无标签图像赋予精确的多个分类标签，实现快速精确地图像自动标引。

多示例多标签径向基(MIMLRBF)神经网络算法(Zhang M L，Wang Z J.MIMLRBF：RBF neural networks for multi-instance multi-label learning[J].Neurocomputing，2009，72(16-18):3951-3956.)，是对传统的径向基(RBF)神经网络进行扩展，解决多示例多标签(MIML)问题，该方法的第一层输入是一个包含多个示例的样本；该神经网络的训练过程主要分为两部分，首先对于每个类别所包含的样本通过K-MEDOIDS算法进行聚类，通过聚类产生的中心构成了神经网络的第二层，然后神经网络中第二层与第三层之间的参数W通过最小化误差函数平方和的方式求解。在对未知样本进行标引时，通过计算参数W与未知样本和MIMLRBF网络隐含层节点之间距离

的乘积，即可得到未知样本的标签，实现自动标引。但是MIMLRBF神经网络算法在求解参数W的过程中直接运用奇异值(SVD)分解的方法，造成误差不断的增加，影响神经网络的性能。

发明内容

针对现有技术中存在不足，本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法，解决现有技术中MIMLRBF神经网络算法在求解参数W的过程中存在的问题。

本发明是通过以下技术手段实现上述技术目的的。

一种基于随机梯度下降和多示例多标签学习的图像标引方法，包括以下步骤：

步骤(1)，获取若干图像，已标引的图像作为训练集，未标引的图像作为测试集；

步骤(2)，对所有图像进行分割，提取分割区域的图像特征，将图像转化为多示例包；

步骤(3)，由训练集构建MIMLRBF神经网络，所述神经网络的隐层由多示例包构成，利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Y^d与预测的输出矩阵Y的差值；

步骤(4)，最小化误差矩阵E，运用加入动量的梯度下降优化算法对参数W进行迭代分析，获取迭代参数W_t；所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数；

步骤(5)，由所述迭代参数W_t、未标引的图像与所述神经网络隐层节点之间的距离矩阵

计算预测的输出矩阵Y_t，确定测试集图像的所属类别，实现未标引图像的自动标引。

进一步的技术方案，所述对参数W进行迭代分析，具体为：

步骤(4.1)，初始化误差矩阵E

通过奇异值分解法求解

获取迭代初始值W₁；

步骤(4.2)，加入动量的梯度下降优化算法对参数W进行迭代

W_t+1＝W_t+ΔW_t

其中，t代表迭代次数，且t≥2，α是learning rate矩阵，p为动量参数；

又

则

其中tr是误差矩阵的迹；

步骤(4.3)，求解learning rate矩阵

令

可得：

利用线性矩阵变换求得α，即learning rate矩阵；

步骤(4.4)，迭代求解参数W_t

通过

和W_t+1＝W_t+ΔW_t，求得参数W_t。

更进一步的技术方案，所述动量参数p设定为0.9。

进一步的技术方案，所述图像分割采用期望最大值或K-means或FCM方法。

进一步的技术方案，还包括步骤(6)：判断迭代次数是否达到要求，没有达到要求，则返回步骤(4)；否则结束，并输出未标引图像的标签。

更进一步的技术方案，所述图像标引方法能应用于图书馆的信息组织工作。

本发明的有益效果为：本发明由迭代参数W_t、未标引的图像与所述神经网络隐层节点之间的距离矩阵

计算预测的输出矩阵Y_t，确定测试集图像的所属类别，实现未标引图像的自动标引；迭代参数W_t利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数W进行迭代分析得到，参数W迭代分析是在最小化误差矩阵E的过程中进行的，避免直接运用奇异值分解法，造成误差不断的增加，提高神经网络的性能，实现未标引图像快速精确的自动标引。

附图说明

图1为本发明所述基于随机梯度下降和多示例多标签学习的图像标引方法流程图；

图2为本发明所述MIMLRBF神经网络模型图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明基于随机梯度下降和多示例多标签学习的图像标引方法，具体包括以下步骤：

步骤(1)，获取若干图像，随机抽取少量图像(占总图像的10％-30％)，通过人工标引的方法，对抽取的图像进行标引，其中一幅图像可以包含有多个标签；已标引的图像作为训练集，未标引的图像作为测试集。

步骤(2)，对若干图像进行分割，具体方法可以使用计算机视觉中的经典算法，如期望最大值方法、K-means、FCM方法等，把图像分割成若干区域；然后提取每个图像区域的颜色、纹理、形状等特征，把每一个区域转化成一个示例向量；通过上述方式，一幅图像(可以当作一个包)被分割成若干区域，每一个区域都包含一个示例向量，即一幅图像包含多个示例向量，将一副图像转化为一个多示例包，并且一个包可以对应多个标签。

步骤(3)，对训练集进行建模，构建MIMLRBF神经网络，如图2所示，包括输入层(输入向量X为训练集的多示例包)、隐层和输出层；隐层由Q个包含多个示例的包

构成，其M_l表示属于第l类的训练集样本数，1≤l≤Q，Q为标签数量；未标引的图像与MIMLRBF神经网络隐层中心之间的距离为φ_ij(图中φ₀为表示偏置径向基函数，φ₀(X_i)默认为1)，构成MIMLRBF神经网络隐层的输出距离矩阵

其中N为训练集样本个数，训练集样本i∈(1，N)，隐层神经元总数目为

j为隐层神经元，1≤j≤M；隐层中心

利用Haudorff距离，运用K-MEDOIDS算法对

进行聚类得到；输出层y₁、y₂…y_Q构成输出矩阵Y。

根据MIMLRBF神经网络中隐层与输出层之间的参数W，将预测的输出矩阵表示为：

误差矩阵

其中

表示MIMLRBF神经网络中训练集期望的输出矩阵，

表示样本i是否属于某个类别的取值，若样本i属于某个类别，则

若不属于，则

步骤(4)，最小化误差矩阵E，在最小化误差矩阵E的过程中，利用加入动量(Momentum)的梯度下降优化(Stochastic gradient descent，SGD)算法对参数W进行迭代分析，具体步骤如下：

步骤(4.1)，初始化误差矩阵E

令

即

通过SVD方法求解迭代初始值W₁。

步骤(4.2)，梯度下降优化算法中加入动量对参数W迭代

W_t+1＝W_t+ΔW_t

其中，t代表迭代次数(t≥2)，α是learning rate矩阵；p为动量参数，一般为固定值，设定为0.9；

又

(https://blog.csdn.net/acdreamers/article/details/44662633)，其中tr是误差矩阵的迹，则

所以

因此，

步骤(4.3)，求解learning rate矩阵

令

可以得到：

其中，m、n、k、q为计数参数；

利用SVD方法中的线性矩阵变换求得α，从而得到learning rate矩阵。

步骤(4.4)，迭代求解参数W_t

通过公式

和W_t+1＝W_t+ΔW_t，求得参数W_t。

步骤(5)，根据迭代参数W_t，以及未标引的图像与MIMLRBF神经网络隐层节点之间的距离矩阵

步骤(6)，判断迭代次数是否达到用户指定的次数，如果没有达到要求，则返回步骤(4)；否则结束，并输出未标引图像的标签。

本发明可以应用在图书馆的信息组织工作中，例如在图书馆特藏文献建立索引的过程中，特别是图书馆特色图像数据中，可以按照本发明提到的方法，对少量图像数据请相关专家进行标引，然后通过基于随机梯度下降和多示例多标签学习的方法实现图像的自动标引，解决图书馆中图像标引的成本过高的问题。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。