CN111950602B - 一种基于随机梯度下降和多示例多标签学习的图像标引方法 - Google Patents

一种基于随机梯度下降和多示例多标签学习的图像标引方法 Download PDF

Info

Publication number
CN111950602B
CN111950602B CN202010704143.6A CN202010704143A CN111950602B CN 111950602 B CN111950602 B CN 111950602B CN 202010704143 A CN202010704143 A CN 202010704143A CN 111950602 B CN111950602 B CN 111950602B
Authority
CN
China
Prior art keywords
image
parameter
matrix
gradient descent
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010704143.6A
Other languages
English (en)
Other versions
CN111950602A (zh
Inventor
包翔
汪满容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010704143.6A priority Critical patent/CN111950602B/zh
Publication of CN111950602A publication Critical patent/CN111950602A/zh
Application granted granted Critical
Publication of CN111950602B publication Critical patent/CN111950602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法,属于图像标引技术领域。本发明进行图像标引时,用于确定测试集图像所属类别的预测的输出矩阵,由迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵计算得到,迭代参数Wt利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数进行迭代分析得到,参数迭代分析是在最小化误差矩阵E的过程中进行的。本发明避免了直接运用奇异值分解法,造成误差不断的增加,实现未标引图像快速精确的自动标引。

Description

一种基于随机梯度下降和多示例多标签学习的图像标引方法
技术领域
本发明涉及图像标引技术领域,特别涉及一种基于随机梯度下降和多示例多标签学习的图像标引方法,适用于图书馆信息标引工作。
背景技术
随着信息技术的发展和互联网服务的进步,现实生活中每天都产生海量的图像,这些图像大部分不单反映一个内容,可能涉及多个主题,包含很多的语义信息,例如,一幅关于海滩的图像,可能包括行人、大海、白云、树木、海滩等不同的主题。
而产生的海量图像,不具有能够充分描述图像内容的分类标签,如果单纯以人工图像标引,则费时费力。多示例多标签学习图像标引的目的是通过具有多个标签的图像学习,给无标签图像赋予精确的多个分类标签,实现快速精确地图像自动标引。
多示例多标签径向基(MIMLRBF)神经网络算法(Zhang M L,Wang Z J.MIMLRBF:RBF neural networks for multi-instance multi-label learning[J].Neurocomputing,2009,72(16-18):3951-3956.),是对传统的径向基(RBF)神经网络进行扩展,解决多示例多标签(MIML)问题,该方法的第一层输入是一个包含多个示例的样本;该神经网络的训练过程主要分为两部分,首先对于每个类别所包含的样本通过K-MEDOIDS算法进行聚类,通过聚类产生的中心构成了神经网络的第二层,然后神经网络中第二层与第三层之间的参数W通过最小化误差函数平方和的方式求解。在对未知样本进行标引时,通过计算参数W与未知样本和MIMLRBF网络隐含层节点之间距离的乘积,即可得到未知样本的标签,实现自动标引。但是MIMLRBF神经网络算法在求解参数W的过程中直接运用奇异值(SVD)分解的方法,造成误差不断的增加,影响神经网络的性能。
发明内容
针对现有技术中存在不足,本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法,解决现有技术中MIMLRBF神经网络算法在求解参数W的过程中存在的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于随机梯度下降和多示例多标签学习的图像标引方法,包括以下步骤:
步骤(1),获取若干图像,已标引的图像作为训练集,未标引的图像作为测试集;
步骤(2),对所有图像进行分割,提取分割区域的图像特征,将图像转化为多示例包;
步骤(3),由训练集构建MIMLRBF神经网络,所述神经网络的隐层由多示例包构成,利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Yd与预测的输出矩阵Y的差值;
步骤(4),最小化误差矩阵E,运用加入动量的梯度下降优化算法对参数W进行迭代分析,获取迭代参数Wt;所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数;
步骤(5),由所述迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引。
进一步的技术方案,所述对参数W进行迭代分析,具体为:
步骤(4.1),初始化误差矩阵E
通过奇异值分解法求解获取迭代初始值W1
步骤(4.2),加入动量的梯度下降优化算法对参数W进行迭代
Wt+1=Wt+ΔWt
其中,t代表迭代次数,且t≥2,α是learning rate矩阵,p为动量参数;
则/> 其中tr是误差矩阵的迹;
步骤(4.3),求解learning rate矩阵
可得:
利用线性矩阵变换求得α,即learning rate矩阵;
步骤(4.4),迭代求解参数Wt
通过和Wt+1=Wt+ΔWt,求得参数Wt
更进一步的技术方案,所述动量参数p设定为0.9。
进一步的技术方案,所述图像分割采用期望最大值或K-means或FCM方法。
进一步的技术方案,还包括步骤(6):判断迭代次数是否达到要求,没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
更进一步的技术方案,所述图像标引方法能应用于图书馆的信息组织工作。
本发明的有益效果为:本发明由迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引;迭代参数Wt利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数W进行迭代分析得到,参数W迭代分析是在最小化误差矩阵E的过程中进行的,避免直接运用奇异值分解法,造成误差不断的增加,提高神经网络的性能,实现未标引图像快速精确的自动标引。
附图说明
图1为本发明所述基于随机梯度下降和多示例多标签学习的图像标引方法流程图;
图2为本发明所述MIMLRBF神经网络模型图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明基于随机梯度下降和多示例多标签学习的图像标引方法,具体包括以下步骤:
步骤(1),获取若干图像,随机抽取少量图像(占总图像的10%-30%),通过人工标引的方法,对抽取的图像进行标引,其中一幅图像可以包含有多个标签;已标引的图像作为训练集,未标引的图像作为测试集。
步骤(2),对若干图像进行分割,具体方法可以使用计算机视觉中的经典算法,如期望最大值方法、K-means、FCM方法等,把图像分割成若干区域;然后提取每个图像区域的颜色、纹理、形状等特征,把每一个区域转化成一个示例向量;通过上述方式,一幅图像(可以当作一个包)被分割成若干区域,每一个区域都包含一个示例向量,即一幅图像包含多个示例向量,将一副图像转化为一个多示例包,并且一个包可以对应多个标签。
步骤(3),对训练集进行建模,构建MIMLRBF神经网络,如图2所示,包括输入层(输入向量X为训练集的多示例包)、隐层和输出层;隐层由Q个包含多个示例的包构成,其Ml表示属于第l类的训练集样本数,1≤l≤Q,Q为标签数量;未标引的图像与MIMLRBF神经网络隐层中心之间的距离为φij(图中φ0为表示偏置径向基函数,φ0(Xi)默认为1),构成MIMLRBF神经网络隐层的输出距离矩阵/>其中N为训练集样本个数,训练集样本i∈(1,N),隐层神经元总数目为/>j为隐层神经元,1≤j≤M;隐层中心/>利用Haudorff距离,运用K-MEDOIDS算法对/>进行聚类得到;输出层y1、y2…yQ构成输出矩阵Y。
根据MIMLRBF神经网络中隐层与输出层之间的参数W,将预测的输出矩阵表示为:误差矩阵/>其中/>表示MIMLRBF神经网络中训练集期望的输出矩阵,/>表示样本i是否属于某个类别的取值,若样本i属于某个类别,则若不属于,则/>
步骤(4),最小化误差矩阵E,在最小化误差矩阵E的过程中,利用加入动量(Momentum)的梯度下降优化(Stochastic gradient descent,SGD)算法对参数W进行迭代分析,具体步骤如下:
步骤(4.1),初始化误差矩阵E
即/>通过SVD方法求解迭代初始值W1
步骤(4.2),梯度下降优化算法中加入动量对参数W迭代
Wt+1=Wt+ΔWt
其中,t代表迭代次数(t≥2),α是learning rate矩阵;p为动量参数,一般为固定值,设定为0.9;
(https://blog.csdn.net/acdreamers/article/details/44662633),其中tr是误差矩阵的迹,则/>
所以
因此,
步骤(4.3),求解learning rate矩阵
可以得到:
其中,m、n、k、q为计数参数;
利用SVD方法中的线性矩阵变换求得α,从而得到learning rate矩阵。
步骤(4.4),迭代求解参数Wt
通过公式和Wt+1=Wt+ΔWt,求得参数Wt
步骤(5),根据迭代参数Wt,以及未标引的图像与MIMLRBF神经网络隐层节点之间的距离矩阵计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引。
步骤(6),判断迭代次数是否达到用户指定的次数,如果没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
本发明可以应用在图书馆的信息组织工作中,例如在图书馆特藏文献建立索引的过程中,特别是图书馆特色图像数据中,可以按照本发明提到的方法,对少量图像数据请相关专家进行标引,然后通过基于随机梯度下降和多示例多标签学习的方法实现图像的自动标引,解决图书馆中图像标引的成本过高的问题。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (5)

1.一种基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,包括以下步骤:
步骤(1),获取若干图像,已标引的图像作为训练集,未标引的图像作为测试集;
步骤(2),对所有图像进行分割,提取分割区域的图像特征,将图像转化为多示例包;
步骤(3),由训练集构建MIMLRBF神经网络,所述神经网络的隐层由多示例包构成,利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Yd与预测的输出矩阵Y的差值;
步骤(4),最小化误差矩阵E,运用加入动量的梯度下降优化算法对参数W进行迭代分析,获取迭代参数Wt;所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数;
所述对参数W进行迭代分析,具体为:
步骤(4.1),初始化误差矩阵E
通过奇异值分解法求解获取迭代初始值W1
步骤(4.2),加入动量的梯度下降优化算法对参数W进行迭代
Wt+1=Wt+ΔWt
其中,t代表迭代次数,且t≥2,α是learning rate矩阵,p为动量参数;
则/> 其中tr是误差矩阵的迹;
步骤(4.3),求解learning rate矩阵
可得:
利用线性矩阵变换求得α,即learning rate矩阵;
步骤(4.4),迭代求解参数Wt
通过和Wt+1=Wt+ΔWt,求得参数Wt
步骤(5),由所述迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引。
2.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述动量参数p设定为0.9。
3.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述图像分割采用期望最大值或K-means或FCM方法。
4.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,还包括步骤(6):判断迭代次数是否达到要求,没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
5.根据权利要求1-4任一项所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述图像标引方法能应用于图书馆的信息组织工作。
CN202010704143.6A 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法 Active CN111950602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010704143.6A CN111950602B (zh) 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010704143.6A CN111950602B (zh) 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法

Publications (2)

Publication Number Publication Date
CN111950602A CN111950602A (zh) 2020-11-17
CN111950602B true CN111950602B (zh) 2024-05-14

Family

ID=73340161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010704143.6A Active CN111950602B (zh) 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法

Country Status (1)

Country Link
CN (1) CN111950602B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183752B (zh) * 2020-12-01 2021-02-19 南京智谷人工智能研究院有限公司 一种基于自动示例选择的端到端多示例学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197701A (zh) * 2018-02-05 2018-06-22 哈工大机器人(合肥)国际创新研究院 一种基于rnn的多任务学习方法
CN108319980A (zh) * 2018-02-05 2018-07-24 哈工大机器人(合肥)国际创新研究院 一种基于gru的递归神经网络多标签学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197701A (zh) * 2018-02-05 2018-06-22 哈工大机器人(合肥)国际创新研究院 一种基于rnn的多任务学习方法
CN108319980A (zh) * 2018-02-05 2018-07-24 哈工大机器人(合肥)国际创新研究院 一种基于gru的递归神经网络多标签学习方法

Also Published As

Publication number Publication date
CN111950602A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN103345645B (zh) 面向网购平台的商品图像类别预测方法
CN108132968A (zh) 网络文本与图像中关联语义基元的弱监督学习方法
CN108038492A (zh) 一种基于深度学习的感性词向量及情感分类方法
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
Rad et al. Image annotation using multi-view non-negative matrix factorization with different number of basis vectors
CN110399895A (zh) 图像识别的方法和装置
CN111582538A (zh) 一种基于图神经网络的社群价值预测方法及系统
CN112862015A (zh) 一种基于超图神经网络的论文分类方法及系统
CN107451210B (zh) 一种基于查询松弛结果增强的图匹配查询方法
CN112800344A (zh) 一种基于深度神经网络的电影推荐方法
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
CN111950602B (zh) 一种基于随机梯度下降和多示例多标签学习的图像标引方法
Zhao et al. Big transfer learning for fine art classification
CN116703129A (zh) 基于人员数据画像的智能任务匹配调度方法及系统
CN111612164A (zh) 非迭代式大数据半监督学习方法、系统、存储介质及终端
CN115130620B (zh) 一种电力设备用电模式识别模型生成方法及装置
CN113538079A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
CN113987170A (zh) 基于卷积神经网络的多标签文本分类方法
Brahmachari et al. Quantum contextual bandits and recommender systems for quantum data
CN110119465B (zh) 融合lfm潜在因子与svd的手机应用用户喜好检索方法
CN112667591A (zh) 一种基于海量日志的数据中心任务干扰预测方法
CN113378946A (zh) 一种考虑特征标签依赖度的鲁棒多标签特征选择方法
Mao et al. A Transfer Learning Method with Multi-feature Calibration for Building Identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant