CN111950602A - 一种基于随机梯度下降和多示例多标签学习的图像标引方法 - Google Patents

一种基于随机梯度下降和多示例多标签学习的图像标引方法 Download PDF

Info

Publication number
CN111950602A
CN111950602A CN202010704143.6A CN202010704143A CN111950602A CN 111950602 A CN111950602 A CN 111950602A CN 202010704143 A CN202010704143 A CN 202010704143A CN 111950602 A CN111950602 A CN 111950602A
Authority
CN
China
Prior art keywords
image
parameter
matrix
gradient descent
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010704143.6A
Other languages
English (en)
Other versions
CN111950602B (zh
Inventor
包翔
汪满容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010704143.6A priority Critical patent/CN111950602B/zh
Publication of CN111950602A publication Critical patent/CN111950602A/zh
Application granted granted Critical
Publication of CN111950602B publication Critical patent/CN111950602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法,属于图像标引技术领域。本发明进行图像标引时,用于确定测试集图像所属类别的预测的输出矩阵,由迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵
Figure DDA0002594070460000011
计算得到,迭代参数Wt利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数进行迭代分析得到,参数迭代分析是在最小化误差矩阵E的过程中进行的。本发明避免了直接运用奇异值分解法,造成误差不断的增加,实现未标引图像快速精确的自动标引。

Description

一种基于随机梯度下降和多示例多标签学习的图像标引方法
技术领域
本发明涉及图像标引技术领域,特别涉及一种基于随机梯度下降和多示例多标签学习的图像标引方法,适用于图书馆信息标引工作。
背景技术
随着信息技术的发展和互联网服务的进步,现实生活中每天都产生海量的图像,这些图像大部分不单反映一个内容,可能涉及多个主题,包含很多的语义信息,例如,一幅关于海滩的图像,可能包括行人、大海、白云、树木、海滩等不同的主题。
而产生的海量图像,不具有能够充分描述图像内容的分类标签,如果单纯以人工图像标引,则费时费力。多示例多标签学习图像标引的目的是通过具有多个标签的图像学习,给无标签图像赋予精确的多个分类标签,实现快速精确地图像自动标引。
多示例多标签径向基(MIMLRBF)神经网络算法(Zhang M L,Wang Z J.MIMLRBF:RBF neural networks for multi-instance multi-label learning[J].Neurocomputing,2009,72(16-18):3951-3956.),是对传统的径向基(RBF)神经网络进行扩展,解决多示例多标签(MIML)问题,该方法的第一层输入是一个包含多个示例的样本;该神经网络的训练过程主要分为两部分,首先对于每个类别所包含的样本通过K-MEDOIDS算法进行聚类,通过聚类产生的中心构成了神经网络的第二层,然后神经网络中第二层与第三层之间的参数W通过最小化误差函数平方和的方式求解。在对未知样本进行标引时,通过计算参数W与未知样本和MIMLRBF网络隐含层节点之间距离
Figure BDA0002594070440000011
的乘积,即可得到未知样本的标签,实现自动标引。但是MIMLRBF神经网络算法在求解参数W的过程中直接运用奇异值(SVD)分解的方法,造成误差不断的增加,影响神经网络的性能。
发明内容
针对现有技术中存在不足,本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法,解决现有技术中MIMLRBF神经网络算法在求解参数W的过程中存在的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于随机梯度下降和多示例多标签学习的图像标引方法,包括以下步骤:
步骤(1),获取若干图像,已标引的图像作为训练集,未标引的图像作为测试集;
步骤(2),对所有图像进行分割,提取分割区域的图像特征,将图像转化为多示例包;
步骤(3),由训练集构建MIMLRBF神经网络,所述神经网络的隐层由多示例包构成,利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Yd与预测的输出矩阵Y的差值;
步骤(4),最小化误差矩阵E,运用加入动量的梯度下降优化算法对参数W进行迭代分析,获取迭代参数Wt;所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数;
步骤(5),由所述迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵
Figure BDA00025940704400000211
计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引。
进一步的技术方案,所述对参数W进行迭代分析,具体为:
步骤(4.1),初始化误差矩阵E
通过奇异值分解法求解
Figure BDA0002594070440000021
获取迭代初始值W1
步骤(4.2),加入动量的梯度下降优化算法对参数W进行迭代
Wt+1=Wt+ΔWt
Figure BDA0002594070440000022
其中,t代表迭代次数,且t≥2,α是learning rate矩阵,p为动量参数;
Figure BDA0002594070440000023
Figure BDA0002594070440000024
Figure BDA0002594070440000025
其中tr是误差矩阵的迹;
步骤(4.3),求解learning rate矩阵
Figure BDA0002594070440000026
Figure BDA0002594070440000028
可得:
Figure BDA0002594070440000029
利用线性矩阵变换求得α,即learning rate矩阵;
步骤(4.4),迭代求解参数Wt
通过
Figure BDA00025940704400000210
和Wt+1=Wt+ΔWt,求得参数Wt
更进一步的技术方案,所述动量参数p设定为0.9。
进一步的技术方案,所述图像分割采用期望最大值或K-means或FCM方法。
进一步的技术方案,还包括步骤(6):判断迭代次数是否达到要求,没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
更进一步的技术方案,所述图像标引方法能应用于图书馆的信息组织工作。
本发明的有益效果为:本发明由迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵
Figure BDA0002594070440000031
计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引;迭代参数Wt利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数W进行迭代分析得到,参数W迭代分析是在最小化误差矩阵E的过程中进行的,避免直接运用奇异值分解法,造成误差不断的增加,提高神经网络的性能,实现未标引图像快速精确的自动标引。
附图说明
图1为本发明所述基于随机梯度下降和多示例多标签学习的图像标引方法流程图;
图2为本发明所述MIMLRBF神经网络模型图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明基于随机梯度下降和多示例多标签学习的图像标引方法,具体包括以下步骤:
步骤(1),获取若干图像,随机抽取少量图像(占总图像的10%-30%),通过人工标引的方法,对抽取的图像进行标引,其中一幅图像可以包含有多个标签;已标引的图像作为训练集,未标引的图像作为测试集。
步骤(2),对若干图像进行分割,具体方法可以使用计算机视觉中的经典算法,如期望最大值方法、K-means、FCM方法等,把图像分割成若干区域;然后提取每个图像区域的颜色、纹理、形状等特征,把每一个区域转化成一个示例向量;通过上述方式,一幅图像(可以当作一个包)被分割成若干区域,每一个区域都包含一个示例向量,即一幅图像包含多个示例向量,将一副图像转化为一个多示例包,并且一个包可以对应多个标签。
步骤(3),对训练集进行建模,构建MIMLRBF神经网络,如图2所示,包括输入层(输入向量X为训练集的多示例包)、隐层和输出层;隐层由Q个包含多个示例的包
Figure BDA0002594070440000032
构成,其Ml表示属于第l类的训练集样本数,1≤l≤Q,Q为标签数量;未标引的图像与MIMLRBF神经网络隐层中心之间的距离为φij(图中φ0为表示偏置径向基函数,φ0(Xi)默认为1),构成MIMLRBF神经网络隐层的输出距离矩阵
Figure BDA00025940704400000418
其中N为训练集样本个数,训练集样本i∈(1,N),隐层神经元总数目为
Figure BDA0002594070440000041
j为隐层神经元,1≤j≤M;隐层中心
Figure BDA0002594070440000042
利用Haudorff距离,运用K-MEDOIDS算法对
Figure BDA0002594070440000043
进行聚类得到;输出层y1、y2…yQ构成输出矩阵Y。
根据MIMLRBF神经网络中隐层与输出层之间的参数W,将预测的输出矩阵表示为:
Figure BDA0002594070440000044
误差矩阵
Figure BDA0002594070440000045
其中
Figure BDA0002594070440000046
表示MIMLRBF神经网络中训练集期望的输出矩阵,
Figure BDA0002594070440000047
表示样本i是否属于某个类别的取值,若样本i属于某个类别,则
Figure BDA0002594070440000048
若不属于,则
Figure BDA0002594070440000049
步骤(4),最小化误差矩阵E,在最小化误差矩阵E的过程中,利用加入动量(Momentum)的梯度下降优化(Stochastic gradient descent,SGD)算法对参数W进行迭代分析,具体步骤如下:
步骤(4.1),初始化误差矩阵E
Figure BDA00025940704400000410
Figure BDA00025940704400000411
通过SVD方法求解迭代初始值W1
步骤(4.2),梯度下降优化算法中加入动量对参数W迭代
Wt+1=Wt+ΔWt
Figure BDA00025940704400000412
其中,t代表迭代次数(t≥2),α是learning rate矩阵;p为动量参数,一般为固定值,设定为0.9;
Figure BDA00025940704400000413
(https://blog.csdn.net/acdreamers/article/details/44662633),其中tr是误差矩阵的迹,则
Figure BDA00025940704400000414
所以
Figure BDA00025940704400000415
因此,
Figure BDA00025940704400000416
Figure BDA00025940704400000417
Figure BDA0002594070440000051
步骤(4.3),求解learning rate矩阵
Figure BDA0002594070440000052
Figure BDA0002594070440000053
可以得到:
Figure BDA0002594070440000054
其中,m、n、k、q为计数参数;
利用SVD方法中的线性矩阵变换求得α,从而得到learning rate矩阵。
步骤(4.4),迭代求解参数Wt
通过公式
Figure BDA0002594070440000055
和Wt+1=Wt+ΔWt,求得参数Wt
步骤(5),根据迭代参数Wt,以及未标引的图像与MIMLRBF神经网络隐层节点之间的距离矩阵
Figure BDA0002594070440000056
计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引。
步骤(6),判断迭代次数是否达到用户指定的次数,如果没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
本发明可以应用在图书馆的信息组织工作中,例如在图书馆特藏文献建立索引的过程中,特别是图书馆特色图像数据中,可以按照本发明提到的方法,对少量图像数据请相关专家进行标引,然后通过基于随机梯度下降和多示例多标签学习的方法实现图像的自动标引,解决图书馆中图像标引的成本过高的问题。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims (6)

1.一种基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,包括以下步骤:
步骤(1),获取若干图像,已标引的图像作为训练集,未标引的图像作为测试集;
步骤(2),对所有图像进行分割,提取分割区域的图像特征,将图像转化为多示例包;
步骤(3),由训练集构建MIMLRBF神经网络,所述神经网络的隐层由多示例包构成,利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Yd与预测的输出矩阵Y的差值;
步骤(4),最小化误差矩阵E,运用加入动量的梯度下降优化算法对参数W进行迭代分析,获取迭代参数Wt;所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数;
步骤(5),由所述迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵
Figure FDA0002594070430000011
计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引。
2.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述对参数W进行迭代分析,具体为:
步骤(4.1),初始化误差矩阵E
通过奇异值分解法求解
Figure FDA0002594070430000012
获取迭代初始值W1
步骤(4.2),加入动量的梯度下降优化算法对参数W进行迭代
Wt+1=Wt+ΔWt
Figure FDA0002594070430000013
其中,t代表迭代次数,且t≥2,α是learning rate矩阵,p为动量参数;
Figure FDA0002594070430000014
Figure FDA0002594070430000015
Figure FDA0002594070430000016
其中tr是误差矩阵的迹;
步骤(4.3),求解learning rate矩阵
Figure FDA0002594070430000017
Figure FDA0002594070430000018
可得:
Figure FDA0002594070430000021
利用线性矩阵变换求得α,即learning rate矩阵;
步骤(4.4),迭代求解参数Wt
通过
Figure FDA0002594070430000022
和Wt+1=Wt+ΔWt,求得参数Wt
3.根据权利要求2所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述动量参数p设定为0.9。
4.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述图像分割采用期望最大值或K-means或FCM方法。
5.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,还包括步骤(6):判断迭代次数是否达到要求,没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
6.根据权利要求1-5任一项所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述图像标引方法能应用于图书馆的信息组织工作。
CN202010704143.6A 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法 Active CN111950602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010704143.6A CN111950602B (zh) 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010704143.6A CN111950602B (zh) 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法

Publications (2)

Publication Number Publication Date
CN111950602A true CN111950602A (zh) 2020-11-17
CN111950602B CN111950602B (zh) 2024-05-14

Family

ID=73340161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010704143.6A Active CN111950602B (zh) 2020-07-21 2020-07-21 一种基于随机梯度下降和多示例多标签学习的图像标引方法

Country Status (1)

Country Link
CN (1) CN111950602B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116479A1 (zh) * 2020-12-01 2022-06-09 南京智谷人工智能研究院有限公司 一种基于自动示例选择的端到端多示例学习方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197701A (zh) * 2018-02-05 2018-06-22 哈工大机器人(合肥)国际创新研究院 一种基于rnn的多任务学习方法
CN108319980A (zh) * 2018-02-05 2018-07-24 哈工大机器人(合肥)国际创新研究院 一种基于gru的递归神经网络多标签学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197701A (zh) * 2018-02-05 2018-06-22 哈工大机器人(合肥)国际创新研究院 一种基于rnn的多任务学习方法
CN108319980A (zh) * 2018-02-05 2018-07-24 哈工大机器人(合肥)国际创新研究院 一种基于gru的递归神经网络多标签学习方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116479A1 (zh) * 2020-12-01 2022-06-09 南京智谷人工智能研究院有限公司 一种基于自动示例选择的端到端多示例学习方法

Also Published As

Publication number Publication date
CN111950602B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
Tang et al. Deepchart: Combining deep convolutional networks and deep belief networks in chart classification
CN111582538B (zh) 一种基于图神经网络的社群价值预测方法及系统
CN111368920B (zh) 基于量子孪生神经网络的二分类方法及其人脸识别方法
CA3066029A1 (en) Image feature acquisition
Bianco et al. Predicting image aesthetics with deep learning
CN103177265B (zh) 基于核函数与稀疏编码的高清图像分类方法
Rad et al. Image annotation using multi-view non-negative matrix factorization with different number of basis vectors
CN112862015A (zh) 一种基于超图神经网络的论文分类方法及系统
CN112633002A (zh) 样本标注、模型训练、命名实体识别方法和装置
CN105046272A (zh) 一种基于简洁非监督式卷积网络的图像分类方法
CN113689234B (zh) 一种基于深度学习的平台相关的广告点击率预测方法
CN116956105A (zh) 一种分类模型训练方法、缺陷识别方法、装置及电子设备
CN115577283A (zh) 一种实体分类方法、装置、电子设备及存储介质
Barrio et al. Deep learning for chaos detection
CN105787045B (zh) 一种用于可视媒体语义索引的精度增强方法
CN111950602B (zh) 一种基于随机梯度下降和多示例多标签学习的图像标引方法
Zhao et al. Big transfer learning for fine art classification
CN111291787B (zh) 基于正向-多反向协作稀疏表示分类器的图像标注方法
CN111767474A (zh) 一种基于用户操作行为构建用户画像的方法及设备
CN116681128A (zh) 一种带噪多标签数据的神经网络模型训练方法和装置
CN116956993A (zh) 一种构建图集成模型的方法、装置及存储介质
CN116168437A (zh) 基于多任务的预测模型训练方法、装置、设备及存储介质
CN114299342B (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法
CN115758462A (zh) 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质
CN113987170A (zh) 基于卷积神经网络的多标签文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant