CN111950602A - 一种基于随机梯度下降和多示例多标签学习的图像标引方法 - Google Patents
一种基于随机梯度下降和多示例多标签学习的图像标引方法 Download PDFInfo
- Publication number
- CN111950602A CN111950602A CN202010704143.6A CN202010704143A CN111950602A CN 111950602 A CN111950602 A CN 111950602A CN 202010704143 A CN202010704143 A CN 202010704143A CN 111950602 A CN111950602 A CN 111950602A
- Authority
- CN
- China
- Prior art keywords
- image
- parameter
- matrix
- gradient descent
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 30
- 238000004458 analytical method Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 14
- 230000008520 organization Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 7
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及图像标引技术领域,特别涉及一种基于随机梯度下降和多示例多标签学习的图像标引方法,适用于图书馆信息标引工作。
背景技术
随着信息技术的发展和互联网服务的进步,现实生活中每天都产生海量的图像,这些图像大部分不单反映一个内容,可能涉及多个主题,包含很多的语义信息,例如,一幅关于海滩的图像,可能包括行人、大海、白云、树木、海滩等不同的主题。
而产生的海量图像,不具有能够充分描述图像内容的分类标签,如果单纯以人工图像标引,则费时费力。多示例多标签学习图像标引的目的是通过具有多个标签的图像学习,给无标签图像赋予精确的多个分类标签,实现快速精确地图像自动标引。
多示例多标签径向基(MIMLRBF)神经网络算法(Zhang M L,Wang Z J.MIMLRBF:RBF neural networks for multi-instance multi-label learning[J].Neurocomputing,2009,72(16-18):3951-3956.),是对传统的径向基(RBF)神经网络进行扩展,解决多示例多标签(MIML)问题,该方法的第一层输入是一个包含多个示例的样本;该神经网络的训练过程主要分为两部分,首先对于每个类别所包含的样本通过K-MEDOIDS算法进行聚类,通过聚类产生的中心构成了神经网络的第二层,然后神经网络中第二层与第三层之间的参数W通过最小化误差函数平方和的方式求解。在对未知样本进行标引时,通过计算参数W与未知样本和MIMLRBF网络隐含层节点之间距离的乘积,即可得到未知样本的标签,实现自动标引。但是MIMLRBF神经网络算法在求解参数W的过程中直接运用奇异值(SVD)分解的方法,造成误差不断的增加,影响神经网络的性能。
发明内容
针对现有技术中存在不足,本发明提供了一种基于随机梯度下降和多示例多标签学习的图像标引方法,解决现有技术中MIMLRBF神经网络算法在求解参数W的过程中存在的问题。
本发明是通过以下技术手段实现上述技术目的的。
一种基于随机梯度下降和多示例多标签学习的图像标引方法,包括以下步骤:
步骤(1),获取若干图像,已标引的图像作为训练集,未标引的图像作为测试集;
步骤(2),对所有图像进行分割,提取分割区域的图像特征,将图像转化为多示例包;
步骤(3),由训练集构建MIMLRBF神经网络,所述神经网络的隐层由多示例包构成,利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Yd与预测的输出矩阵Y的差值;
步骤(4),最小化误差矩阵E,运用加入动量的梯度下降优化算法对参数W进行迭代分析,获取迭代参数Wt;所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数;
进一步的技术方案,所述对参数W进行迭代分析,具体为:
步骤(4.1),初始化误差矩阵E
步骤(4.2),加入动量的梯度下降优化算法对参数W进行迭代
Wt+1=Wt+ΔWt
其中,t代表迭代次数,且t≥2,α是learning rate矩阵,p为动量参数;
步骤(4.3),求解learning rate矩阵
利用线性矩阵变换求得α,即learning rate矩阵;
步骤(4.4),迭代求解参数Wt
更进一步的技术方案,所述动量参数p设定为0.9。
进一步的技术方案,所述图像分割采用期望最大值或K-means或FCM方法。
进一步的技术方案,还包括步骤(6):判断迭代次数是否达到要求,没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
更进一步的技术方案,所述图像标引方法能应用于图书馆的信息组织工作。
本发明的有益效果为:本发明由迭代参数Wt、未标引的图像与所述神经网络隐层节点之间的距离矩阵计算预测的输出矩阵Yt,确定测试集图像的所属类别,实现未标引图像的自动标引;迭代参数Wt利用加入动量的梯度下降优化算法对神经网络中隐层与输出层之间的参数W进行迭代分析得到,参数W迭代分析是在最小化误差矩阵E的过程中进行的,避免直接运用奇异值分解法,造成误差不断的增加,提高神经网络的性能,实现未标引图像快速精确的自动标引。
附图说明
图1为本发明所述基于随机梯度下降和多示例多标签学习的图像标引方法流程图;
图2为本发明所述MIMLRBF神经网络模型图。
具体实施方式
下面结合附图以及具体实施例对本发明作进一步的说明,但本发明的保护范围并不限于此。
如图1所示,本发明基于随机梯度下降和多示例多标签学习的图像标引方法,具体包括以下步骤:
步骤(1),获取若干图像,随机抽取少量图像(占总图像的10%-30%),通过人工标引的方法,对抽取的图像进行标引,其中一幅图像可以包含有多个标签;已标引的图像作为训练集,未标引的图像作为测试集。
步骤(2),对若干图像进行分割,具体方法可以使用计算机视觉中的经典算法,如期望最大值方法、K-means、FCM方法等,把图像分割成若干区域;然后提取每个图像区域的颜色、纹理、形状等特征,把每一个区域转化成一个示例向量;通过上述方式,一幅图像(可以当作一个包)被分割成若干区域,每一个区域都包含一个示例向量,即一幅图像包含多个示例向量,将一副图像转化为一个多示例包,并且一个包可以对应多个标签。
步骤(3),对训练集进行建模,构建MIMLRBF神经网络,如图2所示,包括输入层(输入向量X为训练集的多示例包)、隐层和输出层;隐层由Q个包含多个示例的包构成,其Ml表示属于第l类的训练集样本数,1≤l≤Q,Q为标签数量;未标引的图像与MIMLRBF神经网络隐层中心之间的距离为φij(图中φ0为表示偏置径向基函数,φ0(Xi)默认为1),构成MIMLRBF神经网络隐层的输出距离矩阵其中N为训练集样本个数,训练集样本i∈(1,N),隐层神经元总数目为j为隐层神经元,1≤j≤M;隐层中心利用Haudorff距离,运用K-MEDOIDS算法对进行聚类得到;输出层y1、y2…yQ构成输出矩阵Y。
根据MIMLRBF神经网络中隐层与输出层之间的参数W,将预测的输出矩阵表示为:误差矩阵其中表示MIMLRBF神经网络中训练集期望的输出矩阵,表示样本i是否属于某个类别的取值,若样本i属于某个类别,则若不属于,则
步骤(4),最小化误差矩阵E,在最小化误差矩阵E的过程中,利用加入动量(Momentum)的梯度下降优化(Stochastic gradient descent,SGD)算法对参数W进行迭代分析,具体步骤如下:
步骤(4.1),初始化误差矩阵E
步骤(4.2),梯度下降优化算法中加入动量对参数W迭代
Wt+1=Wt+ΔWt
其中,t代表迭代次数(t≥2),α是learning rate矩阵;p为动量参数,一般为固定值,设定为0.9;
步骤(4.3),求解learning rate矩阵
其中,m、n、k、q为计数参数;
利用SVD方法中的线性矩阵变换求得α,从而得到learning rate矩阵。
步骤(4.4),迭代求解参数Wt
步骤(6),判断迭代次数是否达到用户指定的次数,如果没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
本发明可以应用在图书馆的信息组织工作中,例如在图书馆特藏文献建立索引的过程中,特别是图书馆特色图像数据中,可以按照本发明提到的方法,对少量图像数据请相关专家进行标引,然后通过基于随机梯度下降和多示例多标签学习的方法实现图像的自动标引,解决图书馆中图像标引的成本过高的问题。
所述实施例为本发明的优选的实施方式,但本发明并不限于上述实施方式,在不背离本发明的实质内容的情况下,本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。
Claims (6)
1.一种基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,包括以下步骤:
步骤(1),获取若干图像,已标引的图像作为训练集,未标引的图像作为测试集;
步骤(2),对所有图像进行分割,提取分割区域的图像特征,将图像转化为多示例包;
步骤(3),由训练集构建MIMLRBF神经网络,所述神经网络的隐层由多示例包构成,利用误差矩阵E表示所述神经网络中训练集期望的输出矩阵Yd与预测的输出矩阵Y的差值;
步骤(4),最小化误差矩阵E,运用加入动量的梯度下降优化算法对参数W进行迭代分析,获取迭代参数Wt;所述参数W是MIMLRBF神经网络中隐层与输出层之间的参数;
3.根据权利要求2所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述动量参数p设定为0.9。
4.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述图像分割采用期望最大值或K-means或FCM方法。
5.根据权利要求1所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,还包括步骤(6):判断迭代次数是否达到要求,没有达到要求,则返回步骤(4);否则结束,并输出未标引图像的标签。
6.根据权利要求1-5任一项所述的基于随机梯度下降和多示例多标签学习的图像标引方法,其特征在于,所述图像标引方法能应用于图书馆的信息组织工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704143.6A CN111950602B (zh) | 2020-07-21 | 2020-07-21 | 一种基于随机梯度下降和多示例多标签学习的图像标引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010704143.6A CN111950602B (zh) | 2020-07-21 | 2020-07-21 | 一种基于随机梯度下降和多示例多标签学习的图像标引方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950602A true CN111950602A (zh) | 2020-11-17 |
CN111950602B CN111950602B (zh) | 2024-05-14 |
Family
ID=73340161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010704143.6A Active CN111950602B (zh) | 2020-07-21 | 2020-07-21 | 一种基于随机梯度下降和多示例多标签学习的图像标引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950602B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022116479A1 (zh) * | 2020-12-01 | 2022-06-09 | 南京智谷人工智能研究院有限公司 | 一种基于自动示例选择的端到端多示例学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197701A (zh) * | 2018-02-05 | 2018-06-22 | 哈工大机器人(合肥)国际创新研究院 | 一种基于rnn的多任务学习方法 |
CN108319980A (zh) * | 2018-02-05 | 2018-07-24 | 哈工大机器人(合肥)国际创新研究院 | 一种基于gru的递归神经网络多标签学习方法 |
-
2020
- 2020-07-21 CN CN202010704143.6A patent/CN111950602B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197701A (zh) * | 2018-02-05 | 2018-06-22 | 哈工大机器人(合肥)国际创新研究院 | 一种基于rnn的多任务学习方法 |
CN108319980A (zh) * | 2018-02-05 | 2018-07-24 | 哈工大机器人(合肥)国际创新研究院 | 一种基于gru的递归神经网络多标签学习方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022116479A1 (zh) * | 2020-12-01 | 2022-06-09 | 南京智谷人工智能研究院有限公司 | 一种基于自动示例选择的端到端多示例学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111950602B (zh) | 2024-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Deepchart: Combining deep convolutional networks and deep belief networks in chart classification | |
CN111582538B (zh) | 一种基于图神经网络的社群价值预测方法及系统 | |
CN111368920B (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CA3066029A1 (en) | Image feature acquisition | |
Bianco et al. | Predicting image aesthetics with deep learning | |
CN103177265B (zh) | 基于核函数与稀疏编码的高清图像分类方法 | |
Rad et al. | Image annotation using multi-view non-negative matrix factorization with different number of basis vectors | |
CN112862015A (zh) | 一种基于超图神经网络的论文分类方法及系统 | |
CN112633002A (zh) | 样本标注、模型训练、命名实体识别方法和装置 | |
CN105046272A (zh) | 一种基于简洁非监督式卷积网络的图像分类方法 | |
CN113689234B (zh) | 一种基于深度学习的平台相关的广告点击率预测方法 | |
CN116956105A (zh) | 一种分类模型训练方法、缺陷识别方法、装置及电子设备 | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 | |
Barrio et al. | Deep learning for chaos detection | |
CN105787045B (zh) | 一种用于可视媒体语义索引的精度增强方法 | |
CN111950602B (zh) | 一种基于随机梯度下降和多示例多标签学习的图像标引方法 | |
Zhao et al. | Big transfer learning for fine art classification | |
CN111291787B (zh) | 基于正向-多反向协作稀疏表示分类器的图像标注方法 | |
CN111767474A (zh) | 一种基于用户操作行为构建用户画像的方法及设备 | |
CN116681128A (zh) | 一种带噪多标签数据的神经网络模型训练方法和装置 | |
CN116956993A (zh) | 一种构建图集成模型的方法、装置及存储介质 | |
CN116168437A (zh) | 基于多任务的预测模型训练方法、装置、设备及存储介质 | |
CN114299342B (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 | |
CN115758462A (zh) | 信创环境下实现敏感数据识别的方法、装置、处理器及其计算机可读存储介质 | |
CN113987170A (zh) | 基于卷积神经网络的多标签文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |