CN113642602A - 一种基于全局与局部标签关系的多标签图像分类方法 - Google Patents
一种基于全局与局部标签关系的多标签图像分类方法 Download PDFInfo
- Publication number
- CN113642602A CN113642602A CN202110755393.7A CN202110755393A CN113642602A CN 113642602 A CN113642602 A CN 113642602A CN 202110755393 A CN202110755393 A CN 202110755393A CN 113642602 A CN113642602 A CN 113642602A
- Authority
- CN
- China
- Prior art keywords
- label
- global
- local
- image
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明一种基于全局与局部标签关系的多标签图像分类方法。包括步骤A:获取已标记所包含物体类别的图像集合作为训练样本集,对训练样本集中的每一幅图像进行预处理;步骤B:对训练样本进行训练,得到训练好的局部深度学习模型;步骤C:对训练样本进行训练,得到训练好的全局深度学习模型;步骤D:利用知识蒸馏操作,将训练好的全局深度学习模型设置为教师模型,将训练好的局部深度学习模型设置为学生模型,再根据预设的知识蒸馏损失函数进行训练,得到训练好的全局与局部深度学习模型;步骤E:对没有任何类别标签的多标签图像,根据训练好的全局与局部深度学习模型对其进行预测。本发明通过对全局与局部标签之间关系建模以提升分类精度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于全局与局部标签关系的 多标签图像分类方法。
背景技术
如何对不同标签之间存在的关系进行建模一直以来就是多标签分类,尤其 是多标签图像分类中的一个重要问题。以深度卷积神经网络(CNN)为例。在一 些大型单标签图像数据集上(例如ImageNet)中精度已能够达到90%以上。然而, 由于CNN将目标独立对待,将多标签问题转化为一组二分类问题来预测每个 目标是否存在,忽视了标签之间的依赖关系,因此很多相关研究工作发现其对 多标签图像(例如MSCOCO)的分类精度通常仅有80%左右。因此,对标签关系 进行建模是提高多标签图像分类精度的关键。
基于循环神经网络(RNN)的模型是目前多标签图像分类中最具代表性的 一类方法。一些研究者提出了使用RNN模型来对标签关系进行建模并提出了 CNN-RNN模型。这一模型使用CNN和RNN的联合嵌入空间来表征图像与语 义结构。CNN-RNN模型保存了交叉标签相关性,提高了多标签分类精度。然 而,在CNN-RNN训练时需要根据训练数据中各标签边缘概率来定义标签顺 序。这种预定义的标签预测顺序可能错误的对标签依赖关系进行建模。例如, 根据标签频率可能得到{餐桌,花,叉子},然而从语义的角度上,由于“餐桌” 与“叉子”有更强的依赖关系,所以正确顺序应为{餐桌,叉子,花}。此外, 这一模型仍然难以完全避免RNN模型自身的缺陷,即以序列方式逐个预测标 签。这同标签之间关系的双向性相矛盾,从而导致RNN模型无法完整的对标 签之间关系进行建模。
此外,CNN-RNN系列模型仅对每张图像自身的标签相关性,即局部标签关系, 而忽略了整个数据集上的全局标签关系。为了解决这一问题一些研究者提出了 基于图卷积神经网络(GCN)的多标签图像识别模型(ML-GCN)。这一模型在整 个训练集中统计全局标签关系,目的是利用GCN在全局标签关系的指导下建 立多个标签之间的共现概率,进而提高多标签分类精度。然而,该方法过渡依 赖标签共现概率的问题,容易导致弱关系情况下缺标签和强关系情况下多标记 的问题。例如,若在某个数据集中电视机与沙发有很高的共现率,但是ML-GCN 模型若判断出某图像中存在电视机则会强制标记沙发,即使图像中不存在沙 发。
本发明为解决上述两个技术问题,提出了一种基于全局与局部标签关系的 多标签图像分类方法。
发明内容
本发明提供了一种基于全局与局部标签关系的多标签图像分类方法,通过 对全局与局部标签之间关系建模以提升分类精度。
本发明的具体技术方案包含以下步骤:
步骤A:获取已标记所包含物体类别的图像集合作为训练样本集,并对训 练样本集中的每一幅图像进行预处理;
步骤B:利用基于残差网络的双层注意力深度学习模型对步骤A所述训练 样本进行训练,得到训练好的局部深度学习模型;
步骤C:利用基于残差网络的图卷积深度学习模型对步骤A所述训练样本 进行训练,得到训练好的全局深度学习模型;
步骤D:利用知识蒸馏操作,将步骤C所述的训练好的全局深度学习模型 设置为教师模型,同时将步骤B所述的训练好的局部深度学习模型设置为学生 模型,再根据预设的知识蒸馏损失函数进行训练,得到训练好的全局与局部深 度学习模型;
步骤E:对没有任何类别标签的多标签图像,根据步骤E所述的训练好的 全局与局部深度学习模型对其进行预测,其中,对每一幅图像的预测结果设置 阈值,若预测结果中存在大于阈值标签则认为图像中存在该标签,反之,则认 为不存在该标签。
步骤A所述的对训练样本集中的每一幅图像进行预处理,具体为:
步骤A2、利用词向量生成技术生成每个标签的词向量;可选的词向量生 成技术包括Word2vec、Glove;
步骤A3、将训练样本中的场景图像随机剪切成448×448像元固定大小的 图像,之后在水平方向进行随机翻转,并进行归一化处理。
步骤B所述基于残差网络(RES)的双层注意力深度学习模型具体为:
步骤B1、将所述步骤A中预处理过的样本图像作为RES的输入,得到RES 特征图;
步骤B2、将步骤B1输出的特征图进行全局平均池化,使用全连接层分类, 得到输入图片对于各个标签的归属程度,该归属程度取值范围为[0,1],记该值 为DG1;
步骤B3、对于每个标签所对应的RES特征图,利用注意力机制计算其空间 维度的权重矩阵,然后将RES特征图根据权重矩阵进行加权求和,并将其用作 该标签的特征向量,记为FL1;
步骤B4、通过自注意力机制将标签特征向量进行线性变换,并将变换后 的结果LT1进行全局平均池化及扩张,再将这一处理结果同前述线性变换结果 拼接,得到第一层注意力机制的处理结果ATTRES1;
步骤B5、利用全连接层将ATTRES1映射为局部标签矩阵,并与LT1相乘, 计算结果记为LT2;再使用自注意力机制对LT1进行线性变换,得到LT3;之后, 将LT3与FL1相加,其结果经过全连接层得到标签类别数大小的矩阵,并取其 对角线元素作为输入图片对于各个标签的另一个归属程度,记其值为DG2;
步骤B6、利用二元交叉熵损失函数公式
步骤C所述的基于残差网络的图卷积深度学习模型具体为:
步骤C1、将所述步骤A中预处理过的样本图像作为RES的输入,得到RES 特征图;
步骤C2、将所述步骤A中得到的标签共现矩阵、标签词向量和上述步骤 C1得到的RES特征图作为图卷积网络(GCN)的输入,输出的标签特征向量记为 FL2;
步骤C3、将步骤C1得到RES特征图进行全局平均池化,其结果与FL2相 乘得到输入图片对于各个标签的归属程度DG3,
步骤C4、利用二元交叉熵损失函数公式:
步骤D所述知识蒸馏损失函数具体为:
附图说明
图1为本发明的一种基于全局与局部标签关系的多标签图像分类方法的较 佳实施例的流程;
图2为本发明的一种基于全局与局部标签关系的多标签图像分类方法的完 整模型的示意图;
图3为本发明的一种基于全局与局部标签关系的多标签图像分类方法的传 统多标签分类模型的示意图;
图4为本发明的一种基于全局与局部标签关系的多标签图像分类方法的局 部深度学习模型的语义模块的示意图;
图5为本发明的一种基于全局与局部标签关系的多标签图像分类方法的局 部深度学习模型的双层自注意力机制的示意图;
图6为本发明的一种基于全局与局部标签关系的多标签图像分类方法的全 局深度学习模型的示意图;
图7为本发明的一种基于全局与局部标签关系的多标签图像分类方法的知 识蒸馏的示意图;
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一 步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用 于限定本发明。
步骤A、获取已标记所包含物体类别的图像集合作为训练样本集,并对训 练样本集中的每一幅图像进行预处理;
具体实施时,计算整个训练样本集的标签共现矩阵:首先计算训练集的中 标签对出现的次数,得到矩阵C是类别数;然后,统计每个标签在 训练集中的出现次数得到标签共现矩阵为Pi=Mi/Ni,其中i代表某个 标签,
将训练样本中的场景图像随机剪切成固定大小的图像,如448×448像元 大小,之后在水平方向进行随机翻转,并进行归一化处理;
步骤B、利用基于残差网络的双层注意力深度学习模型对步骤A所述训练 样本进行训练,得到训练好的局部深度学习模型;
将特征图Vfeat进行全局平均池化,并使用全连接层分类,得到输入图片对 于各个标签的归属程度,该归属程度取值范围为[0,1],记该值为DG1,DG1= FC(Avg(Vfeat)),FC标签全连接层,Avg表示全局平均池化操作(图3);
对于每个标签所对应的Vfeat,利用注意力机制计算其空间维度的权重矩 阵,然后将RES特征图根据权重矩阵进行加权求和,并将其用作该标签的特征 向量,记为其中,C表示类别个数,D表示该类对应的特征长度, 具体公式为:α=softmax(f1(A1+A2 T)),f1是全连接层(图4);
结合图5,特征FL1经过第一层自注意力模块得到对LT1执 行全局平均池化和第一个维度重复C次操作,同时该结果与LT1拼接得到经过fcSA层后的输出可表示为即为标签关系 矩阵,根据W调整第一层自注意力模块输出的特征为LT2,再使用第二层注意 力机制得到之后,将LT3与FL1相加,其结果经过DLSA分类器, 得到第二标签分布具体公式为:
LT1=f(Softmax(Q(FL1)×K(FL1)T+b)×FL1),f,Q,K均为全连接 层,b是偏差值;
LT2=fcSA(Concat(R(Avg(LT1)),LT1))×LT1,fcSA为全连接层, Concat是拼接操作,R是重复函数,Avg是全局平均池化;
LT3=f(Softmax(Q(LT2)×K(LT2)T+b)×LT2),f,Q,K均为全连接 层,b是偏差值;
Z=LT3+FL1,运用残差连接的概念,防止信息丢失;
DG2=f(Z)×Ed,f为全连接层,Ed为对角线为1维度为C×C的矩阵;
步骤C、利用基于残差网络的图卷积深度学习模型对步骤A所述训练样本 进行训练,得到训练好的全局深度学习模型;
具体实施时,结合图2和图6,步骤C具体包括:
将所述步骤A中得到的标签共现矩阵、标签词向量和上述步骤C1得到的 Vfeat作为图卷积网络(GCN)的输入,输出的标签特征向量记为FL2;
VA=Avg(Vfeat),Avg表示全局平均池化操作;
步骤D、所述知识蒸馏损失函数具体为:
步骤E、对没有任何类别标签的多标签图像,根据步骤E所述的训练好的 全局与局部深度学习模型对其进行预测,其中,对每一幅图像的预测结果设置 阈值,若预测结果中存在大于阈值标签则认为图像中存在该标签,反之,则认 为不存在该标签;
综上所述,本发明提供了一种基于全局与局部标签关系的多标签图像分类 方法,方法包括:步骤A、获取已标记所包含物体类别的图像集合作为训练样 本集,并对训练样本集中的每一幅图像进行预处理;步骤B、利用基于残差网 络的双层注意力深度学习模型对步骤A所述训练样本进行训练,得到训练好的 局部深度学习模型;步骤C、利用基于残差网络的图卷积深度学习模型对步骤 A所述训练样本进行训练,得到训练好的全局深度学习模型;步骤D、利用知 识蒸馏操作,将步骤C所述的训练好的全局深度学习模型设置为教师模型,同 时将步骤B所述的训练好的局部深度学习模型设置为学生模型,再根据预设的 知识蒸馏损失函数进行训练,得到训练好的全局与局部深度学习模型;步骤E、 对没有任何类别标签的多标签图像,根据步骤E所述的训练好的全局与局部深 度学习模型对其进行预测,其中,对每一幅图像的预测结果设置阈值(如0.5), 若某标签结果大于阈值则认为图像中存在该标签,反之,小于阈值则认为不存 在该标签;
应当理解的是,本发明的应用不限于上述的举例,对本领域的普通技术人 员来说,可以根据上述说明加以改进或变换,所有些改进和变换都应属于本发 明所附权利要求的保护范围。
Claims (5)
1.一种基于全局与局部标签关系的多标签图像分类方法,其特征在于,所述方法包括以下5个步骤:
步骤A:获取已标记所包含物体类别的图像集合作为训练样本集,并对训练样本集中的每一幅图像进行预处理;
步骤B:利用基于残差网络的双层注意力深度学习模型对步骤A所述训练样本进行训练,得到训练好的局部深度学习模型;
步骤C:利用基于残差网络的图卷积深度学习模型对步骤A所述训练样本进行训练,得到训练好的全局深度学习模型;
步骤D:利用知识蒸馏操作,将步骤C所述的训练好的全局深度学习模型设置为教师模型,同时将步骤B所述的训练好的局部深度学习模型设置为学生模型,再根据预设的知识蒸馏损失函数进行训练,得到训练好的全局与局部深度学习模型;
步骤E:对没有任何类别标签的多标签图像,根据步骤E所述的训练好的全局与局部深度学习模型对其进行预测,其中,对每一幅图像的预测结果设置阈值,若预测结果中存在大于阈值标签则认为图像中存在该标签,反之,则认为不存在该标签。
3.根据权利要求1所述的基于全局与局部标签关系的多标签图像分类方法,其特征在于,步骤B所述基于残差网络(RES)的双层注意力深度学习模型具体为:
步骤B1、将所述步骤A中预处理过的样本图像作为RES的输入,得到RES特征图;
步骤B2、将步骤B1输出的特征图进行全局平均池化,使用全连接层分类,得到输入图片对于各个标签的归属程度,该归属程度取值范围为[0,1],记该值为DG1;
步骤B3、对于每个标签所对应的RES特征图,利用注意力机制计算其空间维度的权重矩阵,然后将RES特征图根据权重矩阵进行加权求和,并将其用作该标签的特征向量,记为FL1;
步骤B4、通过自注意力机制将标签特征向量进行线性变换,并将变换后的结果LT1进行全局平均池化及扩张,再将这一处理结果同前述线性变换结果拼接,得到第一层注意力机制的处理结果ATTRES1;
步骤B5、利用全连接层将ATTRES1映射为局部标签矩阵,并与LT1相乘,计算结果记为LT2;再使用自注意力机制对LT1进行线性变换,得到LT3;之后,将LT3与FL1相加,其结果经过全连接层得到标签类别数大小的矩阵,并取其对角线元素作为输入图片对于各个标签的另一个归属程度,记其值为DG2;
步骤B6、利用二元交叉熵损失函数公式
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755393.7A CN113642602B (zh) | 2021-07-05 | 2021-07-05 | 一种基于全局与局部标签关系的多标签图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755393.7A CN113642602B (zh) | 2021-07-05 | 2021-07-05 | 一种基于全局与局部标签关系的多标签图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642602A true CN113642602A (zh) | 2021-11-12 |
CN113642602B CN113642602B (zh) | 2023-07-18 |
Family
ID=78416646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110755393.7A Active CN113642602B (zh) | 2021-07-05 | 2021-07-05 | 一种基于全局与局部标签关系的多标签图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642602B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612681A (zh) * | 2022-01-30 | 2022-06-10 | 西北大学 | 基于gcn的多标签图像分类方法、模型构建方法及装置 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN118248349A (zh) * | 2024-05-29 | 2024-06-25 | 山东中医药大学 | 基于图像识别的局部感知和全局共现先验学习方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144490A (zh) * | 2019-12-26 | 2020-05-12 | 南京邮电大学 | 一种基于轮替知识蒸馏策略的细粒度识别方法 |
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、系统、介质、视频监控系统 |
US20200265220A1 (en) * | 2019-02-19 | 2020-08-20 | Fujitsu Limited | Apparatus and method for training classification model and apparatus for classifying with classification model |
-
2021
- 2021-07-05 CN CN202110755393.7A patent/CN113642602B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200265220A1 (en) * | 2019-02-19 | 2020-08-20 | Fujitsu Limited | Apparatus and method for training classification model and apparatus for classifying with classification model |
CN111144490A (zh) * | 2019-12-26 | 2020-05-12 | 南京邮电大学 | 一种基于轮替知识蒸馏策略的细粒度识别方法 |
CN111553205A (zh) * | 2020-04-12 | 2020-08-18 | 西安电子科技大学 | 无车牌信息车辆重识别方法、系统、介质、视频监控系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612681A (zh) * | 2022-01-30 | 2022-06-10 | 西北大学 | 基于gcn的多标签图像分类方法、模型构建方法及装置 |
CN115392474A (zh) * | 2022-06-14 | 2022-11-25 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN115392474B (zh) * | 2022-06-14 | 2023-08-22 | 南京理工大学 | 一种基于迭代优化的局部感知图表示学习方法 |
CN118248349A (zh) * | 2024-05-29 | 2024-06-25 | 山东中医药大学 | 基于图像识别的局部感知和全局共现先验学习方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113642602B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN109711481B (zh) | 用于画作多标签识别的神经网络、相关方法、介质和设备 | |
CN105631479B (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
CN110717534B (zh) | 一种基于网络监督的目标分类和定位方法 | |
CN113642602B (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
Zhang et al. | Curriculum-style local-to-global adaptation for cross-domain remote sensing image segmentation | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN110837846A (zh) | 一种图像识别模型的构建方法、图像识别方法及装置 | |
CN111582409A (zh) | 图像标签分类网络的训练方法、图像标签分类方法及设备 | |
US20030152289A1 (en) | Method and system for determining image orientation | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
US20210081677A1 (en) | Unsupervised Video Object Segmentation and Image Object Co-Segmentation Using Attentive Graph Neural Network Architectures | |
CN111985520A (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN114648635B (zh) | 一种融合标签间强相关性的多标签图像分类方法 | |
CN110929746A (zh) | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
Simran et al. | Content based image retrieval using deep learning convolutional neural network | |
Zhu et al. | A modified deep neural network enables identification of foliage under complex background | |
CN113065409A (zh) | 一种基于摄像分头布差异对齐约束的无监督行人重识别方法 | |
CN116935100A (zh) | 一种基于特征融合和自注意力机制的多标签图像分类方法 | |
CN111882000A (zh) | 一种应用于小样本细粒度学习的网络结构及方法 | |
Hoxha et al. | Remote sensing image captioning with SVM-based decoding | |
Juyal et al. | Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset | |
CN113240033B (zh) | 一种基于场景图高阶语义结构的视觉关系检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |