CN114693940A - 基于深度学习的特征混合可分解性增强的图像描述方法 - Google Patents
基于深度学习的特征混合可分解性增强的图像描述方法 Download PDFInfo
- Publication number
- CN114693940A CN114693940A CN202210304675.XA CN202210304675A CN114693940A CN 114693940 A CN114693940 A CN 114693940A CN 202210304675 A CN202210304675 A CN 202210304675A CN 114693940 A CN114693940 A CN 114693940A
- Authority
- CN
- China
- Prior art keywords
- features
- feature
- module
- mixing
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002156 mixing Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 title claims abstract description 11
- 230000002708 enhancing effect Effects 0.000 title claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 2
- 206010008909 Chronic Hepatitis Diseases 0.000 claims 1
- 208000006454 hepatitis Diseases 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 11
- 239000000284 extract Substances 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 description 6
- 230000000644 propagated effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于深度学习的特征混合可分解性增强的图像描述方法,旨在直接变换图片内各个目标的深层视觉特征,来为视觉特征赋予混合可分解性,通过混合模块来生成混合特征,通过特征提取器提取初始特征,利用混合模块读取一个主特征一个副特征来生成混合特征,再通过分解模块来重构主特征。进一步的,根据特征提取器提取的特征的分类损失、混合模块的混合损失和分解模块重构出的特征的分类损失,利用反向传播和梯度下降算法来更新模型参数,以增强特征提取器提取的特征的混合可分解性。本发明提取的特征具有更强的可分解性,能广泛地应用于视觉问答和图片标注等一系列下游任务,来提升下游任务模型的表现。
Description
技术领域
本发明涉及机器学习中的表示学习技术;特别涉及图像描述技术。
背景技术
伴随着深度学习技术的发展和成熟,深度学习技术与人们日常生活的结合越来越紧密。深度学习技术在计算机视觉中丰富多彩的应用场景,也对特征应该具有的性质提出了更高的要求。更高层次的计算机视觉下游任务的解决,往往需要利用上游任务提取的低层次视觉信息。这些低层次信息作为下游高层次任务的基础,对下游任务的解决有着很大的影响。为了使特征提取器提取的视觉特征能提升已有模型在下游任务上的表现,我们需要赋予特征更多的优良性质。本发明主要致力于训练一个特征提取器,来提取具有混合可分解性的视觉特征。
目前,一些数据增强方法通过直接对输入图片进行旋转、翻转等变换,来丰富原始训练图片集,以增强特征提取器提取的特征具有的旋转不变性和翻转不变性等。然而,这类直接变换输入图片的方法,缺乏对模型深层特征的直接增强。另外,这些方法大多变换整张图片,而缺乏更精细的变换图片内部各个目标的操作,也缺乏对特征混合可分解性这一优良性质的增强。
发明内容
本发明提出一种提取的目标的特征相比原始的目标特征有更好的混合可分解性的基于深度学习的特征混合可分解性增强方法,为后续的更精准的图像分类提供基础。
本发明为解决上述技术问题所采用的技术方案是,基于深度学习的特征混合可分解性增强的图像描述方法,特征提取器的训练步骤如下:
混合步骤:混合模块将特征fi作为主特征,以其它目标图像的特征作为副特征生成目标图像xi的混合特征mij:
其中,fi为目标图像xi的特征,fj为其他目标图像xj的特征,j=1,...,N,i≠j;代表对应位置元素相加,∈是超参数;是从主副目标索引对到主副标签对的映射,ul(i,j)为映射l(i,j)的加权系数,ul(i,j)∈[0,1];
分解步骤:分解模块利用预设的目标特征字典D从混合特征mij中重构出能体现特征可分解性的主特征oi:
其中,目标特征字典D由C个类别的目标图像的均值特征组成,P(c)表示类别c的目标占整个有标签目标的比例,c=1,...,C;P(·)表示某个类别的目标占整个数据集中有标签目标的比例;W1和W2均为输出维度是σ的全连接层,W1(·)和W2(·)代表全连接层的输出;I表示转置,⊙表示对应元素相乘,表示矩阵乘法,Softmax表示Softmax函数;
训练过程中特征提取模块通过分类损失进行约束;混合模块通过混合损失进行约束;分解模块通过分解损失进行约束;
使用训练好的特征提取器来提取用于描述图像的目标特征。
本发明旨在直接变换图片内各个目标的深层视觉特征,来为视觉特征赋予混合可分解性,尝试通过混合模块来生成混合特征,主要是通过特征提取器提取初始特征,利用混合模块读取两个初始特征(一个作为主特征,另一个作为副特征)来生成混合特征,通过分解模块来重构主特征。进一步的,根据特征提取器提取的特征的分类损失、混合模块的混合损失和分解模块重构出的特征的分类损失,利用反向传播和梯度下降算法来更新模型参数,以增强特征提取器提取的特征的混合可分解性。
本发明的有益效果是,利用本发明的方法训练的特征提取器,其提取的特征具有更强的可分解性,可通过与其他特征直接级联的方式广泛地应用于视觉问答和图片标注等一系列下游任务,来提升下游任务模型的表现。具有使用范围广、使用方便的特点。
附图说明
图1:本发明整体框架图
图2:混合模块计算图
图3:分解模块计算图
具体实施方式
实现本发明基于深度学习的特征混合可分解性增强方法的整体构架如图1所示,包含特征提取模块、混合模块和分解模块三个部分,由分类损失、混合损失和分解损失来分别指导三个模块的学习。
下面将首先说明特征提取模块、混合模块和分解模块的具体设计。
为每个带标签目标生成混合特征。例如,如果一张图片有M个带标签目标,那么我们能够为每个带标签目标计算M-1个混合特征。当计算某个带标签目标xi的混合特征时,该目标称为主目标,其对应的特征fi称为主特征,用来混合主目标的其他目标称为副目标,副目标xj对应的特征fj称为副特征。
混合模块如图2所示,其利用副特征fj来混合主特征fi得到混合特征mij的操作如下:
分解模块从混合模块生成的混合特征中重构出主特征,来体现特征的可分解性。由于不能在没有先验知识的条件下仅由混合特征重构出主特征,因此分解模块中集成了一个预先准备的目标特征字典D。字典为每个类别的目标存储了一个均值特征di,该均值特征是预训练的特征提取器提取的所有该类目标的特征的均值。分解模块的输入仅有混合特征mij。在给定目标特征字典即数据集中标签种类的数量),如图3所示,其计算重构输出特征oi的方式如下:
其中q=W1(mij),K=W2(DT),P(·)表示某个类别的目标占整个数据集中有标签目标的比例。W1和W2分别代表输出维度是σ的全连接层,W1(·)和W2(·)代表全连接层的输出,T表示转置。符号⊙表示对应元素相乘,表示矩阵乘法。
下面分别说明分类损失、分解损失和混合损失的具体计算方法。
该发明使用一个分类器读取特征提取器提取的特征,来判断该特征对应目标的标签。交叉熵损失被用作分类损失来指导特征提取器和分类器的学习,分类损失计算如下:
其中是目标特征fi的真实标签,p(·)代表接在特征提取器顶部的分类器。由于分解模块的输出特征应该和特征提取器提取的特征相似,本发明使用了接在特征提取器顶部的分类器p(·),来判断分解出的特征的标签。与式(4)类似,分解损失也采用交叉熵损失,计算如下:
为了指导混合模块的学习,本发明采用的混合特征由两部分构成。这是因为一方面,混合模块要利用副特征将主特征充分混合,另一方面又不能彻底破坏主特征。前者通过分类器p(·)对混合特征的分类损失很大来体现,后者通过限制ul(i,j)过小来实现。因此,用来指导混合模块学习的混合损失构造如下:
其中,N(i)代表目标xi所在图片中余下的有标记目标的数量,k(i,·):{1,...,N(i)}→{1,...,N}是从目标xi所在图片中余下目标的局部索引,到整个数据集中所有的带标记目标的全局索引的映射,k(i,j)即代表目标xi所在图片中局部索引为j的目标在整个数据集中的全局索引,取值范围1到N;u为由ul(i,j)组成的大小为的矩阵,表示集合中的元素个数;||·||代表某种范数,可取二范数,λ是用来平衡该损失的两个部分的超参数。
最后,本发明采用了交替训练的策略来指导特征提取器、混合模块和分解模块的学习。在整个训练过程中,特征提取器始终可以更新参数,而混合模块和分解模块交替更新参数。具体来说,当特征提取器和混合模块参数更新时,分解模块参数不变,特征提取器提取的特征的分类损失和混合损失直接相加的结果来反向传播和梯度更新特征提取器和混合模块的参数;而当特征提取器和分解模块参数更新时,特征提取器提取的特征的分类损失和分解损失直接相加的结果来反向传播和梯度更新特征提取器和分解模块的参数,此时混合模块参数不变。
实施例
本发明在PyTorch深度学习框架上实现,主要包括如下步骤:特征提取器提取特征,计算用特征提取器提取的特征的分类损失,选取图片中主特征和副特征来计算混合特征,计算混合损失,利用分解模块分解出主特征,计算分解出的特征的分解损失,根据分类损失、混合损失和分解损失来更新模块参数。
步骤一:
第3步:针对同一张图片中所有带标签目标的特征,按照式(2)操作,生成混合特征mij;
第6步:根据上一步计算的损失之和,来反向传播和梯度更新特征提取器和混合模块的参数;
步骤二:
第9步:读取混合模块生成的混合特征mij,使用分解模块,按式(3)重构出特征oi;
第12步:根据上一步计算的损失之和,来反向传播和梯度更新特征提取器和分解模块的参数;
步骤三:
第13步:循环到第1步,开始下一周期的训练,直到达到预先设定的循环次数。
第14步:使用训练好的特征提取器来提取目标特征用于视觉问答或图片标注等下游任务的训练和测试。
Claims (6)
1.基于深度学习的特征混合可分解性增强的图像描述方法,其特征在于,特征提取器的训练步骤如下:
混合步骤:混合模块将特征fi作为主特征,以其它目标图像的特征作为副特征生成目标图像xi的混合特征mij:
其中,fi为目标图像xi的特征,fj为其他目标图像xj的特征,j=1,…,N,i≠j;代表对应位置元素相加,∈是超参数;l(i,j):是从主副目标索引对到主副标签对的映射,ul(i,j)为映射l(i,j)的加权系数,ul(i,j)∈[0,1];
分解步骤:分解模块利用预设的目标特征字典D从混合特征mij中重构出能体现特征可分解性的主特征oi:
其中,目标特征字典D由C个类别的目标图像的均值特征组成,P(c)表示类别c的目标占整个有标签目标的比例,c=1,…,C;P(·)表示某个类别的目标占整个数据集中有标签目标的比例;W1(·)和W2(·)代表输出维度是σ的全连接层;T表示转置,⊙表示对应元素相乘,表示矩阵乘法,Softmax表示Softmax函数;
训练过程中特征提取模块通过分类损失进行约束;混合模块通过混合损失进行约束;分解模块通过分解损失进行约束;
使用训练好的特征提取器来提取用于描述图像的目标特征。
2.如权利要求1所述方法,其特征在于,特征提取器在训练过程中持续更新参数,混合模块和分解模块在训练过程中交替更新参数。
3.如权利要求2所述方法,其特征在于,当特征提取器和混合模块参数更新时,分解模块参数不变,使用分类损失和混合损失直接相加的结果来反向传播和梯度更新特征提取器和混合模块的参数;
而当特征提取器和分解模块参数更新时,混合模块参数不变,使用分类损失和分解损失直接相加的结果来反向传播和梯度更新特征提取器和分解模块的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210304675.XA CN114693940B (zh) | 2022-03-22 | 2022-03-22 | 基于深度学习的特征混合可分解性增强的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210304675.XA CN114693940B (zh) | 2022-03-22 | 2022-03-22 | 基于深度学习的特征混合可分解性增强的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114693940A true CN114693940A (zh) | 2022-07-01 |
CN114693940B CN114693940B (zh) | 2023-04-28 |
Family
ID=82139287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210304675.XA Active CN114693940B (zh) | 2022-03-22 | 2022-03-22 | 基于深度学习的特征混合可分解性增强的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114693940B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815604A (zh) * | 2017-01-16 | 2017-06-09 | 大连理工大学 | 基于多层信息融合的注视点检测方法 |
CN107239788A (zh) * | 2017-04-20 | 2017-10-10 | 浙江工业大学 | 基于密度自适应的特征向量组最优选取谱聚类方法 |
CN110516530A (zh) * | 2019-07-09 | 2019-11-29 | 杭州电子科技大学 | 一种基于非对齐多视图特征增强的图像描述方法 |
CN111292380A (zh) * | 2019-04-02 | 2020-06-16 | 展讯通信(上海)有限公司 | 图像处理方法及装置 |
CN111612075A (zh) * | 2020-05-22 | 2020-09-01 | 中国科学院自动化研究所 | 基于联合特征重组和特征混合的兴趣点、描述符提取方法 |
CN112859116A (zh) * | 2020-12-28 | 2021-05-28 | 杭州电子科技大学 | 基于主特征盲源分离的单天线gnss欺骗式干扰检测方法 |
CN113837231A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于混合样本与标签的数据增强的图像描述方法 |
WO2021258920A1 (zh) * | 2020-06-24 | 2021-12-30 | 百果园技术(新加坡)有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
-
2022
- 2022-03-22 CN CN202210304675.XA patent/CN114693940B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815604A (zh) * | 2017-01-16 | 2017-06-09 | 大连理工大学 | 基于多层信息融合的注视点检测方法 |
CN107239788A (zh) * | 2017-04-20 | 2017-10-10 | 浙江工业大学 | 基于密度自适应的特征向量组最优选取谱聚类方法 |
CN111292380A (zh) * | 2019-04-02 | 2020-06-16 | 展讯通信(上海)有限公司 | 图像处理方法及装置 |
CN110516530A (zh) * | 2019-07-09 | 2019-11-29 | 杭州电子科技大学 | 一种基于非对齐多视图特征增强的图像描述方法 |
CN111612075A (zh) * | 2020-05-22 | 2020-09-01 | 中国科学院自动化研究所 | 基于联合特征重组和特征混合的兴趣点、描述符提取方法 |
WO2021258920A1 (zh) * | 2020-06-24 | 2021-12-30 | 百果园技术(新加坡)有限公司 | 生成对抗网络训练方法、图像换脸、视频换脸方法及装置 |
CN112859116A (zh) * | 2020-12-28 | 2021-05-28 | 杭州电子科技大学 | 基于主特征盲源分离的单天线gnss欺骗式干扰检测方法 |
CN113837231A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 一种基于混合样本与标签的数据增强的图像描述方法 |
Non-Patent Citations (4)
Title |
---|
BENJAMIN Z. YAO 等: "I2T: Image Parsing to Text Description" * |
潘双夏 等: "面向并行设计的特征识别与模型重构方法" * |
苗益 等: "图像描述技术综述" * |
谢从华 等: "面向叶子图像的植物归类的特征序列描述方法" * |
Also Published As
Publication number | Publication date |
---|---|
CN114693940B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985369B (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
Jiang et al. | Integration of global and local metrics for domain adaptation learning via dimensionality reduction | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110288029B (zh) | 基于Tri-LSTMs模型的图像描述方法 | |
CN109753567A (zh) | 一种结合标题与正文注意力机制的文本分类方法 | |
CN113535953B (zh) | 一种基于元学习的少样本分类方法 | |
CN110866542A (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN110347831A (zh) | 基于自注意力机制的情感分类方法 | |
CN114239585A (zh) | 一种生物医学嵌套命名实体识别方法 | |
CN113642602B (zh) | 一种基于全局与局部标签关系的多标签图像分类方法 | |
Han et al. | Attention-based memory network for text sentiment classification | |
CN109740536A (zh) | 一种基于特征融合神经网络的亲属识别方法 | |
CN112017255A (zh) | 一种根据食谱生成食物图像的方法 | |
Zhang et al. | Dictionary learning and face recognition based on sample expansion | |
CN116030296A (zh) | 用于图文数据协同的社交平台数据挖掘方法及其系统 | |
CN114170659A (zh) | 一种基于注意力机制的面部情感识别方法 | |
Puscasiu et al. | Automated image captioning | |
CN117011638A (zh) | 一种端到端的图像掩码预训练方法及装置 | |
CN114491289B (zh) | 一种双向门控卷积网络的社交内容抑郁检测方法 | |
Tilki et al. | Gender classification using deep learning techniques | |
Li et al. | Multimodal fusion with co-attention mechanism | |
Liu et al. | Research on advertising content recognition based on convolutional neural network and recurrent neural network | |
CN116611896B (zh) | 基于属性驱动解耦表征学习的多模态推荐方法 | |
CN117851591A (zh) | 一种基于bigbird和图注意力网络的多标签长文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |