CN114693940A - 基于深度学习的特征混合可分解性增强的图像描述方法 - Google Patents

基于深度学习的特征混合可分解性增强的图像描述方法 Download PDF

Info

Publication number
CN114693940A
CN114693940A CN202210304675.XA CN202210304675A CN114693940A CN 114693940 A CN114693940 A CN 114693940A CN 202210304675 A CN202210304675 A CN 202210304675A CN 114693940 A CN114693940 A CN 114693940A
Authority
CN
China
Prior art keywords
features
feature
module
mixing
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210304675.XA
Other languages
English (en)
Other versions
CN114693940B (zh
Inventor
李宏亮
邱奔流
高翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210304675.XA priority Critical patent/CN114693940B/zh
Publication of CN114693940A publication Critical patent/CN114693940A/zh
Application granted granted Critical
Publication of CN114693940B publication Critical patent/CN114693940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于深度学习的特征混合可分解性增强的图像描述方法,旨在直接变换图片内各个目标的深层视觉特征,来为视觉特征赋予混合可分解性,通过混合模块来生成混合特征,通过特征提取器提取初始特征,利用混合模块读取一个主特征一个副特征来生成混合特征,再通过分解模块来重构主特征。进一步的,根据特征提取器提取的特征的分类损失、混合模块的混合损失和分解模块重构出的特征的分类损失,利用反向传播和梯度下降算法来更新模型参数,以增强特征提取器提取的特征的混合可分解性。本发明提取的特征具有更强的可分解性,能广泛地应用于视觉问答和图片标注等一系列下游任务,来提升下游任务模型的表现。

Description

基于深度学习的特征混合可分解性增强的图像描述方法
技术领域
本发明涉及机器学习中的表示学习技术;特别涉及图像描述技术。
背景技术
伴随着深度学习技术的发展和成熟,深度学习技术与人们日常生活的结合越来越紧密。深度学习技术在计算机视觉中丰富多彩的应用场景,也对特征应该具有的性质提出了更高的要求。更高层次的计算机视觉下游任务的解决,往往需要利用上游任务提取的低层次视觉信息。这些低层次信息作为下游高层次任务的基础,对下游任务的解决有着很大的影响。为了使特征提取器提取的视觉特征能提升已有模型在下游任务上的表现,我们需要赋予特征更多的优良性质。本发明主要致力于训练一个特征提取器,来提取具有混合可分解性的视觉特征。
目前,一些数据增强方法通过直接对输入图片进行旋转、翻转等变换,来丰富原始训练图片集,以增强特征提取器提取的特征具有的旋转不变性和翻转不变性等。然而,这类直接变换输入图片的方法,缺乏对模型深层特征的直接增强。另外,这些方法大多变换整张图片,而缺乏更精细的变换图片内部各个目标的操作,也缺乏对特征混合可分解性这一优良性质的增强。
发明内容
本发明提出一种提取的目标的特征相比原始的目标特征有更好的混合可分解性的基于深度学习的特征混合可分解性增强方法,为后续的更精准的图像分类提供基础。
本发明为解决上述技术问题所采用的技术方案是,基于深度学习的特征混合可分解性增强的图像描述方法,特征提取器的训练步骤如下:
特征提取步骤:特征提取器接收输入的N对目标标签对
Figure BDA0003558167810000011
为每个带标签yi的目标图像xi生成特征fi
Figure BDA0003558167810000012
Figure BDA0003558167810000013
是标签集合;
混合步骤:混合模块将特征fi作为主特征,以其它目标图像的特征作为副特征生成目标图像xi的混合特征mij
Figure BDA0003558167810000014
其中,fi为目标图像xi的特征,fj为其他目标图像xj的特征,j=1,...,N,i≠j;
Figure BDA0003558167810000021
代表对应位置元素相加,∈是超参数;
Figure BDA0003558167810000022
是从主副目标索引对到主副标签对的映射,ul(i,j)为映射l(i,j)的加权系数,ul(i,j)∈[0,1];
分解步骤:分解模块利用预设的目标特征字典D从混合特征mij中重构出能体现特征可分解性的主特征oi
Figure BDA0003558167810000023
其中,目标特征字典D由C个类别的目标图像的均值特征组成,
Figure BDA0003558167810000024
P(c)表示类别c的目标占整个有标签目标的比例,c=1,...,C;P(·)表示某个类别的目标占整个数据集中有标签目标的比例;W1和W2均为输出维度是σ的全连接层,W1(·)和W2(·)代表全连接层的输出;I表示转置,⊙表示对应元素相乘,
Figure BDA0003558167810000025
表示矩阵乘法,Softmax表示Softmax函数;
训练过程中特征提取模块通过分类损失进行约束;混合模块通过混合损失进行约束;分解模块通过分解损失进行约束;
使用训练好的特征提取器来提取用于描述图像的目标特征。
本发明旨在直接变换图片内各个目标的深层视觉特征,来为视觉特征赋予混合可分解性,尝试通过混合模块来生成混合特征,主要是通过特征提取器提取初始特征,利用混合模块读取两个初始特征(一个作为主特征,另一个作为副特征)来生成混合特征,通过分解模块来重构主特征。进一步的,根据特征提取器提取的特征的分类损失、混合模块的混合损失和分解模块重构出的特征的分类损失,利用反向传播和梯度下降算法来更新模型参数,以增强特征提取器提取的特征的混合可分解性。
本发明的有益效果是,利用本发明的方法训练的特征提取器,其提取的特征具有更强的可分解性,可通过与其他特征直接级联的方式广泛地应用于视觉问答和图片标注等一系列下游任务,来提升下游任务模型的表现。具有使用范围广、使用方便的特点。
附图说明
图1:本发明整体框架图
图2:混合模块计算图
图3:分解模块计算图
具体实施方式
实现本发明基于深度学习的特征混合可分解性增强方法的整体构架如图1所示,包含特征提取模块、混合模块和分解模块三个部分,由分类损失、混合损失和分解损失来分别指导三个模块的学习。
下面将首先说明特征提取模块、混合模块和分解模块的具体设计。
设目前已获得目标标签对数据共N对,表示为
Figure BDA0003558167810000031
其中xi是从图片中使用预先准备好的检测框裁剪出的索引为i的目标图像,yi是该目标对应的标签,
Figure BDA0003558167810000032
Figure BDA0003558167810000033
是标签集合。对于特征提取器
Figure BDA0003558167810000034
可产生目标图像xi的视觉特征:
Figure BDA0003558167810000035
为每个带标签目标生成混合特征。例如,如果一张图片有M个带标签目标,那么我们能够为每个带标签目标计算M-1个混合特征。当计算某个带标签目标xi的混合特征时,该目标称为主目标,其对应的特征fi称为主特征,用来混合主目标的其他目标称为副目标,副目标xj对应的特征fj称为副特征。
混合模块如图2所示,其利用副特征fj来混合主特征fi得到混合特征mij的操作如下:
Figure BDA0003558167810000036
其中
Figure BDA0003558167810000037
是从主副目标索引对到主副标签对的映射,ul(i,j)为映射l(i,j)的加权系数,ul(i,j)∈[0,1]。符号
Figure BDA0003558167810000038
代表对应位置元素相加,∈是超参数。
分解模块从混合模块生成的混合特征中重构出主特征,来体现特征的可分解性。由于不能在没有先验知识的条件下仅由混合特征重构出主特征,因此分解模块中集成了一个预先准备的目标特征字典D。字典为每个类别的目标存储了一个均值特征di,该均值特征是预训练的特征提取器提取的所有该类目标的特征的均值。分解模块的输入仅有混合特征mij。在给定目标特征字典
Figure BDA0003558167810000041
即数据集中标签种类的数量),如图3所示,其计算重构输出特征oi的方式如下:
Figure BDA0003558167810000042
其中q=W1(mij),K=W2(DT),P(·)表示某个类别的目标占整个数据集中有标签目标的比例。W1和W2分别代表输出维度是σ的全连接层,W1(·)和W2(·)代表全连接层的输出,T表示转置。符号⊙表示对应元素相乘,
Figure BDA0003558167810000043
表示矩阵乘法。
下面分别说明分类损失、分解损失和混合损失的具体计算方法。
该发明使用一个分类器读取特征提取器提取的特征,来判断该特征对应目标的标签。交叉熵损失被用作分类损失来指导特征提取器和分类器的学习,分类损失计算如下:
Figure BDA0003558167810000044
其中
Figure BDA0003558167810000045
是目标特征fi的真实标签,p(·)代表接在特征提取器顶部的分类器。由于分解模块的输出特征应该和特征提取器提取的特征相似,本发明使用了接在特征提取器顶部的分类器p(·),来判断分解出的特征的标签。与式(4)类似,分解损失也采用交叉熵损失,计算如下:
Figure BDA0003558167810000046
其中oi是分解出的相似于主特征fi的特征,其真实标签即为主特征的fi的真实标签
Figure BDA0003558167810000047
为了指导混合模块的学习,本发明采用的混合特征由两部分构成。这是因为一方面,混合模块要利用副特征将主特征充分混合,另一方面又不能彻底破坏主特征。前者通过分类器p(·)对混合特征的分类损失很大来体现,后者通过限制ul(i,j)过小来实现。因此,用来指导混合模块学习的混合损失构造如下:
Figure BDA0003558167810000048
其中,N(i)代表目标xi所在图片中余下的有标记目标的数量,k(i,·):{1,...,N(i)}→{1,...,N}是从目标xi所在图片中余下目标的局部索引,到整个数据集中所有的带标记目标的全局索引的映射,k(i,j)即代表目标xi所在图片中局部索引为j的目标在整个数据集中的全局索引,取值范围1到N;u为由ul(i,j)组成的大小为
Figure BDA0003558167810000051
的矩阵,
Figure BDA0003558167810000052
表示集合
Figure BDA0003558167810000053
中的元素个数;||·||代表某种范数,可取二范数,λ是用来平衡该损失的两个部分的超参数。
最后,本发明采用了交替训练的策略来指导特征提取器、混合模块和分解模块的学习。在整个训练过程中,特征提取器始终可以更新参数,而混合模块和分解模块交替更新参数。具体来说,当特征提取器和混合模块参数更新时,分解模块参数不变,特征提取器提取的特征的分类损失和混合损失直接相加的结果来反向传播和梯度更新特征提取器和混合模块的参数;而当特征提取器和分解模块参数更新时,特征提取器提取的特征的分类损失和分解损失直接相加的结果来反向传播和梯度更新特征提取器和分解模块的参数,此时混合模块参数不变。
实施例
本发明在PyTorch深度学习框架上实现,主要包括如下步骤:特征提取器提取特征,计算用特征提取器提取的特征的分类损失,选取图片中主特征和副特征来计算混合特征,计算混合损失,利用分解模块分解出主特征,计算分解出的特征的分解损失,根据分类损失、混合损失和分解损失来更新模块参数。
步骤一:
第1步:特征提取器
Figure BDA0003558167810000058
给一个批次数据中每个带标记的目标xi提取特征fi
第2步:按照式(4)计算特征提取器提取特征fi的分类损失
Figure BDA0003558167810000054
第3步:针对同一张图片中所有带标签目标的特征,按照式(2)操作,生成混合特征mij
第4步:按照式(6)计算混合损失
Figure BDA0003558167810000055
第5步:计算混合损失
Figure BDA0003558167810000056
与分类损失
Figure BDA0003558167810000057
的和;
第6步:根据上一步计算的损失之和,来反向传播和梯度更新特征提取器和混合模块的参数;
步骤二:
第7步:特征提取器
Figure BDA0003558167810000059
给一个批次数据中每个带标记的目标xi提取特征fi
第8步:按照式(4)计算特征提取器提取特征fi的分类损失
Figure BDA0003558167810000061
第9步:读取混合模块生成的混合特征mij,使用分解模块,按式(3)重构出特征oi
第10步:按照式(5)计算分解损失
Figure BDA0003558167810000062
第11步:计算分解损失
Figure BDA0003558167810000063
与分类损失
Figure BDA0003558167810000064
的和;
第12步:根据上一步计算的损失之和,来反向传播和梯度更新特征提取器和分解模块的参数;
步骤三:
第13步:循环到第1步,开始下一周期的训练,直到达到预先设定的循环次数。
第14步:使用训练好的特征提取器来提取目标特征用于视觉问答或图片标注等下游任务的训练和测试。

Claims (6)

1.基于深度学习的特征混合可分解性增强的图像描述方法,其特征在于,特征提取器的训练步骤如下:
特征提取步骤:特征提取器接收输入的N对目标标签对
Figure FDA0003558167800000011
组成的数据集,为每个带标签yi的目标图像xi生成特征fi
Figure FDA0003558167800000012
Figure FDA0003558167800000013
是标签集合;
混合步骤:混合模块将特征fi作为主特征,以其它目标图像的特征作为副特征生成目标图像xi的混合特征mij
Figure FDA0003558167800000014
其中,fi为目标图像xi的特征,fj为其他目标图像xj的特征,j=1,…,N,i≠j;
Figure FDA0003558167800000015
代表对应位置元素相加,∈是超参数;l(i,j):
Figure FDA0003558167800000016
是从主副目标索引对到主副标签对的映射,ul(i,j)为映射l(i,j)的加权系数,ul(i,j)∈[0,1];
分解步骤:分解模块利用预设的目标特征字典D从混合特征mij中重构出能体现特征可分解性的主特征oi
Figure FDA0003558167800000017
其中,目标特征字典D由C个类别的目标图像的均值特征组成,
Figure FDA0003558167800000018
P(c)表示类别c的目标占整个有标签目标的比例,c=1,…,C;P(·)表示某个类别的目标占整个数据集中有标签目标的比例;W1(·)和W2(·)代表输出维度是σ的全连接层;T表示转置,⊙表示对应元素相乘,
Figure FDA0003558167800000019
表示矩阵乘法,Softmax表示Softmax函数;
训练过程中特征提取模块通过分类损失进行约束;混合模块通过混合损失进行约束;分解模块通过分解损失进行约束;
使用训练好的特征提取器来提取用于描述图像的目标特征。
2.如权利要求1所述方法,其特征在于,特征提取器在训练过程中持续更新参数,混合模块和分解模块在训练过程中交替更新参数。
3.如权利要求2所述方法,其特征在于,当特征提取器和混合模块参数更新时,分解模块参数不变,使用分类损失和混合损失直接相加的结果来反向传播和梯度更新特征提取器和混合模块的参数;
而当特征提取器和分解模块参数更新时,混合模块参数不变,使用分类损失和分解损失直接相加的结果来反向传播和梯度更新特征提取器和分解模块的参数。
4.如权利要求1所述方法,其特征在于,分类损失
Figure FDA0003558167800000021
的具体计算方式如下:
Figure FDA0003558167800000022
其中,
Figure FDA0003558167800000023
是目标特征fi的真实标签,p1(·)代表接在特征提取器顶部的分类器。
5.如权利要求1所述方法,其特征在于,分解损失
Figure FDA0003558167800000024
的具体计算方式如下:
Figure FDA0003558167800000025
其中,
Figure FDA0003558167800000026
是主特征oi的真实标签,p2(·)代表接在分解模块顶部的分类器。
6.如权利要求1所述方法,其特征在于,混合损失
Figure FDA0003558167800000027
的具体计算方式如下:
Figure FDA0003558167800000028
其中,
Figure FDA0003558167800000029
是混合特征mik(i,j)的真实标签,p3(·)代表接在混合模块顶部的分类器;N(i)代表目标图像xi所在图片中余下的有标记目标的数量,k(i,j)即代表目标图像xi所在图片中局部索引为j的目标在整个数据集中的全局索引,λ是用来平衡该损失的两个部分的超参数。
CN202210304675.XA 2022-03-22 2022-03-22 基于深度学习的特征混合可分解性增强的图像描述方法 Active CN114693940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210304675.XA CN114693940B (zh) 2022-03-22 2022-03-22 基于深度学习的特征混合可分解性增强的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210304675.XA CN114693940B (zh) 2022-03-22 2022-03-22 基于深度学习的特征混合可分解性增强的图像描述方法

Publications (2)

Publication Number Publication Date
CN114693940A true CN114693940A (zh) 2022-07-01
CN114693940B CN114693940B (zh) 2023-04-28

Family

ID=82139287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210304675.XA Active CN114693940B (zh) 2022-03-22 2022-03-22 基于深度学习的特征混合可分解性增强的图像描述方法

Country Status (1)

Country Link
CN (1) CN114693940B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN107239788A (zh) * 2017-04-20 2017-10-10 浙江工业大学 基于密度自适应的特征向量组最优选取谱聚类方法
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
CN111292380A (zh) * 2019-04-02 2020-06-16 展讯通信(上海)有限公司 图像处理方法及装置
CN111612075A (zh) * 2020-05-22 2020-09-01 中国科学院自动化研究所 基于联合特征重组和特征混合的兴趣点、描述符提取方法
CN112859116A (zh) * 2020-12-28 2021-05-28 杭州电子科技大学 基于主特征盲源分离的单天线gnss欺骗式干扰检测方法
CN113837231A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于混合样本与标签的数据增强的图像描述方法
WO2021258920A1 (zh) * 2020-06-24 2021-12-30 百果园技术(新加坡)有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815604A (zh) * 2017-01-16 2017-06-09 大连理工大学 基于多层信息融合的注视点检测方法
CN107239788A (zh) * 2017-04-20 2017-10-10 浙江工业大学 基于密度自适应的特征向量组最优选取谱聚类方法
CN111292380A (zh) * 2019-04-02 2020-06-16 展讯通信(上海)有限公司 图像处理方法及装置
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
CN111612075A (zh) * 2020-05-22 2020-09-01 中国科学院自动化研究所 基于联合特征重组和特征混合的兴趣点、描述符提取方法
WO2021258920A1 (zh) * 2020-06-24 2021-12-30 百果园技术(新加坡)有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN112859116A (zh) * 2020-12-28 2021-05-28 杭州电子科技大学 基于主特征盲源分离的单天线gnss欺骗式干扰检测方法
CN113837231A (zh) * 2021-08-30 2021-12-24 厦门大学 一种基于混合样本与标签的数据增强的图像描述方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BENJAMIN Z. YAO 等: "I2T: Image Parsing to Text Description" *
潘双夏 等: "面向并行设计的特征识别与模型重构方法" *
苗益 等: "图像描述技术综述" *
谢从华 等: "面向叶子图像的植物归类的特征序列描述方法" *

Also Published As

Publication number Publication date
CN114693940B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
Jiang et al. Integration of global and local metrics for domain adaptation learning via dimensionality reduction
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110288029B (zh) 基于Tri-LSTMs模型的图像描述方法
CN109753567A (zh) 一种结合标题与正文注意力机制的文本分类方法
CN113535953B (zh) 一种基于元学习的少样本分类方法
CN110866542A (zh) 一种基于特征可控融合的深度表示学习方法
CN110347831A (zh) 基于自注意力机制的情感分类方法
CN114239585A (zh) 一种生物医学嵌套命名实体识别方法
CN113642602B (zh) 一种基于全局与局部标签关系的多标签图像分类方法
Han et al. Attention-based memory network for text sentiment classification
CN109740536A (zh) 一种基于特征融合神经网络的亲属识别方法
CN112017255A (zh) 一种根据食谱生成食物图像的方法
Zhang et al. Dictionary learning and face recognition based on sample expansion
CN116030296A (zh) 用于图文数据协同的社交平台数据挖掘方法及其系统
CN114170659A (zh) 一种基于注意力机制的面部情感识别方法
Puscasiu et al. Automated image captioning
CN117011638A (zh) 一种端到端的图像掩码预训练方法及装置
CN114491289B (zh) 一种双向门控卷积网络的社交内容抑郁检测方法
Tilki et al. Gender classification using deep learning techniques
Li et al. Multimodal fusion with co-attention mechanism
Liu et al. Research on advertising content recognition based on convolutional neural network and recurrent neural network
CN116611896B (zh) 基于属性驱动解耦表征学习的多模态推荐方法
CN117851591A (zh) 一种基于bigbird和图注意力网络的多标签长文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant