CN113837233B - 基于样本自适应语义引导的自注意力机制的图像描述方法 - Google Patents
基于样本自适应语义引导的自注意力机制的图像描述方法 Download PDFInfo
- Publication number
- CN113837233B CN113837233B CN202111005897.3A CN202111005897A CN113837233B CN 113837233 B CN113837233 B CN 113837233B CN 202111005897 A CN202111005897 A CN 202111005897A CN 113837233 B CN113837233 B CN 113837233B
- Authority
- CN
- China
- Prior art keywords
- self
- semantic
- network
- attention
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000007246 mechanism Effects 0.000 title claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 22
- 230000002787 reinforcement Effects 0.000 claims description 13
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 150000001875 compounds Chemical group 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000007796 conventional method Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- VTYYLEPIZMXCLO-UHFFFAOYSA-L Calcium carbonate Chemical compound [Ca+2].[O-]C([O-])=O VTYYLEPIZMXCLO-UHFFFAOYSA-L 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
基于样本自适应语义引导的自注意力机制的图像描述方法,属于人工智能技术领域。针对传统采用自注意力机制的方法对于每个样本参数固定的缺点,包括以下步骤:1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)采用语义概念检测器针对待描述图像提取若干个语义概念;3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化;4)利用步骤3)强化过后的语义概念特征和一个参数生成网络,生成一个的自注意网络的参数;5)将步骤3)强化过的视觉特征输入到生成的自注意力网络中,通过语义生成的自注意力网络来实现更好的视觉表达;6)将步骤5)输出的视觉特征输入到解码器中,生成图像的描述语句,并定义损失函数。
Description
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及用自然语言对图像客观内容进行描述的一种基于样本自适应语义引导的自注意力机制的图像描述方法。
背景技术
图像自动描述(Image Captioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是将于一张给定图像,用自然语言对图像客观内容进行描述。随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。与目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
较早的图像自动描述方法主要采用基于模板的方法和基于检索的方法实现。近年来受自然语言处理发展的影响,开始使用基于编码器-解码器框架的方法,通常采用预训练卷积神经网络(CNN)的变体作为图像编码器,同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数,使得该任务取得极大的进展。
Xu等人[1]首次在图像描述任务中引入注意力机制,以在每个生成步骤中专注于最相关的区域。Lu等人[2]开发自适应注意来确定在每个解码步骤中是依赖视觉特征还是语言模型状态。Rennie等人[3]将强化学习技术引入到图像描述任务中,极大的提升图像描述方法的性能。最近,Anderson等人[4]还提出自下而上的注意力技术,以基于图像的区域特征来找到最相关的显着区域。Huang等人[5]则首次引入自然语言处理中的transformer模型到图像描述任务中,Pan等人[6]和Cornia[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。此外,Liu等人[8][9]和Li等人[10]使用Transformer来集成视觉信息和外部标记器提供的语义概念来完成图像描述任务。然而,在这些针对图像描述任务的模型中,测试阶段的模型参数是固定的,这限制模型的泛化能力。
参考文献:
[1].Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio, Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.
[2].Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.
[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel. 2017.Self-critical sequence training forimage captioning.InCVPR.
[4].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018. Bottom-up and top-down attention for image captioning andvisual question answering.In CVPR.
[5].Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.
[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.
[7].Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.
[8].Fenglin Liu,Yuanxin Liu,Xuancheng Ren,Xiaodong He,and XuSun.2019.Aligning visual regions and textual concepts forsemantic-groundedimage representations.In NeurIPS.
[9].Fenglin Liu,Xian Wu,Shen Ge,Xiaoyu Zhang,Wei Fan,and YuexianZou.2020. Bridging the gap between vision and language domains for improvedimage captioning.In ACM MM.
[10].Guang Li,Linchao Zhu,Ping Liu,and YiYang.2019.Entangledtransformer for image captioning.In ICCV.
发明内容
本发明的目的在于针对传统基于transformer的图像描述方法在测试阶段参数固定泛化性下降的问题,以及当前使用语义信息的模型中语义噪声过大等问题,提供一种基于样本自适应语义引导的自注意力机制的图像描述方法。本发明通过一个参数生成网络,利用每一个输入样本的语义概念信息生成不同的自注意网络的参数,通过这个生成的自注意网络来用语义引导视觉特征的互相关注,加强视觉特征的语义信息,从而提高生成描述的准确性。
本发明包括以下步骤:
1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征A={a1,a2,...,aN},其中,ai∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
2)采用语义概念检测器随机提取待描述图像的若干个语义概念C={c1,c2,...,cN},其中, ci∈Vd,i=1,2,...,N,V为单词表,d为单词表中单词数,N为提取语义概念的数量;
3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化;
4)利用步骤3)强化过后的语义概念特征和一个参数生成自注意力网络,生成自注意力网络的参数;
5)将步骤3)强化过的视觉特征输入到步骤4)生成的自注意力网络中,提取语义引导的视觉特征;
6)将步骤5)输出的视觉特征输入到解码器中,生成图像的描述语句,并定义损失函数。
在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster-RCNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
在步骤2)中,所述语义概念检测器的训练方法是:语义概念检测器采用框架,其骨架网络是VGG16网络,首先在ImageNet数据上对骨架网络预训练,然后再使用noise-OR版本的弱监督训练方法,在MSCOCO数据集上进行微调网络参数。
在步骤3)中,所述将步骤1和步骤2提取的特征分别通过不同的自注意力网络进行特征强化的具体过程为:将视觉特征A或者语义概念特征C输入到不同的自注意网络中进行特征强化,所使用的到的自注意网络为:
针对给定的索引Q,键K,以及值V,
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,d为缩放因子,softmax函数为归一化指数函数。
在步骤4)中,所述将强化后的语义概念特征和一个参数生成网络,生成一个的自注意网络的参数。所述参数生成网络为:
针对给定的语义强化特征
s1=W12 ReLU(W11z),
s2=W22 ReLU(W21z),
其中,z为语义概念特征的平均值,都为参数生成网络的参数矩阵。d为模型的隐藏维度,s1,s2均为d维的向量,σD(x)是一个动态的激活函数,其参数v,w通过训练得到。WDQ为最终得到的自注意网络的参数矩阵。
在步骤5)中,所述将步骤3强化过的视觉特征输入到步骤4生成的自注意力网络中,提取语义引导的视觉特征,即:
QD=(X+PE)WDQ,
KD=(X+PE)WDK,
V=XWV,
其中,X为步骤3强化的视觉特征,PE是位置信息编码,WDQ,WDK,为生成的参数矩阵,WV是一个固定参数的参数矩阵,Q,K,V是给定的索引,键,以及值,QD,KD是经过参数生成网络后得到的索引和键,ΩD是视觉特征自关注的权值,是最终得到的经语义引导的视觉特征。
在步骤6)中,将步骤5输出的视觉特征输入到解码器中,生成图像的描述语句,定义生成语句的损失函数,具体流程为:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为输出为/>该层的过程定义如下:
Vg=(VL;gF),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。对于预测的句子 YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子而言,其损失函数定义为:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
其中,是beam search采样的第i个句子,b=(∑ir(Yi))/k作为基线值。
本发明的优点如下:
通过本发明所提出的方案能够获得一个动态的,样本自适应的语义引导的图像描述方法。本发明在充满噪声的语义概念中,使用一种间接的语义引导方法,通过使用不同样本的不同语义概念来构造样本自适应的自注意网络参数,让每个样本对应的视觉特征接受对应的语义信息的引导来进行自注意,减少直接将语义概念加入到视觉自关注中造成的噪声引入而产生的精度损失。同时,本发明具有很强的迁移性,能够适用于任何一个基于Transformer 结构的图像描述模型,并可以泛化到视觉问答和视觉定位任务,取得最好的性能。
附图说明
图1是本发明基于样本自适应语义引导的自注意力机制的图像描述方法的流程图;
图2是参数生成网络的流程图;其中ReLU和Sigmoid是两种经典的激活函数的名称;
图3是传统自注意网络和本发明的样本自适应语义引导的自注意网络的对比图;
图4是不同的图像描述模型生成的句子对比图;其中Transformer是一种经典的基线方法,MIA是直接将语义概念引入自注意网络的方法,每张图的右下角为不同图的不同语义概念生成的参数矩阵的热力图;
图5是基线模型和本发明模型在生成某个单词时关注区域的可视化的对比图。
具体实施方式
以下实施例将结合附图,对本发明进行详细说明。
本发明实施例包括以下步骤:
1)对于图像库中的图像,首先使用卷积神经网络抽取相应的图像特征A;
2)对于图像库中的图像,使用语义概念提取器提取语义概念C;
3)将图像特征A和语言概念C分别送入不同的自注意网络,将特征进一步编码,得到对应的隐藏特征和/>
4)将前述的语义概念隐藏特征送入到参数生成网络中,生成自注意网络的参数WDQ, WDK;
5)将前述的图像隐藏特征输入到生成的自注意网络,得到语义引导的图像特征O;
6)将前述的图像隐藏特征O输入到解码器中,生成图像的描述语句,定义损失函数。
本发明上述整体流程的流程图如图1所示,方法涉及的具体模块详述如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到10201个单词,对数据集描述中出现次数小于五的单词进行剔除,使用“<UNK>”进行替代,同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域,并使用残差深度卷积网络提出各个候选区相对应的特征其中,vi∈Rd, i=1,2,...,N,d为各个特征向量的维度,k为50,d为2048。首先,查询图像和待检索图像库的图像特征抽取的形式化描述为:对于训练集中的每幅图像提取d维的特征,得到一个d×n 的原始视觉特征矩阵X=[x1,x2,...,xn]∈Rd×n,其中,n表示训练集中的训练样本个数,xi为矩阵X第i列表示样本集合中第i个维度为d的特征向量。
再使用预训练好的语义概念检测器提取49个固定的语义概念,提取出的语义概念包括动词,名词和形容词。这些词中剔除掉'a','on','of','the','in','with','and','is', 'to','an','two','at','next','are'这些没有具体实际意义的语义概念,且提取出的语义概念只会是在数据集中出现次数前1000的词。
2、特征强化自注意网络
使用特征强化自注意网络,对输入的图像特征和语义概念特征进行强化编码。针对给定的索引Q,键K,以及值V,
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些矩阵由输入的特征X线性变换而来,这些向量的维度都相同,d为缩放因子,softmax 函数为归一化指数函数。
3、参数生成网络
针对得到的语义强化特征
s1=W12 ReLU(W11z),
s2=W22 ReLU(W21z),
其中,z为语义概念特征的平均值,都为参数生成网络的参数矩阵;d为模型的隐藏维度,s1,s2均为d维的向量,σD(x)是一个动态的激活函数,其参数v,w通过训练得到。WDQ为最终得到的自注意网络的参数矩阵。网络整体结构如图2所示。
4、使用生成参数的语义引导的自注意网络
使用生成的自注意力网络,提取语义引导的视觉特征,即:
QD=(X+PE)WDQ,
KD=(X+PE)WDK,
V=XWV,
其中,X为步骤3强化的视觉特征,PE是位置信息编码,WDQ,WDK,为生成的参数矩阵,WV是一个固定参数的参数矩阵,Q,K,V是给定的索引,键,以及值,QD,KD是经过参数生成网络后得到的索引和键,ΩD是视觉特征自关注的权值,是最终得到的经语义引导的视觉特征。网络整体结构如图3-b所示。
5、描述语句的生成和损失函数
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为输出为/>该层的过程定义如下:
Vg=(VL;gF),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表。对于预测的句子 YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子而言,其损失函数定义为:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
其中,是beamsearch采样的第i个句子,b=(∑ir(Yi))/k作为基线值。
为验证本发明提出的方法的可行性和先进性,在通用的评估图像描述方法的数据集 MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,可以看到在多种评估指标上以及不同的图像特征上,本发明所提出的方法在所有的指标上都具有很高的优势。此外,如图4所示,通过可视化输入图像所生成的文本描述(示例给出的描述为英文,中文描述自动生成过程同理),可以看到由于本发明的方法采用语义概念引导,和没有使用语义概念的方法(Transformer)相比,其在图像描述上取得很明显的增强;和直接使用语义概念的方法(MIA)对比,本发明并不直接将语义概念加入到自注意的输入,而是构造自注意的网络参数,实现间接的语义概念引入,且由于使用的语义概念存在非常多的噪声,直接使用语义概念的方法生成的描述语句会引入噪声,而本发明的方法解决这一问题。图5为基线方法(Transformer)和本发明方法对解码器关注区域的可视化的两种方法的对比,该结果表明本发明方法在语义概念的指导下,可以更准确的定位到要描述的区域。
表1本发明方法与当前最先进方法的比较
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (7)
1.基于样本自适应语义引导的自注意力机制的图像描述方法,其特征在于包括以下步骤:
1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征A={a1,a2,...,aN},其中,ai∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
2)采用语义概念检测器随机提取待描述图像的若干个语义概念C={c1,c2,...,cN},其中,ci∈Vd,i=1,2,...,N,V为单词表,d为单词表中单词数,N为提取语义概念的数量;
3)将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化;
4)利用步骤3)强化过后的语义概念特征和一个参数生成自注意力网络,生成自注意力网络的参数;
5)将步骤3)强化过的视觉特征输入到步骤4)生成的自注意力网络中,提取语义引导的视觉特征;
6)将步骤5)输出的视觉特征输入到解码器中,生成图像的描述语句,并定义损失函数。
2.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法,其特征在于在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster-RCNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法,其特征在于在步骤2)中,所述语义概念检测器的训练方法是:语义概念检测器采用框架,其骨架网络是VGG16网络,首先在ImageNet数据上对骨架网络预训练,然后再使用noise-OR版本的弱监督训练方法,在MSCOCO数据集上进行微调网络参数。
4.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法,其特征在于在步骤3)中,所述将步骤1)和2)提取的特征分别通过不同的自注意力网络进行特征强化的具体过程为:将视觉特征A或者语义概念特征C输入到不同的自注意网络中进行特征强化,所使用的到的自注意网络为:
针对给定的索引Q,键K,以及值V,
MultiHead(Q,K,V)=Concat(H1,...,Hh)Wo,
Hi=Attention(QWi Q,KWi K,VWi V),
其中,Q是一个具有nq个索引向量的矩阵,K和V分别是具有nk个键向量和值向量的矩阵,这些向量的维度都相同,d为缩放因子,softmax函数为归一化指数函数。
5.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法,其特征在于在步骤4)中,所述生成自注意力网络的参数如下:
针对给定的语义强化特征
s1=W12 ReLU(W11z),
s2=W22 ReLU(W21z),
其中,z为语义概念特征的平均值,都为参数生成网络的参数矩阵;d为模型的隐藏维度,s1,s2均为d维的向量,σD(x)是一个动态的激活函数,其参数v,w通过训练得到;WDQ为最终得到的自注意网络的参数矩阵。
6.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法,其特征在于在步骤5)中,所述将步骤3)强化过的视觉特征输入到步骤4)生成的自注意力网络中,提取语义引导的视觉特征,具体步骤为:
QD=(X+PE)WDQ,
KD=(X+PE)WDK,
V=XWV,
其中,X为步骤3强化的视觉特征,PE是位置信息编码,WDQ,WDK,为生成的参数矩阵,WV是一个固定参数的参数矩阵,Q,K,V是给定的索引、键以及值,QD,KD是经过参数生成网络后得到的索引和键,ΩD是视觉特征自关注的权值,是最终得到的经语义引导的视觉特征。
7.如权利要求1所述基于样本自适应语义引导的自注意力机制的图像描述方法,其特征在于在步骤6)中,所述将步骤5)输出的视觉特征输入到解码器中,生成图像的描述语句,并定义损失函数,具体步骤为:
首先假设t为句子序列的第t个词,wt表示t时刻输入的词所对应的的词向量,由此得到解码器的词向量输入矩阵为:
Wt-1=(w0,w1,...,wt-1),
与编码器相同,解码器也是由L层相同的结构组成,定义第l+1的输入为输出为/>该层的过程定义如下:
Vg=(VL;gF),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表;对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的目标句子而言,其损失函数定义为:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
其中,是beam search采样的第i个句子,b=(∑ir(Yi))/k作为基线值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005897.3A CN113837233B (zh) | 2021-08-30 | 2021-08-30 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005897.3A CN113837233B (zh) | 2021-08-30 | 2021-08-30 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837233A CN113837233A (zh) | 2021-12-24 |
CN113837233B true CN113837233B (zh) | 2023-11-17 |
Family
ID=78961570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111005897.3A Active CN113837233B (zh) | 2021-08-30 | 2021-08-30 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837233B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115700781B (zh) * | 2022-11-08 | 2023-05-05 | 广东技术师范大学 | 一种动态场景下基于图像补绘的视觉定位方法及系统 |
CN116204674B (zh) * | 2023-04-28 | 2023-07-18 | 中国科学技术大学 | 一种基于视觉概念词关联结构化建模的图像描述方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
-
2021
- 2021-08-30 CN CN202111005897.3A patent/CN113837233B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
WO2021051503A1 (zh) * | 2019-09-19 | 2021-03-25 | 平安科技(深圳)有限公司 | 基于语义表征模型的文本分类方法、装置和计算机设备 |
CN111737511A (zh) * | 2020-06-17 | 2020-10-02 | 南强智视(厦门)科技有限公司 | 基于自适应局部概念嵌入的图像描述方法 |
CN112966127A (zh) * | 2021-04-07 | 2021-06-15 | 北方民族大学 | 一种基于多层语义对齐的跨模态检索方法 |
Non-Patent Citations (1)
Title |
---|
场景语义树图像标注方法;刘咏梅;杨帆;于林森;中国图象图形学报;18(5);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113837233A (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581961B (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
CN112819013A (zh) | 基于层内层间联合全局表示的图像描述方法 | |
CN113837233B (zh) | 基于样本自适应语义引导的自注意力机制的图像描述方法 | |
Peng et al. | Recognition of handwritten Chinese text by segmentation: a segment-annotation-free approach | |
JP2022543123A (ja) | 画像における自然言語句の文脈接地 | |
Wang et al. | Stroke constrained attention network for online handwritten mathematical expression recognition | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
Guo et al. | Implicit discourse relation recognition via a BiLSTM-CNN architecture with dynamic chunk-based max pooling | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Wu et al. | TDv2: a novel tree-structured decoder for offline mathematical expression recognition | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
Hua et al. | Adversarial reinforcement learning with object-scene relational graph for video captioning | |
Wang et al. | Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network | |
Peng et al. | Image to LaTeX with graph neural network for mathematical formula recognition | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
Bansal et al. | Visual content based video retrieval on natural language queries | |
CN115982629A (zh) | 一种基于语义引导的特征选择的图像描述方法 | |
CN113837231B (zh) | 一种基于混合样本与标签的数据增强的图像描述方法 | |
Parvin et al. | Image captioning using transformer-based double attention network | |
Qi et al. | Video captioning via a symmetric bidirectional decoder | |
CN115017356A (zh) | 图像文本对的判断方法和装置 | |
CN116266268A (zh) | 基于对比学习与语义感知的语义解析方法及装置 | |
El-Gayar | Automatic Generation of Image Caption Based on Semantic Relation using Deep Visual Attention Prediction | |
Xue et al. | A multi-modal fusion framework for continuous sign language recognition based on multi-layer self-attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |