CN111612103A - 结合抽象语义表示的图像描述生成方法、系统及介质 - Google Patents

结合抽象语义表示的图像描述生成方法、系统及介质 Download PDF

Info

Publication number
CN111612103A
CN111612103A CN202010581219.0A CN202010581219A CN111612103A CN 111612103 A CN111612103 A CN 111612103A CN 202010581219 A CN202010581219 A CN 202010581219A CN 111612103 A CN111612103 A CN 111612103A
Authority
CN
China
Prior art keywords
image
abstract semantic
semantic representation
training
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010581219.0A
Other languages
English (en)
Other versions
CN111612103B (zh
Inventor
唐晋韬
陈凤
李莎莎
庞焜元
王挺
王攀成
林登雯
何亮亮
徐钦杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010581219.0A priority Critical patent/CN111612103B/zh
Publication of CN111612103A publication Critical patent/CN111612103A/zh
Application granted granted Critical
Publication of CN111612103B publication Critical patent/CN111612103B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种结合抽象语义表示的图像描述生成方法、系统及介质,本发明训练用于生成图像描述的语言生成器的步骤包括针对训练数据集进行抽象语义表示标注;基于训练数据集训练抽象语义表示预测器;将图像的候选区域视觉特征作为图像的视觉特征,图像的抽象语义表示特征作为语义特征作为输入训练语言生成器;使用训练好的语言生成器对测试集图像中的图像生成图像描述;针对语言生成器进行效果评测。本发明结合抽象语义表示的图像描述生成方法可以充分利用图像的抽象语义特征,充分发挥图像视觉和语义特征的互补性,使两种特征在描述生成的过程中相辅相成,使之互为补足,从而提高生成句子的质量,生成更准确和含义丰富的描述语句。

Description

结合抽象语义表示的图像描述生成方法、系统及介质
技术领域
本发明涉及图像资源的信息增强方法,具体涉及一种结合抽象语义表示的图像描述生成方法、系统及介质,用于使用图像的抽象语义表示特征,在图像描述生成任务中作为视觉特征的辅助信息,从而对图像生成更准确且含义丰富的描述文本。
背景技术
随着科技发展和信息时代到来,报纸、手机、相机及网络社交媒体等提供了丰富的图像资源,其中很大一部分图像资源为视觉与语言信息的结合。这些多模态图像信息的产生为我们实现更多应用场景提供了可能,比如理解/阅读辅助,自动监控,无人驾驶汽车,自动标签生成和对话系统等。图像描述生成即为用于生成多模态图像信息中语言描述信息的手段。
传统的图像理解任务生成无结构的标签列表,它识别并分割出图像中的对象、确定其对应属性、计算对象和属性的相互关系。而图像描述生成则是对给定的一张图像生成描述语句,准确且充分表达图像所包含的内容。从计算机视觉角度来看,该任务极具挑战性,因为它不仅要求模型准确识别图像中的重要内容(对象、属性及背景等),还要理解内容之间的关系,甚至推断出未出现在图像中的内容;从自然语言处理角度来看,该任务是一个自然语言生成(Natural Language Generation)问题,其需要将获取到的图像信息进行整合,从而进一步生成符合自然语言规则且准确描述图像内容的句子。
基于生成的方法最先用于解决该问题,包括基于模版、句法分析和语言模型的方法。基于模版的方法预先定义包含多个空槽(slot)的模版,用模型识别到的对象、属性和关系标签对空槽进行填充,从而生成描述句子;基于句法分析的方法则首先识别对象、属性、对象之间空间关系、场景类型、行为等,然后使用依存句法树/图将句子的各个部件逐步组合成句子;基于语言模型的方法首先生成多个候选句子片段,通过语言模型对这些片段进行重新组合,从而得到最终描述。此类方法受限于人工设计的模板、不完备的语言以及句法模型,生成的句子形式单一,不具有多样性。
基于检索的方法将该任务看作检索问题。它首先用将输入图像表示为特定的特征,然后基于图像特征的相似性由训练数据集找到相似的图像候选,这些候选图像对应的描述即生成描述句子的候选,最后通过一定的排序算法得到最终结果。该类方法充分利用训练数据集,但是其依赖于训练语料,不能生成训练集以外的文本,当测试集于训练集相关性不大时,结果会很差。
得益于深度学习技术的发展,基于编码-解码框架的方法取得了突出的效果并成为近几年图像描述生成任务的主流解决方法。该方法首先在编码阶段使用深度卷积神经网络(CNN)提取图像特征,在解码阶段,使用编码阶段的输出作为RNN/LSTM等序列生成模型的输入,生成描述文本。人类视觉系统中的注意力机制被引入深度学习,使基于注意力的模型成为图像描述生成任务的主体框架。此类框架使用Faster R-CNN提取图像的多个候选块,从而在图像部分实现不同区域之间实现注意力机制,在文本生成部分改进原始LSTM结构,同时采用强化学习技术进一步优化模型性能。还有工作将属性、关系、外部知识和场景图等额外信息引入模型作为图像的辅助信息以生成更准确和含义丰富的描述语句。
图像描述生成任务最新的经典工作是Up-Down方法(实现细节参照“Anderson,P.,He,X.,Buehler,C.,Teney,D.,Johnson,M.,Gould,S.,Zhang,L.,2018.Bottom-up andtop-down attention for image captioning and visual question answering,in:Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pp.6077–6086”,即自底向上和自顶向下对图像字幕和视觉问题回答的关注,2018年IEEE计算机视觉和模式识别会议论文集6077–6086页),其由图像描述生成(图像生成文本)的方法分为以下几步:第一步,Bottom-Up(自底向上)注意力模型。该部分基于Faster R-CNN模型学习图像视觉特征,为了学习到更好的特征表示,除了预测目标对象类别以外,额外增加一个训练输出,来预测图像子区域(候选框区域)的属性类别(比如物体的颜色、材质等,这些属性在Visual Genome数据集(数据集细节参见“R.Krishna,Y.Zhu,O.Groth,J.Johnson,K.Hata,J.Kravitz,S.Chen,Y.Kalantidis,L.-J.Li,D.A.Shamma,M.Bernstein,and L.Fei-Fei.Visual genome:Connecting language and vision usingcrowdsourced dense image annotations.arXiv preprint arXiv:1602.07332,2016.”译为“视觉基因组:使用众包密集图像注释来连接语言和视觉,2016年刊于arXiv。”)上可以找到);该模型在ImageNet数据集(数据集细节详见“O.Russakovsky,J.Deng,H.Su,J.Krause,S.Satheesh,S.Ma,Z.Huang,A.Karpathy,A.Khosla,M.Bernstein,A.C.Berg,and L.Fei-Fei.Imagenet large scale visual recognition challenge.IJCV,2015.”译为“Imagenet大型视觉识别挑战,2015年发表于国际计算机视觉期刊最终”)上预训练后,又在visual genome数据集上进一步训练,把Faster R-CNN提取出的候选区域特征通过一定的算法筛选部分作为图像特征集,同时将平均池化特征作为图像全局特征;训练时保留了Faster R-CNN的损失函数,并在此基础上加了多分类损失来训练属性预测部分。第二步,Top-Down(自顶向下)的语言生成模型。该部分使用两个标准的LSTM层和一个注意力层实现,两个LSTM层分别使用另一个LSTM层的输出隐层状态作为输入,该工作首先使用最小化交叉熵损失函数进行训练,并使用强化学习方法对CIDEr分数进行优化。第三步,设置beamsize为5,评测已训练好的模型。但是,上述图像描述生成的方法仍然存在不能充分挖掘图像中包含的信息的缺点,因此,如何充分挖掘图像中包含的信息,从而生成更准确且含义丰富的描述语句是图像描述生成任务亟待解决的技术问题。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种结合抽象语义表示的图像描述生成方法、系统及介质,本发明能够解决现有方法针对图像视觉特征不能充分表达图像内容的问题,实现图像资源的信息增强,在充分提取图像特征的同时生成更更准确且含义丰富的描述文本。
为了解决上述技术问题,本发明采用的技术方案为:
一种结合抽象语义表示的图像描述生成方法,该方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述,且训练语言生成器的步骤包括:
1)针对训练数据集进行抽象语义表示标注;
2)基于带有抽象语义表示的训练数据集训练抽象语义表示预测器;
3)将图像的候选区域视觉特征作为图像的视觉特征,图像的抽象语义表示特征作为语义特征,这两种特征同时作为基于注意力机制的语言生成器的输入、训练语言生成器;
4)使用训练好的语言生成器对测试集图像中的图像生成图像描述;
5)针对语言生成器进行效果评测。
可选地,步骤1)的详细步骤包括:
1.1)输入带有标注语句的训练数据集,采用AMR解析器将训练数据集的标注语句为对应的抽象语义表示图G=(N,E),将每个抽象语义表示图G表示为概念三元组(h,l,t)的序列,表示抽象语义表示图中边,其中N表示图G中的结点,E表示边,h、l和t分别表示图中每条边的首结点、边属性标签和尾结点;
1.2)将训练数据集中所有的抽象语义表示图G的三元组信息进行统计汇总,并将相同含义的结点进行合并;仅保留在所有结果出现次数大于预设阈值的结点,其他结点替换为指定的符号。
可选地,所述抽象语义表示预测器为基于双重注意力机制的LSTM模型。
可选地,步骤2)的详细步骤包括:
2.1)针对训练数据集中的每一张图像分别获取候选框,并提取每个候选框内局部图像的特征表示向量,将候选向量集作为该图像的视觉特征,得到视觉特征集V;
2.2)设计基于双重注意力机制的LSTM模型作为抽象语义表示预测器,所述基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM,在模型训练的每一时间步,结点预测LSTM的输入包括:上一时间步的输出ht-1,视觉特征集V、全局视觉特征
Figure BDA0002553266720000031
和上一时间步生成的首结点Nt-1;标签预测LSTM的输入则为:视觉特征集V、全局视觉特征
Figure BDA0002553266720000032
和上一时间步生成的关系属性标签Lt-1;将结点预测LSTM、标签预测LSTM为一起训练,且训练过程中采用联合交叉熵损失函数训练模型作为损失函数;设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对抽象语义表示预测器的训练;
2.3)使用训练好的抽象语义表示预测器对训练数据集提取抽象语义特征,并将图像的视觉特征及其对应的抽象语义表示特征进行对齐。
可选地,所述基于注意力机制的语言生成器包括依次相连的LSTM层、双重注意力层、语言生成LSTM层和softmax层;其中LSTM层为标准LSTM层,其输入包含四部分:LSTM层上一时间步的输出
Figure BDA0002553266720000041
语言生成LSTM层上一时间步的输出
Figure BDA0002553266720000042
全局视觉特征
Figure BDA0002553266720000043
和上一时间步的生成的词xt-1;双重注意力层的第一重注意力针对视觉特征,LSTM层的输出和视觉特征V作为注意力层输入,第二重注意力使用三个注意力层分别针对抽象语义表示三元组序列的首结点/关系属性标签/尾结点序列进行计算;第一重注意力和第二重注意力计算注意力权重向量,ai,t=WTtanh(Wfvi,Whht),令权重向量为at={a1,t,a2,t,......,ar,t},归一化为αt=softmax(at),则注意力结果为
Figure BDA0002553266720000044
其中WT/Wf/Wh分别为参数矩阵,vi为图像的第i个区域特征,ht为LSTM在t时间的输出,tanh和softmax为激活函数,V为对应图像的视觉特征集;语言生成LSTM层为线性映射层,用于将连接之后的抽象语义表示的三个注意力结果映射到低维,其输入为:LSTM层当前时间步的输出
Figure BDA0002553266720000045
语言生成LSTM层上一时间步的输出
Figure BDA0002553266720000046
视觉注意力结果为
Figure BDA0002553266720000047
和抽象语义表示注意力结果为
Figure BDA0002553266720000048
softmax层用于将语言生成LSTM层的输出计算在词表上对应单词的概率
Figure BDA0002553266720000049
从而获取本时间步生成的单词;所述基于注意力机制的语言生成器的训练目标为最小化如下交叉熵损失:
Figure BDA00025532667200000410
其中Vi
Figure BDA00025532667200000411
分别表示N个样例中第i张图像视觉特征集、三元组序列信息和全局视觉特征,θ为模型参数,p(x|y;θ)表示模型参数为θ并在y条件下生成x的概率,log表示对数函数,
Figure BDA00025532667200000412
Pi表示对P1到PN求和。
可选地,步骤3)中训练语言生成器时,首先设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对语言生成器的N1轮训练并保存语言生成器的模型;然后使用强化学习技术,损失函数的参数设置同样使用交叉熵损失函数的模型,继续训练语言生成器N2轮,每指定数量个批次保存语言生成器的模型,并对比当前模型和最好模型,如若当前模型在验证集效果更好,则更新最好模型为当前模型,从而最终完成语言生成器的训练,得到完成训练后的语言生成器。
可选地,步骤4)中使用训练好的语言生成器对测试集图像中的图像生成图像描述时,采用集束搜索技术以保留多个候选预测结果,将生成的结果保存为固定格式并保存。
此外,本发明还提供一种结合抽象语义表示的图像描述生成系统,包括计算机设备,该计算机设备被编程或配置以执行所述结合抽象语义表示的图像描述生成方法的步骤。
此外,本发明还提供一种结合抽象语义表示的图像描述生成系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行所述结合抽象语义表示的图像描述生成方法的计算机程序。
此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述结合抽象语义表示的图像描述生成方法的计算机程序。
和现有技术相比,本发明可以达到以下技术效果:本发明结合抽象语义表示的图像描述生成方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述,训练语言生成器的步骤包括针对训练数据集进行抽象语义表示标注;基于带有抽象语义表示的训练数据集训练抽象语义表示预测器;将图像的候选区域视觉特征作为图像的视觉特征,图像的抽象语义表示特征作为语义特征,这两种特征同时作为基于注意力机制的语言生成器的输入、训练语言生成器;使用训练好的语言生成器对测试集图像中的图像生成图像描述;针对语言生成器进行效果评测。本发明结合抽象语义表示的图像描述生成方法可以充分利用图像的抽象语义特征,充分发挥图像视觉和语义特征的互补性,使两种特征在描述生成的过程中相辅相成,使之互为补足,从而提高生成句子的质量,生成更准确和含义丰富的描述语句。
附图说明
图1为本发明实施例方法的总体流程图。
图2是本发明实施例方法的逻辑结构图。
图3是本发明第二步构建的抽象语义表示预测器结构图。
图4是本发明第三步构建的基于注意力机制的语言生成模型结构图。
具体实施方式
本实施例结合抽象语义表示的图像描述生成方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述,如图1所示,训练语言生成器的步骤包括:
1)针对训练数据集进行抽象语义表示标注;
2)基于带有抽象语义表示的训练数据集训练抽象语义表示预测器;
3)将图像的候选区域视觉特征作为图像的视觉特征,图像的抽象语义表示特征作为语义特征,这两种特征同时作为基于注意力机制的语言生成器的输入、训练语言生成器;
4)使用训练好的语言生成器对测试集图像中的图像生成图像描述;
5)针对语言生成器进行效果评测。
本实施例中,步骤1)的详细步骤包括:
1.1)输入带有标注语句的训练数据集,采用AMR解析器将训练数据集的标注语句为对应的抽象语义表示图G=(N,E),将每个抽象语义表示图G表示为概念三元组(h,l,t)的序列,表示抽象语义表示图中边,其中N表示图G中的结点,E表示边,h、l和t分别表示图中每条边的首结点、边属性标签和尾结点;
1.2)将训练数据集中所有的抽象语义表示图G的三元组信息进行统计汇总,并将相同含义的结点进行合并;仅保留在所有结果出现次数大于预设阈值的结点,其他结点替换为指定的符号。
本实施例中,训练数据集采用MS COCO 2014图像描述生成数据集(细节参见“Lin,T.Y.,Maire,M.,Belongie,S.,Hays,J.,Perona,P.,Ramanan,D.,Dollár,P.,Zitnick,C.L.,2014.Microsoft coco:Common objects in context,in:European Conference onComputer Vision,Springer.pp.740–755.”,即微软coco数据集:上下文中的公共对象,发表于《欧洲计算机视觉会议》论文集740–755页),其包含123,287张图像,每张图像附带5句描述文本。鉴于该数据集不存在抽象语义标注,本实施例中采用AMR解析器(模型细节详见“Zhang,S.;Ma,X.;Duh,K.;and Van Durme,B.2019.AMR parsing as sequence-to-graphtransduction”.In ACL.”译为“AMR解析作为序列到图的转换”,发表于2019年ACL会议),基于原始标注文本对图像生成对应的抽象语义表示。进一步将训练集中所有的抽象语义表示图的三元组信息进行统计汇总时,经分析我们发现存在很多概念出现频率很低,且某些概念在语义上存在重复的情况,所以我们仅保留在所有结果出现次数大于2的结点概念,其他替换为‘UNK’符号,共得到109中边属性标签,16128个结点。
在步骤1)已经标注了训练集中每张图像的抽象语义表示,该步骤2)则使用抽象语义表示标注的数据作为训练集。抽象语义表示预测器的训练包括三部分的工作:图像视觉特征抽取、模型训练和抽象语义特征提取。
本实施例中,抽象语义表示预测器为基于双重注意力机制的LSTM模型。
如图2所示,本实施例中步骤2)的详细步骤包括:
2.1)图像视觉特征抽取:针对训练数据集中的每一张图像分别获取候选框,并提取每个候选框内局部图像的特征表示向量,将候选向量集作为该图像的视觉特征,得到视觉特征集V;
本实施例中获取候选框具体是使用在Visual Genome数据集上预训练的FasterR-CNN模型获得每张图像的多个候选框。Faster R-CNN模型具体采用基于ResNet-101 CNN的Faster R-CNN模型(实现细节参照“Anderson,P.,He,X.,Buehler,C.,Teney,D.,Johnson,M.,Gould,S.,Zhang,L.,2018.Bottom-up and top-down attention for imagecaptioning and visual question answering,in:Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,pp.6077–6086”,即自底向上和自顶向下对图像字幕和视觉问题回答的关注,2018年IEEE计算机视觉和模式识别会议论文集6077–6086页)。对Faster R-CNN模型的最终输出,我们采用IoU(intersection-over-union)阈值对每类对象进行非最大抑制;对候选区域i来说,vi为该区域的卷积平均值(在此维度为2048),从而得到各个候选区域的卷积平均值vi构成的视觉特征集V。每张图像对应提取到视觉特征集V={v1,v2,……,vr},其中r为该图像最终选用的候选框个数;
Figure BDA0002553266720000073
表示视觉特征集V的平均视觉特征,用于作为全局图像特征。
2.2)模型训练:设计基于双重注意力机制的LSTM模型作为抽象语义表示预测器,如图3所示,基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM,在模型训练的每一时间步,结点预测LSTM的输入包括:上一时间步的输出ht-1,视觉特征集V、全局视觉特征
Figure BDA0002553266720000074
和上一时间步生成的首结点Nt-1(用于构成结点向量矩阵Wen);标签预测LSTM的输入则为:视觉特征集V、全局视觉特征
Figure BDA0002553266720000075
和上一时间步生成的关系属性标签Lt-1(用于构成关系属性标签向量矩阵Wel);将结点预测LSTM、标签预测LSTM为一起训练,且训练过程中采用联合交叉熵损失函数训练模型作为损失函数;设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对抽象语义表示预测器的训练;
本实施例中,采用的基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM(实现细节参照“Anderson,P.,He,X.,Buehler,C.,Teney,D.,Johnson,M.,Gould,S.,Zhang,L.,2018.Bottom-up and top-downattention for image captioning and visual question answering,in:Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,pp.6077–6086”,即自底向上和自顶向下对图像字幕和视觉问题回答的关注,2018年IEEE计算机视觉和模式识别会议论文集6077–6086页)。联合交叉熵损失函数训练模型如下:
Figure BDA0002553266720000071
其中,loss为损失眼熟,Hi/Li/Ti为M个输入样例中第i个的首结点/关系属性标签/尾结点目标序列,
Figure BDA0002553266720000072
分别表示第i张图像视觉特征集/全局视觉特征,θHL为结点/关系LSTM模型参数,log表示对数函数。本实施例中,我们将batch(训练过程中每一步的批次大小,即每次更新参数输入处理的样本数)设为64,输入映射维度和LSTM隐层大小设为512,最大序列长度设为20,在训练数据集上训练模型30轮并保存模型。
2.3)抽象语义特征提取:使用训练好的抽象语义表示预测器对训练数据集提取抽象语义特征,并将图像的视觉特征及其对应的抽象语义表示特征进行对齐。本实施例中,使用上一步预训练好模型在数据集上的预测结果作为图像的抽象语义表示特征。加载训练好的模型,控制参数不再更新,对训练集中每一张图像,输入对应的视觉特征集和全局特征,初始输入的结点/关系标签默认为起始符号;每一步的输出为三元组中三个元素。我们预测数据集上所有图像的抽象语义表示并保存到文件中。最终,将图像的视觉特征及其对应的抽象语义表示特征进行对齐,使之在训练时可以同时作为对应图像输入。
如图4所示,本实施例中基于注意力机制的语言生成器包括依次相连的LSTM层、双重注意力层、语言生成LSTM层和softmax层;其中:
LSTM层为标准LSTM层,其输入包含四部分:LSTM层上一时间步的输出
Figure BDA0002553266720000081
语言生成LSTM层上一时间步的输出
Figure BDA0002553266720000082
全局视觉特征
Figure BDA0002553266720000083
和上一时间步的生成的词xt-1
双重注意力层的第一重注意力针对视觉特征,LSTM层的输出和视觉特征V作为注意力层输入,第二重注意力使用三个注意力层分别针对抽象语义表示三元组序列的首结点/关系属性标签/尾结点序列进行计算;第一重注意力和第二重注意力计算注意力权重向量,ai,t=WTtanh(Wfvi,Whht),令权重向量为at={a1,t,a2,t,......,ar,t},归一化为αt=softmax(at),则注意力结果为
Figure BDA0002553266720000084
其中WT/Wf/Wh分别为参数矩阵,vi为图像的第i个区域特征,ht为LSTM在t时间的输出,tanh和softmax为激活函数,V为对应图像的视觉特征集;
语言生成LSTM层为线性映射层(即全连接层),用于将连接之后的抽象语义表示的三个注意力结果映射到低维(512),其输入为:LSTM层当前时间步的输出
Figure BDA0002553266720000085
语言生成LSTM层上一时间步的输出
Figure BDA0002553266720000086
视觉注意力结果为
Figure BDA00025532667200000813
和抽象语义表示注意力结果为
Figure BDA0002553266720000087
softmax层用于将语言生成LSTM层的输出计算在词表上对应单词的概率
Figure BDA0002553266720000088
Figure BDA0002553266720000089
从而获取本时间步生成的单词;
基于注意力机制的语言生成器的训练目标为最小化如下交叉熵损失:
Figure BDA00025532667200000810
其中,Vi
Figure BDA00025532667200000811
分别表示N个样例中第i张图像视觉特征集、三元组序列信息和全局视觉特征,θ为模型参数,p(x|y;θ)表示模型参数为θ并在y条件下生成x的概率,log表示对数函数,
Figure BDA00025532667200000812
Pi表示对P1到PN求和。
训练基于注意力机制的语言生成器时,将上一步中提取的图像的候选区域视觉特征作为图像的视觉特征,预测出的图像抽象语义表示特征作为语义特征,这两种特征同时作为语言生成器的输入,通过一个基于双重注意力机制的LSTM模型输出描述句子。本实施例中,我们对训练集标注文本进行简单的预处理,以更有效地进行模型训练。我们将所有标注文本转换为小写,将训练集中出现次数少于5的替换为“UNK”,由此,保留的词构造词表;在模型预测时,生成的词即全部属于该词表。
本实施例中,步骤3)中训练语言生成器时,首先设置训练过程中每一步的批次(batch)大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对语言生成器的N1轮训练并保存语言生成器的模型;然后使用强化学习技术,损失函数的参数设置同样使用交叉熵损失函数的模型,继续训练语言生成器N2轮,每指定数量个批次保存语言生成器的模型,并对比当前模型和最好模型,如若当前模型在验证集效果更好,则更新最好模型为当前模型,从而最终完成语言生成器的训练,得到完成训练后的语言生成器。
本实施例中,训练时将batch大小设为64,输入映射维度和LSTM隐层大小设为512,最大序列长度设为17,在训练集上训练模型20轮并保存模型。为与复现的基准实验进行公平比较,模型采用交叉熵损失函数训练20轮,继续用强化技术训练(实现细节参照“Rennie,S.J.,Marcheret,E.,Mroueh,Y.,Ross,J.,Goel,V.,2017.Self-critical sequencetraining for image captioning,in:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,pp.7008–7024.”,即图像描述生成的自评判序列训练,载于2017年《IEEE计算机视觉与模式识别会议论文集》,第7008-7024页)。在此,我们将强化奖励设置为CIDEr分数,训练的每一个批次最大化期望奖励值也就是最小化负期望奖励,其梯度表示为:
Figure BDA0002553266720000091
其中R为基于CIDEr分数的奖励,c为随机取样生成的描述句子,
Figure BDA0002553266720000092
为贪婪取样生成的描述句子,θ为模型训练参数,
Figure BDA0002553266720000093
为梯度符号,pθ(c)为在参数θ条件下c生成的概率,log表示对数函数。在使用交叉熵损失函数训练20轮之后,使用强化学习技术进一步优化模型,训练50轮,每5000个batch保存模型,并对比当前模型和最好模型,如若当前模型在验证集效果更好,则更新最好模型为当前模型。
本实施例中,步骤4)中使用训练好的语言生成器对测试集图像中的图像生成图像描述时,采用集束搜索技术以保留多个候选预测结果,将生成的结果保存为固定格式并保存。本实施例在测试集5000张图像数据集上做预测,输入图像的视觉候选特征和抽象语义表示的三元组特征,加载保存的最好模型参数进行预测,预测过程中,采用beam search(集束搜索,即保留多个候选预测结果)技术,每一步保存打分相对高的多个句子候选,在预测结束后选择打分最高的句子作为最终结果。具体地,本实施例中设置beam size(集束大小)为5,则模型预测每个词时,保存打分最高的五个候选,在一定程度上避免贪婪取样方法带来的不足,提高句子生成质量。
本实施例中,5)针对语言生成器进行效果评测时,采用的指标包括:BLEU(Bilingual Evaluation Understudy,双语互译质量评估);METEOR(Metric forEvaluation of Translation with Explicit ORdering,基于明确次序的翻译评价指标);CIDEr(Consensus-based Image Description Evaluation,基于共识的图像描述评估);ROUGE-L(Recall-oriented Understanding for Gisting Evaluation,基于召回率的相似性度量方法);L表示LCS(Longest Common Subsequence),最长公共子序列);SPICE(Semantic Propositional Image Caption Evaluation,基于语义的图像描述评估);表1是采用基准实验方法与采用本实施例方法实现图像描述生成评测结果对比:
表1:基准实验、本实施例方法(简称本发明)的评测结果对比表。
Figure BDA0002553266720000101
参见表1可知,本实施例方法在所有公开评测指标上都优于基准实验方法,尤其是CIDEr指标上达到了123.5。实验条件:采用两个NVIDIA GeForce TITAN X GPU的工作站一台,操作系统为Ubuntu 16.04,基于PyTorch平台。数据集采用MS COCO 2014图像描述生成数据集,其包含123,287张图像,每张图像附带5句描述文本;根据公开份划分方法,本实施例方法分别使用5000样例作为验证和测试集。鉴于该数据集不存在抽象语义标注,本实施例方法采用当前最新的AMR解析器,基于原始标注文本对图像生成对应的抽象语义表示。本实施例方法将所有的描述文本转换成小写,过滤停止单词和训练集中出现少于5次的单词替换为“UNK”。基准实验的结果:仅采用图像的视觉特征作为模型输入,忽略其抽象语义表示特征,其在Bleu-4/METEOR/CIDEr/ROUGE-L/SPICE指标上分别达到36.4/27.6/120.4/57.3/20.8;采用本实施例得到的结果:如图4所示,相对于仅使用图像视觉特征的方法,本实施例方法在所有公开评测指标上都优于基准实验方法,尤其是CIDEr指标上达到123.5。
综上所述,本实施例结合抽象语义表示的图像描述生成方法利用训练集上图像的标注文本将图像标注为对应的抽象语义表示图,实现图像到抽象语义表示的映射;再利用标注数据训练一个自动抽象语义表示预测器,可以对任意输入图像预测对应的抽象语义表示,即输入图像可以提取其对应的抽象语义表示特征;最后使用基于双重注意力机制的LSTM模型由图像的视觉特征和抽象语义表示特征生成句子。本实施例采用抽象语义表示解析器将图像标注为抽象语义表示,补充了图像的标注内容,构造了图像到抽象语义表示的数据集。本实施例采用基于注意力机制的LSTM网络,构造并训练了图像到抽象语义表示的预测模型。输入任意图像,该模型能够预测其抽象语义表示信息,区别于图像的视觉信息,抽象语义表示信息属于高层语义范畴,两者旨在从不同层面抽取图像特征从而互为补充。本实施例构造基于双重注意力机制的LSTM模型,同时利用之前步骤生成的图像视觉和抽象语义表示特征,在生成句子的每一步,将在两种特征上的注意力结果相结合作为语言生成层的输入,充分发挥特征之间的互补特性;预训练之后,采用强化学习机制进一步提升模型效果;在预测阶段,使用beam search技术,进一步选择表现更好的结果。本实施例最终评测上一步在测试集的预测结果,公平公正起见,采用了公开的评测代码。最终证实,本实施例结合抽象语义表示的图像描述生成方法可以充分利用图像的抽象语义特征,充分发挥图像视觉和语义特征的互补性,使两种特征在描述生成的过程中相辅相成,使之互为补足,从而提高生成句子的质量,生成更准确和含义丰富的描述语句。
此外,本实施例还提供一种结合抽象语义表示的图像描述生成系统,包括计算机设备,该计算机设备被编程或配置以执行前述结合抽象语义表示的图像描述生成方法的步骤。
此外,本实施例还提供一种结合抽象语义表示的图像描述生成系统,包括计算机设备,该计算机设备的存储器上存储有被编程或配置以执行前述结合抽象语义表示的图像描述生成方法的计算机程序。
此外,本实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行前述结合抽象语义表示的图像描述生成方法的计算机程序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种结合抽象语义表示的图像描述生成方法,其特征在于,该方法采用预先完成训练的语言生成器来根据输入的图像生成对应的图像描述,且训练语言生成器的步骤包括:
1)针对训练数据集进行抽象语义表示标注;
2)基于带有抽象语义表示的训练数据集训练抽象语义表示预测器;
3)将图像的候选区域视觉特征作为图像的视觉特征,图像的抽象语义表示特征作为语义特征,这两种特征同时作为基于注意力机制的语言生成器的输入、训练语言生成器;
4)使用训练好的语言生成器对测试集图像中的图像生成图像描述;
5)针对语言生成器进行效果评测。
2.根据权利要求1所述的结合抽象语义表示的图像描述生成方法,其特征在于,步骤1)的详细步骤包括:
1.1)输入带有标注语句的训练数据集,采用AMR解析器将训练数据集的标注语句为对应的抽象语义表示图G=(N,E),将每个抽象语义表示图G表示为概念三元组(h,l,t)的序列,表示抽象语义表示图中边,其中N表示图G中的结点,E表示边,h、l和t分别表示图中每条边的首结点、边属性标签和尾结点;
1.2)将训练数据集中所有的抽象语义表示图G的三元组信息进行统计汇总,并将相同含义的结点进行合并;仅保留在所有结果出现次数大于预设阈值的结点,其他结点替换为指定的符号。
3.根据权利要求2所述的结合抽象语义表示的图像描述生成方法,其特征在于,所述抽象语义表示预测器为基于双重注意力机制的LSTM模型。
4.根据权利要求3所述的结合抽象语义表示的图像描述生成方法,其特征在于,步骤2)的详细步骤包括:
2.1)针对训练数据集中的每一张图像分别获取候选框,并提取每个候选框内局部图像的特征表示向量,将候选向量集作为该图像的视觉特征,得到视觉特征集V;
2.2)设计基于双重注意力机制的LSTM模型作为抽象语义表示预测器,所述基于双重注意力机制的LSTM模型包括用于预测结点的结点预测LSTM和用于预测关系属性标签的标签预测LSTM,在模型训练的每一时间步,结点预测LSTM的输入包括:上一时间步的输出ht-1,视觉特征集V、全局视觉特征
Figure FDA0002553266710000011
和上一时间步生成的首结点Nt-1;标签预测LSTM的输入则为:视觉特征集V、全局视觉特征
Figure FDA0002553266710000012
和上一时间步生成的关系属性标签Lt-1;将结点预测LSTM、标签预测LSTM为一起训练,且训练过程中采用联合交叉熵损失函数训练模型作为损失函数;设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对抽象语义表示预测器的训练;
2.3)使用训练好的抽象语义表示预测器对训练数据集提取抽象语义特征,并将图像的视觉特征及其对应的抽象语义表示特征进行对齐。
5.根据权利要求3所述的结合抽象语义表示的图像描述生成方法,其特征在于,所述基于注意力机制的语言生成器包括依次相连的LSTM层、双重注意力层、语言生成LSTM层和softmax层;其中LSTM层为标准LSTM层,其输入包含四部分:LSTM层上一时间步的输出
Figure FDA0002553266710000021
语言生成LSTM层上一时间步的输出
Figure FDA0002553266710000022
全局视觉特征
Figure FDA0002553266710000023
和上一时间步的生成的词xt-1;双重注意力层的第一重注意力针对视觉特征,LSTM层的输出和视觉特征V作为注意力层输入,第二重注意力使用三个注意力层分别针对抽象语义表示三元组序列的首结点/关系属性标签/尾结点序列进行计算;第一重注意力和第二重注意力计算注意力权重向量,ai,t=WTtanh(Wfvi,Whht),令权重向量为at={a1,t,a2,t,......,ar,t},归一化为αt=softmax(at),则注意力结果为
Figure FDA0002553266710000024
其中WT/Wf/Wh分别为参数矩阵,vi为图像的第i个区域特征,ht为LSTM在t时间的输出,tanh和softmax为激活函数,V为对应图像的视觉特征集;语言生成LSTM层为线性映射层,用于将连接之后的抽象语义表示的三个注意力结果映射到低维,其输入为:LSTM层当前时间步的输出
Figure FDA0002553266710000025
语言生成LSTM层上一时间步的输出
Figure FDA0002553266710000026
视觉注意力结果为
Figure FDA0002553266710000027
和抽象语义表示注意力结果为
Figure FDA0002553266710000028
softmax层用于将语言生成LSTM层的输出计算在词表上对应单词的概率
Figure FDA0002553266710000029
从而获取本时间步生成的单词;所述基于注意力机制的语言生成器的训练目标为最小化如下交叉熵损失:
Figure FDA00025532667100000210
其中Vi
Figure FDA00025532667100000211
分别表示N个样例中第i张图像视觉特征集、三元组序列信息和全局视觉特征,θ为模型参数,p(x|y;θ)表示模型参数为θ并在y条件下生成x的概率,log表示对数函数,
Figure FDA00025532667100000212
表示对P1到PN求和。
6.根据权利要求5所述的结合抽象语义表示的图像描述生成方法,其特征在于,步骤3)中训练语言生成器时,首先设置训练过程中每一步的批次大小、输入映射维度和LSTM隐层大小,然后在训练数据集上完成对语言生成器的N1轮训练并保存语言生成器的模型;然后使用强化学习技术,损失函数的参数设置同样使用交叉熵损失函数的模型,继续训练语言生成器N2轮,每指定数量个批次保存语言生成器的模型,并对比当前模型和最好模型,如若当前模型在验证集效果更好,则更新最好模型为当前模型,从而最终完成语言生成器的训练,得到完成训练后的语言生成器。
7.根据权利要求1所述的结合抽象语义表示的图像描述生成方法,其特征在于,步骤4)中使用训练好的语言生成器对测试集图像中的图像生成图像描述时,采用集束搜索技术以保留多个候选预测结果,将生成的结果保存为固定格式并保存。
8.一种结合抽象语义表示的图像描述生成系统,包括计算机设备,其特征在于,该计算机设备被编程或配置以执行权利要求1~7中任意一项所述结合抽象语义表示的图像描述生成方法的步骤。
9.一种结合抽象语义表示的图像描述生成系统,包括计算机设备,其特征在于,该计算机设备的存储器上存储有被编程或配置以执行权利要求1~7中任意一项所述结合抽象语义表示的图像描述生成方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有被编程或配置以执行权利要求1~7中任意一项所述结合抽象语义表示的图像描述生成方法的计算机程序。
CN202010581219.0A 2020-06-23 2020-06-23 结合抽象语义表示的图像描述生成方法、系统及介质 Active CN111612103B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010581219.0A CN111612103B (zh) 2020-06-23 2020-06-23 结合抽象语义表示的图像描述生成方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010581219.0A CN111612103B (zh) 2020-06-23 2020-06-23 结合抽象语义表示的图像描述生成方法、系统及介质

Publications (2)

Publication Number Publication Date
CN111612103A true CN111612103A (zh) 2020-09-01
CN111612103B CN111612103B (zh) 2023-07-11

Family

ID=72202729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010581219.0A Active CN111612103B (zh) 2020-06-23 2020-06-23 结合抽象语义表示的图像描述生成方法、系统及介质

Country Status (1)

Country Link
CN (1) CN111612103B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
CN112528989A (zh) * 2020-12-01 2021-03-19 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112819012A (zh) * 2021-01-29 2021-05-18 厦门大学 一种基于多源协同特征的图像描述生成方法
CN112836754A (zh) * 2021-02-05 2021-05-25 方玉明 一种面向图像描述模型泛化能力评估方法
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113515957A (zh) * 2021-04-21 2021-10-19 南通大学 一种基于bart模型的正则表达式描述生成方法
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN113610025A (zh) * 2021-08-13 2021-11-05 天津大学 一种多模型综合的遥感影像场景描述方法
CN113837229A (zh) * 2021-08-30 2021-12-24 厦门大学 一种知识驱动型的文本到图像生成方法
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN110263218A (zh) * 2019-06-21 2019-09-20 北京百度网讯科技有限公司 视频描述文本生成方法、装置、设备和介质
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN110263218A (zh) * 2019-06-21 2019-09-20 北京百度网讯科技有限公司 视频描述文本生成方法、装置、设备和介质
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
F. CHEN,ET AL.: "What Topics Do Images Say: A Neural Image Captioning Model with Topic Representation" *
WILLIAM R. FOLAND,ET AL: "Abstract Meaning Representation Parsing using LSTM Recurrent Neural Networks" *
刘鹏;叶志鹏;赵巍;唐降龙;: "一种多层次抽象语义决策图像分类方法" *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016493A (zh) * 2020-09-03 2020-12-01 科大讯飞股份有限公司 图像描述方法、装置、电子设备及存储介质
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112528989A (zh) * 2020-12-01 2021-03-19 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112819012A (zh) * 2021-01-29 2021-05-18 厦门大学 一种基于多源协同特征的图像描述生成方法
CN112819012B (zh) * 2021-01-29 2022-05-03 厦门大学 一种基于多源协同特征的图像描述生成方法
CN112836754A (zh) * 2021-02-05 2021-05-25 方玉明 一种面向图像描述模型泛化能力评估方法
CN113052090A (zh) * 2021-03-30 2021-06-29 京东数字科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN113052090B (zh) * 2021-03-30 2024-03-05 京东科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN113515957B (zh) * 2021-04-21 2023-09-19 南通大学 一种基于bart模型的正则表达式描述生成方法
CN113515957A (zh) * 2021-04-21 2021-10-19 南通大学 一种基于bart模型的正则表达式描述生成方法
CN113283248B (zh) * 2021-04-29 2022-06-21 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113283248A (zh) * 2021-04-29 2021-08-20 桂林电子科技大学 散点图描述的自然语言自动生成方法及装置
CN113610025B (zh) * 2021-08-13 2022-08-09 天津大学 一种多模型综合的遥感影像场景描述方法
CN113610025A (zh) * 2021-08-13 2021-11-05 天津大学 一种多模型综合的遥感影像场景描述方法
CN113837229A (zh) * 2021-08-30 2021-12-24 厦门大学 一种知识驱动型的文本到图像生成方法
CN113837229B (zh) * 2021-08-30 2024-03-15 厦门大学 一种知识驱动型的文本到图像生成方法
CN113554129B (zh) * 2021-09-22 2021-12-10 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN113554129A (zh) * 2021-09-22 2021-10-26 航天宏康智能科技(北京)有限公司 场景图的生成方法和生成装置
CN114612767A (zh) * 2022-03-11 2022-06-10 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质
CN114612767B (zh) * 2022-03-11 2022-11-15 电子科技大学 一种基于场景图的图像理解与表达方法、系统与存储介质

Also Published As

Publication number Publication date
CN111612103B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN111612103B (zh) 结合抽象语义表示的图像描述生成方法、系统及介质
CN108804530B (zh) 对图像的区域加字幕
CN110427867B (zh) 基于残差注意力机制的面部表情识别方法及系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN106257440B (zh) 语义信息生成方法和语义信息生成装置
CN110633577B (zh) 文本脱敏方法以及装置
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN106886580A (zh) 一种基于深度学习的图片情感极性分析方法
CN115861995B (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN117236338B (zh) 一种稠密实体文本的命名实体识别模型及其训练方法
CN117423108B (zh) 指令微调多模态大模型的图像细粒度描述方法及系统
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN116881457A (zh) 一种基于知识对比增强提示的小样本文本分类方法
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
CN118227790A (zh) 基于多标签关联的文本分类方法、系统、设备及介质
CN113705207A (zh) 语法错误识别方法及装置
CN117076608A (zh) 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置
CN111611409A (zh) 一种融入场景知识的事例分析方法及相关设备
CN116012866A (zh) 重题检测方法、装置、电子设备及存储介质
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN114880521A (zh) 基于视觉和语言语义自主优化对齐的视频描述方法及介质
CN115130475A (zh) 一种可扩展的通用端到端命名实体识别方法
CN116186529A (zh) 语义理解模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant