CN113515951A - 基于知识增强注意力网络和组级语义的故事描述生成方法 - Google Patents
基于知识增强注意力网络和组级语义的故事描述生成方法 Download PDFInfo
- Publication number
- CN113515951A CN113515951A CN202110812701.5A CN202110812701A CN113515951A CN 113515951 A CN113515951 A CN 113515951A CN 202110812701 A CN202110812701 A CN 202110812701A CN 113515951 A CN113515951 A CN 113515951A
- Authority
- CN
- China
- Prior art keywords
- features
- knowledge
- attention
- visual
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 81
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 238000004220 aggregation Methods 0.000 claims abstract description 14
- 230000002776 aggregation Effects 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 235000019987 cider Nutrition 0.000 claims description 4
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法,包括以下步骤:1)提取图像的视觉特征和文本特征;2)基于知识增强注意力网络对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;3)基于构建组级语义模块对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络中生成具备可推理和连贯性的故事描述。与现有技术相比,本发明具有语句描述更加精准、场景想象更加丰富、段落衔接更加流畅等优点。
Description
技术领域
本发明涉及图像处理领域,尤其是涉及一种基于知识增强注意力网络和组级语义的故事描述生成方法。
背景技术
用一段话对图像或者视频进行描述对人类来说是一件繁琐的事情,同时对机器来说,用一段流畅自然的语言对现实场景中发生的事情进行描述又是一项充满挑战的任务,故事描述任务的目的旨在对一组图像序列生成一段具有连贯性、准确性和想象力的描述语句,该项任务已经在近几年的计算机视觉和多媒体计算领域逐渐兴起并取得了长足发展。此外,故事描述任务还可以在现实世界中被广泛应用,例如帮助盲人理解社交媒体中图像内容,测试人工智能设备的各项尖端性能。
故事描述任务需要解决两大技术难点:
(1)在单张图中产生被提取区域特征的丰富信息表达;
(2)为图像序列提供发生事件的准确故事情节。
针对难点(1),许多研究者提出的故事描述方法专注于提取图像的区域检测特征或者高层卷积特征,然而上述提取的区域视觉特征仅能捕捉到图像固有和浅显的信息,无法挖掘到超出图像本身的那些具有多样性、创造性的隐含知识。近期一些工作使用基于场景图或常识图的图谱结构获取具有想象力的外部知识,取得了不错的结果,然而这些工作还是无法有效建立异质信息间的跨模态交互,造成故事描述模型的次优性能。
针对难点(2),许多统一的端到端故事描述模型旨在解决图像序列中全局一致性信息缺失的问题,其中循环卷积生成网络(RNN)和时序卷积网络(TCN)常被用来解决上述难题。然而,RNN和TCN都会因在长范围特征序列上的记忆消退问题导致模型优化困难,无法产生图像序列的主题一致性信息。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于知识增强注意力网络和组级语义的故事描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于知识增强注意力网络和组级语义的故事描述生成方法,该方法通过构建并训练端到端模型生成一组图像的故事描述,包括以下步骤:
1)提取图像的视觉特征和文本特征,所述的视觉特征包括区域检测视觉特征和组级高层语义特征,所述的区域检测视觉特征包括区域特征和语义标签,所述的文本特征为外部知识增强信息;
2)基于知识增强注意力网络KAN对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;
3)基于构建组级语义模块GSM对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;
4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络MSD中生成具备可推理和连贯性的故事描述。
所述的步骤1)中,视觉特征的提取方法具体为:
基于回归框和分类的大规模物体检测网络提取高置信度区域物体特征作为区域检测视觉特征,基于预训练的大规模视觉分类网络提取高层语义特征;
外部知识增强信息的提取方法具体为:
基于提取到的语义标签,通过大规模常识知识推理网络进行推理获取高置信度的常识推理知识作为文本特征。
所述的步骤2)中,在知识增强注意力网络KAN中,以文本特征和区域特征作为由自注意力单元和交叉注意力单元构成的级联跨模态注意力模块CCA的输入,得到区域注意力增强的文本信息和视觉特征,包括注意力区域视觉特征和增强文本知识。
所述的步骤3)中,在组级语义模块GSM中,组级高层语义特征分别由多个二阶池化算法模块降维转化为多个特征张量,每个特征张量进行统一连接得到初始化的组级语义特征,在经过二阶池化算法模块进行长范围语义关联后得到全局视觉语义聚合特征。
所述的步骤4)具体包括以下步骤:
41)通过展平函数将注意力区域视觉特征和增强文本知识转换为区域视觉引导向量和知识引导向量;
42)通过由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块进行多模态推理;
43)根据得到的上下文向量产生当前单词编码,并转换为单词,构成故事描述。
该方法还包括以下步骤:
5)基于自动评价指标和人工评价指标的模型综合性能评估。
所述的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr,所述的人工评价指标从相关性、表达性和具体性三个方面评估。
所述的端到端模型具体包括:
特征编码模块:用以提取图像的视觉特征和文本特征;
知识增强注意力网络:用以生成区域注意力增强的文本信息和视觉特征
组级语义模块:用以挖掘全局语义聚合特征;
多模态特征解码模块:用以输出多语句组成的故事描述。
该方法对端到端模型进行端到端的训练和优化,训练损失函数L(θ)表示为:
与现有技术相比,本发明具有以下优点:
一、本发明提出了一种基于知识增强注意力网络和组级语义的故事描述生成方法,能够结合外部文本知识、区域视觉特征和全局语义信息,生成具有连贯性、准确性和想象力的一段故事描述。
二、本发明提取图像的视觉和文本特征,视觉特征包括区域检测特征和高层语义特征,文本特征包括外部知识增强信息,通过不同模态的特征从不同视角挖掘图像的全局和局部语义信息,以获得更丰富的推理表达。
三、本发明基于知识增强注意力网络,对提取的区域视觉特征和外部增强知识送入设计的级联跨模态注意力模块挖掘异质特征的内在和外在关联,获得区域注意力增强的文本信息和视觉特征。
四、本发明将提取的组图高层语义特征送入设计的组级语义模块探索序列卷积特征的二阶关联,获取一组图像具有概括性的故事情节。
五、本发明采用自动评测指标和人工评测指标进行模型性能的综合评估,该综合评估方法相较于单一的自动评测方法更加合理和全面,提升了故事描述评测结果的可信度。
附图说明
图1为本发明的主要步骤流程示意图。
图2为基于知识增强注意力网络和组级语义的故事描述框架。
图3为自注意力和交叉注意力单元。
图4为二阶池化算法的框架。
图5为多模态故事解码网络的框架。
图6为模型生成的故事描述示例。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于知识增强注意力网络和组级语义的故事描述生成方法(KAGS),该方法提取图像的区域视觉文本特征和图像全局序列特征,通过知识增强注意力网络和组级语义模块构成的端到端模型生成一组图像的故事描述,该端到端模型分别包括特征编码模块、知识增强注意力网络、组级语义模块和多模态特征解码模块,特征编码模块用于提取视觉和文本特征,知识增强注意力网络用于生成区域注意力增强的文本信息和视觉特征,组级语义模块用于挖掘全局语义聚合特征,多模态特征解码模块用于输出多语句组成的故事描述。
如图1所示,该方法可分为以下步骤进行描述:
S1、提取图像的视觉特征。
本实例中,提取图像的视觉特征,包括区域检测特征和高层语义特征,具体的,给定一组包含N张相关图片作为输入,对于区域检测特征,选择基于大规模图像语义理解数据集Visual Genome预训练的物体检测网络Faster-RCNN,根据检测得到的区域物体回归框的置信度得分,选择每张图像中前36个被检测物体的区域特征和语义标签对于高层语义特征,选择基于大规模图像分类数据集ImageNet预训练的物体分类网络ResNet101,根据在不同层得到的不同尺度的卷积特征,选择最后一个2048维度的卷积层作为高层语义特征
S2、提取外部文本知识和构建新字典。
本实例中,提取的文本知识为大规模常识推理知识。对于外部文本知识,选择大规模常识知识推理网络Concept Net作为知识提取器,根据每张图像的语义标签Ln,选择前20个高置信度得分的常识推理知识作为文本特征Kn,构成一组文本知识对于包含9,837个单词的VIST单词表,经过常识推理知识的扩充,现有单词表的大小被扩展为12,322,构建的新字典被故事描述模型用来训练和测试。
S3、构建知识增强注意力网络(KAN)。KAN基于设计的级联跨模态注意力模块(CCA)构建文本知识和视觉信息间的交互,进而在文本知识和视觉信息的重要特征维度上赋予更高的注意力权重,获得经过注意力增强的文本知识和视觉信息,图2中的(b)展示了KAN的具体流程。
本实施例中,CCA模块中的自注意力单元(SA)和交叉注意力单元(CA)如图3所示。具体步骤包括:
32)然后又使用了包含h个平行子空间的多头注意力机制,注意力特征F被定义为:
F=Multihead(Mq,Mk,Mv)=[head1,head2,...,headh]Wo
33)引入的多头注意力机制随后被用在设计的自注意力单元和交叉注意力单元中,紧接着定义包含点乘操作、Linear层和BatchNorm层的函数LS(·)。在图3中,给定每张图像的视觉特征Fv或者文本特征Ft,自注意力单元输出的自注意力特征表示为:
SA(Fv)=LS(Multihead(Fv,Fv,Fv))
SA(Ft)=LS(Multihead(Ft,Ft,Ft))
类似的,视觉特征Fv和文本特征Ft可以被同时送入交叉注意力单元,输出的交叉注意力特征表示为:
CA(Ft,Fv)=LS(Multihead(Ft,Fv,Fv))
34)此时,图2中(b)中设计的CCA模块可以通过级联P-1个层得到,表示为:
S4、构建组级语义模块(GSM)。GSM由若干个二阶池化算法(SOP)构成,获得全局一致性语义指导,具体步骤如下:
41)如图4所示,对于给定的卷积特征张量其中h、w和d分别代表特征张量的长、宽和通道维度。SOP首先通过1×1的卷积将通道维度从d降到c,然后SOP将h×w×c的特征张量转化为c×c的协方差矩阵。最后,一个row-wise的卷积层和一个1×1的卷积层将c×c协方差矩阵转为1×1×d的特征张量以突出具有高价值的特征通道。SOP被定义为:
42)如图2中的(c)所示,GSM首先将每一个特征表示送入SOP,然后SOP输出被处理的特征张量接着所有被处理的特征张量被统一连接为以产生初始化的组级语义特征。同样的,GSM再次将A送入SOP以获得通道维度的长范围语义关联,产生全局视觉语义聚合该步骤被定义为:
最终,SOP增强了整体特征的非线性表达能力,GSM获得了组级卷积特征的全局一致性表示。
S5、构建多模态故事解码网络(MSD),旨在充分利用S3和S4中生成的增强文本知识、注意力区域视觉特征和全局视觉语义聚合,最终生成具备可推理的和连贯性的故事描述。多模态故事解码网络的过程如图5所示,具体步骤如下:
51)为了生成故事的第n个语句,对于给定的注意力区域视觉特征增强文本知识全局视觉语义聚合解码网络首先利用2个Linear层,1个Softmax层组成的展平函数,将转换为将转换为得到区域视觉引导向量和知识引导向量其中M、K和d分别表示检测区域框、关系图和特征通道的数量。
52)为了进一步挖掘视觉特征,增强文本信息和单词编码特征的紧密联系,设计了由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块完成多模态推理。具体的,对于在第t个时间步的第n张图像的区域视觉信息推理(图5左),解码器将先前区域隐藏状态知识引导向量先前单词编码和区域视觉引导特征送入LSTM,输出当前区域隐藏状态然后,解码器将认定为交叉注意力单元的query值,将设置为交叉注意力单元的key值或value值。最后,为了增强和之间的联系,带一个编码层的交叉注意力单元的输出可以获得带注意力区域特征表示该步骤被定义为:
其中,Embed(□)代表全连接层,代表连接操作。类似的,给定先前全局隐藏状态知识引导向量先前单词编码和全局视觉语义聚合全局视觉信息推理(图5右)可以产生当前全局隐藏状态和带注意力全局特征表示该步骤被定义为:
本发明(KAGS)生成的故事描述示例如图6所示。
S6、对上述故事描述方法进行基于自动评价指标和人工评价指标的模型综合性能评估。
本实施例中,采用的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr。采用的人工评价指标主要从相关性、表达性和具体性三个方面来评估。具体如下:
61)对于自动评价指标,BLEU是一种经典的机器翻译评价指标,旨在通过相似度度量方法得到预测句子和参考句子中n元组同时出现的概率。METEOR旨在基于召回率标准的测量获得和人工评价高度相关的结果。ROUGE_L是通过最长公共子序列计算得到预测语句和参考语句的相关性得分。CIDEr是通过计算向量间的余弦相似度测量获得预测语句和参考语句的相似度得分。
62)对于人工评价指标,相关性要求能准确描述一组图像序列中发生事件的主题;表达性要求能产生具有语法的、想象的、连贯的和丰富的语句;具体性要求能提供图像内容中叙述的和详细的描述。
为了验证本申请方法的性能,设计了以下实验。
本实施例和另外12种先进的故事描述模型进行对比,其具体细节如下:
(1)seq2seq,一个基于RNN结构的初始故事描述模型;(2)BARNN,基于GRU模块的关系注意力模型;(3)h-attn-rank,一个分层次的注意力循环网络;(4)XE-ss,一个基于LSTM的编码解码模型;(5)AERL,一个对抗的奖励优化框架;(6)HPSR,一个分层次的图像编码解码模型;(7)HSRL,一个分层次的强化学习框架;(8)VSCMR,一个语义感知挖掘网络;(9)ReCO-RL,一个相关性文本强化学习方法;(10)INet,一个想象力内容推理网络;(11)SGVST,一个场景图知识增强模型;(12)IRW,一个多图知识推理框架。
具体实验结果如表1和表2所示。
表1本发明和其他故事描述模型在VIST数据集上的性能对比(%)。
表2本发明和其他故事描述模型的人工评测结果,其中Tie表示测试者无法判别哪个方法更优。
由表1和表2可知,本发明方法相较于其他故事描述模型,获得了更优的结果。
以上详细说明了本发明优异的具体实施例。应当理解,本领域的研究人员无需额外的创造性劳动就能够依据本发明的思路做出诸多改进。因此,凡本技术领域中技术人员依据本发明的思路在现有技术的基础上通过对模型的逻辑推理、结构改造或者实验分析可以得到的技术方案,皆应落入本发明保护范围之内。
Claims (9)
1.一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,该方法通过构建并训练端到端模型生成一组图像的故事描述,包括以下步骤:
1)提取图像的视觉特征和文本特征,所述的视觉特征包括区域检测视觉特征和组级高层语义特征,所述的区域检测视觉特征包括区域特征和语义标签,所述的文本特征为外部知识增强信息;
2)基于知识增强注意力网络KAN对提取到的外部知识增强信息和区域检测视觉特征进行跨模态注意力特征关联和挖掘,获取区域注意力增强的文本信息和视觉特征;
3)基于构建组级语义模块GSM对提取到的组级高层语义视觉特征进行长序列一致性依赖的关联,获取全局视觉语义聚合特征;
4)将区域注意力增强的文本信息和视觉特征、全局视觉语义聚合特征和单词编码特征组成多模态特征,输入多模态故事解码网络MSD中生成具备可推理和连贯性的故事描述。
2.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的步骤1)中,视觉特征的提取方法具体为:
基于回归框和分类的大规模物体检测网络提取高置信度区域物体特征作为区域检测视觉特征,基于预训练的大规模视觉分类网络提取高层语义特征;
外部知识增强信息的提取方法具体为:
基于提取到的语义标签,通过大规模常识知识推理网络进行推理获取高置信度的常识推理知识作为文本特征。
3.根据权利要求2所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的步骤2)中,在知识增强注意力网络KAN中,以文本特征和区域特征作为由自注意力单元和交叉注意力单元构成的级联跨模态注意力模块CCA的输入,得到区域注意力增强的文本信息和视觉特征,包括注意力区域视觉特征和增强文本知识。
4.根据权利要求3所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,所述的步骤3)中,在组级语义模块GSM中,组级高层语义特征分别由多个二阶池化算法模块降维转化为多个特征张量,每个特征张量进行统一连接得到初始化的组级语义特征,在经过二阶池化算法模块进行长范围语义关联后得到全局视觉语义聚合特征。
5.根据权利要求4所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的步骤4)具体包括以下步骤:
41)通过展平函数将注意力区域视觉特征和增强文本知识转换为区域视觉引导向量和知识引导向量;
42)通过由交叉注意力单元和LSTM组成的区域视觉和全局视觉故事解码模块进行多模态推理;
43)根据得到的上下文向量产生当前单词编码,并转换为单词,构成故事描述。
6.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,该方法还包括以下步骤:
5)基于自动评价指标和人工评价指标的模型综合性能评估。
7.根据权利要求6所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的自动评价指标包括BLEU-1、BLEU-2、BLEU-3、BLEU-4、METEOR、ROUGE_L和CIDEr,所述的人工评价指标从相关性、表达性和具体性三个方面评估。
8.根据权利要求1所述的一种基于知识增强注意力网络和组级语义的故事描述生成方法,其特征在于,所述的端到端模型具体包括:
特征编码模块:用以提取图像的视觉特征和文本特征;
知识增强注意力网络:用以生成区域注意力增强的文本信息和视觉特征
组级语义模块:用以挖掘全局语义聚合特征;
多模态特征解码模块:用以输出多语句组成的故事描述。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110812701.5A CN113515951B (zh) | 2021-07-19 | 2021-07-19 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110812701.5A CN113515951B (zh) | 2021-07-19 | 2021-07-19 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113515951A true CN113515951A (zh) | 2021-10-19 |
CN113515951B CN113515951B (zh) | 2022-07-05 |
Family
ID=78067499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110812701.5A Active CN113515951B (zh) | 2021-07-19 | 2021-07-19 | 基于知识增强注意力网络和组级语义的故事描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113515951B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677580A (zh) * | 2022-05-27 | 2022-06-28 | 中国科学技术大学 | 一种基于自适应增强自注意力网络的图像描述方法 |
CN114782702A (zh) * | 2022-03-23 | 2022-07-22 | 成都瑞数猛兽科技有限公司 | 一种基于三层lstm推敲网络的图像语义理解算法 |
CN115062174A (zh) * | 2022-06-16 | 2022-09-16 | 电子科技大学 | 基于语义原型树的端到端图像字幕生成方法 |
CN115757464A (zh) * | 2022-11-18 | 2023-03-07 | 中国科学院软件研究所 | 一种基于深度强化学习的智能物化视图查询方法 |
CN116484318A (zh) * | 2023-06-20 | 2023-07-25 | 新励成教育科技股份有限公司 | 一种演讲训练反馈方法、装置及存储介质 |
US20230376687A1 (en) * | 2022-05-17 | 2023-11-23 | Adobe Inc. | Multimodal extraction across multiple granularities |
CN117593639A (zh) * | 2023-11-21 | 2024-02-23 | 北京天鼎殊同科技有限公司 | 公路及其附属物的提取方法、装置、设备及介质 |
CN117787224A (zh) * | 2023-12-27 | 2024-03-29 | 江南大学 | 一种基于多源异构特征融合的可控故事生成方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN110647612A (zh) * | 2019-09-18 | 2020-01-03 | 合肥工业大学 | 一种基于双视觉注意力网络的视觉对话生成方法 |
CN110717498A (zh) * | 2019-09-16 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 图像描述生成方法、装置及电子设备 |
CN110888980A (zh) * | 2019-10-10 | 2020-03-17 | 天津大学 | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 |
CN111241326A (zh) * | 2019-12-26 | 2020-06-05 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111243060A (zh) * | 2020-01-07 | 2020-06-05 | 复旦大学 | 一种基于手绘图的故事性文本生成方法 |
CN111414736A (zh) * | 2020-03-23 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 故事生成模型训练方法、装置、设备及存储介质 |
CN111708904A (zh) * | 2020-08-24 | 2020-09-25 | 浙江大学 | 一种基于主题适应与原型编码的少样本视觉故事叙述方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN112685582A (zh) * | 2019-10-18 | 2021-04-20 | 微软技术许可有限责任公司 | 自动生成故事板 |
-
2021
- 2021-07-19 CN CN202110812701.5A patent/CN113515951B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110168573A (zh) * | 2016-11-18 | 2019-08-23 | 易享信息技术有限公司 | 用于图像标注的空间注意力模型 |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
US20190122145A1 (en) * | 2017-10-23 | 2019-04-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for extracting information |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
WO2020244287A1 (zh) * | 2019-06-03 | 2020-12-10 | 中国矿业大学 | 一种图像语义描述的生成方法 |
CN110717498A (zh) * | 2019-09-16 | 2020-01-21 | 腾讯科技(深圳)有限公司 | 图像描述生成方法、装置及电子设备 |
CN110647612A (zh) * | 2019-09-18 | 2020-01-03 | 合肥工业大学 | 一种基于双视觉注意力网络的视觉对话生成方法 |
CN110888980A (zh) * | 2019-10-10 | 2020-03-17 | 天津大学 | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 |
CN112685582A (zh) * | 2019-10-18 | 2021-04-20 | 微软技术许可有限责任公司 | 自动生成故事板 |
CN111241326A (zh) * | 2019-12-26 | 2020-06-05 | 同济大学 | 基于注意力金字塔图网络的图像视觉关系指代定位方法 |
CN111243060A (zh) * | 2020-01-07 | 2020-06-05 | 复旦大学 | 一种基于手绘图的故事性文本生成方法 |
CN111414736A (zh) * | 2020-03-23 | 2020-07-14 | 腾讯科技(深圳)有限公司 | 故事生成模型训练方法、装置、设备及存储介质 |
CN111708904A (zh) * | 2020-08-24 | 2020-09-25 | 浙江大学 | 一种基于主题适应与原型编码的少样本视觉故事叙述方法 |
Non-Patent Citations (3)
Title |
---|
CHAO CHUN HSU ET AL.: "Knowledge-Enriched Visual Storytelling", 《ASSOCIATION FOR THE ADVANCEMENT OF ARTIFICIAL INTELLIGENCE》 * |
RANJAY KRISHNA ET AL.: "Visual Genome Connecting Language and Vision Using Crowdsourced Dense Image Annotations", 《INTERNATIONAL JOURNAL OF COMPUTER VISION》 * |
XINRAN YANG,ILARIA TIDDI: "Creative storytelling with Language Models and Knowledge Graphs", 《CIKM 2020》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114782702A (zh) * | 2022-03-23 | 2022-07-22 | 成都瑞数猛兽科技有限公司 | 一种基于三层lstm推敲网络的图像语义理解算法 |
US20230376687A1 (en) * | 2022-05-17 | 2023-11-23 | Adobe Inc. | Multimodal extraction across multiple granularities |
CN114677580A (zh) * | 2022-05-27 | 2022-06-28 | 中国科学技术大学 | 一种基于自适应增强自注意力网络的图像描述方法 |
CN114677580B (zh) * | 2022-05-27 | 2022-09-30 | 中国科学技术大学 | 一种基于自适应增强自注意力网络的图像描述方法 |
CN115062174A (zh) * | 2022-06-16 | 2022-09-16 | 电子科技大学 | 基于语义原型树的端到端图像字幕生成方法 |
CN115757464A (zh) * | 2022-11-18 | 2023-03-07 | 中国科学院软件研究所 | 一种基于深度强化学习的智能物化视图查询方法 |
CN116484318A (zh) * | 2023-06-20 | 2023-07-25 | 新励成教育科技股份有限公司 | 一种演讲训练反馈方法、装置及存储介质 |
CN116484318B (zh) * | 2023-06-20 | 2024-02-06 | 新励成教育科技股份有限公司 | 一种演讲训练反馈方法、装置及存储介质 |
CN117593639A (zh) * | 2023-11-21 | 2024-02-23 | 北京天鼎殊同科技有限公司 | 公路及其附属物的提取方法、装置、设备及介质 |
CN117593639B (zh) * | 2023-11-21 | 2024-05-28 | 北京天鼎殊同科技有限公司 | 公路及其附属物的提取方法、装置、设备及介质 |
CN117787224A (zh) * | 2023-12-27 | 2024-03-29 | 江南大学 | 一种基于多源异构特征融合的可控故事生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113515951B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113515951B (zh) | 基于知识增强注意力网络和组级语义的故事描述生成方法 | |
CN114169330B (zh) | 融合时序卷积与Transformer编码器的中文命名实体识别方法 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
WO2023217163A1 (zh) | 一种基于本地自注意力机制的大坝缺陷时序图像描述方法 | |
CN111488739A (zh) | 基于多粒度生成图像增强表示的隐式篇章关系识别方法 | |
CN113177141B (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN113111836B (zh) | 基于跨模态哈希学习的视频解析方法 | |
CN111460132A (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
US20230368500A1 (en) | Time-series image description method for dam defects based on local self-attention | |
CN114627162A (zh) | 一种基于视频上下文信息融合的多模态密集视频描述方法 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Cheng et al. | A semi-supervised deep learning image caption model based on Pseudo Label and N-gram | |
CN118171149B (zh) | 标签分类方法、装置、设备、存储介质和计算机程序产品 | |
CN109933682A (zh) | 一种基于语义与内容信息结合的图像哈希检索方法及系统 | |
Wu et al. | Hierarchical memory decoder for visual narrating | |
CN114677631A (zh) | 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法 | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 | |
CN114511813B (zh) | 视频语义描述方法及装置 | |
CN116543289A (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
CN113505207B (zh) | 一种金融舆情研报的机器阅读理解方法及系统 | |
CN113449517B (zh) | 基于bert门控多窗口注意力网络模型的实体关系抽取方法 | |
CN115409028A (zh) | 一种知识与数据驱动的多粒度中文文本情感分析方法 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
CN112749554B (zh) | 确定文本匹配度的方法、装置、设备及存储介质 | |
CN113869059A (zh) | 基于注意力机制的自然语言文本三元组提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |