CN112328782A - 一种融合图像过滤器的多模态摘要生成方法 - Google Patents

一种融合图像过滤器的多模态摘要生成方法 Download PDF

Info

Publication number
CN112328782A
CN112328782A CN202011219386.7A CN202011219386A CN112328782A CN 112328782 A CN112328782 A CN 112328782A CN 202011219386 A CN202011219386 A CN 202011219386A CN 112328782 A CN112328782 A CN 112328782A
Authority
CN
China
Prior art keywords
image
text
vector
context vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011219386.7A
Other languages
English (en)
Other versions
CN112328782B (zh
Inventor
廖祥文
陈俊杰
陈志豪
丘永旺
朱雨航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202011219386.7A priority Critical patent/CN112328782B/zh
Publication of CN112328782A publication Critical patent/CN112328782A/zh
Application granted granted Critical
Publication of CN112328782B publication Critical patent/CN112328782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种融合图像过滤器的多模态摘要生成方法,包括步骤:获取输入文本的隐藏表示,得到文本上下文向量;提取输入图像的全局图像特征向量,并进行加权和计算得到图像上下文向量;对文本上下文向量与图像上下文向量进行融合,得到多模态信息的融合向量;采用图像过滤器来过滤图像中的噪声,选择最显著的图像特征,对图像上下文向量进行权重更新,并得到更新后的融合向量;采用单向的长短期记忆网络作为解码器,将更新后的融合向量解码得到最终的文本摘要。本发明从图像信息和文本信息融合出发,充分利用不同模态的信息提高文本摘要质量,并且能够应用于更大规模数据集应用场景。

Description

一种融合图像过滤器的多模态摘要生成方法
技术领域
本发明涉及文本摘要技术领域,特别是一种融合图像过滤器的多模态摘要生成方法。
背景技术
当前,有很多技术可用于文本摘要领域的研究。自动摘要方法大体上可以分为两类:抽取式摘要和生成式摘要。抽取式摘要的基本做法是从原文中抽取部分重要的句子形成摘要,研究重点集中在句子的重要性判断、筛选以及排序等。生成式摘要的基本思路是在理解原文语义的基础上,凝练其思想与概念,以实现语义重构。
当前,存在着一些基于传统方法的抽取式摘要方法。主要使用图方法、聚类等方式完成无监督摘要。它们抽取文章中的前几句作为摘要,或利用句子作为节点,句子与句子之间的某种关系作为边的权重,通过随机游走模型对句子的得分做迭代更新计算,从而实现对句子的评分,选择一定数量得分高的句子组合成摘要。当前,也存在着一些基于神经网络的抽取式摘要方法。将问题建模为序列标注和句子排序两类任务。抽取式方法天然的在语法、句法上错误率低,保证了一定的效果。但忽略摘要的事实细节问题,使得内容选择错误、连贯性差、灵活性差等问题。
当前,存在着一些基于深度学习的生成式摘要方法。代表方法有具有注意力机制的序列到序列模型、利用外部信息、多任务学习等。序列到序列模型生成的摘要在语言流畅性、连贯性等方面让学界看到自动摘要实用化的希望。注意力机制的加入使得Seq2Seq模型更加完善,之后大量相关研究都建立在该模型的基础上。利用外部知识的方法将相似句子的摘要作为软模板,作为外部知识进行辅助;多任务学习方法将摘要生成作为主任务,问题生成、蕴含生成作为辅助任务进行多任务学习。问题生成任务需要根据给定的文本和答案生成问题,要求模型具有选择重要信息的能力,蕴含生成任务要求根据给定文本,有逻辑地推出输出文本。生成式摘要允许摘要中包含新的词语或短语,灵活性高,具备简明、内聚、信息丰富以及低冗余等优点。
随着互联网多模态数据的增加,一些科研工作者近年来重点研究多模态摘要。在已有的文本摘要模型基础上,加入图像、音频和视频等多模态信息,以期对多模态数据生成摘要,满足当前社会发展的需要,这些摘要可以帮助人们在短时间内获取多模态数据的要点,而无需从头到尾阅读文档、查看图片或观看视频。
已有的实验已经证明,与文本摘要相比,多模态摘要可以利用视觉模态信息提高生成摘要的质量。因此,人们希望能有一种面向多模态数据的摘要方法。
发明内容
有鉴于此,本发明的目的是提出一种融合图像过滤器的多模态摘要生成方法,从图像信息和文本信息融合出发,充分利用不同模态的信息提高文本摘要质量,并且能够应用于更大规模数据集应用场景。
本发明采用以下方案实现:一种融合图像过滤器的多模态摘要生成方法,包括以下步骤:
对新闻文章语料集进行预处理;
采用双向长短期记忆网络作为编码器,获取输入文本的隐藏表示,并通过文本注意力机制得到文本上下文向量;
采用VGG19提取输入图像的全局图像特征向量,并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量;
对文本上下文向量与图像上下文向量进行融合,得到多模态信息的融合向量;
采用图像过滤器来过滤图像中的噪声,选择最显著的图像特征,对图像上下文向量进行权重更新,并得到更新后的融合向量;
采用单向的长短期记忆网络作为解码器,将更新后的融合向量解码得到最终的文本摘要。
进一步地,所述采用VGG19提取输入图像的全局图像特征向量,并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量具体为:
使用VGG19网络来提取所有输入图像的全局特征,为了处理一组图像集合的显著部分,将全局特征集g平展成一个矩阵g'=(g1,...,gM),其中M为文本上下文向量的维数,以将图像的全局特征投影到与文本上下文向量相同的维数中,并通过图像注意力机制对其进行加权和计算得到图像上下文向量
Figure BDA0002761530180000031
进一步地,所述对文本上下文向量与图像上下文向量进行融合,得到多模态信息的融合向量采用下式:
Figure BDA0002761530180000032
式中,
Figure BDA0002761530180000033
为融合向量,
Figure BDA0002761530180000034
Figure BDA0002761530180000035
分别是文本上下文向量和图像上下文向量,
Figure BDA0002761530180000036
Figure BDA0002761530180000037
分别为文本上下文向量和图像上下文向量的注意力权重。
进一步地,所述采用图像过滤器来过滤图像中的噪声,选择最显著的图像特征,对图像上下文向量进行权重更新,并得到更新后的融合向量具体为:采用以下公式得到更新权重Ic
Ic=σ(Wss0+Wgg+Wrst-1);
式中,Ws、Wg、Wr为学习参数,g为图像的全局特征,s0、st-1分别是解码器的初始状态和上一时间步的状态,σ是Sigmoid函数;
采用更新权重Ic更新图像上下文向量
Figure BDA0002761530180000041
Figure BDA0002761530180000042
进一步地,所述采用单向的长短期记忆网络作为解码器,将更新后的融合向量解码得到最终的文本摘要具体包括以下步骤:
通过单向的LSTM得到解码器当前t时刻的状态st,之后将解码器当前状态st和得到的更行后的融合向量c'mm输入到两层的线性层后,再通过softmax函数来产生整个词汇表的分布pv,计算公式为:
pv=softmax(V′(V[st,c'mm]+b)+b′);
式中,V′、V、b、b′为学习参数;
生成概率pg的计算公式为:
Figure BDA0002761530180000043
式中,
Figure BDA0002761530180000044
bp为学习参数,st为当前t时刻的解码器状态,xt为当前时刻t的编码器的输入。pg是一个0-1的概率值,其作用类似于一个软开关,根据注意力机制的分布情况,在每一次解码器解码生成单词时,根据pg的值选择从词汇表中选取一个单词或者从输入文本中复制一个单词作为当前时刻的生成单词。这样相当于对词汇表做了拓展,补充了输入文本中的单词,可以有效缓解因词汇表大小有限带来的未登录词汇的问题。
拓展后的词汇表的最终概率分布pw为:
Figure BDA0002761530180000051
w表示当前的预测单词,wi表示输入文本中的第i个单词,(1-pg)表示通过对
Figure BDA0002761530180000052
抽样,从输入文本中复制一个单词的概率,
Figure BDA0002761530180000053
为输入文本单词的注意力分布;
解码器根据通过计算得到拓展后的词汇表的最终概率pw,从拓展后的词汇表中选择一个单词作为当前时间步t的输出单词,最后形成文本摘要。
进一步地,为了减少对多模态信息的重复注意,将文本覆盖和视觉覆盖加入到损失函数中,时间t的损失为目标单词的负对数似然与覆盖损失的和,得到最终的训练损失函数:
Figure BDA0002761530180000054
式中,
Figure BDA0002761530180000055
为预测单词wi在t时刻的分布概率,
Figure BDA0002761530180000056
为文本覆盖向量,
Figure BDA0002761530180000057
是图像覆盖向量。
本发明还提供了一种融合图像过滤器的多模态摘要生成系统,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
与现有技术相比,本发明有以下有益效果:本发明将海量多模态信息进行浓缩形成文本摘要有利于人们快速有效的获取所需的关键信息,方便阅读。本发明从图像信息和文本信息融合出发,充分利用不同模态的信息提高文本摘要质量,并且能够应用于更大规模数据集的应用场景。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的步骤S2的示意图。
图3为本发明实施例的步骤S3的示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种融合图像过滤器的多模态摘要生成方法,包括以下步骤:
步骤S1:对新闻文章语料集进行预处理,清理一些不相关的词和标记化;
步骤S2:采用双向长短期记忆网络作为编码器,获取输入文本的隐藏表示,并通过文本注意力机制得到文本上下文向量;如图2所示;
步骤S3:采用VGG19提取输入图像的全局图像特征向量,并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量;
步骤S4:对文本上下文向量与图像上下文向量进行融合,得到多模态信息的融合向量;
步骤S5:采用图像过滤器来过滤图像中的噪声,选择最显著的图像特征,避免引入噪声、确保图像精度,捕捉源句子的关键,对图像上下文向量进行权重更新,并得到更新后的融合向量;
步骤S6:采用单向的长短期记忆网络作为解码器,将更新后的融合向量解码得到最终的文本摘要。
在本实施例中,步骤S1中的预处理具体为,转化为小写,进行标记化和清理一些不相关的词等,
在本实施例中,如图3所示,所述采用VGG19提取输入图像的全局图像特征向量,扩展了注意力机制到图像注意力机制,并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量具体为:
使用VGG19网络来提取所有输入图像的全局特征,为了处理一组图像集合的显著部分,将全局特征集g平展成一个矩阵g'=(g1,...,gM),其中M为文本上下文向量的维数,以将图像的全局特征投影到与文本上下文向量相同的维数中,并通过图像注意力机制对其进行加权和计算得到图像上下文向量
Figure BDA0002761530180000081
在本实施例中,所述对文本上下文向量与图像上下文向量进行融合,得到多模态信息的融合向量采用下式:
Figure BDA0002761530180000082
式中,
Figure BDA0002761530180000083
为融合向量,
Figure BDA0002761530180000084
Figure BDA0002761530180000085
分别是文本上下文向量和图像上下文向量,
Figure BDA0002761530180000086
Figure BDA0002761530180000087
分别为文本上下文向量和图像上下文向量的注意力权重。
在本实施例中,所述采用图像过滤器来过滤图像中的噪声,选择最显著的图像特征,对图像上下文向量进行权重更新,并得到更新后的融合向量具体为:图像过滤器是个应用于图像上下文向量的过滤向量,基于源图像和句子之间的相关性和与下一个目标单词的关系两个方面来过滤掉图像上下文中的噪声。
采用以下公式得到更新权重Ic
Ic=σ(Wss0+Wgg+Wrst-1);
式中,Ws、Wg、Wr为学习参数,g为图像的全局特征,s0、st-1分别是解码器的初始状态和上一时间步的状态,σ是Sigmoid函数;
采用更新权重Ic更新图像上下文向量
Figure BDA0002761530180000088
Figure BDA0002761530180000089
在本实施例中,所述采用单向的长短期记忆网络作为解码器,将更新后的融合向量解码得到最终的文本摘要具体包括以下步骤:
通过单向的LSTM得到解码器当前t时刻的状态st,之后将解码器当前状态st和得到的更行后的融合向量c'mm输入到两层的线性层后,再通过softmax函数来产生整个词汇表的分布pv,计算公式为:
pv=softmax(V′(V[st,c'mm]+b)+b′);
式中,V′、V、b、b′为学习参数;
生成概率pg的计算公式为:
Figure BDA0002761530180000091
式中,
Figure BDA0002761530180000092
bp为学习参数,st为当前t时刻的解码器状态,xt为当前时刻t的编码器的输入。pg是一个0-1的概率值,其作用类似于一个软开关,根据注意力机制的分布情况,在每一次解码器解码生成单词时,根据pg的值选择从词汇表中选取一个单词或者从输入文本中复制一个单词作为当前时刻的生成单词。这样相当于对词汇表做了拓展,补充了输入文本中的单词,可以有效缓解因词汇表大小有限带来的未登录词汇的问题。
拓展后的词汇表的最终概率分布pw为:
Figure BDA0002761530180000093
w表示当前的预测单词,wi表示输入文本中的第i个单词,(1-pg)表示通过对
Figure BDA0002761530180000094
抽样,从输入文本中复制一个单词的概率,
Figure BDA0002761530180000095
为输入文本单词的注意力分布;
解码器根据通过计算得到拓展后的词汇表的最终概率pw,从拓展后的词汇表中选择一个单词作为当前时间步t的输出单词,最后形成文本摘要。
在本实施例中,为了减少对多模态信息的重复注意,将文本覆盖和视觉覆盖加入到损失函数中,时间t的损失为目标单词的负对数似然与覆盖损失的和,得到最终的训练损失函数:
Figure BDA0002761530180000101
式中,
Figure BDA0002761530180000102
为预测单词wi在t时刻的分布概率,
Figure BDA0002761530180000103
为文本覆盖向量,
Figure BDA0002761530180000104
是图像覆盖向量。
本实施例还提供了一种融合图像过滤器的多模态摘要生成系统,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上文所述的方法步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (8)

1.一种融合图像过滤器的多模态摘要生成方法,其特征在于,包括以下步骤:
对新闻文章语料集进行预处理;
采用双向长短期记忆网络作为编码器,获取输入文本的隐藏表示,并通过文本注意力机制得到文本上下文向量;
采用VGG19提取输入图像的全局图像特征向量,并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量;
对文本上下文向量与图像上下文向量进行融合,得到多模态信息的融合向量;
采用图像过滤器来过滤图像中的噪声,选择最显著的图像特征,对图像上下文向量进行权重更新,并得到更新后的融合向量;
采用单向的长短期记忆网络作为解码器,将更新后的融合向量解码得到最终的文本摘要。
2.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法,其特征在于,所述采用VGG19提取输入图像的全局图像特征向量,并通过图像注意力机制对所提取的图像全局特征进行加权和计算得到图像上下文向量具体为:
使用VGG19网络来提取所有输入图像的全局特征,为了处理一组图像集合的显著部分,将全局特征集g平展成一个矩阵g'=(g1,...,gM),其中M为文本上下文向量的维数,以将图像的全局特征投影到与文本上下文向量相同的维数中,并通过图像注意力机制对其进行加权和计算得到图像上下文向量
Figure FDA0002761530170000011
3.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法,其特征在于,所述对文本上下文向量与图像上下文向量进行融合,得到多模态信息的融合向量采用下式:
Figure FDA0002761530170000021
式中,
Figure FDA0002761530170000022
为融合向量,
Figure FDA0002761530170000023
Figure FDA0002761530170000024
分别是文本上下文向量和图像上下文向量,
Figure FDA0002761530170000025
Figure FDA0002761530170000026
分别为文本上下文向量和图像上下文向量的注意力权重。
4.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法,其特征在于,所述采用图像过滤器来过滤图像中的噪声,选择最显著的图像特征,对图像上下文向量进行权重更新,并得到更新后的融合向量具体为:采用以下公式得到更新权重Ic
Ic=σ(Wss0+Wgg+Wrst-1);
式中,Ws、Wg、Wr为学习参数,g为图像的全局特征,s0、st-1分别是解码器的初始状态和上一时间步的状态,σ是Sigmoid函数;
采用更新权重Ic更新图像上下文向量
Figure FDA0002761530170000027
Figure FDA0002761530170000028
5.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法,其特征在于,所述采用单向的长短期记忆网络作为解码器,将更新后的融合向量解码得到最终的文本摘要具体包括以下步骤:
通过单向的LSTM得到解码器当前t时刻的状态st,之后将解码器当前状态st和得到的更行后的融合向量c'mm输入到两层的线性层后,再通过softmax函数来产生整个词汇表的分布pv,计算公式为:
pv=softmax(V′(V[st,c'mm]+b)+b′);
式中,V′、V、b、b′为学习参数;
生成概率pg的计算公式为:
Figure FDA0002761530170000031
式中,
Figure FDA0002761530170000032
bp为学习参数,st为当前t时刻的解码器状态,xt为当前时刻t的编码器的输入;pg是一个0-1的概率值,根据注意力机制的分布情况,在每一次解码器解码生成单词时,根据pg的值选择从词汇表中选取一个单词或者从输入文本中复制一个单词作为当前时刻的生成单词,以此对词汇表进行拓展,补充了输入文本中的单词;
拓展后的词汇表的最终概率分布pw为:
Figure FDA0002761530170000033
w表示当前的预测单词,wi表示输入文本中的第i个单词,(1-pg)表示通过对
Figure FDA0002761530170000034
抽样,从输入文本中复制一个单词的概率,
Figure FDA0002761530170000035
为输入文本单词的注意力布;
解码器根据通过计算得到拓展后的词汇表的最终概率pw,从拓展后的词汇表中选择一个单词作为当前时间步t的输出单词,最后形成文本摘要。
6.根据权利要求1所述的一种融合图像过滤器的多模态摘要生成方法,其特征在于,为了减少对多模态信息的重复注意,将文本覆盖和视觉覆盖加入到损失函数中,时间t的损失为目标单词的负对数似然与覆盖损失的和,得到最终的训练损失函数:
Figure FDA0002761530170000036
式中,
Figure FDA0002761530170000037
为预测单词wi在t时刻的分布概率,
Figure FDA0002761530170000038
为文本覆盖向量,
Figure FDA0002761530170000039
是图像覆盖向量。
7.一种融合图像过滤器的多模态摘要生成系统,其特征在于,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6任一项所述的方法步骤。
8.一种计算机可读存储介质,其特征在于,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-6任一项所述的方法步骤。
CN202011219386.7A 2020-11-04 2020-11-04 一种融合图像过滤器的多模态摘要生成方法 Active CN112328782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011219386.7A CN112328782B (zh) 2020-11-04 2020-11-04 一种融合图像过滤器的多模态摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011219386.7A CN112328782B (zh) 2020-11-04 2020-11-04 一种融合图像过滤器的多模态摘要生成方法

Publications (2)

Publication Number Publication Date
CN112328782A true CN112328782A (zh) 2021-02-05
CN112328782B CN112328782B (zh) 2022-08-09

Family

ID=74316991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011219386.7A Active CN112328782B (zh) 2020-11-04 2020-11-04 一种融合图像过滤器的多模态摘要生成方法

Country Status (1)

Country Link
CN (1) CN112328782B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733835A (zh) * 2021-03-31 2021-04-30 杭州科技职业技术学院 基于原图像和动态信息融合的息屏画面生成方法
CN112926671A (zh) * 2021-03-12 2021-06-08 云知声智能科技股份有限公司 一种图像文本匹配的方法、装置、电子设备和存储介质
CN114281982A (zh) * 2021-12-29 2022-04-05 中山大学 一种多模态融合技术的图书宣传摘要生成方法和系统
CN118506387A (zh) * 2024-07-17 2024-08-16 中科晶锐(苏州)科技有限公司 一种电子对抗中雷达显控关键信息提取装置及其方法
CN118506387B (zh) * 2024-07-17 2024-10-15 中科晶锐(苏州)科技有限公司 一种电子对抗中雷达显控关键信息提取装置及其方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997387A (zh) * 2017-03-28 2017-08-01 中国科学院自动化研究所 基于文本‑图像匹配的多模态自动文摘方法
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
AU2020100199A4 (en) * 2020-02-08 2020-03-19 Cao, Sihua MR A medical image fusion method based on two-layer decomposition and improved spatial frequency
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
CN111581961A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106997387A (zh) * 2017-03-28 2017-08-01 中国科学院自动化研究所 基于文本‑图像匹配的多模态自动文摘方法
CN109508400A (zh) * 2018-10-09 2019-03-22 中国科学院自动化研究所 图文摘要生成方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN111046668A (zh) * 2019-12-04 2020-04-21 北京信息科技大学 多模态文物数据的命名实体识别方法与装置
AU2020100199A4 (en) * 2020-02-08 2020-03-19 Cao, Sihua MR A medical image fusion method based on two-layer decomposition and improved spatial frequency
CN111581961A (zh) * 2020-05-06 2020-08-25 首都师范大学 一种中文视觉词汇表构建的图像内容自动描述方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
刘泽宇 等: ""基于多模态神经网络的图像中文摘要生成方法"", 《中文信息学报》 *
廖祥文 等: ""基于辅助记忆循环神经网络的视角级情感分析"", 《模式识别与人工智能》 *
管志斌: ""基于视觉特征的二维图像文本描述生成关键算法研究"", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
陈祥: ""基于多模态数据的文本摘要生成研究"", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926671A (zh) * 2021-03-12 2021-06-08 云知声智能科技股份有限公司 一种图像文本匹配的方法、装置、电子设备和存储介质
CN112926671B (zh) * 2021-03-12 2024-04-19 云知声智能科技股份有限公司 一种图像文本匹配的方法、装置、电子设备和存储介质
CN112733835A (zh) * 2021-03-31 2021-04-30 杭州科技职业技术学院 基于原图像和动态信息融合的息屏画面生成方法
CN112733835B (zh) * 2021-03-31 2021-06-22 杭州科技职业技术学院 基于原图像和动态信息融合的息屏画面生成方法
CN114281982A (zh) * 2021-12-29 2022-04-05 中山大学 一种多模态融合技术的图书宣传摘要生成方法和系统
CN114281982B (zh) * 2021-12-29 2023-06-13 中山大学 一种多模态融合技术的图书宣传摘要生成方法和系统
CN118506387A (zh) * 2024-07-17 2024-08-16 中科晶锐(苏州)科技有限公司 一种电子对抗中雷达显控关键信息提取装置及其方法
CN118506387B (zh) * 2024-07-17 2024-10-15 中科晶锐(苏州)科技有限公司 一种电子对抗中雷达显控关键信息提取装置及其方法

Also Published As

Publication number Publication date
CN112328782B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN110717017B (zh) 一种处理语料的方法
CN112328782B (zh) 一种融合图像过滤器的多模态摘要生成方法
CN110083710B (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
US20220351487A1 (en) Image Description Method and Apparatus, Computing Device, and Storage Medium
CN111783455B (zh) 文本生成模型的训练方法及装置、文本生成方法及装置
KR101348282B1 (ko) 텍스트로부터 애니메이션을 생성하는 방법 및 장치
Islam et al. Exploring video captioning techniques: A comprehensive survey on deep learning methods
CN114428850B (zh) 一种文本检索匹配方法和系统
Agić et al. Baselines and test data for cross-lingual inference
CN114091466A (zh) 一种基于Transformer和多任务学习的多模态情感分析方法及系统
CN114387537A (zh) 一种基于描述文本的视频问答方法
Li et al. Cm-gen: A neural framework for chinese metaphor generation with explicit context modelling
CN109800435A (zh) 一种语言模型的训练方法及装置
Zhu Metaaid 2.0: An extensible framework for developing metaverse applications via human-controllable pre-trained models
Zhao et al. An open speech resource for Tibetan multi-dialect and multitask recognition
Krishna et al. Virtual indian sign language interpreter
CN111709230B (zh) 基于词性软模板注意力机制的短文本自动摘要方法
Vaishnavi et al. Video captioning–a survey
Ying et al. A Machine Translation Framework Based on Neural Network Deep Learning: from Semantics to Feature Analysis
Ingavélez-Guerra et al. An intelligent system to automatically generate video-summaries for accessible learning objects for people with hearing loss
CN111090720A (zh) 一种热词的添加方法和装置
Dinarelli et al. Concept segmentation and labeling for conversational speech
CN117035064B (zh) 一种检索增强语言模型的联合训练方法及存储介质
Kamruzzaman et al. A deep learning approach for bangla image captioning system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant