CN116453120A - 基于时序场景图注意力机制的图像描述方法、设备及介质 - Google Patents

基于时序场景图注意力机制的图像描述方法、设备及介质 Download PDF

Info

Publication number
CN116453120A
CN116453120A CN202310439740.4A CN202310439740A CN116453120A CN 116453120 A CN116453120 A CN 116453120A CN 202310439740 A CN202310439740 A CN 202310439740A CN 116453120 A CN116453120 A CN 116453120A
Authority
CN
China
Prior art keywords
attention
graph
scene graph
layer information
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310439740.4A
Other languages
English (en)
Other versions
CN116453120B (zh
Inventor
李阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Intelligent Technology Co Ltd
Original Assignee
Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Intelligent Technology Co Ltd filed Critical Inspur Intelligent Technology Co Ltd
Priority to CN202310439740.4A priority Critical patent/CN116453120B/zh
Publication of CN116453120A publication Critical patent/CN116453120A/zh
Application granted granted Critical
Publication of CN116453120B publication Critical patent/CN116453120B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本申请公开了基于时序场景图注意力机制的图像描述方法、设备及介质,用以解决现有的时序场景图注意力机制忽略前一时刻注意力LSTM隐藏层信息的重要性以及节点信息,生成的句子较为单调,多样性较差的问题。方法包括:基于时序场景图注意力机制获取待处理图片对应抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息;计算图内容注意力及图流向注意力;通过激活函数对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行处理获得超参数;基于超参数融合图内容注意力和图流向注意力得到对应注意力分数,基于注意力分数对抽象场景图进行解码生成对应单词,以实现对抽象场景图的图像描述。

Description

基于时序场景图注意力机制的图像描述方法、设备及介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及基于时序场景图注意力机制的图像描述方法、设备及介质。
背景技术
目前,图像描述实现的任务是接收图片并生成一段自然语言描述图片中的内容。在当前的计算机视觉领域中,为了使模型生成准确度较高的句子,注意力成为了至关重要的步骤。随着对该任务的研究逐渐增多,图像的场景图被用来增强图像描述模型,由于使用了图结构,所使用的注意力机制较为特殊,它同时考虑了图结点内容以及图结构信息。
但是,当前基于时序场景图的注意力机制仅仅关注当前时刻注意力LSTM隐藏层信息,没有注重前一时刻注意力LSTM隐藏层信息,忽略了前一时刻注意力LSTM隐藏层信息的重要性。并且,在图流向注意力过程中,现有的图流向起点固定为节点矩阵的第一列,这会导致注意力的计算过程忽视其他节点信息,生成的句子较为单调,多样性较差。
发明内容
本申请实施例提供了基于时序场景图注意力机制的图像描述方法、设备及介质,用以解决现有的时序场景图注意力机制忽略了前一时刻注意力LSTM隐藏层信息的重要性以及其他节点信息,生成的句子较为单调,多样性较差的技术问题。
一方面,本申请实施例提供了基于时序场景图注意力机制的图像描述方法,包括:
将用户的待处理图片抽象为对应的抽象场景图,并基于时序场景图注意力机制,获取所述抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息;
根据所述当前时刻注意力隐藏层信息和上下文信息,计算所述抽象场景图的图内容注意力,以及根据所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息和上下文信息,计算所述抽象场景图的图流向注意力;
通过激活函数对所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行处理,并获得用于调优的超参数;
基于所述超参数,对所述图内容注意力和所述图流向注意力进行融合,得到对应的注意力分数,并基于所述注意力分数对所述抽象场景图进行解码,生成对应的单词,以实现对抽象场景图的图像描述。
在本申请的一种实现方式中,所述基于所述超参数,对所述图内容注意力和所述图流向注意力进行融合,得到对应的注意力分数,具体包括:
将所述超参数作为图内容注意力或图流向注意力中一种注意力对应的权重,并根据所述超参数,计算出另一种注意力对应的权重;所述图内容注意力对应的权重与图流向注意力对应的权重的加和为单位长度;
将所述图内容注意力对应的权重与所述图内容注意力相乘,以及将所述图流向注意力对应的权重与所述图流向注意力相乘,并根据所述图内容注意力对应的乘积与所述流向注意力对应的乘积,计算出对应的注意力分数。
在本申请的一种实现方式中,所述根据所述当前时刻注意力隐藏层信息以及上下文信息,计算所述抽象场景图的图内容注意力,具体包括:
确定节点嵌入之间的语义相关性、所述语义相关性对应的学习参数以及当前时刻注意力隐藏层信息对应的学习参数,并根据所述语义相关性、所述语义相关性对应的学习参数、当前时刻注意力隐藏层信息以及所述当前时刻注意力隐藏层信息对应的学习参数,计算出所述抽象场景图对应的注意力分数向量;
通过归一化指数函数对所述注意力分数向量进行归一化处理,获得所述抽象场景图对应的图内容注意力。
在本申请的一种实现方式中,所述根据所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息,计算所述抽象场景图的图流向注意力,具体包括:
通过归一化指数函数,对所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息进行归一化处理,并获得注意力分数对应的权重;
基于所述注意力分数对应的权重,对预设数量个指定抽象节点进行加权,并获得对应的图流向注意力;所述指定抽象节点包括保持在同一位置的抽象节点、移动一步的抽象节点以及移动两步的抽象节点。
在本申请的一种实现方式中,所述通过激活函数对所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息进行处理,并获得用于调优的超参数,具体包括:
分别确定出所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息对应的学习参数,并将所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息分别与对应的学习参数相乘,以得到对应的乘积;
将所述当前时刻注意力隐藏层信息对应的乘积、所述前一时刻注意力隐藏层信息对应的乘积以及所述上下文信息对应的乘积进行拼接,以得到对应的拼接结果,并通过激活函数对所述拼接结果进行激活处理,以获得用于调优的超参数。
在本申请的一种实现方式中,所述基于时序场景图注意力机制,获取所述抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息,具体包括:
基于时序场景图注意力机制获取前一时刻注意力隐藏层信息;
确定所述抽象场景图中抽象节点之间的多关系图,并通过所述多关系图对所述抽象场景图进行上下文编码,以获取所述抽象场景图对应的上下文信息;
通过多关系图卷积神经网络,对所述抽象场景图的上下文信息进行编码,以获得对应的节点嵌入,并计算所有节点嵌入的平均值,以获得对应的全局图嵌入;
将所述全局图嵌入与全局图像进行融合,得到对应的全局编码特征,并基于所述全局编码特征和所述前一时刻注意力隐藏层信息,计算所述抽象场景图的当前时刻注意力隐藏层信息。
在本申请的一种实现方式中,所述基于所述注意力分数对所述抽象场景图进行解码,生成对应的单词,以实现对抽象场景图的图像描述,具体包括:
将所述注意力分数与所述抽象场景图对应的抽象节点相乘,以获得对应的乘积,并将所述对应的乘积作为当前时刻上下文信息;
基于所述当前时刻上下文信息,对所述抽象场景图进行解码,生成对应的若干个单词,并将所述若干个单词进行拼接,以实现对所述抽象场景图的图像描述。
在本申请的一种实现方式中,所述将用户的待处理图片抽象为对应的抽象场景图,具体包括:
确定出用户具有图像描述需求的待处理图片,并获取所述用户的待处理图片;
将所述待处理图片抽象为对应的抽象场景图;所述抽象场景图是由抽象节点组成的,所述抽象节点包括对象、属性和关系三种类型。
另一方面,本申请实施例还提供了基于时序场景图注意力机制的图像描述设备,所述设备包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的基于时序场景图注意力机制的图像描述方法。
另一方面,本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:
如上述的基于时序场景图注意力机制的图像描述方法。
本申请实施例提供了基于时序场景图注意力机制的图像描述方法、设备及介质,至少包括以下有益效果:
通过将待处理图片抽象为抽象场景图,便于获取抽象场景图对应的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息;根据确定出的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息,能够计算出抽象场景图对应的图内容注意力和图流向注意力;通过对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行激活处理,能够得到用于调优的超参数;基于超参数融合图内容注意力和图流向注意力,能够得到对应的注意力分数,从而根据注意力分数对抽象场景图进行编码,逐个生成对应的单词,从而实现对抽象场景图的图像描述,提升图像描述的准确度,增加生成句子的多样性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的基于时序场景图注意力机制的图像描述方法的流程示意图;
图2为本申请实施例提供的基于时序场景图注意力机制的图像描述设备的内部结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了基于时序场景图注意力机制的图像描述方法、设备及介质,通过将待处理图片抽象为抽象场景图,便于获取抽象场景图对应的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息;根据确定出的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息,能够计算出抽象场景图对应的图内容注意力和图流向注意力;通过对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行激活处理,能够得到用于调优的超参数;基于超参数融合图内容注意力和图流向注意力,能够得到对应的注意力分数,从而根据注意力分数对抽象场景图进行编码,逐个生成对应的单词,从而实现对抽象场景图的图像描述。解决了现有技术中的时序场景图注意力机制忽略了前一时刻注意力LSTM隐藏层信息的重要性以及其他节点信息,生成的句子较为单调,多样性较差的技术问题。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请实施例提供的基于时序场景图注意力机制的图像描述方法的流程示意图。如图1所示,本申请实施例提供的基于时序场景图注意力机制的图像描述方法,包括:
101、将用户的待处理图片抽象为对应的抽象场景图,并基于时序场景图注意力机制,获取抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息。
图像描述是为计算机提供图像,并通过计算机将图片与图片中各对象之间的关系结合起来,生成对应的自然语言描述。为了生成一段自然语言描述图片中的内容,实现对图像的描述,服务器将用户确定出的待处理图片抽象为对应的抽象场景图。并且,为了避免时序场景图注意力机制仅关注当前时刻注意力隐藏层信息,忽略上一时刻注意力隐藏层信息,服务器基于时序场景图注意力机制,获取抽象场景图中的当前注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息,便于后续根据获取到的当前注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息对抽象场景图进行处理,增加对抽象场景图的图像描述的准确性。
具体地,服务器首先需要确定出用户具有图像描述需求的待处理图片,并获取用户具有图像描述需求的待处理图片,然后,服务器将待处理图片抽象为对应的抽象场景图。需要说明的是,本申请实施例中的抽象场景图是由抽象节点组成的,抽象节点包括对象、属性和关系三种类型。
服务器基于时序场景图注意力机制获取抽象场景图的前一时刻注意力隐藏层信息,还需确定出抽象场景图中抽象节点之间的多关系图,并通过多关系图对抽象场景图进行上下文编码,以获取抽象场景图对应的上下文信息,然后,服务器通过多关系图卷积神经网络,对抽象场景图的上下文信息进行编码,以获得对应的节点嵌入,并计算所有节点嵌入的平均值,以获得对应的全局图嵌入,最后,服务器将全局图嵌入与全局图像进行融合,得到对应的全局编码特征,并基于全局编码特征和前一时刻注意力隐藏层信息,计算出抽象场景图的当前时刻注意力隐藏层信息。
102、根据当前时刻注意力隐藏层信息和上下文信息,计算抽象场景图的图内容注意力,以及根据当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息和上下文信息,计算抽象场景图的图流向注意力。
为了在一定程度上解决未注重先前时刻注意力LSTM隐藏层的问题以及生成句子多样性低的问题,本申请改进了注意力的计算过程,并将图流向起点设为随机起点来计算下一个图流向,提出了基于时序场景图注意力的图像描述网络。服务器根据抽象场景图的当前时刻注意力隐藏层信息和上下文信息,计算出抽象场景图对应的图内容注意力,以及服务器根据抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息和上下文信息,计算出抽象场景图对应的图流向注意力。
具体地,服务器确定节点嵌入之间的语义相关性、语义相关性对应的学习参数以及当前时刻注意力隐藏层信息对应的学习参数,并根据语义相关性、语义相关性对应的学习参数、当前时刻注意力隐藏层信息以及当前时刻注意力隐藏层信息对应的学习参数,计算出抽象场景图对应的注意力分数向量,然后,服务器通过归一化指数函数对注意力分数向量进行归一化处理,从而能够获得抽象场景图对应的图内容注意力。
具体可通过以下公式进行表示:
需要说明的是,本申请实施例中的表示注意力分数向量,tanh()表示双曲正切函数,/>表示双曲正切函数的学习参数,xt,i表示i个节点嵌入之间的语义相关性,Wxc表示语义相关性对应的学习参数,/>表示当前时刻注意力隐藏层信息,Whc表示当前时刻注意力隐藏层信息在图内容注意力计算过程中的学习参数,/>表示图内容注意力,softmax()表示归一化指数函数。
服务器通过归一化指数函数,对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息进行归一化处理,并获得注意力分数对应的权重。
具体可通过以下公式进行表示:
需要说明的是,本申请实施例中的St表示注意力分数对应的权重,σ表示ReLU激活函数,zt-1表示前一时刻的上下文信息,表示前一时刻注意力隐藏层信息,Ws表示ReLU激活函数在图流向注意力计算过程中的学习参数,Wsh表示当前时刻注意力隐藏层信息在图流向注意力计算过程中的学习参数,Wsz表示前一时刻的上下文信息在图流向注意力计算过程中的学习参数,Wst表示前一时刻注意力隐藏层信息在图流向注意力计算过程中的学习参数。
服务器在确定出注意力分数对应的权重之后,基于注意力分数对应的权重,对预设数量个指定抽象节点进行加权,并获得对应的图流向注意力。需要说明的是,本申请实施例中的指定抽象节点包括保持在同一位置的抽象节点、移动一步的抽象节点以及移动两步的抽象节点。
具体可通过以下公式进行表示:
需要说明的是,本申请实施例中的表示图流向注意力,/>中k的取值为0、1、2,分别代表保持在同一位置的抽象节点的注意力分数、移动一步的抽象节点的注意力分数以及移动两步的抽象节点的注意力分数,St,k表示保持在同一位置的抽象节点的注意力分数、移动一步的抽象节点的注意力分数以及移动两步的抽象节点的注意力分数对应的权重。
103、通过激活函数对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行处理,并获得用于调优的超参数。
图流向注意力对最终生成图像描述的句子结构的质量是至关重要的,因此在图流向注意力的计算过程中,加入抽象场景图的前一时刻注意力隐藏层信息,能够使最终生成的图像描述不仅关注当前时刻注意力隐藏层信息,还能够关注到前一时刻注意力隐藏层信息。服务器通过激活函数,对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行处理,能够得到用于调优的超参数。
具体地,服务器需确定出当前时刻注意力隐藏层信息对应的学习参数、前一时刻注意力隐藏层信息对应的学习参数以及上下文信息对应的学习参数,并将当前时刻注意力隐藏层信息与对应的学习参数相乘,将前一时刻注意力隐藏层信息与对应的学习参数相乘,以及将上下文信息分别与对应的学习参数相乘,从而得到当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息对应的乘积,然后,服务器将当前时刻注意力隐藏层信息对应的乘积、前一时刻注意力隐藏层信息对应的乘积以及上下文信息对应的乘积进行拼接,能够得到对应的拼接结果,并通过激活函数对拼接结果进行激活处理,从而获得用于调优的超参数。
具体可通过以下公式进行表示:
需要说明的是,本申请实施例中的βt表示超参数,sigmoid()表示激活函数,Wg表示ReLU激活函数在超参数计算过程中的学习参数,Wgh表示当前时刻注意力隐藏层信息在超参数计算过程中的学习参数,Wgz表示前一时刻的上下文信息在超参数计算过程中的学习参数,Wgt表示前一时刻注意力隐藏层信息在超参数计算过程中的学习参数。
104、基于超参数,对图内容注意力和图流向注意力进行融合,得到对应的注意力分数,并基于注意力分数对抽象场景图进行解码,生成对应的单词,以实现对抽象场景图的图像描述。
服务器根据确定出的用于调优的超参数,将抽象场景图对应的图内容注意力和图流向注意力进行融合,从而得到抽象场景图对应的注意力分数,进而服务器根据计算出的注意力分数,对抽象场景图进行解码,逐个生成对应的单词,然后得到抽象场景图对应的完整语句,实现对抽象场景图的图像描述。
具体地,服务器将超参数作为图内容注意力或图流向注意力中一种注意力对应的权重,并根据超参数,计算出另一种注意力对应的权重。需要说明的是,本申请实施例中图内容注意力对应的权重与图流向注意力对应的权重的加和为单位长度1。
服务器将图内容注意力对应的权重与图内容注意力相乘,得到图内容注意力对应的乘积,以及将图流向注意力对应的权重与图流向注意力相乘,得到图流向注意力对应的乘积,进而能够根据图内容注意力对应的乘积与流向注意力对应的乘积,计算出抽象场景图对应的注意力分数。
具体可通过以下公式进行表示:
需要说明的是,本申请实施例中的∝t表示注意力分数,βt表示超参数,即图内容注意力对应的权重,(1-t)表示图流向注意力对应的权重。
服务器将注意力分数与抽象场景图对应的抽象节点相乘,从而获得对应的乘积,并将对应的乘积作为当前时刻上下文信息,然后,服务器将确定出的当前时刻上下文信息作为编码过程的输入信息,进而基于确定出的当前时刻上下文信息对抽象场景图进行解码,生成对应的若干个单词,并将若干个单词进行拼接,以实现对抽象场景图的图像描述。
以上为本申请提出的方法实施例。基于同样的发明构思,本申请实施例还提供了基于时序场景图注意力机制的图像描述设备,其结构如图2所示。
图2为本申请实施例提供的基于时序场景图注意力机制的图像描述设备的内部结构示意图。如图2所示,设备包括:
至少一个处理器;
以及,与至少一个处理器通信连接的存储器;
其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
将用户的待处理图片抽象为对应的抽象场景图,并基于时序场景图注意力机制,获取抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息;
根据当前时刻注意力隐藏层信息和上下文信息,计算抽象场景图的图内容注意力,以及根据当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息和上下文信息,计算抽象场景图的图流向注意力;
通过激活函数对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行处理,并获得用于调优的超参数;
基于超参数,对图内容注意力和图流向注意力进行融合,得到对应的注意力分数,并基于注意力分数对抽象场景图进行解码,生成对应的单词,以实现对抽象场景图的图像描述。
本申请实施例还提供了一种非易失性计算机存储介质,存储有计算机可执行指令,计算机可执行指令设置为:
将用户的待处理图片抽象为对应的抽象场景图,并基于时序场景图注意力机制,获取抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息;
根据当前时刻注意力隐藏层信息和上下文信息,计算抽象场景图的图内容注意力,以及根据当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息和上下文信息,计算抽象场景图的图流向注意力;
通过激活函数对当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行处理,并获得用于调优的超参数;
基于超参数,对图内容注意力和图流向注意力进行融合,得到对应的注意力分数,并基于注意力分数对抽象场景图进行解码,生成对应的单词,以实现对抽象场景图的图像描述。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.基于时序场景图注意力机制的图像描述方法,其特征在于,所述方法包括:
将用户的待处理图片抽象为对应的抽象场景图,并基于时序场景图注意力机制,获取所述抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息;
根据所述当前时刻注意力隐藏层信息和上下文信息,计算所述抽象场景图的图内容注意力,以及根据所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息和上下文信息,计算所述抽象场景图的图流向注意力;
通过激活函数对所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息及上下文信息进行处理,并获得用于调优的超参数;
基于所述超参数,对所述图内容注意力和所述图流向注意力进行融合,得到对应的注意力分数,并基于所述注意力分数对所述抽象场景图进行解码,生成对应的单词,以实现对抽象场景图的图像描述。
2.根据权利要求1所述的基于时序场景图注意力机制的图像描述方法,其特征在于,所述基于所述超参数,对所述图内容注意力和所述图流向注意力进行融合,得到对应的注意力分数,具体包括:
将所述超参数作为图内容注意力或图流向注意力中一种注意力对应的权重,并根据所述超参数,计算出另一种注意力对应的权重;所述图内容注意力对应的权重与图流向注意力对应的权重的加和为单位长度;
将所述图内容注意力对应的权重与所述图内容注意力相乘,以及将所述图流向注意力对应的权重与所述图流向注意力相乘,并根据所述图内容注意力对应的乘积与所述流向注意力对应的乘积,计算出对应的注意力分数。
3.根据权利要求1所述的基于时序场景图注意力机制的图像描述方法,其特征在于,所述根据所述当前时刻注意力隐藏层信息以及上下文信息,计算所述抽象场景图的图内容注意力,具体包括:
确定节点嵌入之间的语义相关性、所述语义相关性对应的学习参数以及当前时刻注意力隐藏层信息对应的学习参数,并根据所述语义相关性、所述语义相关性对应的学习参数、当前时刻注意力隐藏层信息以及所述当前时刻注意力隐藏层信息对应的学习参数,计算出所述抽象场景图对应的注意力分数向量;
通过归一化指数函数对所述注意力分数向量进行归一化处理,获得所述抽象场景图对应的图内容注意力。
4.根据权利要求1所述的基于时序场景图注意力机制的图像描述方法,其特征在于,所述根据所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息,计算所述抽象场景图的图流向注意力,具体包括:
通过归一化指数函数,对所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息进行归一化处理,并获得注意力分数对应的权重;
基于所述注意力分数对应的权重,对预设数量个指定抽象节点进行加权,并获得对应的图流向注意力;所述指定抽象节点包括保持在同一位置的抽象节点、移动一步的抽象节点以及移动两步的抽象节点。
5.根据权利要求1所述的基于时序场景图注意力机制的图像描述方法,其特征在于,所述通过激活函数对所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息进行处理,并获得用于调优的超参数,具体包括:
分别确定出所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息对应的学习参数,并将所述当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息分别与对应的学习参数相乘,以得到对应的乘积;
将所述当前时刻注意力隐藏层信息对应的乘积、所述前一时刻注意力隐藏层信息对应的乘积以及所述上下文信息对应的乘积进行拼接,以得到对应的拼接结果,并通过激活函数对所述拼接结果进行激活处理,以获得用于调优的超参数。
6.根据权利要求1所述的基于时序场景图注意力机制的图像描述方法,其特征在于,所述基于时序场景图注意力机制,获取所述抽象场景图的当前时刻注意力隐藏层信息、前一时刻注意力隐藏层信息以及上下文信息,具体包括:
基于时序场景图注意力机制获取前一时刻注意力隐藏层信息;
确定所述抽象场景图中抽象节点之间的多关系图,并通过所述多关系图对所述抽象场景图进行上下文编码,以获取所述抽象场景图对应的上下文信息;
通过多关系图卷积神经网络,对所述抽象场景图的上下文信息进行编码,以获得对应的节点嵌入,并计算所有节点嵌入的平均值,以获得对应的全局图嵌入;
将所述全局图嵌入与全局图像进行融合,得到对应的全局编码特征,并基于所述全局编码特征和所述前一时刻注意力隐藏层信息,计算所述抽象场景图的当前时刻注意力隐藏层信息。
7.根据权利要求1所述的基于时序场景图注意力机制的图像描述方法,其特征在于,所述基于所述注意力分数对所述抽象场景图进行解码,生成对应的单词,以实现对抽象场景图的图像描述,具体包括:
将所述注意力分数与所述抽象场景图对应的抽象节点相乘,以获得对应的乘积,并将所述对应的乘积作为当前时刻上下文信息;
基于所述当前时刻上下文信息,对所述抽象场景图进行解码,生成对应的若干个单词,并将所述若干个单词进行拼接,以实现对所述抽象场景图的图像描述。
8.根据权利要求1所述的基于时序场景图注意力机制的图像描述方法,其特征在于,所述将用户的待处理图片抽象为对应的抽象场景图,具体包括:
确定出用户具有图像描述需求的待处理图片,并获取所述用户的待处理图片;
将所述待处理图片抽象为对应的抽象场景图;所述抽象场景图是由抽象节点组成的,所述抽象节点包括对象、属性和关系三种类型。
9.基于时序场景图注意力机制的图像描述设备,其特征在于,所述设备包括:
至少一个处理器;
以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8任一项所述的基于时序场景图注意力机制的图像描述方法。
10.一种非易失性计算机存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令设置为:
如权利要求1-8任一项所述的基于时序场景图注意力机制的图像描述方法。
CN202310439740.4A 2023-04-19 2023-04-19 基于时序场景图注意力机制的图像描述方法、设备及介质 Active CN116453120B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310439740.4A CN116453120B (zh) 2023-04-19 2023-04-19 基于时序场景图注意力机制的图像描述方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310439740.4A CN116453120B (zh) 2023-04-19 2023-04-19 基于时序场景图注意力机制的图像描述方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116453120A true CN116453120A (zh) 2023-07-18
CN116453120B CN116453120B (zh) 2024-04-05

Family

ID=87125321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310439740.4A Active CN116453120B (zh) 2023-04-19 2023-04-19 基于时序场景图注意力机制的图像描述方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116453120B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置
CN112052906A (zh) * 2020-09-14 2020-12-08 南京大学 一种基于指针网络的图像描述优化方法
WO2021052358A1 (zh) * 2019-09-16 2021-03-25 腾讯科技(深圳)有限公司 图像处理方法、装置及电子设备
CN113553445A (zh) * 2021-07-28 2021-10-26 北京理工大学 一种生成视频描述的方法
CN113569892A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 图像描述信息生成方法、装置、计算机设备及存储介质
CN114020954A (zh) * 2021-09-10 2022-02-08 广西师范大学 一种用于体现用户意图和风格的个性化图像描述方法
CN114625882A (zh) * 2022-01-26 2022-06-14 西安理工大学 提高图像文本描述独特多样性的网络构建方法
CN115908991A (zh) * 2022-07-28 2023-04-04 陕西科技大学 基于特征融合的图像描述模型方法、系统、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108898639A (zh) * 2018-05-30 2018-11-27 湖北工业大学 一种图像描述方法及系统
WO2021052358A1 (zh) * 2019-09-16 2021-03-25 腾讯科技(深圳)有限公司 图像处理方法、装置及电子设备
CN111612070A (zh) * 2020-05-13 2020-09-01 清华大学 基于场景图的图像描述生成方法及装置
CN112052906A (zh) * 2020-09-14 2020-12-08 南京大学 一种基于指针网络的图像描述优化方法
CN113569892A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 图像描述信息生成方法、装置、计算机设备及存储介质
CN113553445A (zh) * 2021-07-28 2021-10-26 北京理工大学 一种生成视频描述的方法
CN114020954A (zh) * 2021-09-10 2022-02-08 广西师范大学 一种用于体现用户意图和风格的个性化图像描述方法
CN114625882A (zh) * 2022-01-26 2022-06-14 西安理工大学 提高图像文本描述独特多样性的网络构建方法
CN115908991A (zh) * 2022-07-28 2023-04-04 陕西科技大学 基于特征融合的图像描述模型方法、系统、设备及介质

Also Published As

Publication number Publication date
CN116453120B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
US11195521B2 (en) Generating target sequences from input sequences using partial conditioning
CN110032633B (zh) 多轮对话处理方法、装置和设备
WO2019080648A1 (zh) 复述语句生成方法及装置
CN107590690B (zh) 数据处理方法、装置及服务器
CN111783457B (zh) 一种基于多模态图卷积网络的语义视觉定位方法及装置
US20200265327A1 (en) Selecting answer spans from electronic documents using neural networks
CN113688313A (zh) 一种预测模型的训练方法、信息推送的方法及装置
CN117173504A (zh) 一种文生图模型的训练方法、装置、设备及存储介质
CN114860915A (zh) 一种模型提示学习方法、装置、电子设备及存储介质
CN111133458B (zh) 增强神经网络
US20220138531A1 (en) Generating output sequences from input sequences using neural networks
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN116681810B (zh) 虚拟对象动作生成方法、装置、计算机设备和存储介质
CN115017916A (zh) 方面级情感分析方法、装置、电子设备及存储介质
CN110119754B (zh) 图像生成描述方法、装置及模型
CN116453120B (zh) 基于时序场景图注意力机制的图像描述方法、设备及介质
CN117421639A (zh) 多模态数据分类方法、终端设备及存储介质
CN115496162A (zh) 一种模型的训练方法、装置以及设备
WO2022112167A1 (en) Vocabulary selection for text processing tasks using power indices
CN114781390A (zh) 一种方面级情感分析方法及装置
CN110442706B (zh) 一种文本摘要生成的方法、系统、设备及存储介质
CN113761933A (zh) 检索方法、装置、电子设备及可读存储介质
CN113742541A (zh) 对话方法、装置、电子设备及计算机可读存储介质
CN112784003A (zh) 训练语句复述模型的方法、语句复述方法及其装置
CN110543549A (zh) 语义等价性判断方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant