CN115908991A

CN115908991A - 基于特征融合的图像描述模型方法、系统、设备及介质

Info

Publication number: CN115908991A
Application number: CN202210904312.XA
Authority: CN
Inventors: 刘伟峰; 张楠
Original assignee: Shaanxi University of Science and Technology
Current assignee: Shaanxi University of Science and Technology
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2023-04-04

Abstract

本发明提供基于特征融合的图像描述模型方法、系统、设备及介质，融合原始图像特征与场景图特征，将场景图编码嵌入到特征空间，得到场景图的物体、属性、关系三组编码特征；用数据集中的图像描述，训练一个记忆网络来存储语义先验知识；将场景图特征与语义先验知识融合进行特征重构，并输入语句解码器生成图像描述模型；本申请引入单独记忆网络，并重构任务训练记忆网络存储语义信息；原始图像特征和场景图从不同的角度描述图片的内容，融合多种模态的特征，更能表达出图像中的隐藏信息，将编码后的特征融合语义先验知识进行特征重构，再将其用于语句解码，能够生成更多的额外信息，丰富语句结构；进而能够生成全面且准确的图像描述。

Description

基于特征融合的图像描述模型方法、系统、设备及介质

技术领域

本发明属于计算机视觉和自然语言处理技术领域，具体涉及基于特征融合的图像描述模型方法、系统、设备及介质。

背景技术

图像描述是用一句话或者一段话来描述一幅图所呈现的内容。图像描述也可称为“看图说话”，是一个融合机器视觉技术和自然语言处理技术等多个领域的热点问题，不仅需要理解图像中各个实体对象信息，还需要理解实体对象之间的联系，深入研究视觉场景理解，不仅可以加强学科融合、加深视觉场景理解模型研究，还可以优化研究方法、开拓新的研究内容，许多方法基于卷积神经网络提取视觉特征，然后使用RNN作为语句解码器来生成语句来描述图像，这种方法只是基于图像特征，可以识别到图中的物体但是却很难捕捉到物体间准确的交互关系。

近年来场景图的研究工作有了一定的发展，图像中的结构关系可以通过场景图被清晰的表示出来，考虑将场景图作为生成图像描述的中间步，可以很好的体现出交互关系，从而生成符合图像内容的描述语句，场景图节点表示的图像中的物体是经过分类之后的标签信息，仅依靠标签嵌入会造成信息丢失，此外，在语句解码时常用到循环神经网络(RNN)或者其改进算法长短期记忆网络(LSTM)等，这些模型虽然可以实现记忆功能但是记忆单元太小，融合场景特征和语义先验能够有效保留图像特征信息。

发明内容

针对现有技术中存在的问题，本发明提供基于特征融合的图像描述模型方法、系统、设备及介质，能够生成更多的额外信息，丰富语句结构。

本发明是通过以下技术方案来实现：

基于特征融合的图像描述模型方法，包括以下步骤：

融合原始图像特征与场景图特征，将场景图编码嵌入到特征空间，得到场景图的物体、属性、关系三组编码特征；

用数据集中的图像描述，通过语句重构任务训练一个记忆网络来存储语义先验知识；

将场景图编码特征与语义先验知识融合进行特征重构，将重构后的特征输入语句解码器生成图像描述模型。

进一步，所述融合原始图像特征与场景图特征采用预先训练的ResNet 模型，由于视觉和语言特征之间存在较大的差距，ResNet提取的图像特征属于原始特征，而场景图特征属于标签特征，包括物体标签、关系标签、属性标签。

进一步，所述在场景图中的节点记为o_i，视觉特征为标签嵌入为融合节点特征为先融合两种不同的特征，在计算两者之间的差异：

所述关系节点融合特征为：

所述属性节点的融合特征为：

其中，ReLU(·)为激活函数，W₁,W₂为可训练参数。

进一步，所述原始图像特征与场景图特征融合后，对场景图进行编码；

对图像中的物体进行编码，按照三元组的格式，<主语-谓语-宾语>，表示为(o_i,r_i,j,o_j)，将对o_i编码后的特征记为d_x为特征x的维数，其计算方式为：

其中，为和o_i相关联的三元组的总数，分别为场景图特征和原始特征融合后的目标和交互关系的特征，g_s(·)、g_o(·)分别是o_i作为主语和宾语时的空间图卷积运算，下标s表示subject，o表示object，其结构为两层全连接层加一层激活函数(FC-RELU-FC)；

对物体的属性进行编码，物体可能拥有多个属性，为物体o_i的第l个属性，对a_i编码后的特征为编码时只与物体节点特征和属性节点特征有关，计算方式为：

其中，为物体o_i的属性总数，为融合后的物体特征，为物体o_i的第l个属性的融合特征，g_a(·)时基于属性编码的空间卷积运算；

对物体间的交互关系进行编码，物体间的交互关系r_i,j与三元组中的主语和宾语有关，将其编码为

其中，g_r(·)是基于交互关系的空间卷积运算；

经过场景图嵌入操作，对每个场景图均有三组编码特征，物体特征、属性特征、关系特征分别记为χ_o、χ_a、χ_r：

其中，N_o、N_a、N_r分别为物体个数、属性个数、关系个数。

进一步，所述语句重构采用编码器-解码器结构，原始语义特征经过语义先验网络进行参数化，训练时采用端到端的训练方式，损失函数采用交叉熵损失函数，LSTM用于语句解码，生成重构语句

进一步，所述记语义先验网络为将已知的语句描述S作为数据集，通过训练重构语句来学习语义先验网络

所述为一个d×K维的矩阵，K设为10000，给定一个向量x∈χ＝{χ_o,χ_a,χ_r}作为输入，χ表示所有特征的集合，重编码函数定义为：

其中，可以被看作是内存网络中的“键”，T表示转置，经过网络处理过的向量记为

进一步，从编码嵌入生成一个描述语句由于三组嵌入的长度不同、包含的信息不同，所以其重要性也不同，使用三个注意模块，每个模块对应不同类型的嵌入；

基于的注意模块定义为：

其中，w_o为可学习权值向量，α_i为权重，得到的物体注意向量为f_o，同理，另两个注意模块记为得到的注意向量记为 d_f为注意向量的维数，计算方式为：

将注意力向量合成一个三元组级别的嵌入，输入进基于LSTM的解码器，生成句子

f_ora＝g_ora([f_o,f_r,f_a])；

f_ora为三元组级别的嵌入向量，g_ora(·)为产生三元组层次嵌入的神经网络，结构同上一节中g_o(·)一致，采用FC-ReLU-FC结构；o_t为解码器在时间步为 t时的单元输出；h_t为时间步为t时的隐藏向量；为时间步为t-1时的语句描述；W_o为可训练参数，为t时间步生成的语句描述。

基于场景图和语义先验的图像描述模型系统，包括：

融合模块，用于融合原始图像特征与场景图特征，将场景图编码嵌入到特征空间，得到场景图的物体、属性、关系三组编码特征；

存储语义先验知识模块，用于用数据集中的图像描述，通过语句重构任务训练一个记忆网络来存储语义先验知识；

生成图像描述模型模块，用于将场景图特征与语义先验知识融合进行特征重构，将重构后的特征输入语句解码器生成图像描述模型。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述基于特征融合的图像描述模型方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现所述基于特征融合的图像描述模型方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供基于特征融合的图像描述模型方法、系统、设备及介质，融合原始图像特征与场景图特征，将场景图编码嵌入到特征空间，得到场景图的物体、属性、关系三组编码特征；用数据集中的图像描述，通过语句重构任务训练一个记忆网络来存储语义先验知识；将场景图特征与语义先验知识融合进行特征重构，将重构后的特征输入语句解码器生成图像描述模型；本申请引入单独记忆网络，并使用语句重构任务来训练这样的记忆网络，将其用于存储语义信息；原始图像特征和场景图从不同的角度描述图片的内容，融合多种模态的特征比单模态特征更能表达出图像中的隐藏信息，将编码后的特征融合语义先验知识进行特征重构，再将其用于语句解码，能够生成更多的额外信息，丰富语句结构；进而能够生成全面且准确的图像描述。

附图说明

图1为本发明基于特征融合的图像描述模型方法流程图；

图2为本发明任务流程图；

图3为本发明语义先验网络训练流程；

图4为本发明具体实施例中常见方法生成图像语义描述结果对比图，其中图(a)为对比例1，图(b)为对比例2，图(c)为对比例3，图(d)分为对比例4。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供基于特征融合的图像描述模型方法，如图1和图2所示所示，包括以下步骤：

将场景图特征与语义先验知识融合进行特征重构，将重构后的特征输入语句解码器生成图像描述模型。

其中，图2模型通过语句重构训练语义先验网络，融合场景图特征和图像原始特征，通过语义先验网络特征重构生成图像描述。

具体的，所述融合原始图像特征与场景图特征采用预先训练的ResNet 模型，由于视觉和语言特征之间存在较大的差距，ResNet提取的图像特征属于原始特征，而场景图特征属于标签特征，包括物体标签、关系标签、属性标签；如图3所示为句子重构的基本流程，也是编码器-解码器结构，原始语义特征经过网络进行参数化，训练时采用端到端的训练方式，损失函数采用交叉熵损失函数。

进一步的，所述在场景图中的节点记为o_i，视觉特征为标签嵌入为融合节点特征为先融合两种不同的特征，在计算两者之间的差异：

所述关系节点融合特征为：

所述属性节点的融合特征为：

其中，ReLU(·)为激活函数，W₁,W₂为可训练参数。

进一步的，所述原始图像特征与场景图特征融合后，对场景图进行编码；

其中，g_r(·)是基于交互关系的空间卷积运算；

其中，N_o、N_a、N_r分别为物体个数、属性个数、关系个数。

进一步的，语义先验网络，旨在存储句子信息，使模型有更强大的记忆，在语句生成时将其作为语义先验提供更多的推理信息。所述语句重构采用编码器-解码器结构，原始语义特征经过语义先验网络进行参数化，训练时采用端到端的训练方式，损失函数采用交叉熵损失函数，LSTM用于语句解码，生成重构语句

进一步的，所述记语义先验网络为将已知的语句描述S作为数据集，通过训练重构语句来学习语义先验网络

进一步的，从编码嵌入生成一个描述语句由于三组嵌入的长度不同、包含的信息不同，所以其重要性也不同，使用三个注意模块，每个模块对应不同类型的嵌入；

基于的注意模块定义为：

f_ora＝g_ora([f_o,f_r,f_a])；

本发明提供基于场景图和语义先验的图像描述模型系统，包括：

融合模块，用于融合原始图像特征与场景图特征，将场景图编码嵌入到特征空间，得到场景图编码特征；

本发明提供四组对比例，如图4中的图(a)、图(b)、图(c)和图(d) 所示，分别对图(a)、图(b)、图(c)和图(d)采用现有技术手段LSTM 以及GT的图像描述；

对比例1，图(a)采用GT的图像描述结果为：a man wearing dark glasses isriding a bicycle in the street；采用LSTM的图像描述结果为：a man is riding abicycle in the street；采用本申请得到的图像描述结果为：a man is riding abicycle in the street with a cup of coffee in his hand.

对比例2，图(b)采用GT的图像描述结果为：two people are surfing at sea；采用LSTM的图像描述结果为：two people are playing on a skateboard；采用本申请得到的图像描述结果为：two people were surfing on sea and high- fiving.

对比例3，图(c)采用GT的图像描述结果为：a girl was standing in the woodswith a boy in her arms；采用LSTM的图像描述结果为：a girl and a boy are standingin front of the tree；采用本申请得到的图像描述结果为：a girl is standing infront of a tree with a boy in her arms.

对比例4，图(d)采用GT的图像描述结果为：a group of people are celebratingtheir birthday with a cake；采用LSTM的图像描述结果为：a group of standingbeside the candles；采用本申请得到的图像描述结果为：a group of people huggedeach other near the candles.

通过上述对比例，可以得到本申请在图像描述时，获取到的图像信息更全面精准。

本发明再一个实施例中，提供了一种计算机设备，该计算机设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于基于特征融合的图像描述模型方法的操作。

本发明再一个实施例中，本发明还提供了一种存储介质，具体为计算机可读存储介质(Memory)，所述计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了终端的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM 存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关基于特征融合的图像描述模型方法的相应步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.基于特征融合的图像描述模型方法，其特征在于，包括以下步骤：

2.根据权利要求1所述基于特征融合的图像描述模型方法，其特征在于，所述融合原始图像特征与场景图特征采用预先训练的ResNet模型，由于视觉和语言特征之间存在较大的差距，ResNet提取的图像特征属于原始特征，而场景图特征属于标签特征，包括物体标签、关系标签、属性标签。

3.根据权利要求2所述基于特征融合的图像描述模型方法，其特征在于，所述在场景图中的节点记为o_i，视觉特征为标签嵌入为融合节点特征为先融合两种不同的特征，在计算两者之间的差异：

所述关系节点融合特征为：

所述属性节点的融合特征为：

其中，ReLU(·)为激活函数，W₁,W₂为可训练参数。

4.根据权利要求3所述基于特征融合的图像描述模型方法，其特征在于，所述原始图像特征与场景图特征融合后，对场景图进行编码；

其中，g_r(·)是基于交互关系的空间卷积运算；

经过场景图嵌入操作，对每个场景图均有三组编码特征，物体特征、属性特征、关系特征分别记为

其中，N_o、N_a、N_r分别为物体个数、属性个数、关系个数。

5.根据权利要求1所述基于特征融合的图像描述模型方法，其特征在于，所述语句重构采用编码器-解码器结构，原始语义特征经过语义先验网络进行参数化，训练时采用端到端的训练方式，损失函数采用交叉熵损失函数，LSTM用于语句解码，生成重构语句

6.根据权利要求5所述基于特征融合的图像描述模型方法，其特征在于，所述记语义先验网络为将已知的语句描述S作为数据集，通过训练重构语句来学习语义先验网络

所述为一个d×K维的矩阵，K设为10000，给定一个向量作为输入，表示所有特征的集合，重编码函数定义为：

7.根据权利要求6所述基于特征融合的图像描述模型方法，其特征在于，从编码嵌入生成一个描述语句由于三组嵌入的长度不同、包含的信息不同，所以其重要性也不同，使用三个注意模块，每个模块对应不同类型的嵌入；

基于的注意模块定义为：

其中，w_o为可学习权值向量，α_i为权重，得到的物体注意向量为f_o，同理，另两个注意模块记为得到的注意向量记为d_f为注意向量的维数，计算方式为：

f_ora＝g_ora([f_o,f_r,f_a])；

fo_ra为三元组级别的嵌入向量，g_ora(·)为产生三元组层次嵌入的神经网络，结构同上一节中g_o(·)一致，采用FC-ReLU-FC结构；o_t为解码器在时间步为t时的单元输出；h_t为时间步为t时的隐藏向量；为时间步为t-1时的语句描述；W_o为可训练参数，为t时间步生成的语句描述。

8.基于场景图和语义先验的图像描述模型系统，其特征在于，基于权利要求1至7任一项所述基于特征融合的图像描述模型方法，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于特征融合的图像描述模型方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于特征融合的图像描述模型方法的步骤。