CN110197521A

CN110197521A - 基于语义结构表示的视觉文本嵌入方法

Info

Publication number: CN110197521A
Application number: CN201910425771.8A
Authority: CN
Inventors: 孙未未; 吴昊
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-09-03
Anticipated expiration: 2039-05-21
Also published as: CN110197521B

Abstract

本发明属于人工智能技术领域，具体为一种基于语义结构表示的视觉文本嵌入方法。本发明方法的步骤包括：训练阶段，使用场景图解析对句子解析成物体集与关系集，将句子的成分嵌入融入句子的嵌入表示中，结合图片训练模型参数；在线查询阶段根据已训练好的模型可对于任意图片得到其嵌入表示，对于任意句子，则使用同样的场景图解析后得到句子的嵌入表示。本发明方法能够使得学习到的嵌入同时包含全局与局部的语义信息，并对局部表达更敏感更鲁棒。

Description

基于语义结构表示的视觉文本嵌入方法

技术领域

本发明属于人工智能技术领域，具体涉及一种基于语义结构表示的视觉文本嵌入方法。

背景技术

对视觉与文本建立联系，在人工智能领域中是非常基础且重要的应用问题，其中对视觉与文本学习共同的嵌入表示是其中非常核心的一个研究点，是将视觉与文本这两个模态联系起来的一个关键方法，在跨模态学习领域中是一个广受关注的问题，同时也具有非常广泛的应用场景，可以用于支持图片-文本的跨模态检索、视觉问答任务、文字与图片的生成等应用。现阶段在文本与视觉的嵌入学习根据学习到的嵌入的粒度，主要可以分为基于全局语义的嵌入与基于局部语义的嵌入两大类别：

(1)基于全局语义的嵌入模型：

大量的工作使用了全局语义对文本与视觉进行嵌入表示学习，这些工作将整句句子或整张图片使用一个全局编码器来得到其嵌入表示。这样的方法，在全局文本与图片匹配上具有一定的优势，然而其学习到的嵌入不具有可解释性，且学习到的嵌入无法关注到图片或句子中的局部物体、语义特征。

(2)基于局部语义的嵌入模型：

还有一些工作则针对图片以及文本中的局部语义进行了显式化地建模，使得在学习全局的嵌入的同时也对局部语义进行嵌入学习或辅助全局嵌入的学习。这些方法能够从更细的粒度对图片和文本进行理解与建模，能够建立更好的视觉-语义的联系，学习到的嵌入具有一定的可解释性。然而，已有的方法对局部语义的学习仅作为一种辅助作用，对于句子的嵌入表示没有显式地将局部语义加入其表示，学习出的嵌入对局部信息不敏感不鲁棒。

发明内容

本发明的目的在于针对现有技术的不足，提出一种可以显式地将局部语义信息融入进全局嵌入表示的，具有鲁棒性的视觉文本嵌入方法。

本发明提出的视觉文本嵌入方法，基于语义结构表示的，具体步骤分为三个阶段：

(一)训练阶段，根据句子-图片对数据训练神经网络模型参数；

(二)在线查询阶段，根据已训练好的模型计算给定句子的嵌入表示；

(三)在线查询阶段，根据已训练好的模型计算给定图片的嵌入表示。

(一)训练阶段，根据句子-图片对数据训练神经网络模型参数的具体流程为：

(1)定义物体语义编码器f_O，对应的参数为W_O，从[-θ，θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(2)定义循环神经网络f_RNN，对应的参数为W_RNN，从[-θ，θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(3)定义卷积神经网络f_CNN，对应的参数为W_CNN，使用在ImageNet数据集上预训练的参数进行初始化；

(4)对于句子S，使用场景图(scene graph)解析工具解析成物体集关系集

(5)对于句子S中的物体集中的一个物体o，使用f_O对其进行编码，得到物体o的嵌入表示u_o；

(6)对于句子S中的关系集中的一个(主语-关系词-宾语三元组)关系r，使用f_RNN对其进行编码，得到关系r的嵌入表示u_r；

(7)通过对句子S中的所有物体与关系的嵌入表示进行求和，得到句子的成分嵌入：

(8)对于句子S，使用f_R直接对其编码，得到句子的嵌入u_S；

(9)通过α·u_S+(1-α)·u_comp计算句子的语义嵌入u，其中α是一个预先设定的位于[0，1]的正常数；

(10)对于图片I，使用f_CNN进行编码，得到图片的嵌入v；

(11)对于一对匹配的图片-句子对(I⁺，S⁺)，执行步骤(4)-(9)得到图片与句子的嵌入(v⁺，u⁺)；

(12)对于一句与图片I⁺不匹配的句子S^-，执行步骤(4)-(9)得到句子S^-的嵌入u^-；

(13)对于一张与句子S⁺不匹配的图片I^-，执行步骤(10)得到图片I^-的嵌入v^-；

(14)计算双向排序损失函数：|δ+u^+Tv^--u^+Tv⁺|+|δ+u^-Tv⁺-u^+Tv⁺|；

(15)根据双向排序损失函数，使用反向传播算法(backpropagation throughtime)计算网络每个参数的梯度

(16)使用基于随机梯度下降的优化算法更新模型参数W_O，W_RNN，W_CNN；

(17)重复步骤(11)-(14)，直至目标函数收敛，将此时的所有参数作为模型的最终参数。

(二)在线查询阶段，根据已训练好的模型计算给定句子的嵌入表示的流程为；

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于句子S，执行训练阶段中步骤(4)-(9)得到句子的嵌入表示。

(三)在线查询阶段，根据已训练好的模型计算给定图片的嵌入表示的流成为：

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于图片I，执行训练阶段中步骤(10)得到图片的嵌入表示。

本发明利用句子的结构化语义表示，将句子分解为物体集与关系集，对物体和关系进行局部的嵌入表示学习后，将这些局部语义显式地融入整个句子的嵌入表示中。能够使得学习到的嵌入同时包含全局与局部的语义信息，并对局部表达更敏感更鲁棒。

附图说明

图1为基于语义结构表示的视觉文本嵌入方法的示意图。

图2为对应的描述句子为“A white clock on the wall is above a table.”的图片。

图3为对应的描述句子为“A polar bear looks toward the camera”的图片。

具体实施方式

本发明基于语义结构表示的视觉文本嵌入方法的示意图如图1所示。图中，对应的全局表示与对应的描述语句“A white clock on the wall is above a table.”位于嵌入空间中相近的位置，而局部语义“white clock”等则与图中的对应局部部分的嵌入表示位于空间中对应的相近的位置。

下面结合具体实例来说明本发明的具体实施过程：

(一)根据历史轨迹数据训练神经网络模型参数

(1)定义语义编码器f_O，循环神经网络f_RNN，卷积神经网络f_CNN，并初始化网络参数；

(2)对图2使用f_CNN进行编码得到图1的嵌入v⁺；

(3)对图2对应的句子“A white clock on the wall is above a table.”使用场景图解析，得到物体集{clock，wall，table}，以及关系集{clock on wall，clock abovetable}；

(4)将物体作为输入，使用f_O计算物体集的嵌入u_clock，u_wall，u_table；

(5)将关系作为输入，使用f_RNN计算关系集的嵌入u_{clock_on_wall，}u_{clock_above_table}；

(6)将整句句子作为输入，使用f_RNN计算句子的整句嵌入u_S；

(7)计算句子的成分嵌入：

(8)计算句子的语义嵌入u⁺＝αu_S+(1-α)u_comp；

(9)对与图2不同的图片，如图3，使用f_CNN进行编码得到图3的嵌入v^-；

(10)对于图2对应的句子所不同的句子，如“A polar bear looks toward thecamera”，类似步骤(3)-(8)，得到对应的句子语义嵌入u^-；

(11)计算双向排序损失函数|δ+u^+Tv^--u^+Tv⁺|+|δ+u^-Tv⁺-u^+Tv⁺|；

(12)根据损失函数使用反向传播算法计算网络每个参数的梯度

(13)使用基于随机梯度下降的优化算法更新神经网络参数；

(14)重复步骤(2)-(13)直至目标函数收敛。

(二)根据已训练好的模型计算给定句子的嵌入表示

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于图片使用f_CNN进行编码得到图片的嵌入表示。

(三)根据已训练好的模型计算给定图片的嵌入表示

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于句子执行具体实施方式1中的步骤(3)-(8)得到句子的嵌入表示。

Claims

1.一种基于语义结构表示的视觉文本嵌入方法，其特征在于，具体步骤如下：

(1)训练阶段，根据句子-图片对数据训练神经网络模型参数；

(2)在线查询阶段，根据已训练好的模型计算给定句子的嵌入表示；

(3)在线查询阶段，根据已训练好的模型计算给定图片的嵌入表示；

其中，训练阶段，根据句子-图片对数据训练神经网络模型参数操作流程如下：

(1)定义物体语义编码器f_O，对应的参数为W_O，从[-θ,θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(2)定义循环神经网络f_RNN，对应的参数为W_RNN，从[-θ,θ]的均匀分布中对每个元素进行初始化，其中，θ是一个预先设定的正常数；

(4)对于句子S，使用场景图解析工具解析成物体集关系集

(6)对于句子S中的关系集中的一个(主语—关系词—宾语三元组)关系r，使用f_RNN对其进行编码，得到关系r的嵌入表示u_r；

(8)对于句子S，使用f_R直接对其编码，得到句子的嵌入u_S；

(9)通过α·u_S+(1-α)·u_comp计算句子的语义嵌入u，α是一个预先设定的位于[0,1]的正常数；

(10)对于图片I，使用f_CNN进行编码，得到图片的嵌入v；

(11)对于一对匹配的图片-句子对(I⁺,S⁺)，执行步骤(4)—(9)，得到图片与句子的嵌入(v⁺,u⁺)；

(12)对于一句与图片I⁺不匹配的句子S^-，执行步骤(4)—(9)，得到句子S^-的嵌入u^-；

(14)计算双向排序损失函数：

(15)根据双向排序损失函数，使用反向传播算法计算网络每个参数的梯度

(16)使用基于随机梯度下降的优化算法更新模型参数W_O,W_RNN,W_CNN；

(17)重复步骤(11)—(14)，直至目标函数收敛，将此时的所有参数作为模型的最终参数。

2.根据权利要求1所述的基于语义结构表示的视觉语义嵌入方法，其特征在于，在线查询阶段，根据已训练好的模型计算给定句子的嵌入表示的操作流程如下：

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于句子S,执行权利要求1中步骤(4)—(9)，得到句子的嵌入表示。

3.根据权利要求1所述的基于语义结构表示的视觉语义嵌入方法，其特征在于，在线查询阶段，根据已训练好的模型计算给定图片的嵌入表示的操作流程如下：

(1)使用训练阶段训练好的模型参数定义模型；

(2)对于图片I,执行权利要求1中步骤(10)，得到图片的嵌入表示。