CN110197521A - 基于语义结构表示的视觉文本嵌入方法 - Google Patents

基于语义结构表示的视觉文本嵌入方法 Download PDF

Info

Publication number
CN110197521A
CN110197521A CN201910425771.8A CN201910425771A CN110197521A CN 110197521 A CN110197521 A CN 110197521A CN 201910425771 A CN201910425771 A CN 201910425771A CN 110197521 A CN110197521 A CN 110197521A
Authority
CN
China
Prior art keywords
sentence
picture
semantic
parameter
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910425771.8A
Other languages
English (en)
Other versions
CN110197521B (zh
Inventor
孙未未
吴昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201910425771.8A priority Critical patent/CN110197521B/zh
Publication of CN110197521A publication Critical patent/CN110197521A/zh
Application granted granted Critical
Publication of CN110197521B publication Critical patent/CN110197521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Abstract

本发明属于人工智能技术领域,具体为一种基于语义结构表示的视觉文本嵌入方法。本发明方法的步骤包括:训练阶段,使用场景图解析对句子解析成物体集与关系集,将句子的成分嵌入融入句子的嵌入表示中,结合图片训练模型参数;在线查询阶段根据已训练好的模型可对于任意图片得到其嵌入表示,对于任意句子,则使用同样的场景图解析后得到句子的嵌入表示。本发明方法能够使得学习到的嵌入同时包含全局与局部的语义信息,并对局部表达更敏感更鲁棒。

Description

基于语义结构表示的视觉文本嵌入方法
技术领域
本发明属于人工智能技术领域,具体涉及一种基于语义结构表示的视觉文本嵌入方法。
背景技术
对视觉与文本建立联系,在人工智能领域中是非常基础且重要的应用问题,其中对视觉与文本学习共同的嵌入表示是其中非常核心的一个研究点,是将视觉与文本这两个模态联系起来的一个关键方法,在跨模态学习领域中是一个广受关注的问题,同时也具有非常广泛的应用场景,可以用于支持图片-文本的跨模态检索、视觉问答任务、文字与图片的生成等应用。现阶段在文本与视觉的嵌入学习根据学习到的嵌入的粒度,主要可以分为基于全局语义的嵌入与基于局部语义的嵌入两大类别:
(1)基于全局语义的嵌入模型:
大量的工作使用了全局语义对文本与视觉进行嵌入表示学习,这些工作将整句句子或整张图片使用一个全局编码器来得到其嵌入表示。这样的方法,在全局文本与图片匹配上具有一定的优势,然而其学习到的嵌入不具有可解释性,且学习到的嵌入无法关注到图片或句子中的局部物体、语义特征。
(2)基于局部语义的嵌入模型:
还有一些工作则针对图片以及文本中的局部语义进行了显式化地建模,使得在学习全局的嵌入的同时也对局部语义进行嵌入学习或辅助全局嵌入的学习。这些方法能够从更细的粒度对图片和文本进行理解与建模,能够建立更好的视觉-语义的联系,学习到的嵌入具有一定的可解释性。然而,已有的方法对局部语义的学习仅作为一种辅助作用,对于句子的嵌入表示没有显式地将局部语义加入其表示,学习出的嵌入对局部信息不敏感不鲁棒。
发明内容
本发明的目的在于针对现有技术的不足,提出一种可以显式地将局部语义信息融入进全局嵌入表示的,具有鲁棒性的视觉文本嵌入方法。
本发明提出的视觉文本嵌入方法,基于语义结构表示的,具体步骤分为三个阶段:
(一)训练阶段,根据句子-图片对数据训练神经网络模型参数;
(二)在线查询阶段,根据已训练好的模型计算给定句子的嵌入表示;
(三)在线查询阶段,根据已训练好的模型计算给定图片的嵌入表示。
(一)训练阶段,根据句子-图片对数据训练神经网络模型参数的具体流程为:
(1)定义物体语义编码器fO,对应的参数为WO,从[-θ,θ]的均匀分布中对每个元素进行初始化,其中,θ是一个预先设定的正常数;
(2)定义循环神经网络fRNN,对应的参数为WRNN,从[-θ,θ]的均匀分布中对每个元素进行初始化,其中,θ是一个预先设定的正常数;
(3)定义卷积神经网络fCNN,对应的参数为WCNN,使用在ImageNet数据集上预训练的参数进行初始化;
(4)对于句子S,使用场景图(scene graph)解析工具解析成物体集关系集
(5)对于句子S中的物体集中的一个物体o,使用fO对其进行编码,得到物体o的嵌入表示uo
(6)对于句子S中的关系集中的一个(主语-关系词-宾语三元组)关系r,使用fRNN对其进行编码,得到关系r的嵌入表示ur
(7)通过对句子S中的所有物体与关系的嵌入表示进行求和,得到句子的成分嵌入:
(8)对于句子S,使用fR直接对其编码,得到句子的嵌入uS
(9)通过α·uS+(1-α)·ucomp计算句子的语义嵌入u,其中α是一个预先设定的位于[0,1]的正常数;
(10)对于图片I,使用fCNN进行编码,得到图片的嵌入v;
(11)对于一对匹配的图片-句子对(I+,S+),执行步骤(4)-(9)得到图片与句子的嵌入(v+,u+);
(12)对于一句与图片I+不匹配的句子S-,执行步骤(4)-(9)得到句子S-的嵌入u-
(13)对于一张与句子S+不匹配的图片I-,执行步骤(10)得到图片I-的嵌入v-
(14)计算双向排序损失函数:|δ+u+Tv--u+Tv+|+|δ+u-Tv+-u+Tv+|;
(15)根据双向排序损失函数,使用反向传播算法(backpropagation throughtime)计算网络每个参数的梯度
(16)使用基于随机梯度下降的优化算法更新模型参数WO,WRNN,WCNN
(17)重复步骤(11)-(14),直至目标函数收敛,将此时的所有参数作为模型的最终参数。
(二)在线查询阶段,根据已训练好的模型计算给定句子的嵌入表示的流程为;
(1)使用训练阶段训练好的模型参数定义模型;
(2)对于句子S,执行训练阶段中步骤(4)-(9)得到句子的嵌入表示。
(三)在线查询阶段,根据已训练好的模型计算给定图片的嵌入表示的流成为:
(1)使用训练阶段训练好的模型参数定义模型;
(2)对于图片I,执行训练阶段中步骤(10)得到图片的嵌入表示。
本发明利用句子的结构化语义表示,将句子分解为物体集与关系集,对物体和关系进行局部的嵌入表示学习后,将这些局部语义显式地融入整个句子的嵌入表示中。能够使得学习到的嵌入同时包含全局与局部的语义信息,并对局部表达更敏感更鲁棒。
附图说明
图1为基于语义结构表示的视觉文本嵌入方法的示意图。
图2为对应的描述句子为“A white clock on the wall is above a table.”的图片。
图3为对应的描述句子为“A polar bear looks toward the camera”的图片。
具体实施方式
本发明基于语义结构表示的视觉文本嵌入方法的示意图如图1所示。图中,对应的全局表示与对应的描述语句“A white clock on the wall is above a table.”位于嵌入空间中相近的位置,而局部语义“white clock”等则与图中的对应局部部分的嵌入表示位于空间中对应的相近的位置。
下面结合具体实例来说明本发明的具体实施过程:
(一)根据历史轨迹数据训练神经网络模型参数
(1)定义语义编码器fO,循环神经网络fRNN,卷积神经网络fCNN,并初始化网络参数;
(2)对图2使用fCNN进行编码得到图1的嵌入v+
(3)对图2对应的句子“A white clock on the wall is above a table.”使用场景图解析,得到物体集{clock,wall,table},以及关系集{clock on wall,clock abovetable};
(4)将物体作为输入,使用fO计算物体集的嵌入uclock,uwall,utable
(5)将关系作为输入,使用fRNN计算关系集的嵌入uclock_on_wall,uclock_above_table
(6)将整句句子作为输入,使用fRNN计算句子的整句嵌入uS
(7)计算句子的成分嵌入:
(8)计算句子的语义嵌入u+=αuS+(1-α)ucomp
(9)对与图2不同的图片,如图3,使用fCNN进行编码得到图3的嵌入v-
(10)对于图2对应的句子所不同的句子,如“A polar bear looks toward thecamera”,类似步骤(3)-(8),得到对应的句子语义嵌入u-
(11)计算双向排序损失函数|δ+u+Tv--u+Tv+|+|δ+u-Tv+-u+Tv+|;
(12)根据损失函数使用反向传播算法计算网络每个参数的梯度
(13)使用基于随机梯度下降的优化算法更新神经网络参数;
(14)重复步骤(2)-(13)直至目标函数收敛。
(二)根据已训练好的模型计算给定句子的嵌入表示
(1)使用训练阶段训练好的模型参数定义模型;
(2)对于图片使用fCNN进行编码得到图片的嵌入表示。
(三)根据已训练好的模型计算给定图片的嵌入表示
(1)使用训练阶段训练好的模型参数定义模型;
(2)对于句子执行具体实施方式1中的步骤(3)-(8)得到句子的嵌入表示。

Claims (3)

1.一种基于语义结构表示的视觉文本嵌入方法,其特征在于,具体步骤如下:
(1)训练阶段,根据句子-图片对数据训练神经网络模型参数;
(2)在线查询阶段,根据已训练好的模型计算给定句子的嵌入表示;
(3)在线查询阶段,根据已训练好的模型计算给定图片的嵌入表示;
其中,训练阶段,根据句子-图片对数据训练神经网络模型参数操作流程如下:
(1)定义物体语义编码器fO,对应的参数为WO,从[-θ,θ]的均匀分布中对每个元素进行初始化,其中,θ是一个预先设定的正常数;
(2)定义循环神经网络fRNN,对应的参数为WRNN,从[-θ,θ]的均匀分布中对每个元素进行初始化,其中,θ是一个预先设定的正常数;
(3)定义卷积神经网络fCNN,对应的参数为WCNN,使用在ImageNet数据集上预训练的参数进行初始化;
(4)对于句子S,使用场景图解析工具解析成物体集关系集
(5)对于句子S中的物体集中的一个物体o,使用fO对其进行编码,得到物体o的嵌入表示uo
(6)对于句子S中的关系集中的一个(主语—关系词—宾语三元组)关系r,使用fRNN对其进行编码,得到关系r的嵌入表示ur
(7)通过对句子S中的所有物体与关系的嵌入表示进行求和,得到句子的成分嵌入:
(8)对于句子S,使用fR直接对其编码,得到句子的嵌入uS
(9)通过α·uS+(1-α)·ucomp计算句子的语义嵌入u,α是一个预先设定的位于[0,1]的正常数;
(10)对于图片I,使用fCNN进行编码,得到图片的嵌入v;
(11)对于一对匹配的图片-句子对(I+,S+),执行步骤(4)—(9),得到图片与句子的嵌入(v+,u+);
(12)对于一句与图片I+不匹配的句子S-,执行步骤(4)—(9),得到句子S-的嵌入u-
(13)对于一张与句子S+不匹配的图片I-,执行步骤(10)得到图片I-的嵌入v-
(14)计算双向排序损失函数:
(15)根据双向排序损失函数,使用反向传播算法计算网络每个参数的梯度
(16)使用基于随机梯度下降的优化算法更新模型参数WO,WRNN,WCNN
(17)重复步骤(11)—(14),直至目标函数收敛,将此时的所有参数作为模型的最终参数。
2.根据权利要求1所述的基于语义结构表示的视觉语义嵌入方法,其特征在于,在线查询阶段,根据已训练好的模型计算给定句子的嵌入表示的操作流程如下:
(1)使用训练阶段训练好的模型参数定义模型;
(2)对于句子S,执行权利要求1中步骤(4)—(9),得到句子的嵌入表示。
3.根据权利要求1所述的基于语义结构表示的视觉语义嵌入方法,其特征在于,在线查询阶段,根据已训练好的模型计算给定图片的嵌入表示的操作流程如下:
(1)使用训练阶段训练好的模型参数定义模型;
(2)对于图片I,执行权利要求1中步骤(10),得到图片的嵌入表示。
CN201910425771.8A 2019-05-21 2019-05-21 基于语义结构表示的视觉文本嵌入方法 Active CN110197521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910425771.8A CN110197521B (zh) 2019-05-21 2019-05-21 基于语义结构表示的视觉文本嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910425771.8A CN110197521B (zh) 2019-05-21 2019-05-21 基于语义结构表示的视觉文本嵌入方法

Publications (2)

Publication Number Publication Date
CN110197521A true CN110197521A (zh) 2019-09-03
CN110197521B CN110197521B (zh) 2023-03-24

Family

ID=67752916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910425771.8A Active CN110197521B (zh) 2019-05-21 2019-05-21 基于语义结构表示的视觉文本嵌入方法

Country Status (1)

Country Link
CN (1) CN110197521B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378568A (zh) * 2020-03-09 2021-09-10 株式会社理光 关系抽取方法、装置、系统及计算机可读存储介质
CN114254158A (zh) * 2022-02-25 2022-03-29 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置
CN113378568B (zh) * 2020-03-09 2024-05-14 株式会社理光 关系抽取方法、装置、系统及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019007041A1 (zh) * 2017-07-06 2019-01-10 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
CN108171283A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于结构化语义嵌入的图像内容自动描述方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN109558890A (zh) * 2018-09-30 2019-04-02 天津大学 基于自适应权重哈希循环对抗网络的零样本图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙紫阳等: "基于深度学习的中文实体关系抽取方法", 《计算机工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378568A (zh) * 2020-03-09 2021-09-10 株式会社理光 关系抽取方法、装置、系统及计算机可读存储介质
CN113378568B (zh) * 2020-03-09 2024-05-14 株式会社理光 关系抽取方法、装置、系统及计算机可读存储介质
CN114254158A (zh) * 2022-02-25 2022-03-29 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置
CN114254158B (zh) * 2022-02-25 2022-06-10 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置

Also Published As

Publication number Publication date
CN110197521B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN108170816B (zh) 一种基于深度神经网络的智能视觉问答方法
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN109388700A (zh) 一种意图识别方法及系统
EP3979098A1 (en) Data processing method and apparatus, storage medium, and electronic apparatus
CN107807971A (zh) 一种自动图像语义描述方法
CN108804453A (zh) 一种视音频识别方法及装置
CN107766320A (zh) 一种中文代词消解模型建立方法及装置
CN109683871B (zh) 基于图像目标检测的代码自动生成装置及方法
CN112734803B (zh) 基于文字描述的单目标跟踪方法、装置、设备及存储介质
CN112016300B (zh) 预训练模型处理、下游任务处理方法、装置及存储介质
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
Ariesta et al. Sentence level Indonesian sign language recognition using 3D convolutional neural network and bidirectional recurrent neural network
CN116524593A (zh) 一种动态手势识别方法、系统、设备及介质
CN110334340B (zh) 基于规则融合的语义分析方法、装置以及可读存储介质
CN111653274A (zh) 唤醒词识别的方法、装置及存储介质
CN110197521A (zh) 基于语义结构表示的视觉文本嵌入方法
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN114357166A (zh) 一种基于深度学习的文本分类方法
CN113642862A (zh) 基于bert-mbigru-crf模型的电网调度指令命名实体识别方法及系统
CN109948528B (zh) 一种基于视频分类的机器人行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant