CN109740012B - 基于深度神经网络对图像语义进行理解和问答的方法 - Google Patents

基于深度神经网络对图像语义进行理解和问答的方法 Download PDF

Info

Publication number
CN109740012B
CN109740012B CN201811535632.2A CN201811535632A CN109740012B CN 109740012 B CN109740012 B CN 109740012B CN 201811535632 A CN201811535632 A CN 201811535632A CN 109740012 B CN109740012 B CN 109740012B
Authority
CN
China
Prior art keywords
image
information
neural network
layer
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811535632.2A
Other languages
English (en)
Other versions
CN109740012A (zh
Inventor
唐金辉
胡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201811535632.2A priority Critical patent/CN109740012B/zh
Publication of CN109740012A publication Critical patent/CN109740012A/zh
Application granted granted Critical
Publication of CN109740012B publication Critical patent/CN109740012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于深度神经网络对图像语义进行理解和问答的方法包括:根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层;在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;基于多种实验基准,再使用WUPS评价准则进行评估,得到最终的图像问答结果。

Description

基于深度神经网络对图像语义进行理解和问答的方法
技术领域
本发明涉及一种计算机视觉和自然语言处理技术,特别时一种基于深度神经网络对图像语义进行理解和问答的方法。
背景技术
随着计算机视觉和自然语言处理领域的快速发展,人们对于图像认知的要求越来越智能化。每张图像都包含着丰富的信息,图像中的人、物、场景以及他们的相互联系无一不给人们带来很多感兴趣的地方,所以如何让机器帮助人们更好的理解图像显得格外重要。对于图像语义信息的理解在多方面有着广泛的应用场景:能够有效帮助视障者理解图像场景和各种物体间的关联;可用于机器人领域的视觉分析和信息推断;可促进网络信息检索和电子商务平台信息检索的大力发展;可为医疗、交通以及教育事业提供极大的便利。
让机器理解图像语义信息已经引起了广大研究者们的高度重视,虽然问答系统的准确率和信息范围的不断扩大,但问答干扰因素的多样性和不确定性仍然无法满足实际应用的需求。主要挑战在于图像问答的开放和自由性;外在信息如常识信息的干扰;图像视觉的关注点以及场景的多样性;对图像关联信息的推断和理解,并且现有的图像问答技术大多训练模型比较复杂耗时。
发明内容
本发明的目的在于提供一种基于深度神经网络对图像语义进行理解和问答的方法,包括以下步骤:
步骤1,根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;
步骤2,对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;
步骤3,将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;
步骤4,把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层;
步骤5,在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;
步骤6,基于多种实验基准,再使用WUPS评价准则进行评估,得到最终的图像问答结果。
本发明提出一种基于深度神经网络对图像语义进行理解和问答的系统和方法,该方法训练网络简单有效,并且对多种方式的问答均有具有较高精度的问答结果。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明的流程图。
图2是联合嵌入模型图。
图3是门控循环单元(GRU)结构图。
具体实施方式
结合图1、图2,一种基于深度神经网络对图像语义进行理解和问答的系统和方法,包括图像特征提取和外部检索信息转换、模型训练产生预测参数和hashing映射、问答结果分类、多种实验基准和评估得到最终问答结果这四个过程。
一、图像特征提取和外部检索信息转换包括以下步骤:
步骤1,使用预训练的深度卷积神经网络(vgg19),在原网络最后一层后添加动态参数层(一个全连接层),调整好网络初始参数和结构,对整理好的训练集和验证集图像提取特征信息。
步骤2,在步骤1中将神经网络层中的fc7层输出信息作为图像特征保存,获取到图像特征向量Vf(I)。
步骤3,选择先验知识库(DBpedia)并对其进行扩充。考虑到编码和信息检索过程会在问答时产生干扰或无关的信息,尽最大可能以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充。通过给定图像和步骤1中的属性信息Vf(I)作为一个查询,对RDF使用SparQL数据查询语言检索图像外部知识并作为机器理解图像语义的常识性信息。
步骤4,对步骤3中获取到的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息,其转换公式如下:
y=b+Uh(wt-k,...wt+k;W,D)
其中,U和b代表softmax分类函数的参数,h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值,wt-k,...wt+k是段落词向量。
二、模型训练产生预测参数和hashing映射包括以下步骤:
步骤5,结合图3,调整好GRU门控循环单元的网络结构和训练参数,预测网络模型由GRU后再连接一个全连接层组成。GRU模型结构中,重置门用来控制前一时刻有多少状态信息被忽略;更新门则决定保留多少前一刻状态信息。可得到如下模型表达式:
rt=σ(Wrxt+Urht-1)
Zt=σ(Wzxt+Uzht-i)
其中,rt和zt分别代表t时刻的重置门和更新门;激活函数σ(*)he tanh(*)分别是非线性sigmoid函数和是双曲正切函数;是候选隐含状态,使用重置门来控制包含过去时刻信息的上一个隐含状态的流入;ht表示隐含状态,使用更新门在t时刻对t-1时刻隐含状态和候选状态进行更新。将步骤4)中转换得到的外部知识语义向量K和需要提出的问题Q(使用Word2Vec转换)作为GRU的输入进行训练。
步骤6,由步骤5训练后得到hq,k,经过全连接层后输出候选权重向量P(P=[p1...pk]T),即P就是产生的预测参数。
步骤7,在步骤6中训练产生的预测参数P数量特别庞大,也有很多冗余参数的产生,为进一步优化模型增加训练效率,需通过hashing随机权重共享技术来构造动态参数层的权重,使得自由参数的数量大大减少而网络性能几乎没什么损失。所以,将动态参数层的输入P经过优化筛选后得到Wd(q,k),将使用如下映射方式:
其中,对应于Wd(q,k)中第m个输出和第n个输入神经元间的映射,而Ψ(m,n)是一个散列函数将(m,n)映射到自然数{1,...,K}之间,K是预测参数P的维数,ξ(m,n):N×N→{+1,-1}是另一个与Ψ(m,n)无关的散列函数,可用来消除散列内积的偏差。
三,问答结果分类包括以下步骤:
步骤8,经由步骤7hashing映射转换得到的参数对应于卷积神经网络的动态参数层,和该层的权重fi一起作用得到输出fo,再将fo通过一个softmax分类层,即在动态参数层后添加一个分类层。其中,考虑把步骤1)中动态参数层放在倒数第二层而不是分类层,是因为该层比分类层涉及更少的参数,这样在通过分类层后能更好得到问答产生的一系列结果。
步骤9,由于问答的开放和自由性,很难设定一个衡量问答准确性的标准,此处依据分类的精度作为评估问答系统好坏的准则之一,在优化问答模型的同时也能高效的在步骤8中产生的各个分类结果中选择出比较好的答案。
四,多种实验基准和评估准则得到最终问答结果包含以下步骤:
步骤10,为了验证多方面因素对问答系统产生的影响,此处提出多种实验基准:(1)仅带有问题的问答模型,此时,仅将问题作为模型的输入,训练中不加入图像视觉信息和图像外部知识信息,最后将得到的问答结果记录;(2)有图像和问题的问答模型,在训练模型时不加入外部知识库信息,即在机器问答时不加入图像外部常识信息;(3)带有图像视觉、图像先验知识和问题的问答模型,在训练时对图像视觉使用关注机制,并且加入外部知识信息和问题一起训练。通过多种对比实验,可以验证在机器问答中常识信息和图像视觉特征发挥的重要作用。
步骤11,在步骤9中依据分类的精度对问答结果进行评估虽然比较简单,但评估的方式还不够严谨。需要基于词汇语义相似性再对问答进行评估,考虑使用WUPS指标进行评估,它使用基于WordNet分类法的采用阈值化的方式来计算单词之间的相似性。评估方式如下:
其中,Ai和Ti分别表示第i个样例的预测答案和准确答案,μ(.)是预测答案(问答结果)和真实答案之间的阈值化WUP相似性,评估时阈值主要设置为0.9和0.0两种。基于该WUPS评分准则对问答结果进行评估,和步骤9中的分类准确度相结合可更好得到该问答系统的最终结果。

Claims (8)

1.一种基于深度神经网络对图像语义进行理解和问答的方法,其特征在于,包括以下步骤:
步骤1,根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;
步骤2,对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;
步骤3,将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;
步骤4,把训练得到的候选权重通过hashing映射转换到卷积神经网络的动态参数层;
步骤5,在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;
步骤6,先进行基于多种实验基准的评估,再使用WUPS评价准则进行评估,得到最终的图像问答结果。
2.根据权利要求1所述的方法,其特征在于,步骤1的具体过程为:
步骤101,使用预训练的深度卷积神经网络vgg19,在网络最后一层后添加动态参数层,调整好网络初始参数和结构,对训练集和验证集图像提取特征信息;
步骤102,将步骤101中调整好的神经网络fc7层输出的信息作为图像特征保存,获取图像特征向量Vf(I);
步骤103,选择先验知识库并以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充并对先验知识库用资源描述框架RDF进行描述,通过给定图像和其属性信息Vf(I)作为一个查询,对资源描述框架RDF使用SparQL数据查询语言检索到给定图像外部知识。
3.根据权利要求1所述的方法,其特征在于,步骤2的具体过程为:
对获取的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息,其转换公式如下:
y=b+Uh(wt-k,...wt+k;W,D)
其中,U和b是softmax函数的参数,wt-k表示段落中的第t-k个词,h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值。
4.根据权利要求1所述的方法,其特征在于,步骤3的具体过程为:
步骤301,调整门控循环单元GRU的网络结构和训练参数,其中预测网络模型由门控循环单元GRU后再连接一个全连接层组成;
步骤302,将问答需要的问题和转换后的给定图像外部知识信息联合,一起放到模型中进行训练。
5.根据权利要求1所述的方法,其特征在于,步骤4的具体过程为:
步骤401,将步骤3中联合嵌入模型训练产生的权重值P作为预测参数值
P=Wphq,h
其中,Wp表示全连接层的权重,hq,h是经过门控循环单元GRU训练后的输出值;
步骤402,通过hashing映射转换将P优化筛选得到Wd(q,k)。
6.根据权利要求5所述的方法,其特征在于,步骤5的具体过程如下:
步骤501,将步骤402得到Wd(q,k)和神经网络的动态参数层的权重fi得到输出fo
步骤502,将fo通过一个softmax分类层,并将分类精度作为评价准则。
7.根据权利要求1所述的方法,其特征在于,步骤6中的实验基准为(1)~(3)中任一种:
(1)仅有问题的问答模型;
(2)有图像和问题的问答模型;
(2)有图像、先验知识和问题的问答模型。
8.根据权利要求1所述的方法,其特征在于,步骤6中采用WUPS评价准则对问答结果再次进行评估得到问答结果。
CN201811535632.2A 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法 Active CN109740012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811535632.2A CN109740012B (zh) 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811535632.2A CN109740012B (zh) 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法

Publications (2)

Publication Number Publication Date
CN109740012A CN109740012A (zh) 2019-05-10
CN109740012B true CN109740012B (zh) 2023-08-25

Family

ID=66359453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811535632.2A Active CN109740012B (zh) 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法

Country Status (1)

Country Link
CN (1) CN109740012B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110825903A (zh) * 2019-10-12 2020-02-21 江南大学 一种改进哈希融合机制的视觉问答方法
CN113342982B (zh) * 2021-06-24 2023-07-25 长三角信息智能创新研究院 融合RoBERTa和外部知识库的企业行业分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于时空注意力网络的视频问答;杨启凡;《https://d.wanfangdata.com.cn/thesis/ChJUaGVzaXNOZXdTMjAyMjA5MDESCFkzNDYzODkyGghsam9tOHY1dA%3D%3D》;20181126;全文 *

Also Published As

Publication number Publication date
CN109740012A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN109740012B (zh) 基于深度神经网络对图像语义进行理解和问答的方法
JP6722789B2 (ja) インタラクティブ言語習得のシステム、及び方法
Aneja et al. Convolutional image captioning
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
Vinyals et al. Show and tell: A neural image caption generator
CN108416065B (zh) 基于层级神经网络的图像-句子描述生成系统及方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110377710A (zh) 一种基于多模态融合的视觉问答融合增强方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
US11776269B2 (en) Action classification in video clips using attention-based neural networks
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111460121B (zh) 视觉语义对话方法及系统
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
AU2019101138A4 (en) Voice interaction system for race games
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN111079837A (zh) 一种用于二维灰度图像检测识别分类的方法
CN113869005A (zh) 一种基于语句相似度的预训练模型方法和系统
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN112132075A (zh) 图文内容处理方法及介质
CN116543289A (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN113554040B (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
CN113779244B (zh) 文档情感分类方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant