CN109740012A - 基于深度神经网络对图像语义进行理解和问答的方法 - Google Patents

基于深度神经网络对图像语义进行理解和问答的方法 Download PDF

Info

Publication number
CN109740012A
CN109740012A CN201811535632.2A CN201811535632A CN109740012A CN 109740012 A CN109740012 A CN 109740012A CN 201811535632 A CN201811535632 A CN 201811535632A CN 109740012 A CN109740012 A CN 109740012A
Authority
CN
China
Prior art keywords
image
question
answer
information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811535632.2A
Other languages
English (en)
Other versions
CN109740012B (zh
Inventor
唐金辉
胡俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201811535632.2A priority Critical patent/CN109740012B/zh
Publication of CN109740012A publication Critical patent/CN109740012A/zh
Application granted granted Critical
Publication of CN109740012B publication Critical patent/CN109740012B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种基于深度神经网络对图像语义进行理解和问答的方法包括:根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层;在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;基于多种实验基准,再使用WUPS评价准则进行评估,得到最终的图像问答结果。

Description

基于深度神经网络对图像语义进行理解和问答的方法
技术领域
本发明涉及一种计算机视觉和自然语言处理技术,特别时一种基于深度神经网络对图像语义进行理解和问答的方法。
背景技术
随着计算机视觉和自然语言处理领域的快速发展,人们对于图像认知的要求越来越智能化。每张图像都包含着丰富的信息,图像中的人、物、场景以及他们的相互联系无一不给人们带来很多感兴趣的地方,所以如何让机器帮助人们更好的理解图像显得格外重要。对于图像语义信息的理解在多方面有着广泛的应用场景:能够有效帮助视障者理解图像场景和各种物体间的关联;可用于机器人领域的视觉分析和信息推断;可促进网络信息检索和电子商务平台信息检索的大力发展;可为医疗、交通以及教育事业提供极大的便利。
让机器理解图像语义信息已经引起了广大研究者们的高度重视,虽然问答系统的准确率和信息范围的不断扩大,但问答干扰因素的多样性和不确定性仍然无法满足实际应用的需求。主要挑战在于图像问答的开放和自由性;外在信息如常识信息的干扰;图像视觉的关注点以及场景的多样性;对图像关联信息的推断和理解,并且现有的图像问答技术大多训练模型比较复杂耗时。
发明内容
本发明的目的在于提供一种基于深度神经网络对图像语义进行理解和问答的方法,包括以下步骤:
步骤1,根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;
步骤2,对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;
步骤3,将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;
步骤4,把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层;
步骤5,在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;
步骤6,基于多种实验基准,再使用WUPS评价准则进行评估,得到最终的图像问答结果。
本发明提出一种基于深度神经网络对图像语义进行理解和问答的系统和方法,该方法训练网络简单有效,并且对多种方式的问答均有具有较高精度的问答结果。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明的流程图。
图2是联合嵌入模型图。
图3是门控循环单元(GRU)结构图。
具体实施方式
结合图1、图2,一种基于深度神经网络对图像语义进行理解和问答的系统和方法,包括图像特征提取和外部检索信息转换、模型训练产生预测参数和hashing映射、问答结果分类、多种实验基准和评估得到最终问答结果这四个过程。
一、图像特征提取和外部检索信息转换包括以下步骤:
步骤1,使用预训练的深度卷积神经网络(vgg19),在原网络最后一层后添加动态参数层(一个全连接层),调整好网络初始参数和结构,对整理好的训练集和验证集图像提取特征信息。
步骤2,在步骤1中将神经网络层中的fc7层输出信息作为图像特征保存,获取到图像特征向量Vf(I)。
步骤3,选择先验知识库(DBpedia)并对其进行扩充。考虑到编码和信息检索过程会在问答时产生干扰或无关的信息,尽最大可能以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充。通过给定图像和步骤1中的属性信息Vf(I)作为一个查询,对RDF使用SparQL数据查询语言检索图像外部知识并作为机器理解图像语义的常识性信息。
步骤4,对步骤3中获取到的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息,其转换公式如下:
y=b+Uh(wt-k,...wt+k;W,D)
其中,U和b代表softmax分类函数的参数,h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值,wt-k,...wt+k是段落词向量。
二、模型训练产生预测参数和hashing映射包括以下步骤:
步骤5,结合图3,调整好GRU门控循环单元的网络结构和训练参数,预测网络模型由GRU后再连接一个全连接层组成。GRU模型结构中,重置门用来控制前一时刻有多少状态信息被忽略;更新门则决定保留多少前一刻状态信息。可得到如下模型表达式:
rt=σ(Wrxt+Urht-1)
Zt=σ(Wzxt+Uzht-i)
其中,rt和zt分别代表t时刻的重置门和更新门;激活函数σ(*)he tanh(*)分别是非线性sigmoid函数和是双曲正切函数;是候选隐含状态,使用重置门来控制包含过去时刻信息的上一个隐含状态的流入;ht表示隐含状态,使用更新门在t时刻对t-1时刻隐含状态和候选状态进行更新。将步骤4)中转换得到的外部知识语义向量K和需要提出的问题Q(使用Word2Vec转换)作为GRU的输入进行训练。
步骤6,由步骤5训练后得到hq,k,经过全连接层后输出候选权重向量P(P=[p1...pk]T),即P就是产生的预测参数。
步骤7,在步骤6中训练产生的预测参数P数量特别庞大,也有很多冗余参数的产生,为进一步优化模型增加训练效率,需通过hashing随机权重共享技术来构造动态参数层的权重,使得自由参数的数量大大减少而网络性能几乎没什么损失。所以,将动态参数层的输入P经过优化筛选后得到Wd(q,k),将使用如下映射方式:
其中,对应于Wd(q,k)中第m个输出和第n个输入神经元间的映射,而Ψ(m,n)是一个散列函数将(m,n)映射到自然数{1,...,K}之间,K是预测参数P的维数,ξ(m,n):N×N→{+1,-1}是另一个与Ψ(m,n)无关的散列函数,可用来消除散列内积的偏差。
三,问答结果分类包括以下步骤:
步骤8,经由步骤7hashing映射转换得到的参数对应于卷积神经网络的动态参数层,和该层的权重fi一起作用得到输出fo,再将fo通过一个softmax分类层,即在动态参数层后添加一个分类层。其中,考虑把步骤1)中动态参数层放在倒数第二层而不是分类层,是因为该层比分类层涉及更少的参数,这样在通过分类层后能更好得到问答产生的一系列结果。
步骤9,由于问答的开放和自由性,很难设定一个衡量问答准确性的标准,此处依据分类的精度作为评估问答系统好坏的准则之一,在优化问答模型的同时也能高效的在步骤8中产生的各个分类结果中选择出比较好的答案。
四,多种实验基准和评估准则得到最终问答结果包含以下步骤:
步骤10,为了验证多方面因素对问答系统产生的影响,此处提出多种实验基准:(1)仅带有问题的问答模型,此时,仅将问题作为模型的输入,训练中不加入图像视觉信息和图像外部知识信息,最后将得到的问答结果记录;(2)有图像和问题的问答模型,在训练模型时不加入外部知识库信息,即在机器问答时不加入图像外部常识信息;(3)带有图像视觉、图像先验知识和问题的问答模型,在训练时对图像视觉使用关注机制,并且加入外部知识信息和问题一起训练。通过多种对比实验,可以验证在机器问答中常识信息和图像视觉特征发挥的重要作用。
步骤11,在步骤9中依据分类的精度对问答结果进行评估虽然比较简单,但评估的方式还不够严谨。需要基于词汇语义相似性再对问答进行评估,考虑使用WUPS指标进行评估,它使用基于WordNet分类法的采用阈值化的方式来计算单词之间的相似性。评估方式如下:
其中,Ai和Ti分别表示第i个样例的预测答案和准确答案,μ(.)是预测答案(问答结果)和真实答案之间的阈值化WUP相似性,评估时阈值主要设置为0.9和0.0两种。基于该WUPS评分准则对问答结果进行评估,和步骤9中的分类准确度相结合可更好得到该问答系统的最终结果。

Claims (8)

1.一种基于深度神经网络对图像语义进行理解和问答的方法,其特征在于,包括以下步骤:
步骤1,根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;
步骤2,对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;
步骤3,将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;
步骤4,把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层;
步骤5,在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;
步骤6,基于多种实验基准,再使用WUPS评价准则进行评估,得到最终的图像问答结果。
2.根据权利要求1所述的方法,其特征在于,步骤1的具体过程为:
步骤101,使用预训练的深度卷积神经网络vgg19,在网络最后一层后添加动态参数层,调整好网络初始参数和结构,对训练集和验证集图像提取特征信息;
步骤102,将步骤101中调整好的神经网络fc7层输出的信息作为图像特征保存,获取图像特征向量Vf(I);
步骤103,选择先验知识库并以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充并对先验知识库用资源描述框架RDF进行描述,通过给定图像和其属性信息Vf(I)作为一个查询,对资源描述框架RDF使用SparQL数据查询语言检索到给定图像外部知识。
3.根据权利要求1所述的方法,其特征在于,步骤2的具体过程为:
对获取的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息,其转换公式如下:
y=b+Uh(wt-k,...wt+k;W,D)
其中,U和b是softmax函数的参数,wt-k表示段落中的第t-k个词,h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值。
4.根据权利要求1所述的方法,其特征在于,步骤3的具体过程为:
步骤301,调整门控循环单元GRU的网络结构和训练参数,其中预测网络模型由门控循环单元GRU后再连接一个全连接层组成;
步骤302,将问答需要的问题和转换后的给定图像外部知识信息联合,一起放到模型中进行训练。
5.根据权利要求1所述的方法,其特征在于,步骤4的具体过程为:
步骤401,将步骤3中联合嵌入模型训练产生的权重值P作为预测参数值
P=Wphq,h
其中,Wp表示全连接层的权重,hq,h是经过门控循环单元GRU训练后的输出值;
步骤402,通过hashing随机权重共享方法将P优化筛选得到Wd(q,k)。
6.根据权利要求5所述的方法,其特征在于,步骤5的具体过程如下:
步骤501,将步骤402得到Wd(q,k)和圣经网络的动态参数层的权重fi得到输出fo
步骤502,将fo通过一个softmax分类层,并将分类精度作为评价准则。
7.根据权利要求1所述的方法,其特征在于,步骤6中的实验基准包括:
(1)仅有问题的问答模型;
(2)有图像和问题的问答模型;
(c)有图像、先验知识和问题的问答模型。
8.根据权利要求1所述的方法,其特征在于,步骤6中采用WUPS评价准则对问答结果再次进行评估得到问答结果。
CN201811535632.2A 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法 Active CN109740012B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811535632.2A CN109740012B (zh) 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811535632.2A CN109740012B (zh) 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法

Publications (2)

Publication Number Publication Date
CN109740012A true CN109740012A (zh) 2019-05-10
CN109740012B CN109740012B (zh) 2023-08-25

Family

ID=66359453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811535632.2A Active CN109740012B (zh) 2018-12-14 2018-12-14 基于深度神经网络对图像语义进行理解和问答的方法

Country Status (1)

Country Link
CN (1) CN109740012B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110717024A (zh) * 2019-10-08 2020-01-21 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110825903A (zh) * 2019-10-12 2020-02-21 江南大学 一种改进哈希融合机制的视觉问答方法
CN113342982A (zh) * 2021-06-24 2021-09-03 中国科学技术大学智慧城市研究院(芜湖) 融合RoBERTa和外部知识库的企业行业分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108830287A (zh) * 2018-04-18 2018-11-16 哈尔滨理工大学 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108804544A (zh) * 2018-05-17 2018-11-13 深圳市小蛙数据科技有限公司 互联网影视多源数据融合方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨启凡: "基于时空注意力网络的视频问答", 《HTTPS://D.WANFANGDATA.COM.CN/THESIS/CHJUAGVZAXNOZXDTMJAYMJA5MDESCFKZNDYZODKYGGHSAM9TOHY1DA%3D%3D》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110717024A (zh) * 2019-10-08 2020-01-21 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法
CN110825903A (zh) * 2019-10-12 2020-02-21 江南大学 一种改进哈希融合机制的视觉问答方法
CN113342982A (zh) * 2021-06-24 2021-09-03 中国科学技术大学智慧城市研究院(芜湖) 融合RoBERTa和外部知识库的企业行业分类方法
CN113342982B (zh) * 2021-06-24 2023-07-25 长三角信息智能创新研究院 融合RoBERTa和外部知识库的企业行业分类方法

Also Published As

Publication number Publication date
CN109740012B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN111260740B (zh) 一种基于生成对抗网络的文本到图像生成方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN110263912B (zh) 一种基于多目标关联深度推理的图像问答方法
CN109740012A (zh) 基于深度神经网络对图像语义进行理解和问答的方法
CN107729497B (zh) 一种基于知识图谱的词嵌入深度学习方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110377686A (zh) 一种基于深度神经网络模型的地址信息特征抽取方法
CN108133188A (zh) 一种基于运动历史图像与卷积神经网络的行为识别方法
CN106844442A (zh) 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106407889A (zh) 基于光流图深度学习模型在视频中人体交互动作识别方法
CN107798349A (zh) 一种基于深度稀疏自编码机的迁移学习方法
CN112949647B (zh) 三维场景描述方法、装置、电子设备和存储介质
CN111639679A (zh) 一种基于多尺度度量学习的小样本学习方法
CN109993102A (zh) 相似人脸检索方法、装置及存储介质
CN112036276B (zh) 一种人工智能视频问答方法
WO2021217282A1 (zh) 一种实现通用人工智能的方法
CN109829049A (zh) 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN110334196B (zh) 基于笔画和自注意力机制的神经网络中文问题生成系统
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113255443A (zh) 一种基于金字塔结构的图注意力网络时序动作定位方法
CN110245602A (zh) 一种基于深度卷积特征的水下静目标识别方法
CN109447096A (zh) 一种基于机器学习的扫视路径预测方法和装置
CN112527993A (zh) 一种跨媒体层次化深度视频问答推理框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant