CN107169111A - 一种在视觉问答场景中提高问题前提可信度的方法 - Google Patents

一种在视觉问答场景中提高问题前提可信度的方法 Download PDF

Info

Publication number
CN107169111A
CN107169111A CN201710358064.2A CN201710358064A CN107169111A CN 107169111 A CN107169111 A CN 107169111A CN 201710358064 A CN201710358064 A CN 201710358064A CN 107169111 A CN107169111 A CN 107169111A
Authority
CN
China
Prior art keywords
premise
image
database
information
premise information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710358064.2A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710358064.2A priority Critical patent/CN107169111A/zh
Publication of CN107169111A publication Critical patent/CN107169111A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明中提出的一种在视觉问答场景中提高问题前提可信度的方法,其主要内容包括:前提信息提取、问题相关性预测数据库、问题相关性检测、视觉问答的数据扩张,其过程为,首先提取问题中前提信息,构造问题相关性预测及解释数据库,对问题图像对(Ii,Qi)进行二元分类,鉴定图像Ii是否存在问题Qi中的前提信息,然后在独热编码的基础上,使用VGG网络和长短期记忆网络分别对图像Ii和问题Qi进行编码,并将其输入到多层感知器进行预测。本发明可以处理不同场景中多种目标物体及其关系,提供一个编码方法来计算图像配对距离,同时提高了问题前提信息的可信度。

Description

一种在视觉问答场景中提高问题前提可信度的方法
技术领域
本发明涉及视觉问答领域,尤其是涉及了一种在视觉问答场景中提高问题前提可信度的方法。
背景技术
针对图像内容自主贴上图像标签或主题文字,是近年来备受关注的课题,尤其在产生海量图像的今天,完全依照人眼去辨别图像内容并分类是个不可能的任务,因此如何利用先验知识给特定图像内容贴上主题标签,并且在视觉问答上准确回答出问题的关键所在,是值得考量的事情。如果能在非人眼劳动下成功将图像内容回答出来,将对工程学和视觉产业带来极高的意义和经济价值,尤其在背景宽广、物体稀疏如深海远洋之地,如能准确地汇总实时航行信息、验证遥感测绘图像、合理规划勘探任务等方面具有巨大的潜能与效益。
在传统方法中,视觉问答并不考虑问题的合理性,即便问题与图像内容无关,机器也会给出一个认为最相关的答案。例如图像中是一只红色的猎犬,当问题是“图中的鸭子颜色是什么”的时候,答案依然“红色”。视觉问答传统方法无法给出对问题中前提信息的正误判断,给答案的精确度和意义造成了不良影响。
本发明提出了一种独热编码和深度学习编码的新框架。提取问题中前提信息,构造问题相关性预测及解释数据库,对问题图像对(Ii,Qi)进行二元分类,鉴定图像Ii是否存在问题Qi中的前提信息,然后在独热编码的基础上,使用VGG网络和长短期记忆网络分别对图像Ii和问题Qi进行编码,并将其输入到多层感知器进行预测。本发明可以处理不同场景中多种目标物体及其关系,提供一个编码方法来计算图像配对距离,同时提高了问题前提信息的可信度。
发明内容
针对解决在视觉问答领域中问题前提可信度低的问题,本发明的目的在于提供一种在视觉问答场景中提高问题前提可信度的方法,提出了一种独热编码和深度学习编码的新框架。
为解决上述问题,本发明提供一种基于视频数据的人体动作分析方法,其主要内容包括:
(一)前提信息提取;
(二)问题相关性预测数据库;
(三)问题相关性检测;
(四)视觉问答的数据扩张。
其中,所述的前提信息提取,使用语义元祖图片标题评价标准来提取问题中的前提信息,具体为:
(1)该评价标准将一个问题的句子转换成一个场景表示;
(2)在转换过程中禁用代词消解和动词还原;
(3)去除如“照片”、“图像”等关键字词。
进一步地,所述的问题相关性预测数据库,包括问题相关性原则、数据库构成和数据库集成。
进一步地,所述的问题相关性原则,为改变在传统视觉问答上,被提问的图像会强行根据题目进行不同程度的回答,即便问题与该图像毫无关系的局面,因此从问题相关性入手,建立问题相关性预测及解释数据库,具体为:
(1)对自然问题Q,当图像与它相关时,用I+表示,当图像与它无关时,用I-表示;
(2)为确保数据库更加现实与具有挑战,跟自然问题Q无关的图像只具备一个错误前提;
(3)通过VGG深度学习网络在ImageNet上的训练权值,计算不相关图像与源图像I+的视觉距离,确保它们之间视觉上相似但可作为前提信息区分度困难的例子。
进一步地,所述的数据库构成,利用现有的标题图片数据库和Visual Genome标签数据库,根据三个判断题目前提信息的次序来进行数据库的建构:
(1)对于第一类前提,即进行标题存在判断的前提,利用80类数据库的标题图片,可以单纯从图像标题上就能检查出前提的存在与否;
(2)对于第二类前提,即进行属性物体存在判断的前提,利用Visual Genome标签数据库,由于标签不完全覆盖图像内容,因此在没有更严格的约束条件下,标签之间不相互排斥,来确保只存在一个错误的前提;
(3)对于第三类前提,即进行图像物体关系判断的前提,由于对应图像之间的内容间缺乏独立性,因此需要人为填补更多的标签及标题,可在上述数据库中实现;
(4)在建构好的数据库中取出问题图像对,即具有正确标题前提信息的图像I+和只有一个错误条标题前提信息的I,首先提取第一类、第二类前提信息,对每一个前提信息,遍历所有图像,找出只缺该前提信息的所有图像,再进行视觉距离的排序,距离最近的问题图像对可保持不相关图像标签。
进一步地,所述的数据库集成,问题图像对(I+,Q,I-)中如果存在篡改的前提信息,则使得图像I-对问题Q无关,具体地,该图像库含有(I+,Q,I-)类图像共102432对,其中11065对为第二类前提信息,剩下的91367对位第一类前提信息,此外,该数据库包含2961个独一无二的前提和96812个独一无二的问题;从中,68037个前提信息用于训练,34395个前提信息用于验证。
进一步地,所述的问题相关性检测,包括相关性预测和相关性解释。
进一步地,所述的相关性预测,对于问题图像对(Ii,Qi),只考虑一个二元预测任务:问题Qi是否与图像Ii相关,这需要将问题及图像进行编码,具体地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。
进一步地,所述的相关性解释,在视觉问答系统中,纠正问题的错误比强行回答错误的问题要更为重要,由此衍生对错误提问的报告,具体地,给定一个问题图像对(Ii,Qi),目标在于鉴定图像Ii是否存在问题Qi中的前提信息,同样地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。
进一步地,所述的视觉问答的数据扩张,在视图上已经有先验知识的情况下,从视觉问答系统的训练集合中基于问题的前提信息产生简单的、模板化的新问题,所有被搜集起来的问题图像对都会经过视觉正常的人眼观察并提问,也会被视作已经经过先验知识的验证,然后按照三类前提信息的模板进行问题的填充,尤其涉及物体之间的关系信息。
附图说明
图1是本发明一种在视觉问答场景中提高问题前提可信度的方法的系统流程图。
图2是本发明一种在视觉问答场景中提高问题前提可信度的方法的示意图。
图3是本发明一种在视觉问答场景中提高问题前提可信度的方法的训练例子。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种在视觉问答场景中提高问题前提可信度的方法的系统流程图。主要包括前提信息提取;问题相关性预测数据库;问题相关性检测;视觉问答的数据扩张。
其中,前提信息提取,使用语义元祖图片标题评价标准来提取问题中的前提信息,具体为:
(1)该评价标准将一个问题的句子转换成一个场景表示;
(2)在转换过程中禁用代词消解和动词还原;
(3)去除如“照片”、“图像”等关键字词。
问题相关性预测数据库,包括问题相关性原则、数据库构成和数据库集成。
问题相关性原则,为改变在传统视觉问答上,被提问的图像会强行根据题目进行不同程度的回答,即便问题与该图像毫无关系的局面,因此从问题相关性入手,建立问题相关性预测及解释数据库,具体为:
(1)对自然问题Q,当图像与它相关时,用I+表示,当图像与它无关时,用I-表示;
(2)为确保数据库更加现实与具有挑战,跟自然问题Q无关的图像只具备一个错误前提;
(3)通过VGG深度学习网络在ImageNet上的训练权值,计算不相关图像与源图像I+的视觉距离,确保它们之间视觉上相似但可作为前提信息区分度困难的例子。
数据库构成,利用现有的标题图片数据库和Visual Genome标签数据库,根据三个判断题目前提信息的次序来进行数据库的建构:
(1)对于第一类前提,即进行标题存在判断的前提,利用80类数据库的标题图片,可以单纯从图像标题上就能检查出前提的存在与否;
(2)对于第二类前提,即进行属性物体存在判断的前提,利用Visual Genome标签数据库,由于标签不完全覆盖图像内容,因此在没有更严格的约束条件下,标签之间不相互排斥,来确保只存在一个错误的前提;
(3)对于第三类前提,即进行图像物体关系判断的前提,由于对应图像之间的内容间缺乏独立性,因此需要人为填补更多的标签及标题,可在上述数据库中实现;
(4)在建构好的数据库中取出问题图像对,即具有正确标题前提信息的图像I+和只有一个错误条标题前提信息的I′,首先提取第一类、第二类前提信息,对每一个前提信息,遍历所有图像,找出只缺该前提信息的所有图像,再进行视觉距离的排序,距离最近的问题图像对可保持不相关图像标签。
数据库集成,问题图像对(I+,Q,I-)中如果存在篡改的前提信息,则使得图像I-对问题Q无关,具体地,该图像库含有(I+,Q,I-)类图像共102432对,其中11065对为第二类前提信息,剩下的91367对位第一类前提信息,此外,该数据库包含2961个独一无二的前提和96812个独一无二的问题;从中,68037个前提信息用于训练,34395个前提信息用于验证。
相关性检测,包括相关性预测和相关性解释。
相关性预测,对于问题图像对(Ii,Qi),只考虑一个二元预测任务:问题Qi是否与图像Ii相关,这需要将问题及图像进行编码,具体地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。
相关性解释,在视觉问答系统中,纠正问题的错误比强行回答错误的问题要更为重要,由此衍生对错误提问的报告,具体地,给定一个问题图像对(Ii,Qi),目标在于鉴定图像Ii是否存在问题Qi中的前提信息,同样地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。
视觉问答的数据扩张,在视图上已经有先验知识的情况下,从视觉问答系统的训练集合中基于问题的前提信息产生简单的、模板化的新问题,所有被搜集起来的问题图像对都会经过视觉正常的人眼观察并提问,也会被视作已经经过先验知识的验证,然后按照三类前提信息的模板进行问题的填充,尤其涉及物体之间的关系信息。
图2是本发明一种在视觉问答场景中提高问题前提可信度的方法的示意图。如图所示,可以观察到这个问题在下面两幅图像中都具有一定的物体元素,例如男人、球拍,但右图没有握住球拍,因此右图是跟问题不相关的。
图3是本发明一种在视觉问答场景中提高问题前提可信度的方法的训练例子。如图所示,可以观察到,每一幅图像篡改一个问题的前提,就能使得这幅图像与问题变成不相关,达到增强噪声和提高训练精度的效果。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种在视觉问答场景中提高问题前提可信度的方法,其特征在于,主要包括问题前提信息提取(一);问题相关性预测数据库(二);问题相关性检测(三),视觉问答的数据扩张(四)。
2.基于权利要求书1所述的问题前提信息提取(一),其特征在于,使用语义元祖图片标题评价标准来提取问题中的前提信息,具体为:
(1)该评价标准将一个问题的句子转换成一个场景表示;
(2)在转换过程中禁用代词消解和动词还原;
(3)去除如“照片”、“图像”等关键字词。
3.基于权利要求书1所述的问题相关性预测数据库(二),其特征在于,包括问题相关性原则、数据库构成和数据库集成。
4.基于权利要求书3所述的问题相关性原则,其特征在于,为改变在传统视觉问答上,被提问的图像会强行根据题目进行不同程度的回答,即便问题与该图像毫无关系的局面,因此从问题相关性入手,建立问题相关性预测及解释数据库,具体为:
(1)对自然问题Q,当图像与它相关时,用I+表示,当图像与它无关时,用I-表示;
(2)为确保数据库更加现实与具有挑战,跟自然问题Q无关的图像只具备一个错误前提;
(3)通过VGG深度学习网络在ImageNet上的训练权值,计算不相关图像与源图像I+的视觉距离,确保它们之间视觉上相似但可作为前提信息区分度困难的例子。
5.基于权利要求书3所述的数据库构成,其特征在于,利用现有的标题图片数据库和Visual Genome标签数据库,根据三个判断题目前提信息的次序来进行数据库的建构:
(1)对于第一类前提,即进行标题存在判断的前提,利用80类数据库的标题图片,可以单纯从图像标题上就能检查出前提的存在与否;
(2)对于第二类前提,即进行属性物体存在判断的前提,利用Visual Genome标签数据库,由于标签不完全覆盖图像内容,因此在没有更严格的约束条件下,标签之间不相互排斥,来确保只存在一个错误的前提;
(3)对于第三类前提,即进行图像物体关系判断的前提,由于对应图像之间的内容间缺乏独立性,因此需要人为填补更多的标签及标题,可在上述数据库中实现;
(4)在建构好的数据库中取出问题图像对,即具有正确标题前提信息的图像I+和只有一个错误条标题前提信息的I′,首先提取第一类、第二类前提信息,对每一个前提信息,遍历所有图像,找出只缺该前提信息的所有图像,再进行视觉距离的排序,距离最近的问题图像对可保持不相关图像标签。
6.基于权利要求书3所述的数据库集成,其特征在于,问题图像对(I+,Q,I-)中如果存在篡改的前提信息,则使得图像I-对问题Q无关,具体地,该图像库含有(I+,Q,I-)类图像共102432对,其中11065对为第二类前提信息,剩下的91367对位第一类前提信息,此外,该数据库包含2961个独一无二的前提和96812个独一无二的问题;从中,68037个前提信息用于训练,34395个前提信息用于验证。
7.基于权利要求书1所述的问题相关性检测(三),其特征在于,包括相关性预测和相关性解释。
8.基于权利要求书7所述的相关性预测,其特征在于,对于问题图像对(Ii,Qi),只考虑一个二元预测任务:问题Qi是否与图像Ii相关,这需要将问题及图像进行编码,具体地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。
9.基于权利要求书7所述的相关性解释,其特征在于,在视觉问答系统中,纠正问题的错误比强行回答错误的问题要更为重要,由此衍生对错误提问的报告,具体地,给定一个问题图像对(Ii,Qi),目标在于鉴定图像Ii是否存在问题Qi中的前提信息,同样地,在独热编码的基础上,使用VGG网络对图像Ii进行编码,使用长短期记忆网络对问题Qi进行编码,将编码流串联起来输入到多层感知器进行预测。
10.基于权利要求书1所述的视觉问答的数据扩张(四),其特征在于,在视图上已经有先验知识的情况下,从视觉问答系统的训练集合中基于问题的前提信息产生简单的、模板化的新问题,所有被搜集起来的问题图像对都会经过视觉正常的人眼观察并提问,也会被视作已经经过先验知识的验证,然后按照三类前提信息的模板进行问题的填充,尤其涉及物体之间的关系信息。
CN201710358064.2A 2017-05-19 2017-05-19 一种在视觉问答场景中提高问题前提可信度的方法 Withdrawn CN107169111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710358064.2A CN107169111A (zh) 2017-05-19 2017-05-19 一种在视觉问答场景中提高问题前提可信度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710358064.2A CN107169111A (zh) 2017-05-19 2017-05-19 一种在视觉问答场景中提高问题前提可信度的方法

Publications (1)

Publication Number Publication Date
CN107169111A true CN107169111A (zh) 2017-09-15

Family

ID=59815763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710358064.2A Withdrawn CN107169111A (zh) 2017-05-19 2017-05-19 一种在视觉问答场景中提高问题前提可信度的方法

Country Status (1)

Country Link
CN (1) CN107169111A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871457A (zh) * 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
WO2019114633A1 (zh) * 2017-12-13 2019-06-20 李赋然 图像信息处理方法、装置和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AROMA MAHENDRU等: "The Promise of Premise: Harnessing Question Premises in Visual Question Answering", 《HTTPS://ARXIV.ORG/ABS/1705.00601V1》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019114633A1 (zh) * 2017-12-13 2019-06-20 李赋然 图像信息处理方法、装置和存储介质
CN109871457A (zh) * 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
US11314800B2 (en) 2019-01-30 2022-04-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, electronic device, and storage medium for image-based data processing

Similar Documents

Publication Publication Date Title
CN110781843B (zh) 课堂行为检测方法及电子设备
Shih et al. Where to look: Focus regions for visual question answering
CN104268603B (zh) 用于文字性客观题的智能阅卷方法及系统
CN108549876A (zh) 基于目标检测和人体姿态估计的坐姿检测方法
CN108932508A (zh) 一种题目智能识别、批改的方法和系统
CN108572733B (zh) 一种基于条件随机场的眼动行为视觉搜索目标预测方法
CN107871014A (zh) 一种基于深度融合哈希的大数据跨模态检索方法及系统
CN109446925A (zh) 一种基于卷积神经网络的电力设备检测算法
CN105469041A (zh) 基于多任务正则化与逐层监督神经网络的人脸点检测系统
CN102831412A (zh) 一种基于人脸识别的教学考勤方法及其装置
CN106980365A (zh) 基于深度卷积神经网络框架的第一视角动态手势识别方法
JP2022018066A (ja) 畳み込み知覚ハッシュアルゴリズムに基づくループ検出方法
CN110175534A (zh) 基于多任务级联卷积神经网络的授课辅助系统
CN104298974A (zh) 一种基于深度视频序列的人体行为识别方法
KR20200056602A (ko) 객체 움직임 인식 방법 및 장치
CN108389227A (zh) 一种基于多视图深感知器框架的三维姿势估计方法
CN107169111A (zh) 一种在视觉问答场景中提高问题前提可信度的方法
CN107301376A (zh) 一种基于深度学习多层刺激的行人检测方法
CN106649886A (zh) 一种利用三元组标签的深度监督散列进行图像检索方法
CN111741236A (zh) 基于共识图表征推理的定位自然图像字幕生成方法和装置
CN112231522A (zh) 一种在线课程知识树的生成关联方法
CN115640368A (zh) 一种智能诊断推荐题库的方法及其系统
Zhou et al. A deep learning algorithm for fast motion video sequences based on improved codebook model
CN115830635A (zh) 一种基于关键点检测和目标识别的pvc手套识别方法
CN105243091A (zh) 基于超链分析的页面语义信息提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170915

WW01 Invention patent application withdrawn after publication