CN107169111A

CN107169111A - 一种在视觉问答场景中提高问题前提可信度的方法

Info

Publication number: CN107169111A
Application number: CN201710358064.2A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-05-19
Filing date: 2017-05-19
Publication date: 2017-09-15

Abstract

本发明中提出的一种在视觉问答场景中提高问题前提可信度的方法，其主要内容包括：前提信息提取、问题相关性预测数据库、问题相关性检测、视觉问答的数据扩张，其过程为，首先提取问题中前提信息，构造问题相关性预测及解释数据库，对问题图像对(I_i,Q_i)进行二元分类，鉴定图像I_i是否存在问题Q_i中的前提信息，然后在独热编码的基础上，使用VGG网络和长短期记忆网络分别对图像I_i和问题Q_i进行编码，并将其输入到多层感知器进行预测。本发明可以处理不同场景中多种目标物体及其关系，提供一个编码方法来计算图像配对距离，同时提高了问题前提信息的可信度。

Description

一种在视觉问答场景中提高问题前提可信度的方法

技术领域

本发明涉及视觉问答领域，尤其是涉及了一种在视觉问答场景中提高问题前提可信度的方法。

背景技术

针对图像内容自主贴上图像标签或主题文字，是近年来备受关注的课题，尤其在产生海量图像的今天，完全依照人眼去辨别图像内容并分类是个不可能的任务，因此如何利用先验知识给特定图像内容贴上主题标签，并且在视觉问答上准确回答出问题的关键所在，是值得考量的事情。如果能在非人眼劳动下成功将图像内容回答出来，将对工程学和视觉产业带来极高的意义和经济价值，尤其在背景宽广、物体稀疏如深海远洋之地，如能准确地汇总实时航行信息、验证遥感测绘图像、合理规划勘探任务等方面具有巨大的潜能与效益。

在传统方法中，视觉问答并不考虑问题的合理性，即便问题与图像内容无关，机器也会给出一个认为最相关的答案。例如图像中是一只红色的猎犬，当问题是“图中的鸭子颜色是什么”的时候，答案依然“红色”。视觉问答传统方法无法给出对问题中前提信息的正误判断，给答案的精确度和意义造成了不良影响。

本发明提出了一种独热编码和深度学习编码的新框架。提取问题中前提信息，构造问题相关性预测及解释数据库，对问题图像对(I_i,Q_i)进行二元分类，鉴定图像I_i是否存在问题Q_i中的前提信息，然后在独热编码的基础上，使用VGG网络和长短期记忆网络分别对图像I_i和问题Q_i进行编码，并将其输入到多层感知器进行预测。本发明可以处理不同场景中多种目标物体及其关系，提供一个编码方法来计算图像配对距离，同时提高了问题前提信息的可信度。

发明内容

针对解决在视觉问答领域中问题前提可信度低的问题，本发明的目的在于提供一种在视觉问答场景中提高问题前提可信度的方法，提出了一种独热编码和深度学习编码的新框架。

为解决上述问题，本发明提供一种基于视频数据的人体动作分析方法，其主要内容包括：

(一)前提信息提取；

(二)问题相关性预测数据库；

(三)问题相关性检测；

(四)视觉问答的数据扩张。

其中，所述的前提信息提取，使用语义元祖图片标题评价标准来提取问题中的前提信息，具体为：

(1)该评价标准将一个问题的句子转换成一个场景表示；

(2)在转换过程中禁用代词消解和动词还原；

(3)去除如“照片”、“图像”等关键字词。

进一步地，所述的问题相关性预测数据库，包括问题相关性原则、数据库构成和数据库集成。

进一步地，所述的问题相关性原则，为改变在传统视觉问答上，被提问的图像会强行根据题目进行不同程度的回答，即便问题与该图像毫无关系的局面，因此从问题相关性入手，建立问题相关性预测及解释数据库，具体为：

(1)对自然问题Q，当图像与它相关时，用I⁺表示，当图像与它无关时，用I^-表示；

(2)为确保数据库更加现实与具有挑战，跟自然问题Q无关的图像只具备一个错误前提；

(3)通过VGG深度学习网络在ImageNet上的训练权值，计算不相关图像与源图像I⁺的视觉距离，确保它们之间视觉上相似但可作为前提信息区分度困难的例子。

进一步地，所述的数据库构成，利用现有的标题图片数据库和Visual Genome标签数据库，根据三个判断题目前提信息的次序来进行数据库的建构：

(1)对于第一类前提，即进行标题存在判断的前提，利用80类数据库的标题图片，可以单纯从图像标题上就能检查出前提的存在与否；

(2)对于第二类前提，即进行属性物体存在判断的前提，利用Visual Genome标签数据库，由于标签不完全覆盖图像内容，因此在没有更严格的约束条件下，标签之间不相互排斥，来确保只存在一个错误的前提；

(3)对于第三类前提，即进行图像物体关系判断的前提，由于对应图像之间的内容间缺乏独立性，因此需要人为填补更多的标签及标题，可在上述数据库中实现；

(4)在建构好的数据库中取出问题图像对，即具有正确标题前提信息的图像I⁺和只有一个错误条标题前提信息的I^′，首先提取第一类、第二类前提信息，对每一个前提信息，遍历所有图像，找出只缺该前提信息的所有图像，再进行视觉距离的排序，距离最近的问题图像对可保持不相关图像标签。

进一步地，所述的数据库集成，问题图像对(I⁺,Q,I^-)中如果存在篡改的前提信息，则使得图像I^-对问题Q无关，具体地，该图像库含有(I⁺,Q,I^-)类图像共102432对，其中11065对为第二类前提信息，剩下的91367对位第一类前提信息，此外，该数据库包含2961个独一无二的前提和96812个独一无二的问题；从中，68037个前提信息用于训练，34395个前提信息用于验证。

进一步地，所述的问题相关性检测，包括相关性预测和相关性解释。

进一步地，所述的相关性预测，对于问题图像对(I_i,Q_i)，只考虑一个二元预测任务：问题Q_i是否与图像I_i相关，这需要将问题及图像进行编码，具体地，在独热编码的基础上，使用VGG网络对图像I_i进行编码，使用长短期记忆网络对问题Q_i进行编码，将编码流串联起来输入到多层感知器进行预测。

进一步地，所述的相关性解释，在视觉问答系统中，纠正问题的错误比强行回答错误的问题要更为重要，由此衍生对错误提问的报告，具体地，给定一个问题图像对(I_i,Q_i)，目标在于鉴定图像I_i是否存在问题Q_i中的前提信息，同样地，在独热编码的基础上，使用VGG网络对图像I_i进行编码，使用长短期记忆网络对问题Q_i进行编码，将编码流串联起来输入到多层感知器进行预测。

进一步地，所述的视觉问答的数据扩张，在视图上已经有先验知识的情况下，从视觉问答系统的训练集合中基于问题的前提信息产生简单的、模板化的新问题，所有被搜集起来的问题图像对都会经过视觉正常的人眼观察并提问，也会被视作已经经过先验知识的验证，然后按照三类前提信息的模板进行问题的填充，尤其涉及物体之间的关系信息。

附图说明

图1是本发明一种在视觉问答场景中提高问题前提可信度的方法的系统流程图。

图2是本发明一种在视觉问答场景中提高问题前提可信度的方法的示意图。

图3是本发明一种在视觉问答场景中提高问题前提可信度的方法的训练例子。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种在视觉问答场景中提高问题前提可信度的方法的系统流程图。主要包括前提信息提取；问题相关性预测数据库；问题相关性检测；视觉问答的数据扩张。

其中，前提信息提取，使用语义元祖图片标题评价标准来提取问题中的前提信息，具体为：

(1)该评价标准将一个问题的句子转换成一个场景表示；

(2)在转换过程中禁用代词消解和动词还原；

(3)去除如“照片”、“图像”等关键字词。

问题相关性预测数据库，包括问题相关性原则、数据库构成和数据库集成。

问题相关性原则，为改变在传统视觉问答上，被提问的图像会强行根据题目进行不同程度的回答，即便问题与该图像毫无关系的局面，因此从问题相关性入手，建立问题相关性预测及解释数据库，具体为：

数据库构成，利用现有的标题图片数据库和Visual Genome标签数据库，根据三个判断题目前提信息的次序来进行数据库的建构：

(4)在建构好的数据库中取出问题图像对，即具有正确标题前提信息的图像I⁺和只有一个错误条标题前提信息的I′，首先提取第一类、第二类前提信息，对每一个前提信息，遍历所有图像，找出只缺该前提信息的所有图像，再进行视觉距离的排序，距离最近的问题图像对可保持不相关图像标签。

数据库集成，问题图像对(I⁺,Q,I^-)中如果存在篡改的前提信息，则使得图像I^-对问题Q无关，具体地，该图像库含有(I⁺,Q,I^-)类图像共102432对，其中11065对为第二类前提信息，剩下的91367对位第一类前提信息，此外，该数据库包含2961个独一无二的前提和96812个独一无二的问题；从中，68037个前提信息用于训练，34395个前提信息用于验证。

相关性检测，包括相关性预测和相关性解释。

相关性预测，对于问题图像对(I_i,Q_i)，只考虑一个二元预测任务：问题Q_i是否与图像I_i相关，这需要将问题及图像进行编码，具体地，在独热编码的基础上，使用VGG网络对图像I_i进行编码，使用长短期记忆网络对问题Q_i进行编码，将编码流串联起来输入到多层感知器进行预测。

相关性解释，在视觉问答系统中，纠正问题的错误比强行回答错误的问题要更为重要，由此衍生对错误提问的报告，具体地，给定一个问题图像对(I_i,Q_i)，目标在于鉴定图像I_i是否存在问题Q_i中的前提信息，同样地，在独热编码的基础上，使用VGG网络对图像I_i进行编码，使用长短期记忆网络对问题Q_i进行编码，将编码流串联起来输入到多层感知器进行预测。

视觉问答的数据扩张，在视图上已经有先验知识的情况下，从视觉问答系统的训练集合中基于问题的前提信息产生简单的、模板化的新问题，所有被搜集起来的问题图像对都会经过视觉正常的人眼观察并提问，也会被视作已经经过先验知识的验证，然后按照三类前提信息的模板进行问题的填充，尤其涉及物体之间的关系信息。

图2是本发明一种在视觉问答场景中提高问题前提可信度的方法的示意图。如图所示，可以观察到这个问题在下面两幅图像中都具有一定的物体元素，例如男人、球拍，但右图没有握住球拍，因此右图是跟问题不相关的。

图3是本发明一种在视觉问答场景中提高问题前提可信度的方法的训练例子。如图所示，可以观察到，每一幅图像篡改一个问题的前提，就能使得这幅图像与问题变成不相关，达到增强噪声和提高训练精度的效果。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种在视觉问答场景中提高问题前提可信度的方法，其特征在于，主要包括问题前提信息提取(一)；问题相关性预测数据库(二)；问题相关性检测(三)，视觉问答的数据扩张(四)。

2.基于权利要求书1所述的问题前提信息提取(一)，其特征在于，使用语义元祖图片标题评价标准来提取问题中的前提信息，具体为：

(1)该评价标准将一个问题的句子转换成一个场景表示；

(2)在转换过程中禁用代词消解和动词还原；

(3)去除如“照片”、“图像”等关键字词。

3.基于权利要求书1所述的问题相关性预测数据库(二)，其特征在于，包括问题相关性原则、数据库构成和数据库集成。

4.基于权利要求书3所述的问题相关性原则，其特征在于，为改变在传统视觉问答上，被提问的图像会强行根据题目进行不同程度的回答，即便问题与该图像毫无关系的局面，因此从问题相关性入手，建立问题相关性预测及解释数据库，具体为：

5.基于权利要求书3所述的数据库构成，其特征在于，利用现有的标题图片数据库和Visual Genome标签数据库，根据三个判断题目前提信息的次序来进行数据库的建构：

6.基于权利要求书3所述的数据库集成，其特征在于，问题图像对(I⁺,Q,I^-)中如果存在篡改的前提信息，则使得图像I^-对问题Q无关，具体地，该图像库含有(I⁺,Q,I^-)类图像共102432对，其中11065对为第二类前提信息，剩下的91367对位第一类前提信息，此外，该数据库包含2961个独一无二的前提和96812个独一无二的问题；从中，68037个前提信息用于训练，34395个前提信息用于验证。

7.基于权利要求书1所述的问题相关性检测(三)，其特征在于，包括相关性预测和相关性解释。

8.基于权利要求书7所述的相关性预测，其特征在于，对于问题图像对(I_i,Q_i)，只考虑一个二元预测任务：问题Q_i是否与图像I_i相关，这需要将问题及图像进行编码，具体地，在独热编码的基础上，使用VGG网络对图像I_i进行编码，使用长短期记忆网络对问题Q_i进行编码，将编码流串联起来输入到多层感知器进行预测。

9.基于权利要求书7所述的相关性解释，其特征在于，在视觉问答系统中，纠正问题的错误比强行回答错误的问题要更为重要，由此衍生对错误提问的报告，具体地，给定一个问题图像对(I_i,Q_i)，目标在于鉴定图像I_i是否存在问题Q_i中的前提信息，同样地，在独热编码的基础上，使用VGG网络对图像I_i进行编码，使用长短期记忆网络对问题Q_i进行编码，将编码流串联起来输入到多层感知器进行预测。

10.基于权利要求书1所述的视觉问答的数据扩张(四)，其特征在于，在视图上已经有先验知识的情况下，从视觉问答系统的训练集合中基于问题的前提信息产生简单的、模板化的新问题，所有被搜集起来的问题图像对都会经过视觉正常的人眼观察并提问，也会被视作已经经过先验知识的验证，然后按照三类前提信息的模板进行问题的填充，尤其涉及物体之间的关系信息。