CN111897939B

CN111897939B - 视觉对话方法、视觉对话模型的训练方法、装置及设备

Info

Publication number: CN111897939B
Application number: CN202010805353.4A
Authority: CN
Inventors: 陈飞龙; 孟凡东; 李鹏; 周杰; 徐波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2024-02-02
Anticipated expiration: 2040-08-12
Also published as: CN111897939A

Abstract

本申请公开了一种视觉对话方法、视觉对话模型的训练方法、装置及设备，涉及视觉对话领域。该方法包括：获取输入图像；获取输入问题的问题文本和问题特征；根据问题文本从输入图像中提取图像实体特征，图像实体特征是与输入问题中的实体对应的图像特征；获取历史问答对话的历史问答特征，并对问题特征、历史问答特征和图像实体特征进行融合处理，得到融合后的特征；根据融合后的特征输出输入问题对应的实际输出答案。通过从输入图像中提取问题中的实体对应的图像实体特征，缩小了与问题相关的图像内容，减少了不相关的视觉信息噪声，提高了答案输出的准确率。

Description

视觉对话方法、视觉对话模型的训练方法、装置及设备

技术领域

本申请涉及视觉对话领域，特别涉及一种视觉对话方法、视觉对话模型的训练方法、装置及设备。

背景技术

视觉对话是指通过视觉对话模型与人类以自然语言的会话语言对视觉内容(如图片)进行有意义的对话。

以视觉对话模型是多步推理模型为例。一张图片包括红色球、蓝色球和绿色球，红色球和蓝色球的尺寸相同。针对该图片提出的问题是：与红色球具有相同尺寸的球是什么颜色的？当向多步推理模型中输入上述问题和图片时，多步推理模型先找到红色球并确定红色球的尺寸，然后找到与红色球相同尺寸的球，最后确定该球的颜色。

上述技术方案中，多步推理模型在定位与问题有关的实体时，需要经过多步推理，无法快速从图片中定位与问题有关的实体。

发明内容

本申请实施例提供了一种视觉对话方法、视觉对话模型的训练方法、装置及设备，通过从输入图像中提取问题中的实体对应的图像实体特征，缩小了确定答案的图像范围，提高了答案输出效率。所述技术方案如下：

根据本申请的一方面，提供了一种视觉对话方法，所述方法包括：

获取输入图像；

获取输入问题的问题文本和问题特征；

根据所述问题文本从所述输入图像中提取图像实体特征，所述图像实体特征是与所述输入问题中的实体对应的图像特征；

对所述问题特征和所述图像实体特征进行融合处理，得到融合后的特征；

根据所述融合后的特征输出所述输入问题对应的实际输出答案。

根据本申请的另一方面，提供了一种视觉对话模型的训练方法，所述方法包括：

获取输入图像；

获取当前轮提问的问题文本和问题特征，获取所述当前轮提问对应的真实答案的第一答案特征；

获取n轮历史问答对话的历史问答特征；

根据所述问题文本从所述输入图像中提取图像实体特征，所述图像实体特征是与所述当前轮提问中的实体对应的图像特征；

根据所述问题特征对所述历史问答特征和所述图像实体特征进行融合处理，得到融合后的特征；

根据所述融合后的特征和所述第一答案特征对所述视觉对话模型进行训练，得到训练后的视觉对话模型。

根据本申请的另一方面，提供了一种视觉对话装置，所述装置包括：

第一获取模块，用于获取输入图像；

所述第一获取模块，用于获取输入问题的问题文本和问题特征；

第一特征提取模块，用于根据所述问题文本从所述输入图像中提取图像实体特征，所述图像实体特征是与所述输入问题中的实体对应的图像特征；

第一融合模块，用于对所述问题特征和所述图像实体特征进行融合处理，得到融合后的特征；

答案输出模块，用于根据所述融合后的特征输出所述输入问题对应的实际输出答案。

根据本申请的另一方面，提供了一种视觉对话模型的训练装置，所述装置包括：

第二获取模块，用于获取输入图像；

所述第二获取模块，用于获取当前轮提问的问题文本和问题特征，获取所述当前轮提问对应的真实答案的第一答案特征；

所述第二获取模块，用于获取n轮历史问答对话的历史问答特征；

第二特征提取模块，用于根据所述问题文本从所述输入图像中提取图像实体特征，所述图像实体特征是与所述当前轮提问中的实体对应的图像特征；

第二融合模块，用于根据所述问题特征对所述历史问答特征和所述图像实体特征进行融合处理，得到融合后的特征；

训练模块，用于根据所述融合后的特征和所述第一答案特征对所述视觉对话模型进行训练，得到训练后的视觉对话模型。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视觉对话方法和视觉对话模型的训练方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视觉对话方法和视觉对话模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的视觉对话方法和视觉对话模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过从输入图像中提取与问题中的实体对应的图像实体特征，缩小了视觉对话模型从输入图像中确定与问题相关的图像内容的范围，减少了与输入问题不相的关视觉信息的噪声，显性地根据问题中的实体找出其在输入图像中的位置，从而使得视觉对话模型(经过训练的)能够快速确定与问题和输入图像一致的答案。提高了视觉对话模型的答案输出效率和答案正确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的框架图；

图2是本申请一个示例性实施例提供的视觉对话方法的流程图；

图3是本申请一个示例性实施例提供的输入图像的示意图；

图4是本申请一个示例性实施例提供的视觉对话模型的框架图；

图5是本申请另一个示例性实施例提供的视觉对话方法的流程图；

图6是本申请另一个示例性实施例提供的视觉对话模型的框架图；

图7是本申请一个示例性实施例提供的多模态注意解码模型的框架图；

图8是本申请一个示例性实施例提供的视觉对话模型的训练方法的流程图；

图9是本申请一个示例性实施例提供的视觉对话装置的结构框图；

图10是本申请一个示例性实施例提供的视觉对话模型的训练装置的结构框图；

图11示出了本申请一个示例性实施例提供的服务器的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及的名词进行介绍。

计算机视觉技术(Computer Vision，CV)：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维技术(3-Dimension，3D)、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例中，通过视觉对话模型对输入图像进行处理，使得视觉对话模型可根据输入的问题输出答案，输入的问题是与输入图像有关的问题。

视觉问答(Visual Question Answering，VQA)是一种涉及计算机视觉和自然语言处理(Natural Language Processing，NLP)两大领域的学习任务。向计算机设备中输入一张图片和一个关于这张图片的形式自由(free-form)、开放式(opened)的自然语言的问题，输出为：产生的自然语言的回答。通过计算机设备对图片的内容、问题的含义和意图以及相关的常识有一定的理解，使得计算机设备根据输入的图片和问题输出一个符合自然语言规则且合理的答案。

视觉对话(Visual Dialog)是VQA的拓展领域，其主要任务为：与人类以自然语言的会话语言对视觉内容进行有意义的对话。具体而言，给定图像、对话历史和关于图像的问题，计算机设备将问题置于图像中，从对话历史中推断上下文，并准确地回答问题。与VQA不同的是，视觉对话具有需要访问和理解的多轮对话历史的功能，所以需要一个可以组合多个信息源的编码器。

人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的视觉对话方法可以应用于如下场景：

一、智能客服

在该应用场景下，采用本申请实施例提供的方法所训练的视觉对话模型可应用于购物应用程序、团购应用程序、出行管理应用程序(如票务订购应用程序、酒店订购应用程序)等应用程序中。上述应用程序设置有智能客服，用户可通过向智能客服进行对话从而得到自己需要解决的问题的答案。智能客服是通过应用程序的后台服务器中构建的视觉对话模型实现的，视觉对话模型是预先经过训练的。当视觉对话模型接收到用户输入的问题时，视觉对话模型输出关于该问题的答案。比如，智能客服是购物应用程序的客服，用户提出的问题是关于输入图像中物品A的问题，该问题是：销售物品A的店铺有哪？智能客服根据用户的提问输出答案：销售物品A的店铺为店铺1、店铺3以及店铺10。用户可根据输出的答案去浏览相应的店铺界面。

二、虚拟助理

在该应用场景下，采用本申请实施例提供的方法所训练的视觉对话模型可应用于智能终端或智能家居等智能设备中。以智能终端中设置的虚拟助理为例，该虚拟助理是通过训练后的视觉对话模型实现的，将该视觉对话模型是预先经过训练的。当视觉对话模型接收到用户输入的问题时，视觉对话模型输出关于该问题的答案。比如，用户A在社交平台上发布动态(动态中图像)，该图像是用户A在海边度假的照片，虚拟助理提醒用户B(用户B与用户A具有好友关系)用户A发布了新照片，用户B向虚拟助理提出问题：照片里面都有什么？虚拟助理输出答案：用户A在海边玩耍。则用户B可以自行选择是否进入用户A的社交平台界面浏览照片。

上述仅以两种应用场景为例进行说明，本申请实施例提供的方法还可以应用于其他需要视觉对话的场景(比如，为视力有损伤的人事讲解图片的场景等等)，本申请实施例并不对具体应用场景进行限定。

本申请实施例提供的视觉对话方法和视觉对话模型的训练方法可以应用于具有较强的数据处理能力的计算机设备中。在一种可能的实施方式中，本申请实施例提供的视觉对话方法和视觉对话模型的训练方法可以应用于个人计算机、工作站或服务器中，即可以通过个人计算机、工作站或服务器实现视觉对话以及训练视觉对话模型。

而对于训练后的视觉对话模型，其可以实现成为应用程序的一部分，并被安装在终端中，使终端在接收到与输入图像有关的问题时，输出该问题对应的答案；或者，该训练后的视觉对话模型设置在应用程序的后台服务器中，以便安装有应用程序的终端借助后台服务器实现与用户进行视觉对话的功能。

请参考图1，其示出了本申请一个示例性实施例提供的计算机系统的示意图。该计算机系统100包括计算机设备110和服务器120，其中，计算机设备110与服务器120之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

计算机设备110中安装有支持视觉对话功能的应用程序，该应用程序可以是虚拟现实应用程序(Virtual Reality，VR)、增强现实应用程序(Augmented Reality，AR)、游戏应用程序、图片相册应用程序、社交应用程序等，本申请实施例对此不作限定。

可选的，计算机设备110可以是智能手机、智能手表、平板电脑、膝上便携式笔记本电脑、智能机器人等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对计算机设备的类型不做限定。

服务器120可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一种可能的实施方式中，服务器120是计算机设备110中应用程序的后台服务器。

如图1所示，在本实施例中，计算机设备110中运行有聊天应用程序，用户可通过与聊天助手聊天获取输入图像中的信息。示意性的，输入图像11是通过计算机设备110预先输入至服务器120中的图像，或者，输入图像11是服务器120中预先存储的图像。用户在聊天助手的聊天界面中输入与该输入图像有关的问题，计算机设备110将问题发送至服务器120中，服务器120设置有训练后的视觉对话模型10，训练后的视觉对话模型10根据输入的问题给出答案，并将答案发送至计算机设备110中，在计算机设备110上显示有聊天助手关于该问题的答案。比如，用户提出问题：有几个男生几个女生呢？训练后的视觉对话模型根据前几轮的历史问答对话确定用户提出的问题是输入图像中有几个男生和几个女生，则输出答案：3个男生1个女生。

训练后的视觉对话模型10在接收到输入图像11以及获取到和当前轮提问的问题特征12时，训练后的视觉对话模型10针对输入图像和当前轮提问的问题特征12提取图像实体特征13，该图像实体特征13是当前轮提问中的实体在输入图像11中的图像特征。训练后的视觉对话模型10根据图像实体特征13和当前轮提问的问题特征12进行处理，得到第一特征15，同理，训练后的视觉对话模型10根据n轮历史问答对话的历史问答特征14和当前轮提问的问题特征12得到第二特征16。训练后的视觉对话模型10对第一特征15和第二特征16进行融合处理，得到融合后的特征17，从而根据融合后的特征17得到输出答案18。

为了方便表述，下述各个实施例以视觉对话模型的训练方法和视觉对话方法由服务器执行为例进行说明。

图2示出了本申请一个示例性实施例提供的视觉对话方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明，该方法包括如下步骤：

步骤201，获取输入图像。

示意性的，服务器中构建有视觉对话模型，该视觉对话模型是经过训练的视觉对话模型，通过视觉对话模型获取输入图像。该输入图像可以是服务器预先存储的图像，或者是用户通过终端上传至服务器的图像(包括终端存储的图像和终端拍摄的图像中的至少一种)，或者是现有的图像集中的图像。本申请实施例对图像的类型不加以限定。

步骤202，获取输入问题的问题文本和问题特征。

输入问题是与输入图像有关的问题，即围绕输入图像进行提问的问题。服务器获取输入问题的问题文本，该问题文本可以是用户在聊天界面里输入的文字组成的文本，或者是含有问题的文档，或者是将用户输入的语音转换为文本。比如，终端的麦克风采集用户发出的语音，终端通过语音转文本服务将该段语音转换为问题文本，并将该问题文本发送至服务器中。本申请实施例对服务器获取问题文本的方式不加以限定。文本格式包括txt格式、doc格式、docx格式等，本申请实施例对文本的格式不加以限定。

问题特征是从问题文本中提取到的特征，视觉对话模型可通过词嵌入操作(WordEmbedding)将输入问题的问题文本编码为计算机设备可识别的词向量。词嵌入操作是指将文本中每个单词或词组映射为实数域上的向量，使得计算机设备可通过向量识别出文本。示意性的，通过独热编码(one-hot encoding)的方式将问题文本中的词语映射为词向量。在一些实施例中，将问题文本进行编码得到编码后的问题向量，再通过特征提取模型从已编码的问题向量中提取问题特征。比如，通过双向长短期记忆网络(Bi-directional LongShort-Term Memory，BiLSTM)从已编码为词向量的问题文本中提取问题特征。

在实际应用时，步骤201和步骤202可同时执行，或者，步骤201先执行，然后步骤202再执行，或者，步骤202先执行，然后步骤201再执行。

步骤203，根据问题文本从输入图像中提取图像实体特征，图像实体特征是与输入问题中的实体对应的图像特征。

问题文本包括实体或不包括实体。实体(Entity)是指客观存在并相互区别的事物，实体可以是具体的人、事、物，也可以是抽象的概念或联系。比如，一场篮球赛是实体、一段时间也是实体。

视觉对话模型根据问题文本中的实体从输入图像中提取与实体有关的图像特征。如图3所示，输入图像11是四个人和一辆汽车的合照，输入问题是：图中有几个人？输入问题中的实体是“人”，视觉定位模型211会对输入图像11中的人物框定出人物区域(以图3中的虚线表示)，该人物区域对应的图像特征即为图像实体特征。需要说明的是，框定出的人物区域仅为示意，在实际应用中可根据实体在图像中的位置以及提出的问题以合理的方式框定出实体。

如图4所示，视觉对话模型包括特征提取模型21，特征提取模型21对输入图像11和输入问题12进行特征提取，输出问题特征和图像实体特征(以图中无标注的矩形表示特征向量，矩形仅为示意不代表实际输出的特征向量的大小和个数)。在一些实施例中，特征提取模型21又被命名为特征表示模型，本申请实施例对此不加以限定。

步骤204，对问题特征和图像实体特征进行融合处理，得到融合后的特征。

由于问题特征为从文本中提取的特征，图像实体特征为从图像中提取到的特征，特征所属的类型不同，因此需要具有多模态融合能力的模型对问题特征和图像实体特征进行融合处理，从而得到融合后的特征。

如图4所示，视觉对话模型包括多模态融合模型22，多模态融合模型22接收特征提取模型21输出的特征向量(以图中无标注的矩形表示特征向量，矩形仅为示意不代表实际输出的特征向量的大小和个数)，对该特征向量进行融合，输出融合后的特征(以图中无标注的矩形表示特征向量，矩形仅为示意不代表实际输出的特征向量的大小和个数)。

在一些实施例中，视觉对话模型第一次接收到用户输入的问题，则视觉对话模型利用上述步骤对问题特征和图像实体特征进行融合，得到融合后的特征。.

在另一些实施例中，视觉对话模型不是第一次接收到用户输入的问题，即视觉对话模型可获取到用户对应的历史问答对话，则从历史问答对话中提取历史问答特征，并对图像实体特征、历史问答特征和问题特征进行融合，得到融合后的特征。

步骤205，根据融合后的特征输出输入问题对应的实际输出答案。

视觉对话模型在实际输出答案时是一个词语一个词语依次输出的。

如图4所示，视觉对话模型包括多模态注意解码模型23，将融合后的特征输入至多模态注意解码模型23中，输出输入问题对应的答案。

示意性的，当视觉对话模型正在输出实际输出答案中的第a个词语时(a＞1，且a为整数)，视觉对话模型获取已输出的前a-1个词语，视觉对话模型根据前a-1个词语和融合后的特征输出实际输出答案中的第a个词语。

综上所述，本实施例提供的方法，通过从输入图像中提取与问题中的实体对应的图像实体特征，缩小了视觉对话模型从输入图像中确定与问题相关的图像内容的范围，减少了与输入问题不相的关视觉信息的噪声，显性地根据问题中的实体找出其在输入图像中的位置，从而使得视觉对话模型(经过训练的)能够快速确定与问题和输入图像一致的答案。提高了视觉对话模型的答案输出效率和答案正确率。

图5示出了本申请另一个示例性实施例提供的视觉对话方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明，该方法包括如下步骤：

步骤501，获取输入图像。

步骤502，获取输入问题的问题文本和问题特征。

视觉对话模型获取输入问题的问题文本，如图6所示，视觉对话模型包括特征提取模型21，其中，特征提取模型21包括BiLSTM神经网络层212，将问题文本输入至BiLSTM神经网络层212中，输出该输入问题的问题特征。

在一些实施例中，也可通过卷积神经网络(Convolutional Neural Networks，CNN)网络将输入图像编码为图像向量，本申请实施例对此不加以限定。

示意性的，通过如下公式得到输入问题的问题特征q_t：

其中，LSTM_f为双向长短期记忆网络的前向部分，LSTM_b为双向长短期记忆网络的后向部分，w_t，j表示输入问题的问题文本中第j个词语经过词嵌入操作后生成的第j个词向量，x_t，j表示输入问题中的第j个词语，L表示输入问题中的词语的最大数量。

则提取到的问题特征q_t为

在实际应用时，步骤501和步骤502可同时执行，或步骤501先执行，然后步骤502再执行，或者，步骤502先执行，然后步骤501再执行。

步骤503，对问题文本进行指代歧义消除处理，得到无歧义问题文本。

指代歧义消除处理是指明确问题中代词所代表的含义，消除指代不明的情况。比如，针对一张含有运动员的照片进行提问，视觉对话模型接收到的问题是：他们在站着吗？问题中的“他们”具有指代不明的问题，通过联系n轮历史问答对话和图像可知，“他们”指的是图像中的运动员。视觉对话模型需要消除“他们”一词的指代歧义后，才能继续进行后续步骤。

在一些实施例中，视觉对话模型包括歧义消解模型，该歧义消解模型用于消除问题文本中的指代歧义，得到无歧义的问题文本。示意性的，歧义消解模型通过如下公式消除歧义：

Q_new＝CR(Q)

其中，Q表示输入问题的问题文本，CR()表示歧义消解模型，该歧义消解模型为NerualCoref模型，Q_new表示消除指代歧义后的问题文本。

步骤504，根据无歧义问题文本对输入图像进行特征提取，得到图像实体特征。

如图6所示，视觉对话模型包括特征提取模型21，特征提取模型21包括视觉定位模型211(Visual Grounding，VG模型)，将输入图像11和输入问题12(无歧义的问题文本)输入至视觉定位模型211中，视觉定位模型211根据无歧义的问题文本对输入图像进行特征提取，得到图像实体特征。

示意性的，首先利用快速区域检测卷积神经网络(Fast Region-CNN，Fast R-CNN)将输入图像中编码为图像特征向量，如下公式所示：

v′＝FastR-CNN(I)

其中，v′表示输入图像编码后的图像向量，I表示输入图像。

在一些实施例中，也可通过CNN网络将输入图像编码为图像向量，本申请实施例对此不加以限定。

通过如下公式提取图像实体特征：

V_vg＝VG(Q_new，I)

其中，Q_new表示消除指代歧义后的问题文本，I表示对输入图像进行编码后的图像向量，VG()表示视觉定位模型，VG模型为目标检测模型(One-Stage Visual Grounding模型)，V_vg表示图像实体特征。

响应于无歧义问题文本包括实体，通过视觉定位模型从输入图像中提取与实体对应的图像特征，得到图像实体特征。

如果消除歧义后的问题文本包括实体，则可从输入图像中提取图像实体特征，此时图像实体特征v＝V_vg。

响应于无歧义问题文本不包括实体，获取输入图像的图像向量，将图像向量作为图像实体特征。

如果消除歧义后的问题文本不包括实体，该无法从图像中找到与提问有关的实体，则将编码后的图像向量作为图像实体特征，此时图像实体特征v＝v′。

步骤505，获取问题特征和图像实体特征的哈达玛积。

如图6所示，视觉对话模型包括多模态融合模型22，多模态融合模型22包括注意力模型221和全连接层222。将特征提取模型21输出的图像实体特征和问题特征输入至注意力模型中，通过如下公式计算问题特征和图像实体特征的哈达玛积：

γ＝f^q(q)^of^v(v)

其中，f为具有两层隐藏层的感知机网络(Multi-Layer Perceptron，MLP)，通过将输入问题的问题特征和图像实体特征进行哈达玛积(Hadamard product)运算后得到第一中间表示向量γ。

步骤506，对哈达玛积和图像实体特征进行融合处理，得到融合后的特征。

通过注意力模型221对第一中间表示向量γ进一步处理，通过如下公式得到第二中间表示向量：

α＝softmax(W^γγ+b^γ)

W和b为视觉对话模型的待学习参数，α为利用待学习参数和第一中间表示向量得到的第二中间表示向量。

通过注意力模型221对第二中间表示向量和图像实体特征进行处理，得到第三中间表示向量q_v：

其中，j表示问题特征中的第j个词向量，k表示输入问题包括的词向量数目，α_j表示第j个词向量对应的第第二中间表示向量，v_j表示第j个词向量对应的图像实体特征。

通过全连接层222将对第三中间表示向量q_v进行拼接操作，得到第四中间表示向量e。

e＝[W¹q_v+b¹]

其中W¹、b¹为视觉对话模型的待学习参数。

通过如下公式对中间表示向量e进行融合处理，得到融合后的特征

其中，W³、b³为视觉对话模型的待学习参数。

步骤507，将融合后的特征作为长短期记忆LSTM神经网络层的初始状态。

示意性的，多模态注意解码模型23是基于LSTM神经网络层构建的，将融合后的特征作为LSTM神经网络层的初始状态，利用作为LSTM神经网络层的初始状态，得到LSTM神经网络层在初始状态下隐藏层的状态向量h₀，计算公式如下：

其中，S_q是BiLSTM神经网络层212的最后一个隐藏层输出的状态向量。

步骤508，沿LSTM神经网络层的第一方向进行迭代处理，输出输入问题对应的状态向量。

由于LSTM神经网络层沿细胞状态的主线方向(第一方向)不断迭代处理，输出输入问题对应的状态向量h_t。图7示出了本申请一个示例性实施例提供的多模态注意解码模型23的内部结构实体图，多模态注意解码模型23是基于长短期记忆网络构建的。将t-1时刻对应的状态向量h_t-1输入至长短期记忆网络中，得到t时刻对应的状态向量h_t。

步骤509，根据状态向量得到输入问题对应的实际输出答案。

如图7所示，通过注意力模型221对状态向量h_t和图像实体特征v进行融合，得到融合后的状态向量c_t，公式如下：

γ＝f^q(h_t)^of^v(v)

α＝softmax(W^γγ+b^γ)

其中，f为具有两层隐藏层的感知机网络(Multi-Layer Perceptron，MLP)，通过将输入问题的问题特征和图像实体特征进行哈达玛积(Hadamard product)运算后得到第一中间表示向量γ；W和b为视觉对话模型的待学习参数，α为利用待学习参数和第一中间表示向量得到的第二中间表示向量；j表示问题特征中的第j个词向量，k表示输入问题包括的词向量数目，α_j表示第j个词向量对应的第第二中间表示向量，v_j表示第j个词向量对应的图像实体特征。

如图7所示，将融合后的状态向量输入至含有两个隐藏层的MLP中，得到实际输出答案中输出词语对应的概率P，通过如下公式可确定实际输出答案对应的词语y_t：

logp(y_t|y₁，...，y_t-1，q，v)＝f(h_t，c_t)

其中，P表示输出词语对应的概率，y₁，……，y_t-1是实际输出答案中的前t-1个词语，q为输入问题的问题特征，v为输入图像的图像实体特征，h_t表示LSTM神经网络输出的输入问题对应的状态向量，c_t表示对状态向量h_t和图像实体特征进行融合后得到的状态向量。

在多模态注意解码模型23输出答案时，多模态注意解码模型23获取实际输出答案中已输出的前i个词语，i为正整数，根据前i个词语输出实际答案中的第i+1个词语。

比如，输入的问题为：How are you？多模态注意解码模型准备输出“fine”这个单词时，结合已输出的单词“I”、“am”以及融合后的特征输出“fine”这个单词。

当多模态注意解码模型准备输出单词“I”时，结合开始标志(Beginning ofSentence，BOS)和融合后的特征输出单词“I”；当多模态解码注意模型准备输出实际输出答案中的结束标志时，结合实际输出答案中的最后一个单词“fine”以及融合后的特征输出结束标志。

综上所述，本实施例的方法，通过从输入图像中提取与问题中的实体对应的图像实体特征，缩小了视觉对话模型从输入图像中确定与问题相关的图像内容的范围，减少了与输入问题不相的关视觉信息的噪声，显性地根据问题中的实体找出其在输入图像中的位置，从而使得视觉对话模型(经过训练的)能够快速确定与问题和输入图像一致的答案。提高了视觉对话模型的答案输出效率和答案正确率。

通过根据无歧义的问题文本从输入图像中提取与问题文本中的实体对应的图像实体特征，使得提取图像实体特征时更加准确，从而使得后续视觉对话模型针对该问题输出更加准确的答案。

当无歧义问题文本中包实体时，将视觉定位模型从输入图像中提取到的与实体对应的图像特征作为图像实体特征；当无歧义问题文本中不包括实体时，将输入图像编码的图像特征作为图像实体特征，保证任何情况下视觉定位模型均能为后续答案输出提供有用的特征。

通过将问题特征和图像实体特征进行融合处理，使得后续多模态注意解码模型能根据融合后的特征输出与输入问题对应的答案，提高视觉对话模型输出答案的效率。

通过多模态注意解码模型包括的LSTM神经网络层对融合后的特征进行处理，得到输入问题对应的状态向量，从而保证多模态注意解码模型准确输出输入问题对应的答案。

当视觉对话模型准备输出答案中第i+1个词语时，结合多模态解码注意模型已输出的前i个词语和融合后的特征，输出第i+1个词语，提高视觉对话模型输出答案的正确率。

可以理解的是，上述对输入图像进行图像编码时还可通过视觉几何组网络(Visual Geometry Group Network，VGG)、残差神经网络(ResNET)等卷积神经网络进行图像编码。提取问题特征时使用的BiLSTM神经网络层也可替换为单向的LSTM神经网络层，还可替换为门循环单元(Gate Recurrent Unit，GRU)。

本申请实施例涉及的歧义消解模型可替换为具有相同功能的其他模型，本申请实施例涉及的VG模型可替换为具有相同功能的其他模型。

上述采用的具有两层隐藏层的MLP网络，也可替换为具有其他层数的隐藏层的MLP网络，相应的激活函数也可替换，比如，将线性整流函数(Rectified Linear Unit，ReLU)替换为双曲正切激活函数(tanh)或带泄露修正线性函数(Leak Rectified Linear Unit，LeakReLU)等。

上述实施例中采用哈达玛积的运算过程也可替换为其他乘法运算。

上述实施例中多模态注意解码模型可替换为其他的注意力模型，比如传统的注意力模型、局部和全局注意力模型、多头注意力模型等。

基于与5的可选实施例中，在视觉对话模型接收输入问题时，可结合关于该输入图像的历史问答对话输出实际输出答案。上述步骤505和步骤506可替换为步骤510和步骤520：

步骤510，获取n轮历史问答对话的历史问答特征，n为正整数。

如图6所示，n轮历史问答对话14、输入图像11和输入问题12可同时输入至视觉对话模型中。即步骤510可与步骤501和步骤502同时执行。

一轮历史问答对话是指以用户提出一个问题开始，视觉对话模型输出关于该问题的答案结束，一问一答形成一轮问答对话。

示意性的，n轮历史问答对话是关于同一输入图像的历史问答对话。服务器将关于同一输入图像的n轮历史问答对话与该输入图像建立对应关系，当用户提出的问题是关于该输入图像的，视觉对话模型将获取与该输入图像有关的是n轮历史问答对话。在一个示例中，用户提出的问题是关于图像1的，视觉对话模型获取与图像1对应的n轮历史问答对话，然后用户又提出关于图像2的问题，视觉对话模型获取与图像2对应的m轮历史问答对话，n和m均为正整数。

视觉对话模型从n轮历史问答对话中提取历史问答特征，由于历史问答对话是文本，视觉对话模型可通过词嵌入操作将历史问答对话编码为计算机设备可识别的词向量。示意性的，通过独热编码(one-hot encoding)将文本中的词语映射为词向量。

如图6所示，通过BiLSTM神经网络212提取输入问题12(当前轮提问)的问题特征，通过BiLSTM神经网络212提取与输入图像有关的n轮历史问答对话的历史问答特征。

同理上述提取问题特征的方式还可用于提取历史问答特征u，提取方式如下：

其中，LSTM_f为双向长短期记忆网络的前向部分，LSTM_b为双向长短期记忆网络的后向部分，w_j表示一轮问答对话经过词嵌入操作后的第j个词向量，y_j表示一轮问答对话中的第j个词语，L表示一个句子中的词语的最大数量。

则提取到的历史问答特征为

步骤520，根据问题特征对历史问答特征和图像实体特征进行融合处理，得到融合后的特征。

如图6所示，多模态融合模型22对问题特征、历史问答特征和图像实体特征进行融合处理，得到融合后的特征，步骤520可替换为如下步骤：

步骤5201，获取第一特征和第二特征，第一特征是根据问题特征和图像实体特征得到的，第二特征是根据问题特征和历史问答特征得到的。

通过注意力模型221对问题特征和图像实体特征进行处理，得到第一特征，该过程参见步骤505和步骤506的实施方式，得到第一特征q_v。

同理，通过注意力模型221对问题特征和历史问答特征进行处理，得到第二特征q_u：

δ＝f^q(q)^of^u(u)

β＝softmax(W^γγ+b^γ)

其中，f为具有两层隐藏层的感知机网络(Multi-Layer Perceptron，MLP)，通过将当前轮提问的问题特征和历史问答特征进行哈达玛积(Hadamard product)运算后得到第一中间表示向量δ，W和b为视觉对话模型的待学习参数，β为利用待学习参数和第一中间表示向量得到的第二中间表示向量，j表示问题特征中的第j个词向量。通过注意力模型对第二中间表示向量和历史问答特征进行处理，得到第二特征q_u。

步骤5202，对第一特征和第二特征进行融合处理，得到融合后的特征。

首先，通过全连接层222将第一特征和第二特征进行拼接操作，得到中间表示向量e。

e＝[W¹q_v+b¹，W²q_u+b²]

其中W¹、b¹、W²、b²为视觉对话模型的待学习参数，q_v为第一特征，q_u为第二特征。

其中，W³、b³为视觉对话模型的待学习参数。

经过上述步骤得到的融合后的特征按照步骤507至步骤509的实施方式实施，得到输入问题的实际输出答案。

综上所述，本实施例的方法，通过结合n轮历史问答对话输出与输入问题对应的实际输出答案，使得实际输出的答案更加完善，提高实际输出的答案的准确率。

下面对本申请实施例涉及的视觉对话模型的训练方法进行说明。图8示出了本申请一个示例性实施例提供的视觉对话模型的训练方法，本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明，该方法包括如下步骤：

步骤801，获取输入图像。

示意性的，该输入图像是现有的样本图像集合。在一些实施例中，每个输入图像对应有图像描述(caption)，图像描述用于描述输入图像中的实体以及实体之间的关系，有利于视觉对话模型更好地理解输入图像隐含的信息。比如，输入图像11对应有图像描述：小红和她的好朋友乘车旅行。

步骤802，获取当前轮提问的问题文本和问题特征，获取当前轮提问对应的真实答案的第一答案特征。

在训练视觉对话模型时刻结合关于输入图像的多轮历史问答对话进行训练，提高训练后的视觉对话模型输出答案的准确率。

获取问题文本和问题特征的实施方式参考上述实施例中步骤502的实施方式，此处不再赘述，获取真实答案的第一答案特征也可参考步骤502的实施方式，示意性的，通过如下公式得到第一答案特征a_t：

其中，LSTM_f为双向长短期记忆网络的前向部分，LSTM_b为双向长短期记忆网络的后向部分，w_t，j表示当前轮提问对应的真实答案中第j个词语经过词嵌入操作后的第j个词向量，z_t，j表示当前轮提问对应的真实答案中的第j个词语，L表示真实答案中的词语的最大数量。

则提取到的第一答案特征为

步骤803，获取n轮历史问答对话的历史问答特征，n为正整数。

则提取到的历史问答特征为

步骤804，根据问题文本从输入图像中提取图像实体特征，图像实体特征是与当前轮提问中的实体对应的图像特征。

步骤805，根据问题特征对历史问答特征和图像实体特征进行融合处理，得到融合后的特征。

由于问题特征和历史问答特征均为从文本中提取的特征，图像实体特征为从图像中提取到的特征，特征所属的类型不同，因此需要具有多模态融合能力的模型对历史问答特征和图像实体特征进行融合处理，从而得到融合后的特征。

如图6所示，特征提取模型21在对输入图像11、当前轮提问12和n轮历史问答对话14进行特征提取后，输出各个特征向量(以图中无标注的矩形表示特征向量，矩形仅为示意不代表实际输出的特征向量的大小和个数)。将各个特征向量输入至多模态融合模型22中，通过多模态融合模型22根据问题特征对历史问答特征和图像实体特征进行融合处理，得到融合后的特征。

步骤806，根据融合后的特征和第一答案特征对视觉对话模型进行训练，得到训练后的视觉对话模型。

在训练视觉对话模型时，结合融合后的特征和第一答案特征，训练视觉对话模型在输出本轮提问对应的答案。如图6所示，将融合后的特征输入至多模态注意解码模型23中，输出当前轮提问对应的答案。

示意性的，视觉对话模型输出的答案与当前轮提问对应的真实答案所含有的词语的数量是相同的。

当视觉对话模型准备输出实际输出答案中的第k+1个词语时，获取当前轮提问对应的真实答案中的前k个词语，k为正整数，根据前k个词语对应的第一答案特征和融合后的特征，得到实际输出答案中的第k+1个词语对应的第二答案特征；根据第一答案特征和第二答案特征对视觉对话模型进行训练，得到训练后的视觉对话模型。

比如，当前轮提问为：How are you？该提问的真实答案为：I am fine。视觉对话模型实际输出答案为：I am OK。在视觉对话模型的训练过程中，当视觉对话模型准备输出实际输出答案中的第三个单词时，通过向多模态注意解码模型中输入真实答案中的单词“I”、“am”以及融合后的特征。从而训练视觉对话模型输出的答案中的第三个单词：OK(或者是good)，结合实际输出单词“OK”和真实答案中的单词“fine”对视觉对话模型进行训练。

当视觉对话模型输出的单词是“I”时，通过向多模态注意解码模型输入开始标志(Beginning of Sentence，BOS)，结合开始标志和融合后的特征输出单词“I”；当视觉对话模型输出实际输出答案中的结束标志时(End of Sentence，EOS)，结合真实答案中的最后一个单词“fine”和融合后的特征输出结束标志。

综上所述，本实施例提供的方法，通过从输入图像中提取与问题中的实体对应的图像实体特征，缩小了视觉对话模型从输入图像中确定与问题相关的图像内容的范围，减少了视觉对话模型在训练时与输入问题不相关的视觉信息的噪声，显性地根据问题中的实体找出其在输入图像中的位置，同时结合n轮历史问答对话来训练视觉对话模型，使得训练后的视觉对话模型能够快速确定与问题和输入图像一致的答案。提高了训练后的视觉对话模型的答案输出效率和答案正确率。

可以理解的是，视觉对话模型的训练方法和使用方法相似，在训练视觉对话模型时，结合多轮历史问答对话的历史问答特征、当前轮提问的问题文本、问题特征和图像实体特征得到融合后的特征，同时结合真实答案的第一答案特征、第二答案特征以及融合后的特征对视觉对话模型进行训练。在实际使用视觉对话模型时，向视觉对话模型输入问题后，训练后的视觉对话模型根据已输出的词语和融合后的特征输出准备输出的词语。

基于图8的可选实施例中，在提取图像实体特征时，先对问题文本进行指代歧义消除处理，得到无歧义问题文本；根据无歧义问题文本对输入图像进行特征提取，得到图像实体特征。

响应于无歧义问题文本包括实体，从输入图像中提取与实体对应的图像特征，得到图像实体特征；响应于无歧义问题文本不包括实体，从输入图像中提取与实体对应的图像特征，得到图像实体特征。

获取第一特征和第二特征，第一特征是根据问题特征和图像实体特征得到的，第二特征是根据问题特征和历史问答特征得到的；对第一特征和第二特征进行融合处理，得到融合后的特征。

将融合后的特征作为LSTM神经网络层的初始状态；通过LSTM神经网络层沿着第一方向进行迭代处理，输出当前轮提问对应的状态向量；对当前轮的状态向量、图像实体特征和第一答案特征进行融合处理，得到第二答案特征。

对融合后的特征和第一答案特征进行解码处理，得到当前轮提问的实际输出答案的第二答案特征；根据第一答案特征和第二答案特征对视觉对话模型进行训练，得到训练后的视觉对话模型。

表一示出了视觉对话模型与基准模型对比下的训练效果，以不同类型的评价指标综合评价上述方法实施例中提供的视觉对话模型。

表一

对于每个问题，视觉对话模型均会获取候选答案的列表，表一中的三种评估指标用于评价视觉对话模型从候选答案的列表中检索最优答案的性能。

其中，MRR表示平均排序倒数(Mean Reciprocal Rank)，将候选答案的列表进行排序，若正确答案排在第a位，则MRR的值为1/a。MRR的值越高代表视觉对话模型输出的答案准确率越高，即视觉对话模型的效果越好。

R@K表示排名前K的答案中存在的人类反应等级(Existence of the HumanResponse in Top-K Ranked Responses)，R@K的值越高代表视觉对话模型输出的答案准确率越高，即视觉对话模型的效果越好。

Mean表示人类反应的平均等级，Mean的值越低代表视觉对话模型输出的答案的准确率越高，即是觉对话模型的效果越好。

由表一可知，本申请实施例提供的视觉对话模型的训练方法在各项评价指标上均优于基准视觉对话模型(通常提高或降低1个点即是显著提高)。

图9示出了本申请一个示例性实施例提供的视觉对话装置的结构框图，该装置包括：

第一获取模块910，用于获取输入图像；

所述第一获取模块910，用于获取输入问题的问题文本和问题特征；

第一特征提取模块920，用于根据问题文本从输入图像中提取图像实体特征，图像实体特征是与输入问题中的实体对应的图像特征；

第一融合模块930，用于对问题特征和图像实体特征进行融合处理，得到融合后的特征；

答案输出模块940，用于根据融合后的特征输出输入问题对应的实际输出答案。

在一个可选的实施例中，所述第一获取模块910，用于对问题文本进行指代歧义消除处理，得到无歧义问题文本；所述第一特征提取模块920，用于根据无歧义问题文本对输入图像进行特征提取，得到图像实体特征。

在一个可选的实施例中，所述第一特征提取模块920，用于响应于无歧义问题文本包括实体，从输入图像中提取与实体对应的图像特征，得到图像实体特征。

在一个可选的实施例中，所述第一特征提取模块920，用于响应于无歧义问题文本不包括实体，获取输入图像的图像编码特征，将图像编码特征作为图像实体特征。

在一个可选的实施例中，所述第一获取模块910，用于获取问题特征和图像实体特征的哈达玛积；所述第一融合模块930，用于对哈达玛积和图像实体特征进行融合处理，得到融合后的特征。

在一个可选的实施例中，所述第一获取模块910，用于获取n轮历史问答对话的历史问答特征，n为正整数；所述第一融合模块930，用于根据问题特征对历史问答特征和图像实体特征进行融合处理，得到融合后的特征。

在一个可选的实施例中，所述第一获取模块910，用于获取第一特征和第二特征，第一特征是根据问题特征和图像实体特征得到的，第二特征是根据问题特征和历史问答特征得到的；所述第一融合模块930，用于对第一特征和第二特征进行融合处理，得到融合后的特征。

在一个可选的实施例中，所述答案输出模块940，用于将融合后的特征作为长短期记忆LSTM神经网络层的初始状态；沿LSTM神经网络层的第一方向进行迭代处理，输出输入问题对应的状态向量；根据状态向量得到输入问题对应的实际输出答案。

在一个可选的实施例中，所述第一获取模块910，用于获取实际输出答案中已输出的前i个词语，i为正整数；所述答案输出模块940，用于根据前i个词语输出实际输出答案中的第i+1个词语。

综上所述，本实施例提供的装置，通过从输入图像中提取与问题中的实体对应的图像实体特征，缩小了视觉对话模型从输入图像中确定与问题相关的图像内容的范围，减少了与输入问题不相的关视觉信息的噪声，显性地根据问题中的实体找出其在输入图像中的位置，从而使得视觉对话模型(经过训练的)能够快速确定与问题和输入图像一致的答案。提高了视觉对话模型的答案输出效率和答案正确率。

需要说明的是：上述实施例提供的视觉对话装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视觉对话装置与视觉对话方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10示出了本申请另一个示例性实施例提供的视觉对话装置的结构框图，该装置包括：

第二获取模块1010，用于获取输入图像；

所述第二获取模块1010，用于获取当前轮提问的问题文本和问题特征，获取当前轮提问对应的真实答案的第一答案特征；

所述第二获取模块1010，用于获取n轮历史问答对话的历史问答特征；

第二特征提取模块1020，用于根据问题文本从输入图像中提取图像实体特征，图像实体特征是与当前轮提问中的实体对应的图像特征；

第二融合模块1030，用于根据问题特征对历史问答特征和图像实体特征进行融合处理，得到融合后的特征；

训练模块1040，用于根据融合后的特征和第一答案特征对视觉对话模型进行训练，得到训练后的视觉对话模型。

在一个可选的实施例中，所述第二获取模块1010，用于获取当前轮提问对应的真实答案中的前k个词语，k为正整数；所述训练模块1040，用于根据前k个词语对应的第一答案特征和融合后的特征，得到实际输出答案中的第k+1个词语对应的第二答案特征；根据第一答案特征和第二答案特征对视觉对话模型进行训练，得到训练后的视觉对话模型。

在一个可选的实施例中，所述第二特征提取模块1020，用于对问题文本进行指代歧义消除处理，得到无歧义问题文本；根据无歧义问题文本对输入图像进行特征提取，得到图像实体特征。

在一个可选的实施例中，所述第二特征提取模块1020，用于响应于无歧义问题文本包括实体，从输入图像中提取与实体对应的图像特征，得到图像实体特征；响应于无歧义问题文本中不包括实体，从输入图像中提取与实体对应的图像特征，得到图像实体特征。

在一个可选的实施例中，所述第二获取模块1010，用于获取第一特征和第二特征，第一特征是根据问题特征和图像实体特征得到的，第二特征是根据问题特征和历史问答特征得到的；所述第二融合模块1030，用于对第一特征和第二特征进行融合处理，得到融合后的特征。

在一个可选的实施例中，所述第二融合模块1030，用于将融合后的特征作为LSTM神经网络层的初始状态；通过LSTM神经网络层沿着第一方向进行迭代处理，输出当前轮提问对应的状态向量；对当前轮的状态向量、图像实体特征和第一答案特征进行融合处理，得到第二答案特征。

在一个可选的实施例中，所述训练模块1040，用于对融合后的特征和第一答案特征进行解码处理，得到当前轮提问的实际输出答案的第二答案特征；根据第一答案特征和第二答案特征对视觉对话模型进行训练，得到训练后的视觉对话模型。

综上所述，本实施例提供的装置，通过从输入图像中提取与问题中的实体对应的图像实体特征，缩小了视觉对话模型从输入图像中确定与问题相关的图像内容的范围，减少了视觉对话模型在训练时与输入问题不相关的视觉信息的噪声，显性地根据问题中的实体找出其在输入图像中的位置，同时结合n轮历史问答对话来训练视觉对话模型，使得训练后的视觉对话模型能够快速确定与问题和输入图像一致的答案。提高了训练后的视觉对话模型的答案输出效率和答案正确率。

需要说明的是：上述实施例提供的视觉对话模型的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视觉对话模型的训练装置与视觉对话模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以如图1所示的计算机系统100中的服务器120。

服务器1100包括中央处理单元(CPU，Central Processing Unit)1101、包括随机存取存储器(RAM，Random Access Memory)1102和只读存储器(ROM，Read Only Memory)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。服务器1100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。大容量存储设备1107及其相关联的计算机可读介质为服务器1100提供非易失性存储。也就是说，大容量存储设备1107可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM,Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

根据本申请的各种实施例，服务器1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1100可以通过连接在系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视觉对话方法和视觉对话模型的训练方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的视觉对话方法和视觉对话模型的训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的视觉对话方法和视觉对话模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视觉对话方法，其特征在于，所述方法包括：

获取输入图像；

获取所述输入图像对应的n轮历史问答对话的历史问答特征、输入问题的问题文本和问题特征；

对所述问题特征和所述图像实体特征进行处理，得到第一特征，并且对所述问题特征和所述历史问答特征进行处理得到第二特征；

通过全连接层将所述第一特征和所述第二特征进行拼接操作，得到中间表示向量，并对所述中间表示向量进行融合处理，得到融合后的特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述问题文本从所述输入图像中提取图像实体特征，包括：

对所述问题文本进行指代歧义消除处理，得到无歧义问题文本；

根据所述无歧义问题文本对所述输入图像进行特征提取，得到所述图像实体特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述无歧义问题文本对所述输入图像进行特征提取，得到所述图像实体特征，包括：

响应于所述无歧义问题文本包括所述实体，从所述输入图像中提取与所述实体对应的图像特征，得到所述图像实体特征。

4.根据权利要求2所述的方法，其特征在于，所述根据所述无歧义问题文本对所述输入图像进行特征提取，得到所述图像实体特征，还包括：

响应于所述无歧义问题文本不包括所述实体，获取所述输入图像的图像编码特征，将所述图像编码特征作为所述图像实体特征。

5.根据权利要求1至4任一所述的方法，其特征在于，所述对所述问题特征和所述图像实体特征进行处理，得到第一特征，包括：

获取所述问题特征和所述图像实体特征的哈达玛积；

对所述哈达玛积和所述图像实体特征进行融合处理，得到所述第一特征。

6.根据权利要求1至4任一所述的方法，其特征在于，所述对所述问题特征和所述历史问答特征进行处理得到第二特征，包括：

获取所述问题特征和所述历史问答特征的哈达玛积；

对所述哈达玛积和所述历史问答特征进行融合处理，得到所述第二特征。

7.根据权利要求5所述的方法，其特征在于，所述方法应用于视觉对话模型，

对所述哈达玛积和所述图像实体特征进行融合处理，得到所述第一特征，包括：

根据如下公式，利用所述视觉对话模型的待学习参数和第一中间表示向量得到第二中间表示向量，其中所述第一中间表示向量为所述问题特征和所述图像实体特征的哈达玛积：

α＝softmax(W^γγ+b^γ)，

其中，W和b为视觉对话模型的待学习参数，γ为第一中间表示向量，α为利用待学习参数和第一中间表示向量得到的第二中间表示向量；

根据如下公式，对所述第二中间表示向量和所述图像实体特征进行处理，得到所述第一特征：

其中，j表示问题特征中的第j个词向量，k表示输入问题包括的词向量数目，α_j表示第j个词向量对应的第二中间表示向量，v_j表示第j个词向量对应的图像实体特征。

8.根据权利要求6所述的方法，其特征在于，所述方法应用于视觉对话模型，

对所述哈达玛积和所述历史问答特征进行融合处理，得到所述第二特征，包括：

根据如下公式，利用所述视觉对话模型的待学习参数和第一中间表示向量得到第二中间表示向量，其中所述第一中间表示向量为所述问题特征和所述历史问答特征的哈达玛积：

β＝softmaxx((W^γγ+b^γ)，

其中，W和b为视觉对话模型的待学习参数，γ为第一中间表示向量，β为利用待学习参数和第一中间表示向量得到的第二中间表示向量；

根据如下公式，对所述第二中间表示向量和所述历史问答特征进行处理，得到所述第一特征：

其中，j表示问题特征中的第j个词向量，k表示输入问题包括的词向量数目，β_j表示第j个词向量对应的第二中间表示向量，u_j表示第j个词向量对应的历史问答特征。

9.根据权利要求1至4任一所述的方法，其特征在于，所述方法应用于视觉对话模型，并且所述方法还包括：

根据如下公式，通过全连接层将所述第一特征和所述第二特征进行拼接操作，得到中间表示向量：

e＝[W¹q_v+b¹,W²q_u+b²]，

其中，W¹、b¹、W²、b²为视觉对话模型的待学习参数，q_v为第一特征，q_u为第二特征，e为中间表示向量；

根据如下公式，对所述中间表示向量进行融合处理，得到融合后的特征：

其中，W³、b³为视觉对话模型的待学习参数，为融合后的特征。

10.根据权利要求1至3任一所述的方法，其特征在于，所述根据所述融合后的特征输出所述输入问题对应的实际输出答案，包括：

将所述融合后的特征作为长短期记忆LSTM神经网络层的初始状态；

沿所述LSTM神经网络层的第一方向进行迭代处理，输出所述输入问题对应的状态向量；

根据所述状态向量得到所述输入问题对应的实际输出答案。

11.根据权利要求1至3任一所述的方法，其特征在于，所述方法还包括：

获取所述实际输出答案中已输出的前i个词语，i为正整数；

根据所述前i个词语输出所述实际输出答案中的第i+1个词语。

12.一种视觉对话模型的训练方法，其特征在于，所述方法包括：

获取输入图像；

获取所述输入图像对应的n轮历史问答对话的历史问答特征；

根据所述问题特征对所述历史问答特征和所述图像实体特征进行融合处理，得到融合后的特征，包括：对所述问题特征和所述图像实体特征进行处理，得到第一特征，并且对所述问题特征和所述历史问答特征进行处理得到第二特征；通过全连接层将所述第一特征和所述第二特征进行拼接操作，得到中间表示向量，并对所述中间表示向量进行融合处理，得到所述融合后的特征；

13.根据权利要求12所述的方法，其特征在于，根据所述融合后的特征和所述第一答案特征对所述视觉对话模型进行训练，得到训练后的视觉对话模型，包括：

获取所述当前轮提问对应的真实答案中的前k个词语，k为正整数；

根据所述前k个词语对应的第一答案特征和所述融合后的特征，得到实际输出答案中的第k+1个词语对应的第二答案特征；

根据所述第一答案特征和所述第二答案特征对所述视觉对话模型进行训练，得到所述训练后的视觉对话模型。

14.根据权利要求13所述的方法，其特征在于，所述根据所述前k个词语对应的第一答案特征和所述融合后的特征，得到所述实际输出答案中的第k+1个词语对应的第二答案特征，包括：

对所述融合后的特征和所述第一答案特征进行解码处理，得到当前轮提问的所述实际输出答案的第二答案特征。

15.一种视觉对话装置，其特征在于，所述装置包括：

第一获取模块，用于获取输入图像；

所述第一获取模块，用于获取所述输入图像对应的n轮历史问答对话的历史问答特征、输入问题的问题文本和问题特征；

第一融合模块，用于对所述问题特征和所述图像实体特征进行处理，得到第一特征，并且对所述问题特征和所述历史问答特征进行处理得到第二特征；通过全连接层将所述第一特征和所述第二特征进行拼接操作，得到中间表示向量，并对所述中间表示向量进行融合处理，得到融合后的特征；

16.根据权利要求15所述的视觉对话装置，其特征在于，所述第一获取模块，用于：对所述问题文本进行指代歧义消除处理，得到无歧义问题文本；

所述第一特征提取模块，用于根据所述无歧义问题文本对所述输入图像进行特征提取，得到所述图像实体特征。

17.根据权利要求16所述的视觉对话装置，其特征在于，所述第一特征提取模块，用于响应于所述无歧义问题文本包括所述实体，从所述输入图像中提取与所述实体对应的图像特征，得到所述图像实体特征。

18.根据权利要求16所述的视觉对话装置，其特征在于，所述第一特征提取模块，用于响应于所述无歧义问题文本不包括所述实体，获取所述输入图像的图像编码特征，将所述图像编码特征作为所述图像实体特征。

19.根据权利要求15至18任一所述的视觉对话装置，其特征在于，所述第一获取模块，用于获取所述问题特征和所述图像实体特征的哈达玛积；

所述第一融合模块，用于对所述哈达玛积和所述图像实体特征进行融合处理，得到所述第一特征。

20.根据权利要求15至18任一所述的视觉对话装置，其特征在于，所述答案输出模块，用于：

根据所述状态向量得到所述输入问题对应的实际输出答案。

21.根据权利要求15至18任一所述的视觉对话装置，其特征在于，所述第一获取模块，用于获取所述实际输出答案中已输出的前i个词语，i为正整数；

所述答案输出模块，用于根据所述前i个词语输出所述实际输出答案中的第i+1个词语。

22.一种视觉对话模型的训练装置，其特征在于，所述装置包括：

第二获取模块，用于获取输入图像；

所述第二获取模块，用于获取所述输入图像对应的n轮历史问答对话的历史问答特征、当前轮提问的问题文本和问题特征，获取所述当前轮提问对应的真实答案的第一答案特征；

第二融合模块，用于根据所述问题特征对所述历史问答特征和所述图像实体特征进行融合处理，得到融合后的特征，包括：对所述问题特征和所述图像实体特征进行处理，得到第一特征，并且对所述问题特征和所述历史问答特征进行处理得到第二特征；通过全连接层将所述第一特征和所述第二特征进行拼接操作，得到中间表示向量，并对所述中间表示向量进行融合处理，得到所述融合后的特征；

23.根据权利要求22所述的视觉对话模型的训练装置，其特征在于，所述第二获取模块，用于获取所述当前轮提问对应的真实答案中的前k个词语，k为正整数；

所述训练模块，用于根据所述前k个词语对应的第一答案特征和所述融合后的特征，得到实际输出答案中的第k+1个词语对应的第二答案特征；根据所述第一答案特征和所述第二答案特征对所述视觉对话模型进行训练，得到所述训练后的视觉对话模型。

24.根据权利要求23所述的视觉对话模型的训练装置，其特征在于，所述训练模块，用于对所述融合后的特征和所述第一答案特征进行解码处理，得到当前轮提问的所述实际输出答案的第二答案特征。

25.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的视觉对话方法以及12至14任一所述的视觉对话模型的训练方法。

26.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的视觉对话方法以及12至14任一所述的视觉对话模型的训练方法。