CN116628150A

CN116628150A - 用于问答的方法、装置、设备和存储介质

Info

Publication number: CN116628150A
Application number: CN202310492380.4A
Authority: CN
Inventors: 潘俊文; 郭少博; 黄凯
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-08-22

Abstract

本公开的实施例提供了用于问答的方法、装置、设备和存储介质。一种问答方法包括：响应于检测到问答发起操作，利用用户的设备捕获图像数据和针对图像数据的提问；从图像数据提取文本信息；获取与文本信息相关联的扩展信息；以及基于图像数据和扩展信息来确定针对提问的目标回答。以此方式，能够在多模态数据的问答场景中，引入知识库来扩展对提问的准确回答能力。由此，可以在图像数据不全、不足时也能够为用户提供即时、准确的问答服务。

Description

用于问答的方法、装置、设备和存储介质

技术领域

本公开的示例实施例总体涉及计算机领域，特别地涉及用于问答的方法、装置、设备和计算机可读存储介质。

背景技术

随着信息技术的飞速发展，越来越多的应用均提供问答功能，给广大用户带来了诸多便利。具有问答功能的应用可以基于用户输入的语音或文字输出对应的回答。具有多模态的视觉语言问答(Visual Question Answering，VQA)功能的应用还可以根据用户输入的图像，基于语音提问来输出针对该图像的回答音频。

发明内容

在本公开的第一方面，提供了一种问答方法。该方法包括：响应于检测到问答发起操作，利用用户的设备捕获图像数据和针对图像数据的提问；从图像数据提取文本信息；获取与文本信息相关联的扩展信息；以及基于图像数据和扩展信息来确定针对提问的目标回答。

在本公开的第二方面，提供了一种用于问答的装置。该装置包括：数据捕获模块，被配置为响应于检测到问答发起操作，利用用户的设备捕获图像数据和针对图像数据的提问；文本信息提取模块，被配置为从图像数据提取文本信息；扩展信息获取模块，被配置为获取与文本信息相关联的扩展信息；以及目标回答确定模块，被配置为基于图像数据和扩展信息来确定针对提问的目标回答。

在本公开的第三方面，提供了一种电子设备。该设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使电子设备执行第一方面的方法。

在本公开的第四方面，提供了一种计算机可读存储介质。介质上存储有计算机程序，计算机程序被处理器执行时实现第一方面的方法。

应当理解，该部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其他特征将通过以下的描述而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了能够在其中实现本公开的实施例的示例环境的示意图；

图2示出了根据本公开的一些实施例的问答的过程的流程图；

图3示出了根据本公开的一些实施例的问答界面的示意图；

图4示出了根据本公开的一些实施例的问答的流程的示意图；

图5示出了根据本公开的一些实施例的应用问答的装置的示意性结构框图；以及

图6示出了可以实施本公开的一个或多个实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如本文中所使用的，术语“模型”可以表示各个数据之间的关联关系。例如，可以基于目前已知的和/或将在未来开发的多种技术方案来获取上述关联关系。

在本文中，除非明确说明，“响应于A”执行一个步骤并不意味着在“A”之后立即执行该步骤，而是可以包括一个或多个中间步骤。

可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。

作为一种可选的但非限制性的实施例，响应于接收到用户的主动请求，向用户发送提示信息的方式，例如可以是弹出窗口的方式，弹出窗口中可以以文字的方式呈现提示信息。此外，弹出窗口中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的目标探索控件。

可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实施例构成限定，其他满足相关法律法规的方式也可应用于本公开的实施例中。

如本文中所使用的，术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联关系，从而在训练完成后可以针对给定的输入，生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法，通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中，“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”，这些术语在本文中可互换地使用。

“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出，其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层，从而增加网络的深度。神经网络的各个层按顺序相连，从而前一层的输出被提供作为后一层的输入，其中输入层接收神经网络的输入，而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元)，每个节点处理来自上一层的输入。

通常，机器学习大致可以包括三个阶段，即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段，给定的模型可以使用大量的训练数据进行训练，不断迭代更新参数值，直到模型能够从训练数据中获得一致的满足预期目标的推理。通过训练，模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段，将测试输入应用到训练后的模型，测试模型是否能够提供正确的输出，从而确定模型的性能。在应用阶段，模型可以被用于基于训练得到的参数值，对实际的输入进行处理，确定对应的输出。

如前文简要提及的，具有多模态的视觉语言问答功能的应用可以根据用户输入的图像，基于用户输入的语音提问来播放针对该图像的回答音频。

视觉语言问答，是一种多模态的理解任务，需要对视觉内容进行理解后回答语言形式的提问。传统上，具有多模态的视觉语言问答功能的应用可以利用经训练的问答模型来实现多模态的视觉语言问答。

然而，在某些情况下，用户采集到的图像数据可能存在质量较差、内容不全等问题。例如，用户拍摄的图像数据较为模糊、图像数据中用户期望提问的未被完整拍摄或者图像数据中的某些文本字体较小等。基于这样的图像数据，可能难以从中生成正确的回答。特别是对于某些人群，例如视障人士而言，视觉语言问答的需求更大，而这些人群由于受到视力限制，往往更难察觉拍摄的图像数据的质量是否满足问答需求。因此，期望在基于视觉数据的问答场景中，即使基于质量较差的图像数据，仍旧可以得到准确的回答。

本公开的实施例提供了一种问答的改进方案。根据该方案，采集图像数据以及指示针对图像数据的提问。获取与图像数据中的文本信息相关联的扩展信息。基于图像数据和扩展信息来确定针对提问的回答。以此方式，能够在多模态数据的问答场景中，引入知识库来扩展对提问的准确回答能力。由此，可以在图像数据不全、不足时也能够为用户提供即时、准确的问答服务。

而且，本公开所提出的问答方案能够有效辅助用户，特别是在视力持续性或者暂时性受损或者障碍的人群，准确地实现多模态的视觉语言问答。应当理解，本公开的实施例所提供的方案可以为特定人群提供便利，但这并不暗示对特定人群的任何歧视。

图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。在该示例环境100中，终端设备110中安装有应用120。用户140可以经由终端设备110和/或其附接设备来与应用120进行交互。应用120是至少具有问答功能的应用。

在一些实施例中，终端设备110与服务器130通信，以实现对应用120的服务的供应。终端设备110可以是任意类型的移动终端、固定终端或便携式终端，包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合，包括这些设备的配件和外设或者其任意组合。在一些实施例中，终端设备110也能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

终端设备110例如可以包括用于检测用户手势的适当类型传感器。例如，终端设备110例如可以包括触摸屏，以用于检测用户在触摸屏上做出的各种类型的手势。备选地或附加地，终端设备110还可以包括诸如临近传感器等其它适当类型感测设备，来检测用户在屏幕上方预定距离内做出的各种类型的手势。终端设备110例如还可以包括用于采集用户音频的声音采集装置(例如麦克风)、用于播放音频的声音播放装置(例如扬声器)、用于采集图像的图像采集装置(例如相机、摄像头等)以及用于界面显示的显示装置(例如显示屏，该显示屏可以为触摸屏)等。

服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器130例如可以包括计算系统/服务器，诸如大型机、边缘计算节点、云环境中的计算设备，等等。服务器130可以为终端设备110中的应用120提供后台服务。

在下文将讨论的一些实施例中，可以通过具有各种功能的多个模型实现问答功能。这些模型中的一个或多个模型可以被远程部署在服务器130中，终端设备110可以通过与服务器130之间的通信利用这多个模型以实现对应功能。由此，可以节约终端设备110的资源和功率，并可以利用服务器的强大资源来提高计算效率。在一些实施例中，这些模型中的一个或多个模型也可以被部署在终端设备110本地。这可以根据实际情况来选择。

在一些实施例中，在图1的环境100中，如果应用120处于活动状态，终端设备110可以呈现应用120的界面150。经由界面150，应用120能够向用户140提供与问答功能相关的一个或多个服务，包括采集语音、采集图像、播放语音、显示文字等等。

应当理解，仅出于示例性的目的描述环境100的结构和功能，而不暗示对于本公开的范围的任何限制。

以下将继续参考附图描述本公开的一些示例实施例。

图2示出了根据本公开的一些实施例的问答的过程200的流程图。过程200可以被实现在终端设备110处。为便于讨论，将参考图1的环境100来描述过程200。

在框210，终端设备110响应于检测到问答发起操作，捕获图像数据和针对图像数据的提问。

在一些实施例中，终端设备110可以响应于检测到问答发起操作，捕获图像数据和指示针对图像数据的提问。具体地，终端设备110直接检测用户发起的问答发起操作，例如，终端设备110可以响应于检测到问答发起语音(例如“打开问答功能”)，确定检测到问答发起操作。又例如，终端设备110可以响应于检测到对硬件按钮的预设操作(例如按压操作、长按操作等)，确定检测到问答发起操作。在一些实施例中，终端设备110检测到问答发起操作后，运行具有问答功能的应用120，捕获图像数据以及指示针对图像数据的提问。

终端设备110可以通过图像采集装置捕获图像数据。图像数据可以是任意形式(静态图像、或视频片段等)、任意分辨率、任意格式(例如PNG、JPG等)。备选地或附加地，图像数据还可以是预先存储在终端设备110中的数据。

提问可以包括多种形式，即终端设备110可以以多种形式捕获到提问。提问例如可以包括以文字形式捕获的提问，终端设备110可以直接获取用户输入的提问的文本序列(例如，获取“图像中有几个杯子？”这个文本序列)。为了保证问答的便捷性与易操作性，提问还可以包括以语音形式捕获的提问，终端设备110可以通过声音采集装置捕获用户的提问的语音数据。语音数据可以是任意语言(例如中文、英语、日语等)、任意时间长度(例如3s、5s等)以及任意音色的。可以理解，提问还可以是以其他任意适当的形式捕获的提问。

在提问为以语音形式捕获的提问的情况下，在一些实施例中，终端设备110启动应用120后，可以通过显示装置呈现至少包括录制控件的问答界面。终端设备110可以响应于检测到对录制控件的预定操作，确定检测到问答发起操作，进而捕获图像数据以及语音数据。对录制控件的预定操作例如可以包括点击操作，滑动操作，长按操作等，这里不做限制。在一些实施例中，对录制控件的预定操作也可以通过语音或其他指令来发起。

在一些实施例中，在捕获图像数据以及语音数据的过程中，终端设备110还可以响应于接收到捕获结束操作停止捕获图像数据以及语音数据。具体地，终端设备110可以响应于检测到例如“停止采集数据”的语音，确定检测到捕获结束操作。终端设备110还可以响应于检测到对硬件按钮的预设操作(例如按压操作、长按操作等)，确定检测到捕获结束操作。终端设备110还可以响应于检测到对录制界面中录制控件的另一预定操作(例如点击操作，松开按压操作等)，确定检测到捕获结束操作。

参考图3，图3示出了根据本公开的一些实施例的问答界面300的示意图。录制界面300可以包含控件显示区域330，控件显示区域330至少呈现录制控件332。终端设备110可以响应于检测到对录制控件332的预定操作确定检测到问答发起操作。终端设备110进而可以在文字提示区域310显示“录制中”等文字以提示用户终端设备110当前处于捕获数据的状态。

在一些实施例中，终端设备110响应于接收到预定操作，通过改变录制控件332的呈现效果(例如改变录制控件332的颜色、尺寸等)来表示终端设备110正在捕获语音数据以及图像数据。相应地，终端设备110可以响应于接收到捕获结束操作停止捕获语音数据以及图像数据。终端设备110可以响应于接收到捕获结束操作将录制控件332的呈现效果切换回捕获之前的状态。

在一些实施例中，终端设备110可以将捕获到的语音数据转换成文字，显示在文字提示区域310中。如图3所示，终端设备110捕获到语音数据后，将语音数据对应的文字“这个药的用药剂量”显示在文字提示区域310处。与此同时，终端设备110可以在图像显示区域320处呈现终端设备110当前捕获到的图像数据。可以通过语音转文本技术来实现语音到文字的转换，该转换可以在终端设备110本地或远程服务器执行。

在一些实施例中，为保证确定的语音数据指示的提问的准确性，终端设备110可以对捕获到的语音数据进行预处理，以消除语音数据中与提问无关的噪音(例如环境音)。

返回参考图2，在框220，终端设备110从图像数据提取文本信息。

终端设备110例如可以利用光学字符识别(Optical Character Recognition，OCR)技术从图像数据提取文本信息。光学字符识别是指对图像数据进行分析识别处理，获取文本信息的过程。OCR技术可以使图像数据经历图像预处理、文本检测、文本识别等图像处理过程而提取出图像数据的文本信息。具体地，在OCR技术中，图像预处理通常是针对图像数据的成像问题进行修正。常见的预处理过程包括：几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。文本检测即检测文本的所在位置和范围及其布局。通常也包括版面分析和文本行检测等。文本识别是在文本检测的基础上，对文本内容进行识别，从图像数据提取文本信息。

在一些实施例中，终端设备110可以根据OCR技术利用经训练的图像处理模型从图像数据提取文本信息。具体地，终端设备110可以将图像数据输入经训练的图像处理模型中，并获取该图像处理模型输出的文本信息。图像处理模型例如可以包括卷积神经网络(CNN)、前馈神经网络(FNN)、全连接神经网络(FCN)、生成对抗网络(GAN)、循环神经网络(RNN)等任意适当的模型中的一个或多个。

在一些实施例中，图像处理模型例如可以被部署在服务器130中，其中，服务器130可以是远程服务器(例如云端)。终端设备110可以通过与服务器130之间的通信利用经训练的图像处理模型以获取文本信息。具体地，终端设备110可以将捕获到的图像数据发送至服务器130，由服务器130利用经训练的图像处理模型基于图像数据输出文本信息。终端设备110可以从服务器130处获取文本信息。在一些实施例中，经训练的图像处理模型例如还可以被部署在终端设备110本地，终端设备110可直接利用部署在本地的经训练的图像处理模型基于捕获到的图像数据提取文本信息。

在框230，终端设备110获取与文本信息相关联的扩展信息。

在本公开的实施例中，在用户期望针对图像数据进行提问的场景下，不仅依赖于图像数据本身，还期望能够扩展出更多信息来辅助回答提问。

在一些实施例中，终端设备110可以默认总是获取与图像数据中的文本信息相关联的扩展信息。在一些实施例中，终端设备110可以确定从图像数据是否能够确定针对提问的目标回答。具体地，终端设备110可以对提问进行意图识别，以确定与提问相关的意图。具体地，终端设备110可以基于词典以及模版的规则方法识别意图。不同的意图会有不同的领域词典，比如书名、歌曲名、商品名、物体名等。终端设备110可以根据用户的意图和词典的匹配程度或者重合程度来进行判断。终端设备110还可以基于机器学习模型对用户意图进行判别。终端设备110可以通过机器学习和深度学习的方法，对已经标注好的领域语料进行训练学习，得到意图识别的模型(例如基于fastText的模型)。终端设备110进而基于该模型识别输入的提问所指示的意图。可以理解，终端设备110可以是本地确定提问所指示的意图，也可以是将提问发送至服务器130以由服务器130确定提问所指示的意图。

终端设备110获取到提问指示的意图后，可以基于该意图以及图像数据和/或文本信息判断从图像数据是否能够确定针对提问的目标回答。

如果基于意图和图像数据确定从图像数据能够确定针对提问的目标回答，终端设备110可以直接基于图像数据和提问确定对应的目标回答而无需获取扩展信息。例如，如果终端设备110捕获到的提问为“有几个杯子”对应的语音数据，终端设备110可以对该语音数据进行识别，确定该提问对应的意图是确定图像数据中杯子的数量。终端设备110进而基于该意图以及捕获到的图像数据判断从图像数据能够确定针对提问的目标回答。终端设备110可以直接对图像数据进行识别，确定图像数据中包括的杯子的数量为3个，即该意图对应的回答为“3个”。

又例如，如果终端设备110捕获到的提问为“药品的用药剂量”对应的语音数据，终端设备110可以对该语音数据进行识别，确定该提问对应的意图是确定图像数据中药品对应的用药剂量。在图像数据中药品包装上的文字过小、药品包装上未包含用药剂量或者药品包装上的文字模糊等情况下，终端数据110可以基于该意图以及捕获到的图像数据中提取得到的文本信息判断从图像数据无法确定针对提问的目标回答。在确定从图像数据无法确定针对提问的目标回答的情况下，终端设备110可以获取与文本信息相关联的扩展信息。

在一些实施例中，终端设备110可以访问知识库，并基于文本信息从知识库中取得扩展信息。知识库可以包括知识图谱。具体地，终端设备110可以从文本信息确定至少一个关键词，并从知识库取得与至少一个关键词相关联的扩展信息。终端设备110可以将关键词匹配到知识图谱中的实体、关系、属性等，以获得对应的信息作为扩展信息。知识图谱是计算机科学中的重要数据表示形式，在知识图谱中，节点表示实体，节点与节点之间的边表示实体与实体之间的关系，节点和边均可以具有各自的属性，该属性即为实体或关系的属性。可以理解，知识库还可以为其他任意合适的知识库和/或数据库等，这里不做限制。

为了能够获取到更精准的扩展信息，终端设备110预先的知识库可以包括对应多个领域的多个候选知识库。多个候选知识库包括但不限于对应医学领域的医学知识库、对应农业的农学知识库、对应宠物的宠物知识库、对应食品的食品知识库等等。终端设备110可以确定图像数据或文本信息对应的目标领域，进而从多个候选知识库确定与目标领域对应的目标知识库。示例性的，若图像数据的文本信息中包含药品的名称，则终端设备110可以确定文本信息对应的领域为医学领域，进而从多个候选知识库中将对应医学领域的医学知识库确定为目标知识库。

进一步地，终端设备110可以从目标知识库取得与至少一个关键词相关联的扩展信息。类似的，若目标知识库为知识图谱，终端设备110可以将至少一个关键词与知识图谱中的实体、关系、属性等进行匹配，以获得对应的信息作为扩展信息。

在一些实施例中，终端设备110还可以基于图像数据获取扩展信息。具体地，终端设备110可以对图像数据进行图像识别，进而基于图像识别的结果从图像数据对应的领域的目标知识库中取得扩展信息。示例性的，若对图像数据进行图像识别的识别结果指示图像数据中包含猫咪，则终端设备110可以从多个候选知识库中将对应宠物的宠物知识库确定为目标知识库，进而从目标知识库中取得与猫咪相关联的扩展信息。

在框240，终端设备110基于图像数据和扩展信息来确定针对提问的目标回答。

在一些实施例中，终端设备110可以在本地利用图像数据、扩展信息来确定针对提问的回答。具体地，终端设备110例如可以利用经训练的问答模型基于图像数据、扩展信息以及提问确定针对图像数据的回答。在一些实施例中，在提问是以与语音形式捕获的提问的情况下，终端设备110可以先将提问对应的语音数据转换成文本序列。终端设备110可以基于语音技术(例如，自动语音识别(ASR)技术)将语音数据转换成文本序列，进而向问答模型提供图像数据、扩展信息以及文本序列。

在一些实施例中，终端设备110可以将提问对应的文本序列、图像数据以及扩展信息一同输入至经训练的问答模型中，以让问答模型输出与提问相对应的回答。在这种情况下，问答模型是多模态的问答模型，其输入包括图像模态和文本模态的数据。备选地或附加地，在一些实施例中，终端设备110还可以将文本序列、图像数据中提取出的文本信息以及扩展信息一同输入至经训练的问答模型中，以让问答模型输出与提问相对应的回答。在这种情况下，问答模型可以不是多模态的问答模型，其输入是文本模态的数据。

可以理解，经训练的问答模型可以被部署在服务器130，也可以被部署在本地。如果问答模型被部署在服务器，终端设备110可以通过与服务器130之间的通信利用经训练的问答模型以实现问答功能。如果问答模型被部署在本地，终端设备110可以直接利用被部署在本地的经训练的问答模型实现问答功能。

问答模型例如可以是语言模型(LM)，语言模型通过从大量语料中学习，能够具备问答能力。语言模型可以包括统计语言模型和神经网络语言模型，其中，相较于统计语言模型，神经网络语言模型具有更为强大的泛化能力以及预测能力。在一些实施例中，为更好地实现确定问答功能，利用的经训练的问答模型为神经网络语言模型。

进一步地，由于神经网络语言模型的问答能力可以随着用于训练的数据量以及模型参数量的增多而提升，在一些实施例中，为了确定出更为准确的回答，终端设备110利用具有大规模参数、数据量和计算量的神经网络语言模型，以满足具体应用中的问答质量要求。当语言模型的规模达到一定程度(例如，由更多数据量来训练)时，就会具有符合应用期望的认知、常识以及逻辑推理能力。在一些实施例中，为保证模型的效果，可以通过预训练的方式来确定模型的参数权重。

在一些实施例中，终端设备110还可以从图像数据确定针对提问的候选回答，并基于扩展信息来执行针对候选回答的校正，得到目标回答。校正例如可以包括纠错和补全中的至少一项。具体地，终端设备110例如可以利用经训练的问答模型基于图像数据以及提问确定针对图像数据的候选回答。同样的，在提问是以与语音形式捕获的提问的情况下，终端设备110需要先将提问对应的语音数据转换成文本序列，进而将文本序列与图像数据一同输入至经训练的问答模型中，以让问答模型输出与提问相对应的候选回答。对于基于图像数据的候选回答的校正(例如，纠错和/或补全)可以是由问答模型自动实现。

在图像数据的质量较差的情况下，终端设备110直接基于图像数据确定的候选回答可能是错误的。因此，终端设备110进而可以基于扩展信息对候选回答进行校正，以得到针对提问的准确的目标回答。终端设备110可以基于扩展信息中与提问对应的信息，对候选回答进行校正以得到正确的目标回答。

示例性的，在提问为“药品名称以及作用”的情况下，若图像数据存在曝光不当的问题，图像数据中药品包装上的文字区域可能是不清晰的。终端设备110基于这样的图像数据得到的候选回答可能是不完整的，例如候选回答可以为“黄连上清片，可以散风清热”。终端设备110利用扩展信息对候选回答进行补全后可以得到目标回答为“黄连上清片，可以散风清热，泻火止痛”。由此，可以利用扩展信息对候选回答进行补全式的校正，有助于提升回答的完整性。

示例性的，在提问为“这个药的用药剂量”的情况下，若图像数据中药品包装上的文字不包含相应内容或者对应的文字过小，终端设备110基于这样的图像数据得到的候选回答可能是错误的。例如候选回答可以为“24片，2板”。终端设备110利用扩展信息对候选回答进行纠错后可以得到目标回答为“一次6片，一日两次”。由此，可以利用扩展信息对候选回答进行纠错式的校正，有助于提升回答的正确性。

参考图4，图4示出了根据本公开的一些实施例的回答的流程400的示意图。流程400可以被实现在终端设备110处。为便于讨论，将参考图1的环境100来描述流程400。注意，图4中示出的图像数据401、提问402、模型输入403以及回答404仅是为了解释说明的示例，而不是指示任何限制。

在一些实施例中，在获取到图像数据401后，终端设备110对图像数据401执行文本识别410，以从中提取文本信息，例如从图像数据401中提取到文本信息“XX品牌”、“黄连上清片”、“24片·2板”、“散风清热，泻火止痛”以及“OTC”等。终端设备110从知识库420(例如，医学相关的知识图谱)取得与文本信息相关联的扩展信息。例如，可以从知识402获取扩展信息“作用功效：本品具有散风清热、泻火止痛的作用。可治疗急性结膜炎、急性化脓性中耳炎、牙宣、喉痹以及口疮、复发性口疮”和“用法用量：口服用药，一次6片，一日2次。建议患者在医师指导下用药”，等等。

在一些实施例中，如图4所示，终端设备110可以将文本信息、扩展信息以及提问402一同确定为问答模型的模型输入403。在其他示例，终端设备110也可以基于图像数据401、扩展信息以及提问402(例如，其可以是语音的形式)来确定为问答模型的模型输入403。在确定模型输入403时，终端设备110可以将捕获的语音数据识别为文字，并确定提问的意图。

在确定模型输入403后，终端设备110将模型输入403提供给问答模型430。问答模型430可以基于模型输入403来确定与提问对应的回答404。终端设备110可以获取问答模型输出的回答404。例如，输出的回答404可以为“一次6片，一日两次”。

在一些实施例中，终端设备110确定回答后，可以通过声音播放装置以语音形式播放回答。如图3所示，终端设备110可以通过扬声器播放回答音频。在一些实施例中，回答可以是文本形式。终端设备110可以通过语音合成(TTS)将文本转换为语音进行输出。这样，可以方便用户，特别是有视力障碍的用户快速获知答案。

在一些实施例中，备选地，终端设备110还可以通过显示屏以文字形式呈现回答。在一些实施例中，终端设备110还可以附加震动形式以及视觉形式输出回答。视觉形式例如可以包括放大图像、突出显示图像等等。示例性的，在用户输入的语音数据指示查询图像数据中某一物体的名称时，终端设备110在播放包含该物体名称的回答音频时，可以在显示屏上放大图像数据以突出显示该物体。

根据本公开的实施例，在所捕获的图像质量不佳导致无法完成问答的情况下，相比于要求用户重新采集符合要求的图像，本公开所提出的方案能够显著提升问答的效率和准确性。以此方式，能够在多模态数据的问答场景中，引入知识库来扩展对提问的准确回答能力。由此，可以在图像数据不全、不足时也能够为用户提供即时、准确的问答服务。

图5示出了根据本公开的一些实施例的问答的装置500的示意性结构框图。装置500例如可以被实现在或被包括在终端设备110中。装置500中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。

如图所示，装置500包括数据捕获模块510，被配置为响应于检测到问答发起操作，利用用户的设备捕获图像数据和针对图像数据的提问。装置500还包括文本信息提取模块520，被配置为从图像数据提取文本信息。装置500还包括扩展信息获取模块530，被配置为获取与文本信息相关联的扩展信息。装置500还包括目标回答确定模块540，被配置为基于图像数据和扩展信息来确定针对提问的目标回答。

在一些实施例中，扩展信息获取模块530，包括：关键词确定模块，被配置为从文本信息确定至少一个关键词；以及扩展信息取得模块，被配置为从知识库取得与至少一个关键词相关联的扩展信息。

在一些实施例中，知识库包括对应多个领域的多个候选知识库，并且扩展信息取得模块包括：目标领域确定模块，被配置为确定图像数据或文本信息对应的目标领域；目标知识库确定模块，被配置为从多个候选知识库确定与目标领域对应的目标知识库；以及信息取得模块，被配置为从目标知识库取得与至少一个关键词相关联的扩展信息。

在一些实施例中，知识库包括知识图谱。

在一些实施例中，扩展信息获取模块530，包括：确定模块，被配置为确定从图像数据是否能够确定针对提问的目标回答；以及获取模块，被配置为如果从图像数据无法确定针对提问的目标回答，获取扩展信息。

在一些实施例中，目标回答确定模块540，包括：候选回答确定模块，被配置为从图像数据确定针对提问的候选回答；以及目标回答获得模块，被配置为基于扩展信息来执行针对候选回答的校正，得到目标回答，校正包括纠错和补全中的至少一项。

在一些实施例中，目标回答是利用经训练的问答模型来确定的，问答模型的模型输入包括图像数据和文本信息中的至少一项、扩展信息和提问。

在一些实施例中，提问包括以语音形式捕获的提问。

装置500中所包括的单元可以利用各种方式来实现，包括软件、硬件、固件或其任意组合。在一些实施例中，一个或多个单元可以使用软件和/或固件来实现，例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代，装置500中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制，可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)，等等。

图6示出了其中可以实施本公开的一个或多个实施例的电子设备600的框图。应当理解，图6所示出的电子设备600仅仅是示例性的，而不应当构成对本文所描述的实施例的功能和范围的任何限制。图6所示出的电子设备600可以用于实现图1的电子设备110。

如图6所示，电子设备600是通用电子设备的形式。电子设备600的组件可以包括但不限于一个或多个处理器或处理单元610、存储器620、存储设备630、一个或多个通信单元640、一个或多个输入设备650以及一个或多个输出设备660。处理单元610可以是实际或虚拟处理器并且能够根据存储器620中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高电子设备600的并行处理能力。

电子设备600通常包括多个计算机存储介质。这样的介质可以是电子设备600可访问的任何可以获取的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器620可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如，只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备630可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如闪存驱动、磁盘或者任何其他介质，其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在电子设备600内被访问。

电子设备600可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图6中示出，可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器620可以包括计算机程序产品625，其具有一个或多个程序模块，这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。

通信单元640实现通过通信介质与其他电子设备进行通信。附加地，电子设备600的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，电子设备600可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。

输入设备650可以是一个或多个输入设备，例如鼠标、键盘、追踪球等。输出设备660可以是一个或多个输出设备，例如显示器、扬声器、打印机等。电子设备600还可以根据需要通过通信单元640与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与电子设备600交互的设备进行通信，或者与使得电子设备600与一个或多个其他电子设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。

根据本公开的示例性实现方式，提供了一种计算机可读存储介质，其上存储有计算机可执行指令，其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式，还提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，而计算机可执行指令被处理器执行以实现上文描述的方法。

这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实现，上述说明是示例性的，并非穷尽性的，并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims

1.一种问答方法，包括：

响应于检测到问答发起操作，利用用户的设备捕获图像数据和针对所述图像数据的提问；

从所述图像数据提取文本信息；

获取与所述文本信息相关联的扩展信息；以及

基于所述图像数据和所述扩展信息来确定针对所述提问的目标回答。

2.根据权利要求1所述的方法，其中获取所述扩展信息包括：

从所述文本信息确定至少一个关键词；以及

从知识库取得与所述至少一个关键词相关联的所述扩展信息。

3.根据权利要求2所述的方法，其中所述知识库包括对应多个领域的多个候选知识库，并且从所述知识库中取得所述扩展信息包括：

确定所述图像数据或所述文本信息对应的目标领域；

从所述多个候选知识库确定与所述目标领域对应的目标知识库；以及

从所述目标知识库取得与所述至少一个关键词相关联的所述扩展信息。

4.根据权利要求2所述的方法，其中所述知识库包括知识图谱。

5.根据权利要求1所述的方法，其中获取所述扩展信息包括：

确定从所述图像数据是否能够确定针对所述提问的目标回答；以及

如果从所述图像数据无法确定针对所述提问的目标回答，获取所述扩展信息。

6.根据权利要求1所述的方法，其中确定针对所述提问的目标回答包括：

从所述图像数据确定针对所述提问的候选回答；以及

基于所述扩展信息来执行针对所述候选回答的校正，得到所述目标回答，所述校正包括纠错和补全中的至少一项。

7.根据权利要求1所述的方法，其中所述目标回答是利用经训练的问答模型来确定的，所述问答模型的模型输入包括所述图像数据和所述文本信息中的至少一项、所述扩展信息和所述提问。

8.根据权利要求1所述的方法，其中所述提问包括以语音形式捕获的提问。

9.一种用于问答的装置，包括：

数据捕获模块，被配置为响应于检测到问答发起操作，利用用户的设备捕获图像数据和针对所述图像数据的提问；

文本信息提取模块，被配置为从所述图像数据提取文本信息；

扩展信息获取模块，被配置为获取与所述文本信息相关联的扩展信息；以及

目标回答确定模块，被配置为基于所述图像数据和所述扩展信息来确定针对所述提问的目标回答。

10.根据权利要求9所述的装置，其中所述扩展信息获取模块包括：

关键词确定模块，被配置为从所述文本信息确定至少一个关键词；以及

扩展信息取得模块，被配置为从知识库取得与所述至少一个关键词相关联的所述扩展信息。

11.根据权利要求10所述的装置，其中所述知识库包括对应多个领域的多个候选知识库，并且所述扩展信息取得模块包括：

目标领域确定模块，被配置为确定所述图像数据或所述文本信息对应的目标领域；

目标知识库确定模块，被配置为从所述多个候选知识库确定与所述目标领域对应的目标知识库；以及

信息取得模块，被配置为从所述目标知识库取得与所述至少一个关键词相关联的所述扩展信息。

12.根据权利要求10所述的装置，其中所述知识库包括知识图谱。

13.根据权利要求9所述的装置，其中所述扩展信息获取模块包括：

确定模块，被配置为确定从所述图像数据是否能够确定针对所述提问的目标回答；以及

获取模块，被配置为如果从所述图像数据无法确定针对所述提问的目标回答，获取所述扩展信息。

14.根据权利要求9所述的装置，其中所述目标回答确定模块包括：

候选回答确定模块，被配置为从所述图像数据确定针对所述提问的候选回答；以及

目标回答获得模块，被配置为基于所述扩展信息来执行针对所述候选回答的校正，得到所述目标回答，所述校正包括纠错和补全中的至少一项。

15.根据权利要求9所述的装置，其中所述目标回答是利用经训练的问答模型来确定的，所述问答模型的模型输入包括所述图像数据和所述文本信息中的至少一项、所述扩展信息和所述提问。

16.根据权利要求9所述的装置，其中所述提问包括以语音形式捕获的提问。

17.一种电子设备，包括：

至少一个处理单元；以及

至少一个存储器，所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令，所述指令在由所述至少一个处理单元执行时使所述电子设备执行根据权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至8中任一项所述的方法。