CN113220859A

CN113220859A - 基于图像的问答方法、装置、计算机设备及存储介质

Info

Publication number: CN113220859A
Application number: CN202110610932.8A
Authority: CN
Inventors: 刘杰; 王健宗; 瞿晓阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-01
Filing date: 2021-06-01
Publication date: 2021-08-06

Abstract

本申请涉及图像识别领域，揭示了一种基于图像的问答方法、装置、设备及介质，其中方法包括：获取输入的图像与目标问题；识别所述图像以提取图像包含的各个目标物体；识别每一个所述目标物体的可视化特征，根据所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量；计算每一个目标物体在所述图像中的局部视觉特征，根据局部视觉特征确定目标物体的物体文本描述向量；将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合；计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案。本申请能够提高图像问答的准确率。

Description

基于图像的问答方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像识别领域，特别是涉及到一种基于图像的问答方法、装置、计算机设备及存储介质。

背景技术

近些年来，图像问答在计算机视觉与自然语言分析领域都逐渐受到关注，图像问答是让计算机能够对通过图像识别及问题识别对问题的答案进行预测，可应用于诸如智能监控、图像筛选等多种工作场景。图像问答由于查询的问题通常包含有大量非标准的语言描述，且图像通常存在较多目标，无法做到快速、准确地结合图像理解问题，并推理出对应答案。

发明内容

本申请的主要目的为提供一种基于图像的问答方法、装置、计算机设备及存储介质，旨在解决目前无法快速、准确地结合图像与问题进行图像问答的问题。

为了实现上述发明目的，本申请提出一种基于图像的问答方法，包括：

获取输入的图像与目标问题；

识别所述图像以提取所述图像包含的各个目标物体；

识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量；

根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量；

将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合；

计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案。

进一步地，所述识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，包括：

识别并获取图像中每一个所述目标物体的可视化特征，所述可视化特征包括目标物体的位置信息、大小信息与类型信息；

根据所述图像中每一个目标物体的位置信息、大小信息与类型信息计算所述图像的位置信息的平均值，大小信息的平均值以及类型信息的平均值；

根据所述位置信息的平均值，大小信息的平均值以及类型信息的平均值确定图像的全局特征。

进一步地，所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，包括：

获取图像中每一个目标物体的可视化特征，所述可视化特征包括目标物体在所述图像中的位置信息、大小信息、类型信息以及所述目标物体与所述图像中的其他目标物体的相对位置信息；

根据图像的全局特征、每一个目标物体在所述图像中的位置信息、大小信息、类型信息以及所述目标物体与所述图像中的其他目标物体的相对位置信息计算图像中的每一个目标物体的局部视觉特征。

进一步地，所述计算所述答案集合中各个答案的置信度，包括：

获取答案集合中各个答案包含的单词；

统计相同单词在所有答案中出现的频次，根据所述频次确定每一个单词的可信度；

根据各个答案中每一个单词的可信度计算各个答案的置信度。

进一步地，所述根据所述置信度选取符合预设要求的答案作为目标答案之后，还包括：

获取所述目标问题的语言类型；

将所述目标答案按照所述语言类型输出。

进一步地，所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量之后，还包括：

获取所述目标物体的物体文本描述向量的数值；

选取所述数值满足预设要求的物体文本描述向量作为待输入的物体文本描述向量；

所述将所述图像向量、物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算，得到所述目标问题的答案集合，包括：

将所述图像向量、待输入的物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合。

接收对所述目标答案的反馈信息；

若所述反馈信息为负反馈信息，根据所述置信度从高到低的排序依次选取新的答案作为目标答案。

本申请还提供一种基于图像的问答装置，包括：

数据获取模块，用于获取输入的图像与目标问题；

图像识别模块，用于识别所述图像以提取所述图像包含的各个目标物体；

全局特征模块，用于识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量；

局部特征模块，用于根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量；

联合嵌入模块，用于将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合；

答案筛选模块，用于计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述基于图像的问答方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述基于图像的问答方法的步骤。

本申请例提供了一种融合全局特征与局部特征进行图像问答的方法，通过获取输入的图像与目标问题，识别所述图像以提取所述图像包含的目标物体，根据所述目标物体的可视化特征计算所述图像的全局特征，根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，基于所述全局特征与所述局部视觉特征能够准确地描述图像包含的信息，根据所述全局特征确定所述图像对应的图像向量，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量，将所述图像向量、物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算，得到所述目标问题的答案集合，计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案，通过全局特征与局部特征全面地对图像以及图像中包含的各个目标物体进行识别，然后再调用联合嵌入注意力网络进行计算，准确、全面地匹配目标问题的答案，提高图像问答的准确度。

附图说明

图1为本申请基于图像的问答方法的一实施例流程示意图；

图2为本申请基于图像的问答方法的另一实施例流程示意图；

图3为本申请基于图像的问答装置的一实施例结构示意图；

图4为本申请计算机设备的一实施例结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于图像的问答方法，包括步骤S10-S60，对于所述基于图像的问答方法的各个步骤的详细阐述如下。

S10、获取输入的图像与目标问题。

本实施例应用于图像问答任务场景，在图像问答任务中，给定一张图像和一个相关的问题，要求计算机能根据图像内容、问题，并结合一些已有的知识推理得到问题的答案，本实施例中，获取输入的图像与输入的问题，将输入的问题定义为目标问题。

S20、识别所述图像以提取所述图像包含的各个目标物体。

本实施例中，获取输入的图像后，对所述图像进行识别以提取所述图像包含的各个目标物体，具体的，可以使用目标检测算法识别所述图像，以提取所述图像包含的目标物体，在一种实施方式中，使用Faster-RCNN识别所述图像，对图像中包含的所有物体进行提取，识别并提取到的物体定义为目标物体，从而检测出图像中包含的每一个目标物体，本实施例中，所述目标物体的数量为至少两个。

S30、识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量。

本实施例中，在得到图像中包含的每一个目标物体后，识别每一个所述目标物体的可视化特征，所述可视化特征包括目标物体的位置、大小特征，还包括目标物体的类型特征，然后将所有目标物体提取到的可视化特征求平均值作为该图像的全局特征，再根据所述全局特征确定所述图像对应的图像向量，图像向量用于表征图像的全局特征信息，以便于后续的计算。

S40、根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量。

本实施例中，在得到图像的全局特征后，为了更加准确地描述图像，还需要确定图像中各个目标物体相对于图像全局的特征，根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，所述局部视觉特征包括了目标物体在图像中的大小信息、位置信息，还包括目标物体与相邻的其他物体的相对大小信息、相对位置信息，然后根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量，以此，为图像中的每一个物体生成一个详细的文本描述，并将文本描述转化为对应的向量，从而将图像中各个目标物体的局部特征信息以物体文本描述向量进行表示。

S50、将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合。

本实施例中，在得到图像向量、物体文本描述向量之后，即将图像进行了全局特征的表示，还将图像中的各个目标物体以对应的文本描述向量进行局部特征表示，基于所述图像向量与物体文本描述向量可以准确地描述出图像所包含的信息，将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，联合嵌入注意力网络能够将图像向量、物体文本描述向量和目标问题进行映射，包括将所述图像向量应用Faster-RCNN产出image embedding I_i，将所述目标问题上应用word2vec产出questionembeddingQ_i，将所述物体文本描述向量应用GRU产出expression embedding E_i，从而得到图像向量、物体文本描述向量和目标问题与目标问题的答案的映射关系，再将映射得到的答案组成答案集合。

S60、计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案。

本实施例中，在得到答案集合后，计算所述答案集合中各个答案的置信度，通过获取所述答案集合中每一个答案包含的词汇的关联值，然后根据所述关联值计算各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案，优选的选取最高置信度最高的答案作为目标答案，完成基于图像与问题的问答。

本实施例提供了一种融合全局特征与局部特征进行图像问答的方法，通过获取输入的图像与目标问题，识别所述图像以提取所述图像包含的目标物体，根据所述目标物体的可视化特征计算所述图像的全局特征，根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，基于所述全局特征与所述局部视觉特征能够准确地描述图像包含的信息，根据所述全局特征确定所述图像对应的图像向量，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量，将所述图像向量、物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算，得到所述目标问题的答案集合，计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案，通过全局特征与局部特征全面地对图像以及图像中包含的各个目标物体进行识别，然后再调用联合嵌入注意力网络进行计算，准确、全面地匹配目标问题的答案，提高图像问答的准确度。

在一个实施例中，所述识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，包括：

本实施例中，在计算图像的全局特征时，首先识别出图像中每一个所述目标物体的可视化特征，从而获取图像中每一个目标物体的可视化特征，其中，所述可视化特征包括目标物体的位置信息、大小信息与类型信息，即图像的全局特征由图像中包含的所有目标物体的可视化特征组成，此时的可视化特征仅需要计算目标物体的位置信息、大小信息与类型信息，即根据所述图像中每一个目标物体的位置信息、大小信息与类型信息计算所述图像的位置信息的平均值，大小信息的平均值以及类型信息的平均值，根据所述位置信息的平均值，大小信息的平均值以及类型信息的平均值确定图像的全局特征，将平均值作为图像的全局特征，能够快速地得到图像的全局特征。

在一个实施例中，所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，包括：

本实施例中，在计算图像中每一个目标物体的特征时，将每一个目标物体在图像中的特征定义为局部视觉特征，具体的，获取图像中每一个目标物体的可视化特征，所述可视化特征包括目标物体在所述图像中的位置信息、大小信息与类型信息，以及所述目标物体与所述图像中的其他目标物体的相对位置信息，根据图像的全局特征、每一个目标物体在所述图像中的位置信息、大小信息与类型信息，以及所述目标物体与所述图像中的其他目标物体的相对位置信息计算图像中的每一个目标物体的局部视觉特征。不仅计算目标物体在图像中的绝对位置信息，还包括计算目标物体与图像中其他目标物体的相对位置信息，从而能够更加清楚地为不同的目标物体生成局部视觉特征，更加完整地对图像及包含的目标物体进行描述，提高图像识别的准确度。

在一个实施例中，如图2所示，所述计算所述答案集合中各个答案的置信度，包括：

S61：获取答案集合中各个答案包含的单词；

S62：统计相同单词在所有答案中出现的频次，根据所述频次确定每一个单词的可信度；

S63：根据各个答案中每一个单词的可信度计算各个答案的置信度。

本实施例中，在计算所述答案集合中各个答案的置信度时，获取答案集合中各个答案包含的单词，不同的答案中包含有不同的单词，也包含有相同的单词，当获取了答案集合中的答案所包含的单词后，对所述单词进行统计，统计相同单词在所有答案中出现的频次，根据所述频次确定每一个单词的可信度，某一个单词出现的频次越高，则该单词的可信度越高，再根据各个答案中每一个单词的可信度计算各个答案的置信度，由于答案是由多个不同的单词组成，通过计算答案中每一个单词的可信度，便可获得该答案的总的单词可信度，将其定义为答案的置信度，通过统计每一个单词的可信度，进而确定答案的置信度，能够提高答案的筛选准确度。

在一个实施例中，所述根据所述置信度选取符合预设要求的答案作为目标答案之后，还包括：

获取所述目标问题的语言类型；

将所述目标答案按照所述语言类型输出。

本实施例中，在根据所述置信度选取符合预设要求的答案作为目标答案之后，获取所述目标问题的语言类型，将所述目标答案按照所述语言类型输出，即以目标问题相同的语言类型将所述目标答案输出，其中，所述语言类型包括目标问题的语言分类，如中文、英文、或者地方性语言；所述语言类型还包括目标问题的输入方式，包括文字输入或语音输入；然后将所述目标答案按照所述语言类型输出，当目标问题为中文时，将所述目标答案以中文形式输出，当目标问题为语音形式输入时，将目标答案以语言形式输出，从而适应不同的图像问答场景需求。

在一个实施例中，所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量之后，还包括：

获取所述目标物体的物体文本描述向量的数值；

将所述图像向量、待输入的物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算，得到所述目标问题的答案集合。

本实施例中，在根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量之后，存在目标物体所占图像的比例过小，该目标物体为图像中的多余信息，此时，获取所述目标物体的物体文本描述向量的数值，再将所述物体文本描述向量的数值与标准数值进行比较，选取所述数值满足预设要求的物体文本描述向量作为待输入的物体文本描述向量，即筛选掉数值过小的向量，然后将所述图像向量、待输入的物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算，得到所述目标问题的答案集合，将图像中的多余信息提前剔除，从而减少计算的数据量，提高目标问题答案的计算效率。

接收对所述目标答案的反馈信息；

本实施例中，根据所述置信度选取符合预设要求的答案作为目标答案之后，接收对所述目标答案的反馈信息，即接收对所述图像问答的答案的反馈，通过该反馈可以进一步确定目标答案的正确性，若所述反馈信息为负反馈信息，根据所述置信度从高到低的排序依次选取新的答案作为目标答案，即从答案结合中选取另一个答案作为目标答案，从而提高图像问答的自动化程度；另外，若所述反馈信息为正反馈信息，可以依据所述正反馈信息额外配置增加所述目标答案的置信度。

参照图3，本申请还提供一种基于图像的问答装置，包括：

数据获取模块10，用于获取输入的图像与目标问题；

图像识别模块20，用于识别所述图像以提取所述图像包含的目标物体；

全局特征模块30，用于根据所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量；

局部特征模块40，用于识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量；

联合嵌入模块50，用于将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合；

答案筛选模块60，用于计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案。

如上所述，可以理解地，本申请中提出的所述基于图像的问答装置的各组成部分可以实现如上所述基于图像的问答方法任一项的功能。

在一个实施例中，所述全局特征模块30还包括执行：

在一个实施例中，所述局部特征模块40还包括执行：

在一个实施例中，所述答案筛选模块60还包括执行：

获取答案集合中各个答案包含的单词；

在一个实施例中，所述答案筛选模块60还包括执行：

获取所述目标问题的语言类型；

将所述目标答案按照所述语言类型输出。

在一个实施例中，所述答案筛选模块60还包括执行：

接收对所述目标答案的反馈信息；

参照图4，本申请实施例中还提供一种计算机设备，该计算机设备可以是移动终端，其内部结构可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示装置及输入装置。其中，该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备的输入装置用于接收用户的输入。该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质。该存储介质存储有操作系统、计算机程序和数据库。该计算机设备的数据库用于存放数据。该计算机程序被处理器执行时以实现一种基于图像的问答方法。

上述处理器执行上述的基于图像的问答方法，包括：获取输入的图像与目标问题；识别所述图像以提取所述图像包含的各个目标物体；识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量；根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量；将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合；计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案。

所述计算机设备提供了一种融合全局特征与局部特征进行图像问答的方法，通过获取输入的图像与目标问题，识别所述图像以提取所述图像包含的目标物体，根据所述目标物体的可视化特征计算所述图像的全局特征，根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，基于所述全局特征与所述局部视觉特征能够准确地描述图像包含的信息，根据所述全局特征确定所述图像对应的图像向量，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量，将所述图像向量、物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算，得到所述目标问题的答案集合，计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案，通过全局特征与局部特征全面地对图像以及图像中包含的各个目标物体进行识别，然后再调用联合嵌入注意力网络进行计算，准确、全面地匹配目标问题的答案，提高图像问答的准确度。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被所述处理器执行时实现一种基于图像的问答方法，包括步骤：获取输入的图像与目标问题；识别所述图像以提取所述图像包含的各个目标物体；识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，根据所述全局特征确定所述图像对应的图像向量；根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量；将所述图像向量、物体文本描述向量和目标问题通过联合嵌入注意力网络进行计算，得到所述目标问题的答案集合；计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案。

所述计算机可读存储介质提供了一种融合全局特征与局部特征进行图像问答的方法，通过获取输入的图像与目标问题，识别所述图像以提取所述图像包含的目标物体，根据所述目标物体的可视化特征计算所述图像的全局特征，根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，基于所述全局特征与所述局部视觉特征能够准确地描述图像包含的信息，根据所述全局特征确定所述图像对应的图像向量，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量，将所述图像向量、物体文本描述向量和目标问题调用联合嵌入注意力网络进行计算，得到所述目标问题的答案集合，计算所述答案集合中各个答案的置信度，根据所述置信度选取符合预设要求的答案作为目标答案，通过全局特征与局部特征全面地对图像以及图像中包含的各个目标物体进行识别，然后再调用联合嵌入注意力网络进行计算，准确、全面地匹配目标问题的答案，提高图像问答的准确度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。

本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。

非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围。

凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于图像的问答方法，其特征在于，包括：

获取输入的图像与目标问题；

识别所述图像以提取所述图像包含的各个目标物体；

2.根据权利要求1所述的基于图像的问答方法，其特征在于，所述识别每一个所述目标物体的可视化特征，根据所有所述目标物体的可视化特征计算所述图像的全局特征，包括：

3.根据权利要求1所述的基于图像的问答方法，其特征在于，所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，包括：

4.根据权利要求1所述的基于图像的问答方法，其特征在于，所述计算所述答案集合中各个答案的置信度，包括：

获取答案集合中各个答案包含的单词；

5.根据权利要求1所述的基于图像的问答方法，其特征在于，所述根据所述置信度选取符合预设要求的答案作为目标答案之后，还包括：

获取所述目标问题的语言类型；

将所述目标答案按照所述语言类型输出。

6.根据权利要求1所述的基于图像的问答方法，其特征在于，所述根据所述每一个目标物体的可视化特征计算该目标物体在所述图像中的局部视觉特征，根据所述局部视觉特征确定各个所述目标物体的物体文本描述向量之后，还包括：

获取所述目标物体的物体文本描述向量的数值；

7.根据权利要求1所述的基于图像的问答方法，其特征在于，所述根据所述置信度选取符合预设要求的答案作为目标答案之后，还包括：

接收对所述目标答案的反馈信息；

8.一种基于图像的问答装置，其特征在于，包括：

数据获取模块，用于获取输入的图像与目标问题；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述基于图像的问答方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于图像的问答方法的步骤。