CN112800191A

CN112800191A - 一种基于图片的问答方法、设备及计算机可读存储介质

Info

Publication number: CN112800191A
Application number: CN202011632872.1A
Authority: CN
Inventors: 吴嘉嘉; 殷兵; 竺博; 刘聪
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-14
Anticipated expiration: 2040-12-31
Also published as: CN112800191B

Abstract

本申请公开了一种基于图片的问答方法、设备及计算机可读存储介质，该方法包括：获取基础图片和问题；从答案池中提取匹配问题的答案，答案池是基于基础图片训练得到。通过上述方式，本申请能够基于图片构建答案池，提高答案池中答案的丰富度及匹配问题的答案的精度。

Description

一种基于图片的问答方法、设备及计算机可读存储介质

技术领域

本申请涉及信息处理技术领域，特别是涉及一种基于图片的问答方法、设备及计算机可读存储介质。

背景技术

随着信息处理技术的发展，智能问答技术受到越来越多的关注，智能问答系统可以以一问一答的形式自动回答用户提出的问题。目前，智能问答系统主要是通过构建一个“全量”的答案池，答案池一般是根据应用场景来选定范围的，例如在辅助学生学习的场景中，答案池则为教育场景中的高频词汇。然后，通过大量数据进行训练，根据用户基于图片所问的问题，从答案池中选出最接近的答案。

本申请的发明人在长期的研发过程中，发现构建的“全量”的答案池有两大问题。一是，为了答案更加丰富，需要构建非常大的答案池，导致模型训练非常困难，并且需要非常大量的训练数据；二是，一旦答案池选定，就只能从现有的答案池中选出答案，降低了答案的丰富程度。

发明内容

本申请主要解决的技术问题是提供一种基于图片的问答方法、设备及计算机可读存储介质，能够基于图片构建答案池，提高了答案池中答案的丰富度及匹配问题的答案的精度。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种基于图片的问答方法，该方法包括：获取基础图片和问题；从答案池中提取匹配问题的答案，答案池是基于基础图片训练得到。

其中，从答案池中提取匹配问题的答案包括：获取基础图片中与问题相关的关联特征；计算关联特征与答案池中各答案样本的相似度，得到组成答案的答案样本。

其中，计算关联特征与答案池中各答案样本的相似度包括：将关联特征输入长短记忆神经网络，得到关联特征的特征向量；将各答案样本输入Bert网络，得到每个答案样本的嵌入向量；分别计算关联特征的特征向量与各个嵌入向量的相似度。

其中，计算关联特征与答案池中各答案样本的相似度，得到匹配问题的答案包括：将关联特征输入长短记忆神经网络，得到第一答案样本；将第一答案样本和关联特征输入长短记忆神经网络，得到第二答案样本；将第二答案样本作为第一答案样本执行将第一答案样本和关联特征输入长短记忆神经网络，得到第二答案样本的步骤，直至得到组成答案的所有答案样本。

其中，基于基础图片训练得到答案池包括：对基础图片进行文本检测和物体检测，得到基础图片中文本和物体的位置；分别获取基础图片中文本和物体的语义特征；将基础图片中文本和物体的语义特征作为答案样本，形成答案池。

其中，将基础图片中文本和物体的语义特征作为答案样本，形成答案池包括：将基础图片中的文本内容和基础图片中物体的名称作为答案样本，形成答案池。

其中，获取基础图片中与问题相关的关联特征包括：获取基础图片的融合特征和问题的特征；利用自注意力交互模型对融合特征和问题的特征进行处理，获取关联特征。

其中，获取基础图片的融合特征包括：对基础图片进行文本检测和物体检测，得到基础图片中文本和物体的位置；分别获取文本和物体的视觉特征、语义特征和位置特征；将视觉特征、语义特征、位置特征进行融合，得到基础图片的融合特征。

其中，将视觉特征、语义特征、位置特征进行融合，得到基础图片的融合特征包括：将视觉特征、语义特征、位置特征进行拼接，得到文本和物体的特征表达；利用融合自注意力模型对文本和物体的特征表达进行处理，得到融合特征。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种基于图片的问答设备，该设备包括处理器，处理器用于执行指令以实现上述的基于图片的问答方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质用于存储指令/程序数据，指令/程序数据能够被执行以实现上述的基于图片的问答方法。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种基于图片的问答方法、设备及计算机可读存储介质，该方法包括获取基础图片和问题；从答案池中提取匹配问题的答案。本申请基于基础图片构建答案池，使得答案池中的答案更加丰富，提高了匹配问题的答案的精度。

附图说明

图1是本申请提供的基于图片的问答方法一实施方式的流程示意图；

图2是本申请提供的基于基础图片训练得到答案池一实施方式的流程示意图；

图3是本申请提供的Bert网络模型架构图；

图4是本申请提供的获取基础图片中与问题相关的关联特征一实施方式的流程示意图；

图5是图4所示实施方式中步骤S310的流程示意图；

图6是本申请提供的可视化数据库预训练模型的架构图；

图7是本申请提供的从答案池提取匹配问题的答案一实施方式的流程示意图；

图8是本申请提供的一基础图片的示意图；

图9是本申请提供的注意力地图丢失模型的架构图；

图10是本申请提供的从答案池提取匹配问题的答案另一实施方式的流程示意图；

图11是本申请提供的基于图片的问答方法的流程框架示意图；

图12是本申请提供的基于图片的问答装置的结构示意图；

图13是本申请提供的基于图片的问答设备的结构示意图；

图14是本申请提供的计算机可读存储介质的结构示意图。

具体实施方式

为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。

请参阅图1，图1是本申请提供的基于图片的问答方法一实施方式的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图1所示的流程顺序为限。如图1所示，本实施方式包括：

S110：获取基础图片和问题。

其中，问题是与基础图片相关的问题，即问题可以是针对基础图片的任何问题，例如，图片中指定对象是什么等。

在一实施方式中，可以利用终端设备获取基础图片和问题，终端设备可以获取一张基础图片和一个问题，此时该问题是针对获取的一张基础图片的相关问题。在其他实施方式中，终端设备也可同时接收至少两张图片和一个问题，此时该问题是针对获取的多张基础图片的相关问题。

其中，基础图片可以为任意大小尺寸的图片，在此不做具体限定。

S120：从答案池中提取匹配问题的答案。

其中，答案池是基于基础图片训练得到的，也就是说，答案池是基于获取的基础图片中文本和物体构建的，答案池中的答案样本会随着获取的基础图片的改变而发生变动。

在该实施方式中，答案池是基于基础图片训练获得的，且问题是基于基础图片的相关问题，所以答案池中的答案样本与问题的匹配度较高，提高了匹配问题的答案的精度；并且由于答案池是基于基础图片获得的，不再局限于固定的答案池，提高答案池中答案样本的丰富性。

请结合参阅图2-图3，图2是本申请提供的基于基础图片训练得到答案池一实施方式的流程示意图，图3是本申请提供的Bert网络模型架构图。需注意的是，若有实质上相同的结果，本实施例并不以图2所示的流程顺序为限。如图2所示，本实施方式包括：

S210：获取基础图片。

步骤S210对基础图片的获取与上述实施例中步骤S110对基础图片的获取类似，在此不再赘述。

S220：对基础图片进行文本检测和物体检测，得到基础图片中文本和物体的位置。

其中，文本作为一个整体也可看作基础图片中的一个物体。在该实施方式中，通过对基础图片进行文本检测和物体检测，能够得到基础图片中的物体和文本在基础图片中的具体位置。例如，可以以坐标的形式体现物体和文本在基础图片中的位置。

S230：分别获取基础图片中文本和物体的语义特征。

如图3所示，本实施方式中，获取基础图片中文本和物体的语义特征采用的是Bert网络模型。

其中，Bert网络模型能识别带有标识符的文本和物体，从而输出文本的语义特征和物体的语义特征。以基础图片中的文本为例，例如输入文本“Welcome Madeleine EllenElizabeth”，先对文本进行分词处理得到分词文本“Welcome”、“Madeleine”、“Ellen”和“Elizabeth”；然后对每个词添加标识符，标识符有CLS标识符和SEP标识符，CLS标识符表示文本开始，SEP标识符表示文本结束；然后将添加标识符的词转换成固定维的向量；区分输入Bert网络模型中的不同句子，将不同句子转换为不同的向量，作为标识句子的向量；并对不同位置的词分别附加一个不同的向量作为区分，以作为每个词在句子中的位置向量；将每个词携带的字向量、段向量和位置向量融合相加，得到文本综合语义的向量矩阵；通过对Bert网络模型进行预训练，可以采用预训练模型，使得经过预训练的Bert网络模型，对文本综合语义的向量矩阵进行运算，以得到基础图片中文本的语义特征。

S240：将基础图片中文本和物体的语义特征作为答案样本，形成答案池。

在该实施方式中，将步骤S230获得的基础图片中文本和物体的语义特征进行组合，构成答案池。

可选地，文本的语义特征可以是文本中的内容，物体的语义特征可以是物体的名称。在一具体实施方式中，通过对Bert网络模型进行预训练，使得经过预训练的Bert网络模型，对基础图片中的文本和物体进行学习，获取基础图片中文本的内容和物体的名称，将基础图片中的文本内容和基础图片中物体的名称作为答案样本，构成答案池。

请参阅图4，图4是本申请提供的获取基础图片中与问题相关的关联特征一实施方式的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图4所示的流程顺序为限。如图4所示，本实施方式包括：

S310：获取基础图片的融合特征和问题的特征。

融合特征为基础图片的多种特征的融合，例如，可以采用将基础图片的多种特征直接融合，得到融合特征。

问题的特征的获取采用的是Bert网络模型，通过对Bert网络模型进行预训练，使得经过预训练的Bert网络模型，对问题综合语义的向量矩阵进行运算，以得到问题的语义特征。

S320：利用自注意力交互模型对融合特征和问题的特征进行处理，获取关联特征。

其中，关联特征是与问题最相关的特征。该实施方式中，利用自注意力交互模型对融合特征和问题的特征进行运算，获得与问题最相关的特征，即关联特征。

具体地，可通过自注意力交互模型公式对融合特征和问题的特征进行运算，以得到关联特征，具体公式如下：

α_i＝soft max(e₁，e₂，...，eN，)

其中，c为关联特征，q为问题的特征，i为第i维特征，N为物体和文本的总个数，

为融合特征，w、A、B为自注意力交互模型参数。

请参阅图5，图5是图4所示实施方式中步骤S310的流程示意图，图6是本申请提供的可视化数据库预训练模型的架构图。在一具体实施方式中，可采用图5所示的方案进行处理，以获取基础图片中与问题相关的关联特征，具体包括以下实施方式：

S311：对基础图片进行文本检测和物体检测，得到基础图片中文本和物体的位置。

步骤S311对基础图片进行文本检测和物体检测与上述实施例中步骤S220类似，在此不再赘述。

S312：分别获取文本和物体的视觉特征、语义特征和位置特征。

获取文本和物体的视觉特征采用的是可视化数据库的预训练模型。通过对可视化数据库网络模型进行预训练，可以采用预训练模型，使得经过预训练的可视化数据库网络模型，能够提取基础图片中文本和物体的图像信息，并输出为文本和物体的固定维的视觉特征。

具体地，如图6所示，从基础图片中切出文本和物体，并调整切出的物体和文本的尺寸大小，使其适应可视化数据库的预训练模型。通过将从基础图片中切出的文本和物体输入可视化数据库的预训练模型，使可视化数据库的预训练模型对输入的文本和物体进行运算学习，以得到文本和物体的视觉特征。

获取文本和物体的语义特征采用的是Bert网络模型，通过Bert网络模型获取文本和物体的语义特征的具体过程与上述实施例中步骤S230类似，在此不再赘述。

获取文本和物体的位置特征采用的是位置特征形成公式。具体地，将步骤S220获得的基础图片中文本和物体的位置，即文本和物体的位置坐标，通过位置特征形成公式运算得到文本和物体的位置特征，具体公式如下：

PE(pos，2i)＝sin(pos/10000^2i/d)

PE(pos，2i+1)＝coS(pos/10000^2i/d)

其中，PE为位置编码，pos为文本或物体的位置坐标，i为第i维特征，d为位置特征的总维数。

S313：将视觉特征、语义特征、位置特征进行拼接，得到文本和物体的特征表达。

在该实施方式中，将步骤S312获得的视觉特征、语义特征和位置特征进行拼接，得到基础图片中文本和物体的特征表达。可选地，可采用直接拼接法将视觉特征、语义特征和位置特征进行拼接，在此不做具体限定。例如，视觉特征为100维，语义特征为100维，位置特征为100维，则采用直接拼接后为300维。

S314：利用融合自注意力模型对文本和物体的特征表达进行处理，得到融合特征。

其中，融合自注意力模型能够捕捉到全部输入的特征信息，并通过输入特征进行两两运算得出权重，再对输入的特征进行加权求和得到输出结果。在该实施方式中，利用融合自注意力模型对视觉特征、语义特征和位置特征进行拼接获得的特征表达进行处理，实现对视觉特征、语义特征和位置特征的进一步融合，从而得到融合特征。

具体地，将步骤S313获得的文本和物体的特征表达，通过融合自注意力模块公式运算得到文本和物体的融合特征，具体公式如下：

其中，Q为Query向量，K为Key向量，V为Value向量，F为融合前的特征，

为融合特征。

请参阅图7，图7是本申请提供的从答案池提取匹配问题的答案一实施方式的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图7所示的流程顺序为限。如图7所示，本实施方式包括：

S410：获取基础图片中与问题相关的关联特征。

步骤S410对基础图片中与问题相关的关联特征的获取与上述实施例中步骤S320类似，在此不再赘述。

S420：将关联特征输入长短记忆神经网络，得到关联特征的特征向量；将各答案样本输入Bert网络，得到答案样本的嵌入向量。

长短记忆神经网络可看作是一个解码端的输入，将步骤S410获得的与问题相关的关联特征输入解码端，解码出关联特征的特征向量。

答案样本的嵌入向量采用的是Bert网络模型。具体地，利用Bert网络型对答案池中的每个样本进行学习，得到答案池中每个样本的嵌入向量。

S430：分别计算关联特征的特征向量与各个嵌入向量的相似度。

其中，关联特征的特征向量与各个嵌入向量的相似度计算采用的是注意力地图丢失模型。通过对注意力地图丢失模型进行预训练，可以采用已有的预训练网络，使用经过预训练的注意力地图丢失模型，对关联特征的特征向量与各个嵌入向量的相似度计算进行学习，获取关联特征的特征向量与每个嵌入向量的相似度，相似度最大的为问题所对应的答案样本。

具体地，可通过注意力地图丢失模型中的相似度计算公式对关联特征的特征向量和各个嵌入向量进行运算，具体公式如下：

其中，h为长短记忆神经网络解码输出的特征向量，v为答案池中每个样本的嵌入向量。可通过归一化函数得到归一化后的相似度系数：

注意力地图丢失模型实质就是归一化后的相似度系数与独热编码的交叉熵损失。

请参阅图8-图9，图8是本申请提供的一基础图片的示意图，图9是本申请提供的注意力地图丢失模型的架构图。在一具体实施方式中，基于图8所示的基础图片构建答案池，则该基础图片的答案池为“school、bus、stop、ahead、house、tree、green、law”。

进一步地，如图9所示，将答案池中的每个答案样本输入Bert网络模型，获得答案池中每个答案样本的嵌入向量；同时获取基础图片中与问题相关的关联特征的特征向量；利用注意力地图丢失模型作为损失函数进行模型训练，对输入的每个答案样本的嵌入向量和关联特征的特征向量进行相似度计算，相似度最大的嵌入向量即为匹配问题的答案。

请参阅图10，图10是本申请提供的从答案池提取匹配问题的答案另一实施方式的流程示意图。需注意的是，若有实质上相同的结果，本实施例并不以图10所示的流程顺序为限。如图10所示，本实施方式包括：

S510：获取基础图片中与问题相关的关联特征。

步骤S510对基础图片中与问题相关的关联特征的获取与上述实施例中步骤S320类似，在此不再赘述。

S520：将关联特征输入长短记忆神经网络，得到关联特征的特征向量；将各答案样本输入Bert网络，得到各答案样本的嵌入向量。

步骤S520对关联特征的特征向量的获取和各答案样本的嵌入向量的获取与上述实施例中步骤S420类似，在此不再赘述。

S530：将关联特征输入长短记忆神经网络，得到第一答案样本。

在该实施方式中，将基础图片中与问题相关的关联特征输入长短记忆神经网络，即将基础图片中与问题相关的关联特征作为解码端的输入，并在注意力地图丢失模型与各答案样本的嵌入向量进行相似度计算，得到第一答案样本输出。

需要说明的是，如果匹配问题的答案为单个答案样本构成，则在获得第一答案样本后会解析出结束符，表明已获得匹配问题的答案；如果匹配问题的答案为多个答案样本构成时，则在获得第一答案样本后继续执行步骤S540。例如，匹配问题的答案为“Hello andWorld”，则在解析出第一答案样本“Hello”后执行S540步骤继续进行解析。

S540：将第一答案样本和关联特征输入长短记忆神经网络，得到第二答案样本。

在该实施方式中，匹配问题的答案不是一个答案样本而是由多个答案样本组成，此时将第一答案样本和关联特征同时输入长短记忆神经网络，并在注意力地图丢失模型中继续进行相似度计算，得到第二答案样本输出，第二答案样本为匹配问题的答案中另一个解码结果。例如，匹配问题的答案为“Hello and World”，在解析出第一文本“Hello”后，继续解析得到第二文本“Hello and”。

S550：将第二答案样本作为第一答案样本执行将第一答案样本和关联特征输入长短记忆神经网络，得到第二答案样本的步骤，直至得到组成答案的所有答案样本。

在该实施方式中，将第二答案样本作为第一答案样本继续执行步骤S540，直至解析出结束符，即解析出组成答案的所有答案样本。例如，匹配问题的答案为“Hello andWorld”，在得到第二答案样本“Hello and”后，将第二答案样本作为第一答案样本继续执行步骤S540，直至匹配问题的答案中的每个答案样本都被解析出来，并解析出结束符后停止解析，表明获得匹配问题的答案的所有答案样本。

本申请提供的基于图片的问答方法以单词方式进行答案的序列输出，答案模式灵活，能够产生丰富的答案形式。

请参阅图11，图11是本申请提供的基于图片的问答方法的流程框架示意图。在一具体实施方式中，如图11所示，首先获取基础图片和问题“What is written on window”；然后基于获取的基础图片，利用Bert网络语义理解模型，获得基础图片中文本的内容和物体的名称，构建答案池，例如以图11中图片为例，构建的答案池为“car、taxi、not inservice、white、tyre”。

其次，利用可视化数据库的预训练模型获得基础图片中文本和物体的视觉特征；利用Bert网络语义理解模型获得基础图片中文本和物体的语义特征；利用位置特征形成公式获得基础图片中文本和物体的位置特征；利用融合自注意力模型对基础图片中文本和物体的视觉特征、语义特征和位置特征进行融合，得到融合特征向量。

利用Bert网络语义理解模型获得问题的特征向量；利用自注意力交互模型对融合特征向量和问题的特征向量进行处理，获得与问题关联的关联特征向量。

进一步地，利用长短记忆神经网络获得关联特征的特征向量；利用Bert网络语义理解模型获得答案池中各答案样本的嵌入向量；利用注意力地图丢失模型计算关联特征的特征向量与嵌入向量的相似度，相似度最大的即可作为匹配问题的答案。

基于上述实施方式，本申请通过基础图片构建答案池，使得答案池中的答案更加丰富，并且通过计算答案池中各答案样本与问题的相似度，从答案池中获得匹配问题的答案，提高了匹配问题的答案的精度。并且以单词方式进行答案的序列输出，答案模式灵活。

请参阅图12，图12是本申请提供的基于图片的问答装置的结构示意图。该实施方式中，基于图片的问答设备包括获取模块61和处理模块63。

其中，获取模块61用于获取基础图片和问题；处理模块63用于从答案池中提取匹配问题的答案。该设备用于基于图片的问答时，通过所获取的基础图片构建答案池，使得答案池中的答案更加丰富，并且从答案池中提取匹配问题的答案，提高了匹配问题的答案的精度。

请参阅图13，图13是本申请提供的基于图片的问答设备的结构示意图。该实施方式中，基于图片的问答设备10包括处理器11。

处理器11还可以称为CPU(Central Processing Unit，中央处理单元)。处理器11可以是一种集成电路芯片，具有信号的处理能力。处理器11还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器11也可以是任何常规的处理器等。

基于图片的问答设备10可以进一步包括存储器(图中未示出)，用于存储处理器11运行所需的指令和数据。

处理器11用于执行指令以实现上述本申请基于图片的问答方法任一实施例及任意不冲突的组合所提供的方法。

请参阅图14，图14是本申请提供的计算机可读存储介质的结构示意图。本申请实施例的计算机可读存储介质20存储有指令/程序数据21，该指令/程序数据21被执行时实现本申请基于图片的问答方法任一实施例以及任意不冲突的组合所提供的方法。其中，该指令/程序数据21可以形成程序文件以软件产品的形式存储在上述存储介质20中，以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质20包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于图片的问答方法，其特征在于，所述方法包括：

获取基础图片和问题；

从答案池中提取匹配所述问题的答案，所述答案池是基于所述基础图片训练得到。

2.根据权利要求1所述的基于图片的问答方法，其特征在于，所述从答案池中提取匹配所述问题的答案包括：

获取所述基础图片中与所述问题相关的关联特征；

计算所述关联特征与所述答案池中各答案样本的相似度，得到组成所述答案的答案样本。

3.根据权利要求2所述的基于图片的问答方法，其特征在于，所述计算关联特征与所述答案池中各所述答案样本的相似度包括：

将所述关联特征输入长短记忆神经网络，得到所述关联特征的特征向量；

将各所述答案样本输入Bert网络，得到每个所述答案样本的嵌入向量；

分别计算所述关联特征的特征向量与各个所述嵌入向量的相似度。

4.根据权利要求3所述的基于图片的问答方法，其特征在于，所述计算关联特征与所述答案池中各所述答案样本的相似度，得到组成所述答案的答案样本包括：

将所述关联特征输入所述长短记忆神经网络，得到第一答案样本；

将所述第一答案样本和所述关联特征输入所述长短记忆神经网络，得到第二答案样本；

将所述第二答案样本作为所述第一答案样本执行所述将所述第一答案样本和所述关联特征输入所述长短记忆神经网络，得到所述第二答案样本的步骤，直至得到组成所述答案的所有答案样本。

5.根据权利要求1所述的基于图片的问答方法，其特征在于，所述基于基础图片训练得到所述答案池包括：

对所述基础图片进行文本检测和物体检测，得到所述基础图片中文本和物体的位置；

分别获取所述基础图片中文本和物体的语义特征；

将所述基础图片中文本和物体的语义特征作为答案样本，形成所述答案池。

6.根据权利要求5所述的基于图片的问答方法，其特征在于，所述将基础图片中文本和物体的语义特征作为答案样本，形成所述答案池包括：

将所述基础图片中的文本内容和所述基础图片中物体的名称作为所述答案样本，形成所述答案池。

7.根据权利要求2所述的基于图片的问答方法，其特征在于，所述获取基础图片中与所述问题相关的关联特征包括：

获取所述基础图片的融合特征和所述问题的特征；

利用自注意力交互模型对所述融合特征和所述问题的特征进行处理，获取所述关联特征。

8.根据权利要求7所述的基于图片的问答方法，其特征在于，所述获取基础图片的融合特征包括：

分别获取所述文本和物体的视觉特征、语义特征和位置特征；

将所述视觉特征、语义特征、位置特征进行融合，得到所述基础图片的融合特征。

9.根据权利要求8所述的基于图片的问答方法，其特征在于，所述将视觉特征、语义特征、位置特征进行融合，得到所述基础图片的融合特征包括：

将所述视觉特征、语义特征、位置特征进行拼接，得到所述文本和物体的特征表达；

利用融合自注意力模型对所述文本和物体的特征表达进行处理，得到所述融合特征。

10.一种基于图片的问答设备，其特征在于，所述基于图片的问答设备包括处理器，所述处理器用于执行指令以实现如权利要求1-9中任一项所述的基于图片的问答方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令/程序数据，所述指令/程序数据能够被执行以实现如权利要求1-9中任一项所述的基于图片的问答方法。