CN114840697B

CN114840697B - 一种云服务机器人的视觉问答方法及系统

Info

Publication number: CN114840697B
Application number: CN202210389990.7A
Authority: CN
Inventors: 周风余; 范崇锋; 刘进; 尹磊; 陈建业
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2024-04-26
Anticipated expiration: 2042-04-14
Also published as: CN114840697A

Abstract

本发明属于服务机器人视觉问答领域，提供了一种云服务机器人的视觉问答方法及系统，包括获取待查询的信息交互图片数据及其包含的视觉信息；基于改进后的视觉问答模型，得到融合预测结果；将待查询的信息交互数据与融合预测结果进行匹配，得到最相似组的信息交互参考预测结果，并作为视觉问答系统的输出结果；本发明利用了偏差消除与对比学习方法的独特优势，更聚焦于图片中重要元素信息，优化得分元素占比，充分利用参考样本信息，强化实体嵌入，消弭语义偏差，改进服务机器人的视觉问答模型，从而提高了实际服务器人的人机交互问答的准确性，使得服务器人的体验性更好。

Description

一种云服务机器人的视觉问答方法及系统

技术领域

本发明属于服务机器人视觉问答技术领域，具体涉及一种云服务机器人的视觉问答方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

服务机器人已经广泛应用于如迎宾、无接触消毒配送等多种现实场景中。在以上场景中，基于视觉的人机交互的问答功能发挥着不可或缺的作用。但由于其本体对于视觉信息利用率低，服务机器人在人机对话时单纯采集对象语义信息、而不能利用视觉图像中的大量重要信息，这使得大多数服务机器人人机交互能力低下，问答结果误差较大，大多数机器人只能应用于特定语义小场景，在很大程度上限制了服务机器人的发展。为提升模型适应家庭和医院等环境下处理复杂结构数据的泛化性，针对视觉信息提出构建多任务协同和参数共享的视觉问答(Visual Question Answering,VQA)功能，以获取对话模态中的先验数据(图片加文本描述)、场景信息、实体及空间关系，更好地提升机器人服务靶向性与人性化，使机器人问答服务功能更加智能，更好理解视觉信息意图。

服务机器人的视觉问答系统相比于传统的语音问答系统而言，是一项结合计算机视觉和自然语言处理的学习任务。计算机视觉主要是对给定图像进行处理，包括图像识别，图像分类等任务。自然语言处理主要是对自然语言文本形式的内容进行处理以及理解，包括机器翻译，信息检索，生成文本摘要等任务。视觉问答是需要对给定图像和问题进行处理，经过一定的视觉问答技术处理过后生成自然语言答案，是对二者的结合。

然而在持续的视觉问答过程中，由于服务机器人不断与外界进行视觉交互与语义采集，机器人会累积大量细微偏差，当偏差累积到一定饱和度，针对视觉的问答效果会明显降低；且因为服务机器人工作场景复杂，如医院等同一时刻大量视觉信息传入，机器人难以对噪声进行精确清洗并对主要信息进行聚焦，造成问答结果过渡依赖先验知识，实际场景视觉信息抓取度与区分度不够，其服务性能鲁棒性较差且场景考虑单一，传统的单一优化算法也存在稳定性差的缺点，难以被广泛使用。

发明人在研发的过程中发现，现有的视觉问答算法系统，存在稳定性差、耗费成本巨大缺点，因此，难以将理论分析应用于实际评价。

发明内容

为了解决上述问题，本发明提出了一种云服务机器人的视觉问答方法及系统，本发明为了提升服务机器人视觉问答系统精确度与鲁棒性，借助多次消偏法以及对比学习算法构建高质量服务机器人VQA系统，其能够提高实际服务器人的人机交互问答的准确性，使得服务机器人的体验性更好。

根据一些实施例，本发明的第一方案提供了一种云服务机器人的视觉问答方法，采用如下技术方案：

一种云服务机器人的视觉问答方法，包括：

获取待查询的信息交互图片数据及其包含的视觉信息；

基于改进后的视觉问答模型，得到融合预测结果；

将待查询的信息交互数据与融合预测结果进行匹配，得到最相似组的信息交互参考预测结果，并作为视觉问答系统的输出结果；

其中，改进后的视觉问答模型，包括：

消偏模块，通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏，得到处理后的先验数据集中的文本信息；

对比学习模块，通过将待查询的信息交互图片数据及其包含的视觉信息与处理后的先验数据集中的视觉信息进行对比学习，提取图片信息；

词性提取模块，通过提取问答句子中的关键物体名词，通过提取到的关键物体名词对图片信息进行聚焦定位，得到定位后的图片信息；

特征融合模块，将处理后的先验数据集中的文本信息与定位后的图片信息进行融合，得到融合预测结果。

进一步地，所述通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏，得到处理后的先验数据集中的文本信息，包括：

获取不同场景下机器人视觉问答的先验数据进行特征编码，得到语义预测概率分布；

通过答案的出现次数形成候选答案集，将每一个候选答案作为分类的标签，输出语义最高预测概率分布；

基于消除偏差框架进行两次消除偏差的过程，将最高预测概率分布项和次高预测概率分布项隐藏，得到二次消偏后预测分布概率中的文本信息；

基于二次消偏后预测分布概率，得到处理后的先验数据集。

进一步地，所述获取不同场景下机器人视觉问答的先验数据进行特征编码，得到语义预测概率分布，包括：

根据不同场景下机器人语言信息统计先验知识，得到机器人视觉问答的先验数据；

对机器人视觉问答的先验数据进行特征编码；

将特征编码后的机器人视觉问答的先验数据转化为语义预测概率分布。

进一步地，所述基于消除偏差框架进行两次消除偏差的过程，将最高预测概率分布项和次高预测概率分布项隐藏，得到二次消偏后预测分布概率，具体为：

基于一次消除偏差框架，将语义预测概率分布中最高预测概率分布项隐藏，得到一次消偏后预测分布概率；

基于二次消除偏差框架，将一次消偏后预测分布概率中最高预测概率分布项隐藏，得到二次消偏后预测分布概率。

进一步地，所述次高概率分布项就是一次消偏后预测分布概率中最高预测概率分布项。

进一步地，通过将待查询的信息交互图片数据及其包含的视觉信息与处理后的先验数据集中的视觉信息进行对比学习，提取图片信息，包括：

获取先验数据集中的图片-问题样本对和待查询的图片-问题样本对；

将先验数据集中包含的视觉信息与待查询的图片-问题样本对中的视觉信息进行比对；

提取图片信息。

进一步地，所述通过提取问答句子中的关键物体名词，通过提取到的关键物体名词对图片信息进行聚焦定位，得到定位后的图片信息，包括：

使用两个注意力模块提取问答句子中的上下文特征；

使用两个注意力模块提取问答句子中的视觉语义特征；

将提取的上下文特征与视觉语义特征连接，得到关键物体名词表征；

将关键物体名词表征对图片信息进行聚焦定位，得到定位后的图片信息。

根据一些实施例，本发明的第二方案提供了一种云服务机器人的视觉问答系统，采用如下技术方案：

一种云服务机器人的视觉问答系统，包括：

数据获取模块，被配置为获取待查询的信息交互图片数据及其包含的视觉信息；

融合预测模块，被配置为基于改进后的视觉问答模型，得到融合预测结果；

匹配查找模块，被配置为将待查询的信息交互数据与融合预测结果进行匹配，得到最相似组的信息交互参考预测结果，并作为视觉问答系统的输出结果；

其中，改进后的视觉问答模型，包括：

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的一种云服务机器人的视觉问答方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的一种云服务机器人的视觉问答方法中的步骤。

与现有技术相比，本发明的有益效果为：

1、本发明为了提升服务机器人视觉问答系统精确度与鲁棒性，借助多次消偏法以及对比学习算法构建高质量服务机器人VQA系统，其能够提高实际服务器人的人机交互问答的准确性，使得服务机器人的体验性更好。

2、本发明有效地利用了偏差消除与对比学习方法的独特优势，更聚焦于图片中重要元素信息，优化得分元素占比，充分利用参考样本信息，强化实体嵌入，消弭语义偏差，提高了实际服务器人的人机交互问答的准确性，使得服务器人的体验性更好。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一中云服务机器人的视觉问答模型的工作流程图；

图2是本发明实施例一中先验数据图片-文字样本对参考实例；

图3是本发明实施例一中消偏模型中LSTM结构示意图；

图4是本发明实施例一中自监督学习SSL模型示意图；

图5是本发明实施例一中VQA-cpv2测试集基线模型与本模型问答得分实验结果图；

图6是本发明实施例一中VQAv2val测试集基线模型与本模型问答得分实验结果图；

图7是本发明实施例一中云服务机器人的视觉问答方法中一次消偏网络消融实验结果图；

图8是本发明实施例一中云服务机器人的视觉问答方法中二次消偏网络消融实验结果图；

图9是本发明实施例一中云服务机器人的视觉问答方法中视觉问答模型中对比学习模块消融实验结果图；

图10是本发明实施例一中云服务机器人的视觉问答方法中视觉问答模型中词性提取模块消融实验结果图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种云服务机器人的视觉问答方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

步骤S1：获取待查询的信息交互图片数据及其包含的视觉信息；

步骤S2：基于改进后的视觉问答模型，得到融合预测结果；

步骤S3：将待查询的信息交互数据与融合预测结果进行匹配，得到最相似组的信息交互参考预测结果，并作为视觉问答系统的输出结果；

其中，改进后的视觉问答模型，包括：

词性提取模块，通过提取问答句子中的关键物体名词，通过提取到的关键物体名词对图片信息融合进行聚焦定位，得到定位后的图片信息；

具体地，在步骤S2中，消偏模块，通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏，得到处理后的先验数据集中的文本信息，具体为：

基于消除偏差框架进行两次消除偏差的过程，将最高预测概率分布项和次高预测概率分布项隐藏，得到二次消偏后预测分布概率；

基于二次消偏后预测分布概率，得到处理后的先验数据集中的文本信息。

其中，所述次高概率分布项就是一次消偏后预测分布概率中最高预测概率分布项。

具体地，构建不同场景下的先验统计模型，针对VQA先验文本数据进行特征编码。视觉问答任务作为一种交互性任务，特别是现实场景中的问答往往需要先验与常识知识的引入。模型不仅需要完成视觉和语言模态上的表征学习，还需要外部知识的整合与逻辑关系的推理。首先，模型根据语言信息统计先验知识，得到查询先验知识：

init Q＝{A_i＝0},i∈1,2,3,...N (1)

其中，A_i代表某类先验知识输出，N代表种类数。

模型针对VQA先验文本数据进行特征编码，将先验查询知识统计转化为输出语义预测概率分布：

其中，DQ表示将先验知识统计转化为概率分布的概率，表示第i个节点的查询输出值，N为输出节点的个数。通过Softmax函数就可以将先验数据统计的输出值转换为范围在[0,1]、和为1的概率分布。

针对VQA先验文本数据，通过答案出现的次数来形成候选答案集，将每一个候选答案作为分类的标签，输出语义最大预测概率分布：

其中，DA_max表示候选答案集中最大预测结果对应概率，表示第i个节点(最大可能答案)的候选答案集输出值，N为输出节点的个数。

例如：如图2所示，待查询图片-问题对picture-question：图中的香蕉是什么颜色的？根据预先统计的先验知识，模型通过预测得到最大预测概率分布的输出结果answer：黄色。

然而这个结果不是普适的，经实验证明，如果测试集与验证集中各色香蕉图片比例不同时，会出现估计依赖偏差的情形，即针对正确输出结果answer：绿色的香蕉图片，输出输出结果answer仍为：黄色。因为在持续的视觉问答过程中，由于服务机器人不断与外界进行视觉交互与语义采集，机器人会累积大量细微偏差，当偏差累积到一定饱和度，针对视觉的问答效果会明显降低。因此首先需要消除一次偏差。

首先，针对模型预测评估指标，引入损失偏差函数：

L＝softmax(F(A|v,q)) (5)

其中，L表示模型一次偏差，F表示模型预测答案的概率，v表示视觉提取后的特征，q为经过LSTM后的语义特征。

其中，本实施例中LSTM长短时记忆网络用于先验知识特征编码，用于消偏过程中先验文本知识编码。

具体的，我们使用图3中循环处理器中LSTM执行多个步骤匹配得到输出q。LSTM隐藏层的输入包括上一时刻隐藏层的状态c_t-1、上一时刻隐藏层的输出向量h_t-1与当前时刻的序列输入x_t。LSTM的遗忘门控制对上一个存储单元状态的记忆，决定上一时刻存储单元状态c_t-1中的多少信息可以传递到当前时刻c_t中；输入门决定当前序列输入x_t中的多少信息可以保存到当前时刻c_t；输出门基于新状态c_t得到当前时刻的输出h_t。

LSTM的更新方式可表示为：

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f) (6)

i_t＝σ(W_xix_t+W_hih_t-1+b_i) (7)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o) (8)

h_t＝o_t·tanh(c_t) (11)

式中，c_t为当前时刻存储单元状态信息，为当前时刻积累的状态信息，W表示不同门所对应的权重系数矩阵，b表示的偏置项，σ和tanh分别代表sigmoid激活函数和tanh激活函数。

通过消除一次偏差，使L最小化，我们引入一次消除偏差框架，将输出的预测分布数据中最高预测概率分布项隐藏，防止模型对最大概率分布进行过度预测依赖，并获得一次消偏后预测分布概率。

针对一次消偏后预测分布概率进行处理，构造二次消除偏差框架，引入inversebias，进行二次消偏。

具体地实施例中，

首先，我们通过提取处理后的视觉与语义特征，获取模型预测答案概率：

P_a＝softmax(F(A|v,q)) (12)

为了防止模型过度倾向第二种类型答案，我们引入inverse bias，进行二次消偏。例如：待查询图片-问题对picture-question中黄色香蕉出现比例最大，其次是绿色，往后依次是其他颜色。

通过一次消偏网络，将预测概率最大的answer：黄色隐藏，然而模型会继续对次高概率answer：绿色倾向依赖。

因此我们引入二次消偏框架。具体的，其次将模型预测答案概率P_a和真实答案分布DA_max比较，获取偏差：

b＝ReLu(P_a-DA_max) (13)

其中b为二次偏差，α为可调节的参数。

综上，引入二次消除偏差框架，模型预测答案概率P_a和真实答案分布DA_max对应预测分布结构取差值，得到差值结果去除所有正值，即将一次消偏后的预测分布数据中最高预测概率分布项隐藏，防止模型对次高概率分布进行过度预测依赖，并输出二次消偏后预测分布。

对本实施例中的消偏模块进行仿真验证。

模型在训练过程中会产生大量的原始数据，这些原始数据存在大量的缺失和噪声，严重影响了数据的质量，对挖掘有效信息造成了一定的困扰，应用一些方法，如数据切割，可以提高数据的质量。

实验在公开数据集VQA-CP数据集与VQAv2数据集上进行实验。当训练分割和测试分割的答案分布显著不同时，提出了VQA-cp数据集来评价VQA模型的鲁棒性。在VQAv2数据集上输出实验结果，以查看该方法是否过度纠正了语言偏差。通过计算精度对该模型进行了评价。

将基于视觉问答的云机器人服务对比消偏模型与多个基线模型在相同参数预训练模型下进行训练，对于所有实现的VQA学习方法，我们通过预训练模型初始化图片与文本描述嵌入。

在模型训练前对图片-问题样本对进行随机采样和固定。利用公开数据集VQA-CP和VQAv2训练数据中的图片-问题样本对对模型进行训练，利用验证数据和测试数据中的关系分别对模型进行调整和评价。实验对比了多个现有模型在相同数据集上的得分情况，根据数据集中问题类型的不同，模型针对不同类型问题下的不同回答得分来评估模型性能，如“All”代表全部类型问题；“Y/N”代表是非类型问题；“Num”代表询问数量类型问题；“Other”代表除以上类型外其他类型问题。

在VQA-cpv2测试集和VQAv2val测试集上对基线模型与本模型进行问答得分比较，以VQA-cpv2测试集为例，在其上所有模型的性能如下表1、表2所示：

表1 VQA-cpv2测试集上各模型问答得分对比结果

表2 VQAv2val测试集上各模型问答得分对比结果

实验结果如图5、图6所示，很明显证明，与传统的VQA学习方法相比，本模型在两个数据集上都取得了更好的性能，基于视觉问答的云机器人服务对比消偏模型更适合于解决视觉问答问题，结合图片与文本描述信息，给出精确回答。

以VQA-cpv2数据集为例，探究是否加入一次消偏网络对预测结果的影响，实验结果如图7所示。一次消除偏差框架将输出的预测分布数据中最高预测概率分布项隐藏，防止模型对最大概率分布进行过度预测依赖，并获得一次消偏后预测分布概率。在仅引入一次消偏网络后，模型效果明显降低，但仍比大多数基线模型都更好，显示一次消偏网络模型在视觉问答场景下的有效性。

以VQA-cpv2数据集为例，探究是否加入二次消偏网络对预测结果的影响，实验结果如图8所示。引入二次消除偏差框架，SORT2与SORT1对应预测分布结构取差值，得到差值结果去除所有正值，即将一次消偏后的预测分布数据中最高预测概率分布项隐藏，防止模型对次高概率分布进行过度预测依赖。在引入二次消偏网络后，模型效果有所升高，实验结果明显优于仅加入一次消偏网络的实验结果。显示二次消偏网络模型在视觉问答场景下的有效性。

本实施例提出改进后的视觉问答模型，其中消偏模块利用了多次消偏算法更细粒度优化视觉问答过程，提高了模型预测结果的准确度与算法收敛速度。通过仿真实验更好的验证了算法的高效性和低成本性。

具体地，在步骤S2中，对比学习模块，通过将待查询的信息交互图片数据及其包含的视觉信息与处理后的先验数据集中的视觉信息进行对比学习，提取图片信息，具体为：

提取图片信息。

具体地，获取待查询的信息交互图片数据及其包含的视觉信息，并与先验数据集中学习的视觉信息进行对比学习，充分提取参考样本中图片所含信息，编码得到待查询问题向量；

在上述消偏模块中，虽然通过多次消偏惩罚了语言先验，但是模型还是过渡关注问题的文本信息，而无法有效利用图片信息。

为此，针对想要解决的稀疏+长尾数据。Yao等人主要提出了一个针对大规模商品推荐的自监督学习SSL，如图4所示。因为本实施例中视觉问答模型还是无法有效利用图片信息，通过SSL模型，引入对比学习算法，充分利用图片信息进行学习，本系统基于此引入了contrastive学习算法，即给定一个图片-问题样本对，我们随机采样另一个图片-问题样本对，并且使第二个假的样本对预测的答案远离真实答案。通过构建图片-问题样本对的方法来促使模型使用图片信息。其用于获取待查询的信息交互图片数据及其包含的视觉信息，并与先验数据集中学习的视觉信息进行对比学习，充分提取参考样本中图片所含信息，编码得到待查询问题向量。

具体地，在步骤S3中，词性提取模块，通过提取问答句子中的关键物体名词，并将提取到的关键物体名词与图片信息融合，得到融合预测结果，具体为：

所述通过提取问答句子中的关键物体名词，通过提取到的关键物体名词对图片信息进行聚焦定位，得到定位后的图片信息，包括：

使用两个注意力模块提取问答句子中的上下文特征；

使用两个注意力模块提取问答句子中的视觉语义特征；

将关键物体名词表征与图片信息进行聚焦定位，得到定位后的图片信息。

通过引入对比学习，模型在一定程度上利用了图片信息，但是却容易导致shortcut的现象，即模型虽然关注并提取样本对中的图片信息，但是往往无法聚焦图中关键信息。如待查询图片-问题对picture-question：图中的香蕉是什么颜色的？问题中的关键信息为“香蕉”，因此模型更需要聚焦在图片中的香蕉上，而不是后面的叶片。

为此，我们进一步引入了key object词性提取模块，通过借助词性标注(POS)来选择句子中的关键物体，来进一步强化模型对关键物体的注意力。如本文中关键信息所在词汇词性大多是名词，充当主语或宾语，则系统中词性提取模块提取名词文本，在图中给予聚焦，增加图中该部分所占权重。之前的研究直接把上下文特征和语法知识进行拼接，容易受噪声干扰，本模型分别使用两个attention(注意力)提取上下文和语法知识特征。以上下文特征为例，计算方式为：

其中hi是编码器提取的字符xi特征，si，j是xi的上下文特征中的第j项，是si，j的embedding。

使用同样的方式提取视觉语义特征

将提取到的文本特征与语义特征通过全连接网络，分布得到模型输出F_C(k)与F_C(v)，并作点积得到新的表征：

v_new＝F_C(k).F_C(v) (19)

其中，K表示关键物体的文本表示，V表示图片的嵌入表示，Fc和Fv分别是全连接网络输出，v_new为获取的新的关键物体表征。

词性提取模块用于提取参考样本文本中的名词词性，得到关键字样本k，在视觉图片中与图片信息融合提取，聚焦关键字信息，关注重要样本，提高相应权重，使模型对图片信息敏感。

基于SSL对比学习算法提取不同图片的物体表征，通过借助POS来选择句子中的关键物体，来进一步强化模型对关键物体的注意力。

步骤S2中，融合模型从图片-问题样本对中提取的处理后的先验数据集中的文本及定位后的视觉特征，得到最终融合预测结果：

a＝f_θ(v,q) (20)

其中f为匹配得分网络，v表示视觉提取后的特征，q为经过LSTM后的语义特征。

步骤S3中，系统将提取的文本及视觉特征融合输出，将待查询的信息交互数据与各模块融合的各组信息得到的预测结果进行匹配，最终得到最相似组的信息交互参考预测结果并作为机器人问答系统的输出结果。

对改进后的视觉问答模型进行仿真验证。

以VQA-cpv2数据集为例，探究是否加入对比学习模块对预测结果的影响，实验结果如图9所示。模型获取待查询的信息交互图片数据及其包含的视觉信息，并与先验数据集中学习的视觉信息进行对比学习，充分提取参考样本中图片所含信息，编码得到待查询问题向量。在加入对比学习模块后，模型效果明显提升，且对于数量类问题的回答得分影响尤为明显。

以VQA-cpv2数据集为例，探究是否加入词性提取模块对预测结果的影响，实验结果如图10所示。提取参考样本文本中的名词词性，得到关键字样本k，在视觉图片中与图片信息融合提取，聚焦关键字信息，关注重要样本，提高相应权重，使模型对图片信息敏感。在加入词性提取模块后，模型效果提升至最优，且对于是非类问题的回答得分影响尤为明显。

本实施例提出的改进后的视觉问答模型，利用了对比学习算法和词性提取算法，更细粒度优化视觉问答过程，提高了模型预测结果的准确度与算法收敛速度。通过仿真实验更好的验证了算法的高效性和低成本性。

实施例二

本实施例提供了一种云服务机器人的视觉问答系统，包括：

其中，改进后的视觉问答模型，包括：

消偏模块，通过两次消除偏差将先验数据集中最大概率分布的答案隐藏，得到处理后的先验数据集；

词性提取模块，通过提取问答句子中的关键物体名词，并将提取到的关键物体名词与图片信息融合，得到融合预测结果。

上述模块与方法对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种云服务机器人的视觉问答方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种云服务机器人的视觉问答方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种云服务机器人的视觉问答方法，其特征在于，包括：

获取待查询的信息交互图片数据及其包含的视觉信息；

基于改进后的视觉问答模型，得到融合预测结果；

其中，改进后的视觉问答模型，包括：

消偏模块，通过两次消除偏差将先验数据集中文本信息中最大概率分布的答案隐藏，得到处理后的先验数据集中的文本信息，包括：

获取不同场景下机器人视觉问答的先验数据进行特征编码，得到语义预测概率分布，包括：

对机器人视觉问答的先验数据进行特征编码；

将特征编码后的机器人视觉问答的先验数据转化为语义预测概率分布；

基于消除偏差框架进行两次消除偏差的过程，将最高预测概率分布项和次高预测概率分布项隐藏，得到二次消偏后预测分布概率，包括：

基于二次消除偏差框架，将一次消偏后预测分布概率中最高预测概率分布项隐藏，得到二次消偏后预测分布概率；

基于二次消偏后预测分布概率，得到处理后的先验数据集中的文本信息；

对比学习模块，通过将待查询的信息交互图片数据及其包含的视觉信息与先验数据集中的视觉信息进行对比学习，提取图片信息，包括：获取先验数据集中的图片-问题样本对和待查询的图片-问题样本对；

将先验数据集中包含的视觉信息与待查询的图片-问题样本对中的视觉信息进行比对；提取图片信息；

词性提取模块，通过提取问答句子中的关键物体名词，通过提取到的关键物体名词对图片信息进行聚焦定位，得到定位后的图片信息，包括：使用两个注意力模块提取问答句子中的上下文特征；

使用两个注意力模块提取问答句子中的视觉语义特征；

将关键物体名词表征对图片信息进行聚焦定位，得到定位后的图片信息；

2.如权利要求1所述的一种云服务机器人的视觉问答方法，其特征在于，所述次高预测概率分布项就是一次消偏后预测分布概率中最高预测概率分布项。

3.一种云服务机器人的视觉问答系统，其特征在于，包括：

其中，改进后的视觉问答模型，包括：

对机器人视觉问答的先验数据进行特征编码；

对比学习模块，通过将待查询的信息交互图片数据及其包含的视觉信息与处理后的先验数据集中的视觉信息进行对比学习，提取图片信息，包括：获取先验数据集中的图片-问题样本对和待查询的图片-问题样本对；

词性提取模块，通过提取问答句子中的关键物体名词，通过提取到的关键物体名词对进行聚焦定位，得到定位后的图片信息，包括：使用两个注意力模块提取问答句子中的上下文特征；

使用两个注意力模块提取问答句子中的视觉语义特征；

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-2中任一项所述的一种云服务机器人的视觉问答方法中的步骤。

5.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-2中任一项所述的一种云服务机器人的视觉问答方法中的步骤。