CN111539292B

CN111539292B - 一种用于具现化场景问答任务的动作决策模型及方法

Info

Publication number: CN111539292B
Application number: CN202010306319.2A
Authority: CN
Inventors: 冯诗睿; 吴恙; 李冠彬; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2023-07-07
Anticipated expiration: 2040-04-17
Also published as: CN111539292A

Abstract

本发明公开了一种用于具现化场景问答任务的动作决策模型及方法，所述模型包括：预训练特征提取模组单元，用于对当前时间节点下的多模态输入特征分别进行提取；特征融合单元，用于将由多模态中提取出来的各个特征进行融合形成融合特征；融合特征解码单元，用于将当前时间节点融合特征向量解码为动作空间下的概率分布序列；时序融合动作决策单元，用于将当前及先前时间节点所获得的动作空间下的概率分布序列进行融合，根据融合得到的动作决策向量中的最大值对应的动作做出当前的动作决策。

Description

一种用于具现化场景问答任务的动作决策模型及方法

技术领域

本发明涉及基于深度学习的计算机视觉技术领域，特别是涉及一种用于具现化场景问答任务的动作决策模型及方法。

背景技术

具现化场景问答任务是服务型人工智能机器人在虚拟三维环境中的一种具体实现任务，该任务要求机器人在陌生的房屋环境中根据人类提出的诸如“鱼缸是什么颜色？”等自然语言描述形式的问题，自主探索该陌生的房屋环境，并对人类提出的问题作出正确回答。一般情况下，为完成该任务，总体任务可以划分为三个大致的子任务：理解问题、遍历房屋、回答问题。在自然语言处理与计算机视觉等技术领域中，对于理解问题与回答问题已有一定程度的研究。对于具现化场景问答任务而言，完成整个任务的关键就在于机器人能否正确理解环境，并作出最正确而有效的动作规划，从而使回答问题这一下游子任务有尽可能可靠的输入。

然而，现存的所有具现化场景问答任务中的动作决策模型使用的方法均是基于简单的单步动作预测，其决策结果依赖于单一的循环神经网络，仅通过循环神经网络传递先前所经历过的状态，根据该状态和当前输入直接作出当前动作决策，并未考虑在时序上在未来参考过去所作出的路径预测。但是，这样的决策方式，一方面，每次决策仅依赖于当前历史状态向量和当前输入作出一步动作决策，其预测结果过度关注于短期的动作，可靠性差；另一方面，在决策时所使用的参考信息仅有循环神经网络隐藏层的信息，即历史状态的特征向量，决策的参考信息严重不足，同时由于每次决策未参考历史的决策，决策内容难以连贯。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种用于具现化场景问答任务的动作决策模型及方法，以通过引入序列解码机制，对于当前时间节点的状态作出更长的决策序列，并根据时序上多个决策序列综合进行当前时间节点下的动作决策，从而使根据当前时间节点的状态作出的动作决策更具有时序上的前后关联性，进而使动作决策效果更为平滑连贯而有效。

为达上述目的，本发明提出一种用于具现化场景问答任务的动作决策模型，包括：

预训练特征提取模组单元，用于对当前时间节点下的多模态输入特征分别进行提取；

特征融合单元，用于将由多模态中提取出来的各个特征进行融合形成融合特征；

融合特征解码单元，用于将当前时间节点融合特征向量解码为动作空间下的概率分布序列；

时序融合动作决策单元，用于将当前及先前时间节点所获得的动作空间下的概率分布序列进行融合，根据融合得到的动作决策向量中的最大值对应的动作做出当前的动作决策。

优选地，所述预训练特征提取模组单元进一步包括：

视觉特征提取模组，用于提取当前时间节点下输入图像的特征，编码为感知信息向量及启发信息向量；

语言特征编码单元，用于提取输入问题的语言特征，编码为语言特征向量。

优选地，所述视觉特征提取模组进一步包括：

视觉感知信息提取模块，用于使用预训练多任务卷积神经网络提取输入图像中的语义信息、深度信息，编码为所述感知信息向量；

视觉启发信息提取模块，用于使用预训练启发卷积神经网络提取输入图像中的启发信息，编码为所述启发信息向量。

优选地，所述视觉感知信息提取模块与视觉启发信息提取模块均选用U-Net结构的卷积神经网络模型，利用在House3D环境中图像分割和深度信息预训练得到的模型参数作为所述视觉感知信息提取模块的模型参数，利用在EQA-v1数据集上使用路径信息生成的路径掩膜训练得到的模型参数作为所述视觉启发信息提取模块的模型参数。

优选地，所述语言特征编码单元进一步包括：

语言特征提取模块，用于使用预训练的词嵌入映射将初始语言问题提取为语言特征；

语言特征编码模块，用于利用长短期记忆网络将语言特征编码为语言特征向量。

优选地，输入的初始语言问题经所述语言特征提取模块使用预训练词嵌入映射逐单词转换为词向量，得到所述语言特征，然后将所述语言特征逐项输入所述语言特征编码模块的两层的长短期记忆网络，其最终输出作为语言特征向量。

优选地，所述特征融合单元利用串接的方式将所述预训练特征提取模组单元所提取的特征向量进行连接，形成当前时间节点下的融合特征向量。

优选地，所述融合特征解码单元利用双层长短期记忆网络，通过复制所述融合特征向量作为每一层长短期记忆网络的隐藏层初始值，然后以一个开始标识符作为初始输入，由长短期记忆网络执行解码过程，当前长短期记忆网络单元的输出作为下一长短期记忆网络单元的输入，直至长短期记忆网络单元的输出为终止符或者达到解码长度上限，以将当前时间节点融合特征向量解码为动作空间下的概率分布序列。

优选地，所述时序融合动作决策单元进一步包括：

时序融合模块，用于将当前及先前时间节点所获得的动作空间下的概率分布序列通过加权求和的方式融合为当前时间节点的动作决策向量；

动作决策模块，用于根据所述动作决策向量，使用向量中最大数值对应的动作作为当前动作决策。

为达到上述目的，本发明还提供一种用于具现化场景问答任务的动作决策方法，包括如下步骤：

步骤S1，利用预训练特征提取模组单元对当前时间节点下的多模态输入特征分别进行提取；

步骤S2，利用特征融合单元将当前时间节点对应的各特征向量融合为当前时间节点的融合特征向量；

步骤S3，利用融合特征解码单元将当前时间节点的融合特征向量解码为动作空间下的概率分布序列；

步骤S4，利用时序融合动作决策单元将当前及先前时间节点所获得的动作空间下的概率分布序列进行融合，根据融合得到的动作决策向量中的最大值对应的动作做出当前的动作决策。

与现有技术相比，本发明一种用于具现化场景问答任务的动作决策模型及方法实现了长动作序列预测和时序预测融合的动作决策系统，通过融合特征解码出长动作序列的方式，保证所预测序列的长期可执行性，再通过动作序列时序融合的方式，有效解决了当前时间点所得视觉输入存在的盲点问题，从而做出更为平滑连贯而有效的动作决策，更好地完成整个具现化场景问答任务。

附图说明

图1为本发明一种用于具现化场景问答任务的动作决策模型的系统架构图；

图2为本发明一种用于具现化场景问答任务的动作决策方法的步骤流程图；

图3为本发明实施例中用于具现化场景问答任务的动作决策模型的整体网络框架示意图；

图4为本发明具体实施例中预训练特征提取模组单元和特征融合单元的结构示意图；

图5为本发明具体实施例中时序融合动作决策单元结构图；

图6为本发明具体实施例中完整任务下动作决策效果可视化说明图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种用于具现化场景问答任务的动作决策模型的系统架构图。如图1所示，本发明一种用于具现化场景问答任务的动作决策模型，包括：

预训练特征提取模组单元10，用于利用预训练模型组对当前时间节点下的多模态输入特征分别进行提取。

具体地，预训练特征提取模组单元10进一步包括：

视觉特征提取模组101，用于提取当前时间节点下输入图像的特征。

在本发明具体实施例中，视觉特征提取模组101进一步包括：

视觉感知信息提取模块101a，用于使用预训练多任务卷积神经网络提取输入图像中的语义信息、深度信息，编码为感知信息向量；

视觉启发信息提取模块101b，用于使用预训练启发卷积神经网络提取输入图像中的启发信息，编码为启发信息向量；

具体地，视觉特征提取模组101中的视觉感知信息提取模块101a和视觉启发信息提取模块101b均选用U-Net结构的卷积神经网络模型，利用在House3D环境中图像分割和深度信息预训练得到的模型参数作为视觉感知信息提取模块的模型参数，利用在EQA-v1数据集上使用路径信息生成的路径掩膜训练得到的模型参数作为视觉启发信息提取模块的模型参数。

在本发明中，视觉信息的输入为当前机器人所处视角的图像IMG，在具体实施例中，图像IMG是由House3D根据机器人当前所处坐标(x,y,yaw,h)渲染出的长度为224个像素，高度为224个像素的RGB图像。其中，x是当前所处水平横坐标，y是当前所处水平纵坐标，yaw是当前视角与x负方向的水平夹角，h是当前视角的高度。视觉特征提取模组101需要将当前视野中的信息解析为编码向量，以备后续处理。

视觉感知信息提取模块101a和视觉启发信息提取模块101b分别提取对应U-Net的conv3特征层特征，作为模块的输出。在具体实施例中，视觉感知信息提取模块101a输出的感知信息向量，长度为3200的浮点型向量，视觉启发信息提取模块101b输出的启发信息向量，长度为36的浮点型向量。基于预训练所使用的数据，感知信息向量中包含了图像IMG中的物体分割和深度信息，启发信息向量则包含了图像IMG中哪些区域可能是路径的信息。

语言特征编码单元102，用于编码输入问题的语言特征。

具体地，语言特征编码单元102进一步包括：

语言特征提取模块102a，用于使用预训练的词嵌入映射将初始语言问题提取为语言特征；

语言特征编码模块102b，用于利用长短期记忆网络将语言特征编码为语言特征向量。

具体地，在本发明中，输入的问题是由自然语言表示的，经过语言特征提取模块102a，使用预训练词嵌入映射将初始的自然语言逐单词转换为词向量，即所述语言特征，然后将语言特征逐项输入语言特征编码模块102b的长短期记忆网络，其最终输出作为语言特征向量。在具体实施例中，语言特征提取模块使用词嵌入映射的方式，将单词映射至对应词向量，再经由两层的长短期记忆网络获得语言特征向量，长度为128的浮点型向量。即，语言特征向量中包含了输入问题中的关键部分在语言空间中的表达向量。

特征融合单元20，用于将由多模态中提取出来的各个特征进行融合形成融合特征。具体地，特征融合单元20利用串接的方式将预训练特征提取模组10所提取的特征向量进行连接，形成当前时间节点下的融合特征向量。

在本发明具体实施例中，由预训练特征提取模组单元101获得的输出有三个，分别是感知信息向量、启发信息向量和语言特征向量，在本实施例中，将其按照感知信息向量T_perception∈R³²⁰⁰(长度3200)、启发信息向量T_intuition∈R³⁶(长度36)，语言特征向量T_language∈R¹²⁸(长度128)的顺序顺次连接成一个长度为3364的融合特征向量T_fusion∈R³³⁶⁴作为输出。

融合特征解码单元30，用于对所述特征融合单元20输出的融合特征进行解码，形成一系列的动作规划。融合特征解码单元30对融合特征向量进行解码，形成当前情形下的动作规划。

为了更好地预测动作，使得动作的预测更多地关注于后续动作的持续性，例如，一个需要从沙发和墙壁中间的空隙通过，为了避开连续的障碍，机器人需要作出一系列的动作从而完成避障。仅仅针对当前的视觉输入进行预测，机器人可能在走到墙前时，因视野中只有墙而无法预测出转向空隙的动作序列。因此，本发明提出了预测动作序列的方案，在某一时间点预测的是多步的动作序列，而非单步的动作，在预测效果上更具有前瞻性。

具体地，融合特征解码单元30利用长短期记忆网络，以融合特征向量作为隐藏层初始值，将当前时间节点下的融合特征向量解码为动作空间下的概率分布序列。

在本发明中，使用双层长短期记忆网络，通过复制融合特征向量T_fusion作为每一层长短期记忆网络的隐藏层初始值，随后，以一个开始标识符作为初始输入，由长短期记忆网络执行解码过程，当前长短期记忆网络单元的输出作为下一长短期记忆网络单元的输入，直至长短期记忆网络单元的输出为终止符或者达到解码长度上限。在具体实施例中，解码结果为一个长度为k，宽度为|A|的动作空间下的概率分布序列Q_t∈R^k×|A|，其中，解码长度上限为k，A为动作空间，|A|表示动作空间的大小，当前时间表示为下标t。进一步地，在具体测试数据集EQA-v1中，k取值为5，|A|为4。

时序融合动作决策单元40，用于将当前及先前时间节点所获得的动作空间下的概率分布序列进行融合，根据融合得到的动作决策向量中的最大值对应的动作做出当前的动作决策。

通常情况下，每一步的动作决策仅依赖于当前所感知的信息，在实际的表现中可以观察到，这种预测方式容易“忘记”曾经做出的决策，从而做出全新的决策。为克服这种困境，本发明提出时序融合动作决策单元40，通过综合考量曾经做出的决策序列，从而做出当前的最终动作决策，最终使得实际表现的动作决策序列稳定而流畅。

具体地，时序融合动作决策单元40进一步包括：

时序融合模块401，用于将当前及先前时间节点所获得的动作空间下的概率分布序列通过加权求和的方式融合为当前时间节点的动作决策向量；

动作决策模块402，用于根据所述动作决策向量，使用向量中最大数值对应的动作作为当前动作决策。

在本发明中，时序融合模块401通过加权求和的方式，将曾经解码得到的动作空间下的概率分布序列按照某个固定比例加权求和，获得一个当前时间节点的动作决策向量。可表示为Y_t＝G(Q)，其中Q表示已经得到的所有概率分布序列的集合Q＝{Q₀,Q₁,…,Q_t}，G为时序融合函数，按照某种规则将集合Q中的序列融合为当前时间节点的动作决策向量Y_t。通过这样的一种方式，当前实际作出的动作决策则不仅仅基于当前的观察情况，还能够从过往预测中得到参考，辅助作出当前的决策。本发明使用的方案相对更具有连贯性，在特定困境下作出的决策远好于其他现有方案，且更能有效完成任务。

在具体实施例中，将曾经解码得到的动作空间下的概率分布序列中对应当前时间节点的动作分布向量分别提取出来并加权求和。即，Y_t＝W·[Q_t-k,k,Q_t-k+1,k-1,Q_t-k+2,k-2,…,Q_t,0]，其中Q_m,n表示时间节点m融合特征解码单元30输出的动作空间下的概率分布序列的第n项。生成的动作决策向量Y_t是一个大小为|A|的动作空间概率分布向量。

动作决策模块402将根据一定的规则，由动作决策向量生成当前的动作决策。

在具体实施例中，使用Y_t中最大值索引对应的动作作为最终动作决策结果，交由效应器实现。可表示为a_t＝argmax(Y_t)。

图2为本发明一种用于具现化场景问答任务的动作决策方法的步骤流程图。如图2所示，本发明一种用于具现化场景问答任务的动作决策方法，包括如下步骤：

步骤S1，利用预训练特征提取模型组单元对当前时间节点多模态特征分别进行提取为当前时间节点对应特征向量；

对于机器人而言，更多的信息量可以更好地作出决策。但是仅使用一个模型，无论是在训练上还是在实践中都难以同时处理关注点不一致的多方面的信息。因此，本发明采用多模型并行的方式，每个模型负责处理对应关注的信息，使得需要关注的信息都能有较好的质量。这对接下来的预测具有积极作用。

具体地，步骤S1进一步包括：

步骤S100，利用在House3D环境中图像分割和深度信息预训练得到的模型参数作为视觉感知信息提取模块的模型参数，并使用该视觉感知信息提取模块提取包含语义信息和深度信息的感知信息向量；

步骤S101，利用在EQA-v1数据集上使用路径信息生成的路径掩膜训练得到的模型参数作为视觉启发信息提取模块的模型参数，并使用该视觉启发信息提取模块提取包含路径掩膜预测信息的启发信息向量；

步骤S102，使用预训练的词嵌入映射将初始语言问题提取为语言特征；

步骤S103，利用长短期记忆网络将语言特征编码为语言特征向量。

步骤S2，利用特征融合单元将通过步骤S1提取出的当前时间节点对应的各特征向量融合为当前时间节点的融合特征向量。

在步骤S2中，主要目的是融合来自各个模态由不同模型处理后的特征，可以使用多种方式，如通过语言模态特征逐类别增强对应视觉模态特征中的局部等。在具体实施例中，简单地以串接形式形成融合特征向量仅为测试整体效果。

具体地，使用串接的方式，将步骤S1得到的感知信息向量T_perception、启发信息向量T_intuition和语言特征向量T_language按照感知信息向量，启发信息向量和语言特征向量的顺序连接，融合形成融合特征向量T_fusion＝[T_perception,T_intuition,T_language]，方括号表示向量连接运算，即沿最低维方向连接，后续描述同理。

步骤S3，利用融合特征解码单元将当前时间节点融合特征向量解码为动作空间下的概率分布序列。

具体地，步骤S3进一步包括：

步骤S300，使用融合特征向量作为融合特征解码单元中两层长短期记忆网络的初始化隐藏层向量，

步骤S301，使用起始标志向量作为初始长短期记忆网络初始输入，由长短期记忆网络执行解码过程，当前长短期记忆网络单元的输出作为下一长短期记忆网络单元的输入，直至长短期记忆网络单元的输出为终止符或者达到解码长度上限。表示如下：

P_t,0,h_0,1＝LSTM(<ST>,h_0,0) (1)

Q_t,0,h_1,1＝LSTM(P_t,0,h_1,0) (2)

P_t,i,h_0,i+1＝LSTM(Q_t,i-1,h_0,i)(0<i≤k) (3)

Q_t,i,h_1,i+1＝LSTM(P_t,i,h_1,i)(0<i≤k) (4)

得到动作空间分布下的概率分布序列Q_t＝[Q_t,0,Q_t,1,…Q_t,k]。

其中，P_t,i表示当前时间节点t下，第一层长短期记忆网络的第i个单元的输出向量，Q_t,i表示当前时间节点t下，第二层长短期记忆网络的第i个单元的输出向量，k表示预设的解码长度上限。

具体地，步骤S4进一步包括：

步骤S400，使用时序融合模块将已有的动作空间下的概率分布序列进行融合，生成动作决策向量。从而使当前的决策不仅仅只来自于当前的状态输入，还能够结合历史曾做出的预测。

即，Y_t＝[Q_t-k,k,Q_t-k+1,k-1,Q_t-k+2,k-2,…,Q_t,0]·W，其中Q_m,n表示时间节点m融合特征解码单元输出的动作空间下的概率分布序列的第n项，W∈R^k×|A|为可调加权系数矩阵。生成的动作决策向量Y_t∈R^|A|是一个大小为|A|的动作空间概率分布向量。

步骤S401，根据动作决策向量得到最终动作决策。在具体实施例中，使用Y_t中最大值索引对应的动作作为最终动作决策结果，交由效应器实现。可表示为a_t＝argmax(Y_t)。

以下将配合图3、图4、图5、图6通过具体实施例进一步说明本发明：

在本发明具体实施例中，通过预测当前状态的长动作序列并综合过往预测出的长动作序列得到最终的动作决策。具体过程如下：

(1)预训练特征提取模组单元，如图3(a)和图4；

具体来说，根据输入的视觉信息和语言信息分别用预训练特征模型组中不同的模型分别抽取感知信息向量、启发信息向量、语言信息向量，通过特征融合和特征解码以及时序融合动作决策的流程后作出最终动作决策。

本单元的作用是从当前视野下获取各类信息，按照不同的关注点使用不同的模型进行抽取。

具体如图4所示，视觉信息输入为模拟环境House3D提供的224×224的RGB图像，语言信息输入为自然语言问句，如图3的Q所示。

由视觉感知信息提取模块(如图3CNN1)提取得到感知信息向量T_perception；由视觉启发信息提取模块(如图3CNN2)提取得到启发信息向量T_intuition，由语言特征编码模块(如图3Embed-LSTM)提取得到语言信息向量T_language。

(2)特征融合单元，如图3(b)和图4；

具体来说，特征融合单元中，主要进行的是信息融合的过程，作用包括多模态信息的综合、多模态信息相互强化调节等。在这里使用直接将预训练特征提取模型组单元给出的感知信息向量、启发信息向量、语言信息向量顺次连接为融合特征向量T_fusion，以形成各模态各关注点的信息都能被后续过程使用的载体。

(3)融合特征解码单元，如图3(c)和图5(Route Predictor)；

融合特征解码单元实施情况如图5左半部分Route Predictor所示，主要作用在于根据当前的融合特征向量T_fusion采用长序列解码的方式获得动作空间下的概率分布序列。

具体地，使用双层长短期记忆网络，通过复制融合特征向量T_fusion作为每一层长短期记忆网络的隐藏层初始值，随后，以一个开始标识符作为初始输入，由长短期记忆网络执行解码过程，当前长短期记忆网络单元的输出作为下一长短期记忆网络单元的输入，直至长短期记忆网络单元的输出为终止符或者达到解码长度上限，图5中a_t表示动作决策结果，可以取上一次决策结果(即图3所示动作决策向量)，也可以取固定值(全0的动作决策向量)，在t＝0的时刻使用的是固定值。在具体实施例中，解码结果为一个长度为k，宽度为|A|的动作空间下的概率分布序列Q_t∈R^k×|A|，其中，解码长度上限为k，A为动作空间，|A|表示动作空间的大小，当前时间表示为下标t。进一步地，在具体测试数据集EQA-v1中，k取值为5，|A|为4。

一方面，本单元使用长序列解码的方式，使得预测的每一个动作都是长序列的一个环节，所得长序列具有连贯性；另一方面，每一时刻所得长序列形成的集合可以被后续的动作决策过程使用，为后续动作决策过程提供参考决策，使得后续动作决策过程做出的决策更平滑。同时，由于某一时刻获取的信息难以独立做出足够置信的动作决策，这一方案使得动作决策在这种情况下能利用先前的序列更灵活地作出最终动作决策。

(4)时序融合动作决策单元，如图3(d)和图5(Action Decision A和ActionDecision B)；

进一步地，在融合特征解码单元之后，可以获得一个由一个或多个动作空间下的概率分布序列的集合，集合中这些序列来自于不同的时间节点，时序融合动作决策单元将对这些序列进行时序融合，获得动作决策向量，并根据动作决策向量作出最终决策。

具体地说，时序融合模块将通过某一种策略，从序列集合中选取参考序列，并将这些序列融合得到动作决策向量。这一过程中，动作决策向量可以参考其他时间节点获得的序列，从而有选择地组合形成动作决策向量。

如图5右半部分两张图(Action Decision A和Action Decision B)所示，在Action Decision A中，时序融合模块所生成的动作决策向量Y_t表示为Y_t＝sum(Q_t-k,k,Q_t-k+1,k-1,Q_t-k+2,k-2,…,Q_t,0)，其中Q_m,n表示时间节点m融合特征解码单元输出的动作空间下的概率分布序列的第n项，sum是点对点相加操作。Action Decision B中，时序融合模块所生成的动作决策向量Y_t表示为Y_t＝[Q_t-k,k,Q_t-k+1,k-1,Q_t-k+2,k-2,…,Q_t,0]·W，其中Q_m,n表示时间节点m融合特征解码单元输出的动作空间下的概率分布序列的第n项，W∈R^k×|A|是可调加权系数矩阵。生成的动作决策向量Y_t∈R^|A|是一个大小为|A|的动作空间概率分布向量。

最后，动作决策模块根据动作决策向量作出最终动作决策。

具体地说，如图5所示，动作决策向量经过softmax函数进行归一化后，本发明取其最大值对应索引所表示的动作作为最终当前时间点的动作决策结果，可表示为a_t＝argmax(Y_t)。

本发明最终的评价标准可由其在Eqa-v1数据集上的表现评价。

图6为本发明具体实施例中完整任务下动作决策效果可视化说明图。在这个任务中，机器人接收到语言信息为”what room is the vacuum cleaner located in？”，机器人在任务过程中获取到的视觉信息的样本如右侧2行4列RGB图像所示。在左图中，可视化了机器人在任务过程中所走路径的俯视图，其中浅蓝色部分是可行区域，黑色是障碍物区域，红点为机器人初始化所在点，绿点为机器人决定停止时所在点，白色线段是机器人任务过程所走路径。初始化所在位置如左图红点和右边2行4列中第1行第1列图所示。如第1行第2列所示，在第1行第1列中出现过的椅子扶手并未出现在第1行第2列中，但是机器人可以从如(3)所述动作序列集合中得到参考信息，以在如(4)的过程中得到类似“当前情况下不应立即右转”的决策，进而改进最终动作决策效果。

综上所述，本发明一种用于具现化场景问答任务的动作决策模型及方法实现了长动作序列预测和时序预测融合的动作决策系统，通过融合特征解码出长动作序列的方式，保证所预测序列的长期可执行性，再通过动作序列时序融合的方式，有效解决了当前时间点所得视觉输入存在的盲点问题，从而做出更为平滑连贯而有效的动作决策，更好地完成整个具现化场景问答任务。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种用于具现化场景问答任务的动作决策模型，包括：

时序融合动作决策单元，用于将当前及先前时间节点所获得的动作空间下的概率分布序列进行融合，根据融合得到的动作决策向量中的最大值对应的动作做出当前的动作决策；

视觉特征提取模组进一步包括：

视觉启发信息提取模块，用于使用预训练启发卷积神经网络提取输入图像中的启发信息，编码为所述启发信息向量；

所述视觉感知信息提取模块与视觉启发信息提取模块均选用U-Net结构的卷积神经网络模型，利用在House3D环境中图像分割和深度信息预训练得到的模型参数作为所述视觉感知信息提取模块的模型参数，利用在EQA-v1数据集上使用路径信息生成的路径掩膜训练得到的模型参数作为所述视觉启发信息提取模块的模型参数；

所述特征融合单元利用串接的方式将所述预训练特征提取模组单元所提取的特征向量进行连接，形成当前时间节点下的融合特征向量；

所述融合特征解码单元利用双层长短期记忆网络，通过复制所述融合特征向量作为每一层长短期记忆网络的隐藏层初始值，然后以一个开始标识符作为初始输入，由长短期记忆网络执行解码过程，当前长短期记忆网络单元的输出作为下一长短期记忆网络单元的输入，直至长短期记忆网络单元的输出为终止符或者达到解码长度上限，以将当前时间节点融合特征向量解码为动作空间下的概率分布序列。

2.如权利要求1所述的一种用于具现化场景问答任务的动作决策模型，其特征在于，所述预训练特征提取模组单元进一步包括：

3.如权利要求2所述的一种用于具现化场景问答任务的动作决策模型，其特征在于，所述语言特征编码单元进一步包括：

4.如权利要求3所述的一种用于具现化场景问答任务的动作决策模型，其特征在于：输入的初始语言问题经所述语言特征提取模块使用预训练词嵌入映射逐单词转换为词向量，得到所述语言特征，然后将所述语言特征逐项输入所述语言特征编码模块的两层的长短期记忆网络，其最终输出作为语言特征向量。

5.如权利要求1所述的一种用于具现化场景问答任务的动作决策模型，其特征在于，所述时序融合动作决策单元进一步包括：

6.一种基于权利要求1至5任一所述的用于具现化场景问答任务的动作决策模型的动作决策方法，包括如下步骤：