CN111026873B

CN111026873B - 无人车及其导航方法、装置

Info

Publication number: CN111026873B
Application number: CN201911019748.5A
Authority: CN
Inventors: 谢良; 刘凯燕; 印二威; 查顺考; 邓宝松; 闫野
Original assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: Tianjin (binhai) Intelligence Military-Civil Integration Innovation Center; National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2023-06-20
Anticipated expiration: 2039-10-24
Also published as: CN111026873A

Abstract

本申请提出一种无人车及其导航方法、装置。该方法包：获取场景图像信息及用户的多模态信息；根据所述多模态信息和导航语义知识图谱，生成所述多模态信息对应的文本指令信息；根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹。在本申请实施例中，结合用户的语音、手势、眼动等多模态信息，遵循多模态信息反馈的深层语义信息，结合车载摄像头拍摄的场景图像信息，实现对无人车的人机协同交互的智能自动导航，使无人车导航更加精确与安全。无需GPS定位与建图，是一种无地图式的未知环境下的导航方法。不仅适用于通用环境下的无人车导航，在一些特殊场景下也能通用，如野外的搜索与救援以及室内导航等。

Description

无人车及其导航方法、装置

技术领域

本申请属于无人车导航技术领域，具体涉及一种无人车及其导航方法、装置。

背景技术

无人车是主要依靠以计算机系统为主的智能驾驶仪来实现无人驾驶的目的。在无人车行驶过程中，无人车的导航技术对无人车的安全行驶具有重大意义。

当前，相关技术中提出来了一种无人车导航方法，在该方法中，无人车上配置有电子地图，并通过GPS(Global Positioning System，全球定位系统)实时定位无人车的位置，根据无人车的位置及电子地图进行导航。

但在无人车的行驶过程中，实际路况要远比电子地图呈现的路况要复杂多变，通过定位和电子地图导航，无法适应复杂的实际路况，导致无人车行驶的安全性差。

发明内容

本申请提出一种无人车及其导航方法、装置，结合用户的语音、手势、眼动等多模态信息，遵循多模态信息反馈的深层语义信息，结合车载摄像头拍摄的场景图像信息，实现对无人车的人机协同交互的智能自动导航。

本申请第一方面实施例提出了一种无人车导航方法，包括：

获取场景图像信息及用户的多模态信息；

根据所述多模态信息和导航语义知识图谱，生成所述多模态信息对应的文本指令信息；

根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹。

在本申请一些实施例中，所述根据所述多模态信息和导航语义知识图谱，生成所述多模态信息对应的文本指令信息，包括：

将所述多模态信息转化为文本信息；

根据所述文本信息和所述导航语义知识图谱，生成所述多模态信息对应的文本指令信息。

在本申请一些实施例中，所述根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹，包括：

从所述场景图像信息中提取视觉特征信息；

对所述文本指令信息进行语言编码，得到对应的语义特征向量；

根据所述视觉特征信息和所述语义特征向量，获得特征权重概率分布；

根据所述特征权重概率分布，确定当前的导航进度及行动轨迹。

在本申请一些实施例中，所述根据所述视觉特征信息和所述语义特征向量，获得特征权重概率分布，包括：

根据所述视觉特征信息和所述语义特征向量，生成当前状态的隐含语义信息；

对所述隐含语义信息及预先训练的卷积特征进行协同注意力编码，得到特征权重概率分布。

在本申请一些实施例中，所述根据所述特征权重概率分布，确定当前的导航进度及行动轨迹，包括：

根据所述特征权重概率分布进行位置编码，获得无人车的位置信息；

根据起始位置、目标位置及所述无人车的位置信息，确定指令完成度，进而确定当前的导航进度；

对所述特征权重概率分布进行长短期记忆网络LSTM解码，得到动作序列；

根据所述动作序列，确定行动轨迹。

在本申请一些实施例中，所述根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹之后，还包括：

通过显示器显示所述导航进度；

根据所述行动轨迹，控制无人车的行驶动作。

在本申请一些实施例中，所述多模态信息包括语音信息、手势信息、眼动信息。

本申请第二方面实施例提出了一种无人车导航装置，包括：

获取模块，用于获取场景图像信息及用户的多模态信息；

生成模块，用于根据所述多模态信息和导航语义知识图谱，生成所述多模态信息对应的文本指令信息；

确定模块，用于根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹。

本申请第三方面实施例提出了一种无人车，包括：存储器、处理器及存储在所述存储器上的可执行程序，所述可执行程序被所述处理器执行实现上述第一方面实施例所述的方法。

本申请第四方面实施例提出了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述第一方面实施例所述的方法。

本申请实施例中提供的技术方案，至少具有如下技术效果或优点：

在本申请实施例中，结合用户的语音、手势、眼动等多模态信息，遵循多模态信息反馈的深层语义信息，结合车载摄像头拍摄的场景图像信息，实现对无人车的人机协同交互的智能自动导航，使无人车导航更加精确与安全。无需GPS定位与建图，是一种无地图式的未知环境下的导航方法。不仅适用于通用环境下的无人车导航，在一些特殊场景下也能通用，如野外的搜索与救援以及室内导航等。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变的明显，或通过本申请的实践了解到。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。

在附图中：

图1示出了本申请一实施例所提供的一种无人车导航方法的流程图；

图2示出了本申请一实施例所提供的一种人机协同无人车导航交互系统框架图；

图3示出了本申请一实施例所提供的多模态信息处理模块的组成示意图；

图4示出了本申请一实施例所提供一种无人车导航装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

在本申请实施例中，无人车可以结合语音、手势、眼动等多模态信息，遵循这些信息反馈的深层语义信息，在一个未知的环境中从它的起始位置导航到目标位置，期间车载摄像头根据拍摄的场景图像信息是否与用户指令描述相对应，来判断当前指令完成度，并进行动作方向的选择，然后用户可以根据导航的实际情况进行动态调整，更精确安全地完成无人车的导航任务。

下面结合附图来描述根据本申请实施例提出的无人车及其导航方法、装置以及存储介质。

实施例1

本申请实施例提供了一种无人车导航方法，如图1所示，该方法具体包括以下步骤：

步骤101：获取场景图像信息及用户的多模态信息。

在本申请实施例的执行主体为无人车，无人车上配置有摄像头、声音传感器、肌电信号采集器、增强现实头显设备等。无人车通过摄像头实时拍摄当前无人车所处场景的场景图像信息。上述用户的多模态信息包括语音信息、手势信息、眼动信息等。无人车通过声音传感器实时采集用户的语音信息。通过肌电信号采集器实时采集用户的手势信息，如通过数据手套来采集手势信息。通过增强现实头显设备实时采集用户的眼动信息。

步骤102：根据多模态信息和导航语义知识图谱，生成多模态信息对应的文本指令信息。

无人车通过步骤101的操作采集到用户的多模态信息后，首先将多模态信息转化为文本信息。具体地，对于语音信息来说，首先将原始语音切分成小片段，根据每个片段计算对应的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)特征。对于手势信息，通过肌电信号采集器实时采集人的小臂肌电信号，对肌电信号首先进行滤波，归一化处理，通过滑动时间窗口的方式按一定步长连续截取特定时间长度的肌电信号，然后采用MAV(Mean Absolute Value，绝对平均值)和WL(Wave length，波形长度)等方式对截取的肌电信号进行特征参数提取。其中，WL方式对某一分析窗中的波形长度统计，波长可以体现该样本的持续时间、幅值、频率的特征。对于眼动信息，通过对原始眼电(Electro-oculogram，EOG)信号进行滤波、分帧、计算短时能量及端点检测等预处理操作后,提取线性预测(Linear Predictive Coding，LPC)系数作为原始眼电信号的特征参数。

通过上述方式分别提取出语音信息、手势信息及眼动信息的特征参数后，将这些多模态信息的特征参数输入到深度神经网络模型RNN(Recurrent Neural Network，循环神经网络)模型中，采用LSTM(Long Short-term Memory，长短期记忆网络)处理这些多模态信息的特征参数，输出多模态信息对应的文本序列，得到多模态信息对应的文本信息。

其中，LSTM是一种特殊的RNN，能学习长期依赖性，适合处理序列信息。上述RNN模型是采用CTC(Connectionist temporal classification)算法作为损失函数进行模型训练的，是一种完全端到端的训练方式，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注，并且CTC直接输出序列预测的概率，不需要外部的后处理。CTC的损失函数定义如下公式(1)所示：

L(S)＝-lnΠ_(x,z)∈Sp(z|x)＝-∑_(x,z)∈Slnp(z|x)…(1)

在公式(1)中，S为训练集，L(S)为损失值；p(z|x)为给定输入x，输出序列z的概率。

通过上述方式得到多模态信息对应的文本信息后，根据文本信息和导航语义知识图谱，生成多模态信息对应的文本指令信息。具体地，根据多模态信息对应的文本信息和导航语义知识图谱，进行深层次的语义信息编码，得到多模态信息对应的文本指令信息。其中，导航语义知识图谱的引入，可以更好地与深度学习结合进行常识推理工作，可以提高无人车对自然语言的理解能力，提高无人车在语音方面人机协同交互控制的精确度。

步骤103：根据场景图像信息和文本指令信息，确定导航进度及行动轨迹。

在本申请实施例中，无人车具体通过如下步骤S1-S4的操作来确定导航进度及行动轨迹：

S1：从场景图像信息中提取视觉特征信息。

上述场景图像信息为无人车在t时刻拍摄的无人车所处场景的全景图像。在t时，定义在不同方向所得的视觉特征信息为v_t＝{v_t,1,v_t,2,...,v_t,K}，K为导航方向的最大角度。

S2：对文本指令信息进行语言编码，得到对应的语义特征向量。

通过词嵌入工具GloVe(Global Vectors for Word Representation)模型对文本指令信息进行语言编码，把文本指令信息包括的每一个单词表达成一个由实数组成的向量，L个单词经过映射后定义为X＝{x₁,x₂,...,x_L}，这些向量捕捉到了单词之间的语义特征，得到了文本指令信息对应的语义特征向量。

S3：根据视觉特征信息和语义特征向量，获得特征权重概率分布。

首先根据视觉特征信息和语义特征向量，生成当前状态的隐含语义信息。具体通过如下公式(2)，在视觉特征信息和语义特征向量这些基础特征以及历史语境的制约下，通过LSTM编码生成当前状态的隐含语义信息。

其中，h_t为t时刻的隐含语义信息，c_t为t时刻LSTM的单元格状态，

为t时刻的语义特征向量，/>

为t时刻的视觉特征信息，a_t-1为t-1时刻的导航动作。

通过上述方式获得当前状态的隐含语义信息后，对隐含语义信息及预先训练的卷积特征进行协同注意力编码，得到特征权重概率分布。

其中，预先训练的卷积特征可以为预先训练好的ImageNet的ResNet-152卷积特征。将预先训练的卷积特征和隐含语义信息进行协同注意力Co-attention编码，获得特征的权重概率分布。

协同注意力Co-Attention是一种双向的注意力机制，同时生成图像特征和文本特征的注意力权重。本申请实施例采用的协同注意力方式为交替协同注意力方式(Alternating Co-Attention)，即先基于图像特征，产生文本特征的注意力权重，再基于加入注意力权重之后的文本特征，去生成图像特征的注意力权重，如此能够更好地实现多模态信息的匹配。

S4：根据特征权重概率分布，确定当前的导航进度及行动轨迹。

由于注意力机制不会保留序列位置信息，因此首先根据特征权重概率分布进行位置编码，获得无人车的位置信息。然后进行进度监控，根据起始位置、目标位置及无人车的位置信息，确定当前的导航进度。导航进度可以为无人车已行驶路程占全程的百分比，如80％，70％等。

其中，进度监控通过特征权重概率分布，来估计无人车完成指令的进度，预测与导航终点的距离，同时进一步加强了当前的场景图像信息与用户的多模态信息所指示的指令之间的对齐与匹配，进度监控的输出表示为

具体如公式(3)所示：

其中，

W_h和W_pm表示网络学习参数，c_t为LSTM的单元格状态，/>

表示点积，σ是sigmoid函数，α_t为文本特征的注意力权重。

另一方面，对特征权重概率分布进行LSTM解码，得到动作序列；根据动作序列，决定下一步的方向，确定行动轨迹。本申请实施例中，通过如下公式(4)所示的动作选择公式来选择下一步的动作。

p_t＝softmax(o_t)…(4)

其中，

o_t,k表示每个导航方向k与视觉特征的相关度，p_t表示不同动作输出的选择概率，W_a为网络学习参数，h_t表示当前网络的隐藏状态，/>

为文本特征，g(·)表示多层感知器MLP(Multi-Layer Perceptron)。

在本申请实施例中，无人车上还配置有显示器，通过上述方式确定出导航进度后，还通过显示器显示导航进度，以便用户实时掌握导航进度。通过上述方式确定出行动轨迹后，无人车还根据行动轨迹，控制无人车的行驶动作。即根据行动轨迹进行横向控制和/或纵向控制，驱动无人车的智能导航。横向控制为转向控制，纵向控制包括油门控制和制动控制。

为了便于理解本申请实施例提出的无人车导航方法，下面结合附图2进行简要说明。本申请实施例提出的无人车导航方法是基于人机协同无人机导航交互系统框架的，如图2所示，该系统框架分为三层：输入层，交互层和输出层。输入层主要是获取多模态信息，比如人的自然语言指令，手势信息以及眼动信息等。交互层首先通过无人车的信息采集模块采集多模态信息，以及通过环境感知模块获取场景图像信息，输入到多模态信息处理模块中进行多模态信息的匹配与融合，然后输出到监控显示模块显示当前指令完成的进度，以实时获取导航情况，进而反馈给用户，从而使用户能够动态地调整指令。同时输出导航的行动轨迹到规则决策模块中，发出具体控制指令。输出层主要为底层控制模块，执行交互层发出的控制指令，进行横向控制和纵向控制，驱动无人车的智能导航。

其中，多模态信息处理模块的基本组成如图3所示，主要由多模态信息预处理模块、视觉语言匹配模块和导航决策模块构成。多模态信息预处理模块，主要将输入的语音信息、手势信息以及眼动信息等多模态信息转化成对应的文本信息，结合导航语义知识图谱输出到视觉语言匹配模块，进行深层次的语义信息编码。视觉语言匹配模块，主要将无人车摄像头获取的场景图像信息与文本指令信息进行多模态信息融合，从而根据视觉特征及文本的时序信息来判断已完成的指令与下一条指令，为导航决策模块做准备。导航决策模块，主要根据视觉语言模块处理之后的多模态信息，来判断当前的导航进度与下一步的行动轨迹。具体地，由于注意力机制不会保留序列位置信息，因此结合上一模块输出，首先进行位置编码获取位置信息，然后进行进度监控，估计当前导航的进度。另一方面，多模态信息通过LSTM网络进行解码，得到动作序列，从而决定下一步的方向，最后输出导航轨迹。

本申请实施例提出的无人车导航方法无需GPS定位与建图，是一种无地图式的未知环境下的导航方法。同时，引入了手势、眼动、语音等多模态信息，多模态信息的融合，对于解决无人车的环境感知与导航控制具有重要意义。通过多模态信息交互的方式进行人机协同导航，使无人车导航更加精确与安全，不仅适用于通用环境下的无人车导航，在一些特殊场景下也能通用，尤其是应用在一些非结构化，复杂、未知的环境中或者对任务可靠性要求较高的场景中，如野外的搜索与救援等。同时，本申请同样适用于室内导航，可以将该算法移植到比如扫地机器人上，方便我们的生活，提高生活质量。

实施例2

本申请实施例提供了一种无人车导航装置，该装置用于执行上述实施例所述的无人车导航方法，如图4所示，该装置包括：

获取模块100，用于获取场景图像信息及用户的多模态信息；

生成模块200，用于根据多模态信息和导航语义知识图谱，生成多模态信息对应的文本指令信息；

确定模块300，用于根据场景图像信息和文本指令信息，确定导航进度及行动轨迹。

上述生成模块200，用于将多模态信息转化为文本信息；根据文本信息和导航语义知识图谱，生成多模态信息对应的文本指令信息。

上述确定模块300包括：

提取单元，用于从场景图像信息中提取视觉特征信息；

编码单元，用于对文本指令信息进行语言编码，得到对应的语义特征向量；

获得单元，用于根据视觉特征信息和语义特征向量，获得特征权重概率分布；

确定单元，用于根据特征权重概率分布，确定当前的导航进度及行动轨迹。

上述获得单元，用于根据视觉特征信息和语义特征向量，生成当前状态的隐含语义信息；对隐含语义信息及预先训练的卷积特征进行协同注意力编码，得到特征权重概率分布。

上述确定单元，用于根据特征权重概率分布进行位置编码，获得无人车的位置信息；根据起始位置、目标位置及无人车的位置信息，确定指令完成度，进而确定当前的导航进度；对特征权重概率分布进行长短期记忆网络LSTM解码，得到动作序列；根据动作序列，确定行动轨迹。

在本申请实施例中，该装置还包括：

显示模块，用于通过显示器显示导航进度；

控制模块，用于根据行动轨迹，控制无人车的行驶动作。

在本申请实施例中，多模态信息包括语音信息、手势信息、眼动信息。

需要说明的是，前述对无人车导航方法实施例的解释说明，也适用于上述实施例的无人车导航装置，故在此不再赘述。

实施例3

本申请实施例提出了一种无人车，包括存储器、处理器及存储在所述存储器上的可执行程序；处理器读取存储器中存储的可执行程序代码，运行与该可执行程序代码对应的程序，用于实现上述任一实施例所述的无人车导航方法。

实施例4

为了实现上述各实施例，本申请实施例还提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程度被处理器执行时实现如上述任一实施例所述的无人车导航方法。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种无人车导航方法，其特征在于，包括：

获取场景图像信息及用户的多模态信息；

根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹；

其中，所述根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹，包括：

从所述场景图像信息中提取视觉特征信息；

根据所述特征权重概率分布，确定当前的导航进度及行动轨迹；

其中，所述根据所述视觉特征信息和所述语义特征向量，获得特征权重概率分布，包括：

对所述隐含语义信息及预先训练的卷积特征进行协同注意力编码，得到特征权重概率分布；

其中，所述根据所述特征权重概率分布，确定当前的导航进度及行动轨迹，包括：

根据所述动作序列，确定行动轨迹。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多模态信息和导航语义知识图谱，生成所述多模态信息对应的文本指令信息，包括：

将所述多模态信息转化为文本信息；

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹之后，还包括：

通过显示器显示所述导航进度；

根据所述行动轨迹，控制无人车的行驶动作。

4.根据权利要求1或2所述的方法，其特征在于，所述多模态信息包括语音信息、手势信息、眼动信息。

5.一种无人车导航装置，其特征在于，包括：

获取模块，用于获取场景图像信息及用户的多模态信息；

确定模块，用于根据所述场景图像信息和所述文本指令信息，确定导航进度及行动轨迹；

其中，所述确定模块包括：

提取单元，用于从场景图像信息中提取视觉特征信息；

确定单元，用于根据特征权重概率分布，确定当前的导航进度及行动轨迹；

所述获得单元，用于根据视觉特征信息和语义特征向量，生成当前状态的隐含语义信息；对隐含语义信息及预先训练的卷积特征进行协同注意力编码，得到特征权重概率分布；

所述确定单元，用于根据特征权重概率分布进行位置编码，获得无人车的位置信息；根据起始位置、目标位置及无人车的位置信息，确定指令完成度，进而确定当前的导航进度；对特征权重概率分布进行长短期记忆网络LSTM解码，得到动作序列；根据动作序列，确定行动轨迹。

6.一种无人车，其特征在于，包括：存储器、处理器及存储在所述存储器上的可执行程序，所述可执行程序被所述处理器执行实现如权利要求1-4任一项所述的方法。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一项所述的方法。