CN118258406B

CN118258406B - 一种基于视觉语言模型的自动导引车导航方法及装置

Info

Publication number: CN118258406B
Application number: CN202410674459.3A
Authority: CN
Inventors: 刘勇; 任杰; 马煜铠
Original assignee: Huzhou Institute of Zhejiang University
Current assignee: Huzhou Institute of Zhejiang University
Priority date: 2024-05-29
Filing date: 2024-05-29
Publication date: 2024-08-13
Anticipated expiration: 2044-05-29
Also published as: CN118258406A

Abstract

本申请属于物流管理技术领域，公开了一种基于视觉语言模型的自动导引车导航方法及装置，通过利用视觉语言模型根据用户输入的货物指令以及场景图像，预测出相应的场景描述信息，以结合该场景描述信息生成可移动至货物所在区域的第一导航路径，以及可移动至目标货物附近的第二导航路径，无需划定固定路线以及点位即可进行自动导航，极大降低了人工工作量以及部署成本；其次还可通过检测货物底部是否存在托盘，进一步确定目标货物所对应的搬运方式，进而有效保障货物的搬运效率。

Description

一种基于视觉语言模型的自动导引车导航方法及装置

技术领域

本申请属于物流管理技术领域，特别的涉及一种基于视觉语言模型的自动导引车导航方法及装置。

背景技术

随着物流产业的不断扩大，物流机器人的应用得到普及，例如各类自动导引车（Automated Guided Vehicle，AGV）已出现在物流各个环节上，不仅有效提升物流生产过程的智能化水平，还可减小人工投入，以降低整体管理成本。

然而现有自动导引车的智能化水平较差，需要完全依赖人工指定路线以及位置进行工作，缺乏对场景以及货物的理解能力，导致适应性较差；其次，自动导引车在搬运货物的过程中，还需要求人工按照要求将货物摆放在指定位置，并根据控制指令来进行货物搬运，不仅极大增加人工工作量以及操作步骤，还会货物搬运效率造成严重影响。

发明内容

本申请为解决上述提到的需要完全依赖人工指定路线以及位置进行工作，缺乏对场景以及货物的理解能力，导致适应性较差；其次，自动导引车在搬运货物的过程中，还需要求人工按照要求将货物摆放在指定位置，并根据控制指令来进行货物搬运，不仅极大增加人工工作量以及操作步骤，还会货物搬运效率造成严重影响等技术缺陷，提出一种基于视觉语言模型的自动导引车导航方法及装置，其技术方案如下：

第一方面，本申请实施例提供了一种基于视觉语言模型的自动导引车导航方法，包括：

当处于指定工作区域时，将包含货物类型的货物指令以及与指定工作区域对应的场景图像输入至视觉语言模型，得到指定工作区域的场景描述信息；其中，视觉语言模型由至少两组指令文本样本、与每组指令文本样本对应的样本图像以及描述文本样本训练得到；

基于场景图像中的货物区域以及场景描述信息，生成第一导航路径，并按照第一导航路径移动至货物区域；其中，货物区域包含与货物类型对应的至少两种待识别货物；

在货物区域获取包含所有待识别货物的货物图像，并在货物图像中确定出任意一个待识别货物为目标货物时，根据目标货物所对应的预设堆放规则、货物图像以及场景描述信息生成第二导航路径；

按照第二导航路径进行移动处理，并当检测到目标货物的底部存在托盘时，根据托盘的位姿信息对托盘进行叉取处理。

在第一方面的一种可选方案中，场景描述信息包括障碍物信息以及道路信息；

基于场景图像中的货物区域以及场景描述信息，生成第一导航路径，包括：

在场景图像中确定出货物区域所对应的区域轮廓，并识别出区域轮廓的特征点位置；

基于预设的相机参数对特征点位置进行转换处理，并根据经过处理后的特征点位置、道路信息以及当前位置生成至少两个第一备选路径；

基于障碍物信息对所有第一备选路径进行筛选处理，得到第一导航路径。

在第一方面的又一种可选方案中，在货物区域获取包含所有待识别货物的货物图像之后，还包括：

基于预设的数据库查询出与货物类型对应的标准轮廓；其中，预设的数据库包含至少两种货物类型以及与每种货物类型对应的标准轮廓；

在货物图像中确定出与每个待识别货物对应的货物轮廓，并计算出标准轮廓与每个货物轮廓之间的相似度；

当任意一个相似度超过预设的相似度阈值时，将相应待识别货物作为目标货物；或

当任意一个相似度均未超过预设的相似度阈值时，确定不存在目标货物。

在第一方面的又一种可选方案中，场景描述信息还包括关键对象信息；

根据目标货物所对应的预设堆放规则、货物图像以及场景描述信息生成第二导航路径，包括：

在货物图像中统计出目标货物包含的子货物个数，并当检测到个数超过预设的个数阈值时，基于目标货物所对应的预设堆放规则确定出目标子货物的位姿信息；其中，目标货物包含至少一个子货物，目标子货物为所有子货物中的一个子货物；

根据关键对象信息得到对象运动轨迹，并基于目标子货物的位姿信息、对象运动轨迹以及经过处理后的特征点位置，生成第二导航路径。

在第一方面的又一种可选方案中，根据关键对象信息得到对象运动轨迹，包括：

按照预设的时间间隔获取与关键对象信息对应的至少两帧运动图像，并在每帧运动图像中识别出对象轮廓；

根据任意相邻两帧运动图像所对应的对象轮廓以及预设的时间间隔，计算出对象运动参数，并基于对象运动参数模拟出对象运动轨迹。

在第一方面的又一种可选方案中，目标子货物的位姿信息包含目标位置以及第一姿态角度；

基于目标子货物的位姿信息、对象运动轨迹以及经过处理后的特征点位置，生成第二导航路径，包括：

基于目标位置以及经过处理后的特征点位置生成至少两个第二备选路径；

当任意一个第二备选路径与对象运动轨迹均不存在重叠路径时，根据路径距离最小的第二备选路径以及第一姿态角度得到第二导航路径。

在第一方面的又一种可选方案中，托盘的位姿信息包括托盘位置以及第二姿态角度；

根据托盘的位姿信息对托盘进行叉取处理，包括：

当托盘位置与目标位置不一致时，根据托盘位置与目标位置之间的直线距离生成第三导航路径，并按照第三导航路径进行移动处理；

当第二姿态角度与第一姿态角度之间的角度差值超过预设的差值阈值时，根据角度差值进行旋转处理，并对托盘进行叉取处理。

第二方面，本申请实施例提供了一种基于视觉语言模型的自动导引车导航装置，包括：

场景分析模块，用于当处于指定工作区域时，将包含货物类型的货物指令以及与指定工作区域对应的场景图像输入至视觉语言模型，得到指定工作区域的场景描述信息；其中，视觉语言模型由至少两组指令文本样本、与每组指令文本样本对应的样本图像以及描述文本样本训练得到；

第一规划模块，用于基于场景图像中的货物区域以及场景描述信息，生成第一导航路径，并按照第一导航路径移动至货物区域；其中，货物区域包含与货物类型对应的至少两种待识别货物；

第二规划模块，用于在货物区域获取包含所有待识别货物的货物图像，并在货物图像中确定出任意一个待识别货物为目标货物时，根据目标货物所对应的预设堆放规则、货物图像以及场景描述信息生成第二导航路径；

货物处理模块，用于按照第二导航路径进行移动处理，并当检测到目标货物的底部存在托盘时，根据托盘的位姿信息对托盘进行叉取处理。

第三方面，本申请实施例还提供了一种基于视觉语言模型的自动导引车导航装置，包括处理器以及存储器；

处理器与存储器连接；

存储器，用于存储可执行程序代码；

处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于实现本申请实施例第一方面或第一方面的任意一种实现方式提供的基于视觉语言模型的自动导引车导航方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，可实现本申请实施例第一方面或第一方面的任意一种实现方式提供的基于视觉语言模型的自动导引车导航方法。

在本申请实施例中，可在进行货物搬运处理时，当处于指定工作区域时，将包含货物类型的货物指令以及与指定工作区域对应的场景图像输入至视觉语言模型，得到指定工作区域的场景描述信息；基于场景图像中的货物区域以及场景描述信息，生成第一导航路径，并按照第一导航路径移动至货物区域；在货物区域获取包含所有待识别货物的货物图像，并在货物图像中确定出任意一个待识别货物为目标货物时，根据目标货物所对应的预设堆放规则、货物图像以及场景描述信息生成第二导航路径；按照第二导航路径进行移动处理，并当检测到目标货物的底部存在托盘时，根据托盘的位姿信息对托盘进行叉取处理。通过利用视觉语言模型根据用户输入的货物指令以及场景图像，预测出相应的场景描述信息，以结合该场景描述信息生成可移动至货物所在区域的第一导航路径，以及可移动至目标货物附近的第二导航路径，无需划定固定路线以及点位即可进行自动导航，极大降低了人工工作量以及部署成本；其次还可通过检测货物底部是否存在托盘，进一步确定目标货物所对应的搬运方式，进而有效保障货物的搬运效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于视觉语言模型的自动导引车导航方法的整体流程图；

图2为本申请实施例提供的一种自动导引车的第二导航路径效果示意图；

图3为本申请实施例提供的一种基于视觉语言模型的自动导引车导航装置的结构示意图；

图4为本申请实施例提供的又一种基于视觉语言模型的自动导引车导航装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本申请的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

请参阅图1，图1示出了本申请实施例提供的一种基于视觉语言模型的自动导引车导航方法的整体流程图。

如图1所示，该基于视觉语言模型的自动导引车导航方法至少可以包括以下步骤：

步骤102、当处于指定工作区域时，将包含货物类型的货物指令以及与指定工作区域对应的场景图像输入至视觉语言模型，得到指定工作区域的场景描述信息。

在本申请实施例中，基于视觉语言模型的自动导引车导航方法可以但不局限于应用在自动导引车上（或是用以控制自动导引车的控制终端），该自动导引车可在移动至指定工作区域后，根据用户输入的货物指令以及利用拍摄设备所采集到的场景图像，先确定出货物所在区域并移动至相应位置，再确定出目标货物附近所在区域并移动至相应位置，相较于传统自动导引车完全依赖人工画路线以及画点位，并在环境或者位置发生变化时需要重新建图、绘制等操作，不仅极大降低人工投入以及部署成本，还具有更高的场景适应性。其中，指定工作区域可为用户所指定的货物堆放区域，例如设置有多组货架的工厂，在每组货架上堆放有需要由自动导引车进行搬运处理的货物，且该指定工作区域还可包含自动导引车所工作过的场景或是陌生场景，并通过得到场景描述信息的方式来实现对该指定工作区域的场景理解，以进一步生成准确的导航路径。

其中，用户输入的货物指令可以但不局限于包括所需搬运的货物类型以及货物大致所在位置，例如可表示为搬走A区域内的B货物，或是将A区域内的B货物搬运至C区域，且该货物指令的输入方式不局限于为语音或是文本输入。

上述提到的拍摄设备可以但不局限于设置在自动导引车上，或是设置在指定工作区域内，以通过向该拍摄设备发送拍摄指令的方式，获取由该拍摄设备所采集到的一张或多张场景图像（当采集到一张场景图像时，该场景图像也可理解为全景图像），且每张场景图像可以包含指定工作区域内的道路、车辆、行人、障碍物以及堆放货物区域等内容，便于后续生成场景描述信息的可靠性以及准确性。

可以理解的是，自动导引车在得到用户输入的货物指令以及利用拍摄设备所采集到的场景图像之后，还可以但不局限于将该货物指令以及场景图像输入至训练后的视觉语言模型，以由该视觉语言模型预测出指定工作区域下的场景描述信息。其中，场景描述信息至少可以包括环境描述信息以及关键对象描述信息，该环境描述信息具体可指自动导引车移动至货物区域的过程中所出现的固定障碍物信息（例如固定障碍物的类型以及所在位置），以及所划分出的道路信息（例如所有可行进道路个数以及道路类型），该关键对象描述信息可为自动导引车移动至货物区域的过程中所出现的工人信息（例如工人工号、所在位置以及运动状态）或是工作车辆信息（例如车辆类型、所在位置以及运动状态），当然该场景描述信息还可以包括一些通用描述信息，例如工作区域的光线强度或是占地面积等等，且不限定于此。

此处，视觉语言模型可理解为由视觉编码器与大型语言模型所集成的大模型，该视觉编码器以及大型语言模型所对应的结构均可为本领域所熟知的模型结构，以利用该视觉编码器将场景图像转换为相应的图像特征并通过线性映射的方式，与该大型语言模型的输入嵌入空间对齐，进而可使该大型语言模型根据图像特征以及货物指令文本预测出相应的场景描述信息。除此之外，在对该视觉语言模型进行训练的过程中，可以但不局限于将用户在至少两种工作区域下所采集到的场景图像（也即样本图像）、预先定义的指令文本（也即指令文本样本）以及场景描述文本（也即描述文本样本）作为训练集以及验证集，以提高该视觉语言模型的整体性能以及预测精度。当然，在本申请实施例中该视觉语言模型还可以但不局限于输入有与自动导引车对应的运行状态，也即将货物指令、场景图像以及运行状态输入至视觉语言模型，进而得到该自动导引车在移动至货物区域的过程中所对应的场景描述信息，该与运行状态具体可为用以表征自动导引车处于正常工作状态的文本信息或是用以表征自动导引车处于停机状态的文本信息，且不限定于此。

还可以理解的是，自动导引车可通过利用视觉语言模型根据用户输入的货物指令以及场景图像，预测出相应的场景描述信息，以结合该场景描述信息生成可移动至货物所在区域的第一导航路径，以及可移动至目标货物附近的第二导航路径，无需划定固定路线以及点位即可进行自动导航，极大降低了人工工作量以及部署成本；其次，该自动导引车还可通过检测货物底部是否存在托盘，进一步确定目标货物所对应的搬运方式，进而有效保障货物的搬运效率。

具体地，自动导引车在进行货物搬运处理时，可以但不局限于先根据预设的自动控制程序或是用户预先输入的区域位置，移动至相应的指定工作区域，并在该指定工作区域通过触控显示屏或是消息分发平台等待获取用户输入的货物指令。此处，在自动导引车接收到用户的货物指令之后，还可以但不局限于对该货物指令所对应的文本信息进行识别处理，以判断该货物指令是否为有效指令，以在确定该货物指令为有效指令的情况下控制拍摄设备采集该指定工作区域内的一张或多张场景图像。可以理解的是，当在文本信息中至少识别出货物类型时，可确定相应的货物指令为有效指令，例如该文本信息表示为搬走A区域内的B货物时，可确定货物指令为有效指令，又例如该文本信息表示为搬运货物时，可确定该货物指令为无效指令，且该文本信息中还可包含货物大致所在位置，以在识别出货物类型以及货物大致所在位置时，再确定出相应的货物指令为有效指令，不限定于此。

进一步的，在接收到由拍摄设备采集到的一张或多张场景图像之后，自动导引车可将该场景图像以及上述提到的货物指令文本输入至训练后的视觉语言模型，以通过该视觉语言模型预测出指定工作区域的场景描述信息。此处，场景描述信息可以但不局限于包括环境描述信息以及关键对象描述信息，该环境描述信息具体可指自动导引车移动至货物区域的过程中所出现的固定障碍物信息（例如固定障碍物的类型以及所在位置），以及所划分出的道路信息（例如所有可行进道路个数以及道路类型），该关键对象描述信息可为自动导引车移动至货物区域的过程中所出现的工人信息（例如工人工号、所在位置以及运动状态）或是工作车辆信息（例如车辆类型、所在位置以及运动状态），当然该场景描述信息还可以包括一些通用描述信息，例如工作区域的光线强度或是占地面积等等，且不限定于此。

可以理解的是，视觉语言模型可理解为由视觉编码器与大型语言模型所集成的大模型（当然，在本申请实施例中大模型中可不限定于仅包含有该视觉编码器与大型语言模型两种结构），该视觉编码器以及大型语言模型所对应的结构均可为本领域所熟知的模型结构，以利用该视觉编码器将场景图像转换为相应的图像特征并通过线性映射的方式，与该大型语言模型的输入嵌入空间对齐，进而可使该大型语言模型根据图像特征以及货物指令文本预测出相应的场景描述信息。除此之外，在对该视觉语言模型进行训练的过程中，可以但不局限于将用户在至少两种工作区域下所采集到的场景图像（也即样本图像）、预先定义的指令文本（也即指令文本样本）以及场景描述文本（也即描述文本样本）作为训练集以及验证集，以提高该视觉语言模型的整体性能以及预测精度。当然，在本申请实施例中该视觉语言模型还可以但不局限于输入有与自动导引车对应的运行状态，也即将货物指令、场景图像以及运行状态输入至视觉语言模型，进而得到该自动导引车在移动至货物区域的过程中所对应的场景描述信息，该与运行状态具体可为用以表征自动导引车处于正常工作状态的文本信息或是用以表征自动导引车处于停机状态的文本信息，且不限定于此。

步骤104、基于场景图像中的货物区域以及场景描述信息，生成第一导航路径，并按照第一导航路径移动至货物区域。

具体地，在得到指定工作区域的场景描述信息之后，自动导引车可以但不局限于先在场景图像中识别出包含多种待识别货物的货物区域（也可理解为货物摆放区域），再结合该货物区域以及场景描述信息，生成路径最短或是耗时最短的第一导航路径，并可按照该第一导航路径在指定工作区域内进行移动处理，直至移动至货物区域。此处，在从场景图像中识别出包含多种待识别货物的货物区域时，自动导引车还可在检测到场景图像的数量超过两个时，对所有场景图像进行融合拼接处理，以将不同拍摄角度下的场景图像的拼接成全景图像，并可根据货物指令中的货物大致位置在该全景图像中确定出包含有多种待识别货物的货物区域，或是还可在该全景图像中识别出与货物类型对应的货物形状相似的多种待识别货物，进而将该多种待识别货物所形成的区域作为货物区域，且不限定于此。可以理解的是，上述提到的图像融合拼接处理技术可为常规的图像处理技术，本申请说明书不再过多赘述。

作为本申请实施例的一种可选，场景描述信息包括障碍物信息以及道路信息；

具体地，在生成第一导航路径时，自动导引车可以但不局限于根据货物指令中的货物大致位置在场景图像中确定出包含有多种待识别货物的货物区域，例如当货物大致位置表示为A区域时，可将场景图像中包含A区域标识以及多种待识别货物的区域作为货物区域，或是可在该场景图像中识别出与货物类型对应的货物形状相似的多种待识别货物，以将包含有该多种待识别货物的区域作为货物区域，并可通过图像特征识别等常规处理手段在该场景图像中框选出货物区域所对应的区域轮廓。此处，货物区域所对应的区域轮廓可为规则图形轮廓，例如可为矩形轮廓，以便于将该区域轮廓中的任意至少一个顶点作为相应的轮廓特征点，进而提高确定特征点位置的效率。当然，本申请实施例中确定轮廓特征点的方式可不限定于此，例如还可将区域轮廓中与自动导引车之间的直线距离最近的点作为轮廓特征点，且此处不再过多赘述。

接着，在确定出区域轮廓中的轮廓特征点之后，自动导引车还可识别出该轮廓特征点在场景图像中的位置坐标，并基于拍摄设备所对应的相机参数对该位置坐标进行转换处理，也即将特征点位置从图像坐标系转换在世界坐标系内。此处，该相机参数可以但不局限于包含焦距、主点以及畸变系数等内外参数，且通过该相机参数对位置坐标进行转换处理的方式可为本领域常规的技术手段，不过多赘述于此。

接着，在得到经过坐标转换处理后的特征点位置之后，自动导引车还可将该特征点位置作为终点位置，将当前停留位置作为起点位置，通过结合道路信息中的可行进道路个数以及道路类型，确定出至少两个可行进的第一备选路径，且任意两个第一备选路径之间存在不重叠的路径或是不同的道路类型。可以理解的是，每个第一备选路径上除了起点位置以及终点位置还可设置有多个轨迹点位置，任意相邻两个轨迹点位置之间的连线路径可形成相应第一备选路径上的部分路径，且任意相邻两个轨迹点位置之间的连线路径还可配置有相应的路径运动状态。此处以某第一备选路径包含三个轨迹点位置为例，起点位置到第一个轨迹点位置之间的连线路径可配置为直线加速状态，该第一个轨迹点位置到第二个轨迹点位置之间的连线路径可配置为直线均速状态，该第二个轨迹点位置到第三个轨迹点位置之间的连线路径可配置为变道匀速状态，该第三个轨迹点位置到终点位置之间的连线路径可配置为直线减速状态。

接着，在确定出至少两个第一备选路径之后，自动导引车还可结合障碍物信息中固定障碍物的所在位置，判断每个第一备选路径上是否存在障碍物，并将存在有障碍物的第一备选路径进行筛选处理，并可将剩余的第一备选路径作为第一导航路径。此处，当经过筛选处理后的第一备选路径超过一个时，自动导引车还可根据每个第一备选路径所包含的轨迹点位置个数以及变速状态来进一步进行筛选处理，例如可将轨迹点位置个数最少，且匀速状态最多的第一备选路径作为第一导航路径，且不限定于此。

需要说明的是，在确定出至少两个第一备选路径、起点位置以及终点位置之后，本申请实施例中的自动导引车还可以但不局限于根据起点位置自行选择当前行进路径（其路径距离小于任意一个第一备选路径的路径距离），且在沿着该当前行进路径行进的过程中可根据所有第一备选路径以及固定障碍物的位置（当然也可包括行进过程中所出现的行人或是车辆）自行选择下一行进路径，以便于在当前行进路径完成后继续按照该下一行进路径进行移动，且在按照该下一行进路径行进的过程中，自动导引车还可继续根据所有第一备选路径以及固定障碍物的位置自行选择接下来的行进路径，直至最终移动至终点位置，也即利用偏向寻路逻辑的方式移动至目标货物所在区域。

步骤106、在货物区域获取包含所有待识别货物的货物图像，并在货物图像中确定出任意一个待识别货物为目标货物时，根据目标货物所对应的预设堆放规则、货物图像以及场景描述信息生成第二导航路径。

具体地，在按照第一导航路径移动至货物区域之后，自动导引车可以但不局限于在该货物区域控制拍摄设备采集包含所有待识别货物的货物图像，并判断货物图像内是否存在任意一个待识别货物为目标货物。此处，在判断货物图像是否存在待识别货物为目标货物时，自动导引车可将该货物图像以及与货物类型对应的参数文本（例如货物的尺寸参数、颜色以及外观标识）输入至预设的模型中，以通过该预设的模型预测出货物图像中每个待识别货物为目标货物的概率，并可将概率超过预设概率阈值的待识别货物作为目标货物。可以理解的是，该预设的模型结构可与上述提到的视觉语言模型结构类似，或是也可直接为上述提到的视觉语言模型（由视觉编码器与大型语言模型所集成的大模型），也即可利用视觉编码器将货物图像转换为相应的图像特征并通过线性映射的方式，与该大型语言模型的输入嵌入空间对齐，进而可使该大型语言模型根据图像特征以及参数文本预测出货物图像中每个待识别货物为目标货物的概率，且该预设的模型具体可由用户预先采集到的至少两张货物图像、每张货物图像中指定货物的参数文本以及标注有各个货物是否为指定货物概率的图像训练得到。

作为本申请实施例的又一种可选，在货物区域获取包含所有待识别货物的货物图像之后，还包括：

具体地，在判断货物图像是否存在待识别货物为目标货物时，自动导引车还可基于预设的数据库预先查询出与货物类型对应的标准轮廓，该标准轮廓表明有货物类型的尺寸比例，例如该标准轮廓中长度与宽度之间的比值为2:1，并可在货物图像确定出每个待识别货物所对应的货物轮廓。此处，预设的数据库中包含有至少两种货物类型以及与每种货物类型对应的标准轮廓。

接着，在分别确定出每个待识别货物所对应的货物轮廓以及标准轮廓之后，自动导引车还可计算出每个待识别货物所对应的货物轮廓与标准轮廓之间的相似度，并可将相似度超过预设的相似度阈值的待识别货物作为目标货物，该相似度计算方式可为本领域所熟知的技术手段，不再过多赘述于此。

可以理解的是，当任意一个相似度均未超过预设的相似度阈值时，表明当前货物图像中并不存在目标货物，进而可由自动导引车控制拍摄设备从不同的拍摄角度再次获取新的货物图像，以判断新的货物图像是否存在待识别货物为目标货物。当然，若在多张货物图像中均未检测到任意一个待识别货物为目标货物时，表明可能货物区域存在异常，进而可由自动导引车重新确定货物区域，也即目标货物所在区域。

进一步的，在确定出货物图像中存在任意一个待识别货物为目标货物之后，自动导引车还可以但不局限于在该货物图像中统计出目标货物所包含的子货物个数，以在检测到该子货物个数超过预设的个数阈值时，根据目标货物所对应的预设堆放规则确定出目标子货物在货物图像中的位姿信息。可以理解的是，目标货物所对应的预设堆放规则可理解为用户在进行目标货物堆放时所执行的堆放方式，例如可包括堆放行列数以及堆放角度（也即货物相对于货架正前方所旋转的角度），以在目标货物的子货物超过预设的个数阈值时，表明目标货物存在多个堆叠放置的子货物，进而先根据目标货物所对应的堆放行列数对货物图像中的目标货物进行划分处理，以划分出每个子货物，接着可以但不局限于按照从上往下的顺序将第一列第一个子货物作为目标子货物（第一列第二个子货物将作为下一个目标子货物），并将目标货物所对应的堆放角度作为该目标子货物的姿态角度，以结合该目标子货物在货物图像中所识别出的位置坐标共同作为目标子货物在货物图像中的位姿信息。

需要说明的是，在本申请实施例中可通过目标货物所对应的预设堆放规则，提前确定出自动导引车在对上述提到的目标子货物进行搬运处理时的大致位姿信息，以便于保障后续可通过更加精准的位姿识别算法来对自动导引车进行校正处理，进而提高货物搬运效率。

进一步的，在确定出目标子货物在货物图像中的位姿信息之后，自动导引车可根据场景描述信息中的关键对象信息，也即指定自动导引车移动至货物区域的过程中所出现的工人信息（例如工人工号、所在位置以及运动状态）或是工作车辆信息（例如车辆类型、所在位置以及运动状态），生成相应的工人运动轨迹或是车辆运动轨迹，并可结合目标子货物在货物图像中的位姿信息以及自动导引车当前所处位置（也即上述实施例中提到的经过处理后的特征点位置），生成路径最短或是耗时最短的第二导航路径，以使自动导引车在按照该第二导航路径移动至目标子货物附近时，不仅耗时较短，而且不会与行人或是车辆发生碰撞。

作为本申请实施例的又一种可选，根据关键对象信息得到对象运动轨迹，包括：

具体地，在根据关键对象信息得到对象运动轨迹时，自动导引车可以但不局限于控制设置在指定工作区域内的顶部拍摄设备，按照预设的时间间隔采集包含有关键对象信息中的运动对象的至少两帧运动图像，并可在每帧运动图像中识别出运动对象的对象轮廓。此处，自动导引车可在控制顶部拍摄设备采集运动图像之前，还可先根据关键对象信息中各个对象的运动状态来筛选出处于正常运动状态的运动对象，该筛选方式可根据关键对象信息中各个对象所对应的工人工号以及运动状态，或是车辆类型以及运动状态确定，例如可先根据工人工号或是车辆类型在历史记录中查询出相应工人或是相应车辆在当前时段内的运动状态，并在查询出的运动状态与视觉语言模型所预测的运动状态一致，且均表示为正常运动状态时，可将相应对象作为运动对象，且不限定于此。

接着，在每帧运动图像中识别出运动对象的对象轮廓之后，自动导引车还可在每个对象轮廓中确定出同一特征点，以根据该特征点在任意相邻两帧运动图像中的位置坐标以及预设的时间间隔，计算出运动对象的运动方向以及运动速度（也即对象运动参数），并可将该运动对象在关键对象信息中的位置作为起点位置，模拟出该运动对象从该起点位置进行运动的轨迹。此处，根据时间间隔以及不同的位置坐标，计算出相应运动方向以及运动速度的方式可为本领域的常规处理技术，此处不再过多赘述。

作为本申请实施例的又一种可选，目标子货物的位姿信息包含目标位置以及第一姿态角度；

具体地，在生成第二导航路径时，自动导引车还可以但不局限于将上述提到的目标子货物在货物图像中的位置作为终点位置（此处，自动导引车在移动至终点位置时不会与目标子货物发生碰撞，且与目标子货物之间存在安全搬运距离），以及将该自动导引车在移动至货物区域时所处的位置作为起点位置，确定出至少两个可行进的第二备选路径，且任意两个第二备选路径之间存在不重叠的路径。可以理解的是，每个第二备选路径上除了起点位置以及终点位置还可设置有多个轨迹点位置，任意相邻两个轨迹点位置之间的连线路径还可配置有相应的路径运动状态。

接着，在得到至少两个第二备选路径之后，自动导引车还可将对象运动轨迹映射在每个第二备选路径所在平面，以判断是否存在重叠路径，并在检测到任意一个第二备选路径与该对象运动轨迹均不存在重叠路径时，表明指定工作区域内的行人或是车辆不会对自动导引车的行进路线造成干扰，进而可将路径距离最短的第二备选路径作为第二导航路径，同时还可将上述根据目标货物的预设堆放规则所确定出第一姿态角度，作为终点位置所对应的姿态角信息，也即目标导引车在按照第二导航路径移动至目标子货物附近时，还需按照该第一姿态角度进行旋转处理，以尽量保持自动导引车与目标子货物的朝向一致。

需要说明的是，在确定出至少两个第二备选路径、起点位置以及终点位置之后，本申请实施例中的自动导引车还可以但不局限于根据起点位置自行选择当前行进路径（其路径距离小于任意一个第二备选路径的路径距离），且在沿着该当前行进路径行进的过程中可根据所有第二备选路径以及上述提到的关键对象信息所包含的行人或是车辆自行选择下一行进路径，以便于在当前行进路径完成后继续按照该下一行进路径进行移动，且在按照该下一行进路径行进的过程中，自动导引车还可继续根据所有第二备选路径以及上述提到的关键对象信息所包含的行人或是车辆自行选择接下来的行进路径，直至最终移动至终点位置，也即利用偏向寻路逻辑的方式移动至目标货物附近。

此处还可参阅图2示出的本申请实施例提供的一种自动导引车的第二导航路径效果示意图，如图2所示，自动导引车按照第一导航路径移动至货物区域的底部，由于在B的上方存在运动的行人，该行人的对象运动轨迹使得自动导引车在移动至B之后需要改变运动轨迹，因此生成的第二导航路径中可包括A、B、C以及D四个轨迹点，A（也即起点位置）到B之间可为直线加速状态，B到C之间可为直线匀速状态，C到D（终点位置）之间可为直线减速状态。除此之外，可以看出货物区域内包含有四种货物，目标货物具体包含排列方式为2*2的四个子货物，并可将四个子货物中处于右下角的子货物作为目标子货物，且自动导引车按照第二导航路径可移动至该目标子货物附近。

步骤108、按照第二导航路径进行移动处理，并当检测到目标货物的底部存在托盘时，根据托盘的位姿信息对托盘进行叉取处理。

具体地，在得到第二导航路径之后，自动导引车可按照该第二导航路径进行移动处理，直至目标货物附近，并可控制拍摄设备获取包含目标货物的图像，以根据该图像判断该目标货物是否需要通过托盘进行取放。可以理解的是，当目标货物底部存在托盘时，表明该目标货物需要通过托盘进行取放，也即自动导引车需要对托盘进行叉取处理，进而实现对目标货物的搬运处理；当目标货物底部不存在托盘时，表明该目标货物不需要托盘进行取放，也即自动导引车可直接通过托举目标货物底部的方式对该目标货物进行搬运处理。

接着，当通过图像识别等处理手段确定目标货物底部存在托盘时，自动导引车还可根据该托盘在图像中的位姿信息，来判断是否需要进一步对自动导引车的位姿进行校正处理，并可在校正处理之后，通过传统的托盘高精度定位算法确定出目标货物底部的托盘精确位置，以按照该托盘精确位置对目标货物底部的托盘进行叉取处理，进而实现对目标货物的搬运处理。

作为本申请实施例的又一种可选，托盘的位姿信息包括托盘位置以及第二姿态角度；

根据托盘的位姿信息对托盘进行叉取处理，包括：

具体地，在根据托盘的位姿信息对托盘进行叉取处理时，自动导引车可以但不局限于通过现有的位姿识别算法，有效识别出托盘在上述提到的图像中的位置以及姿态角，并当检测到托盘位置与目标位置不一致时，表明托盘与目标子货物之间的位置存在差异（例如托盘整体处于目标子货物的底部中心，自动导引车无法与托盘进行有效接触），进而可根据托盘位置与目标位置之间的直线距离生成第三导航路径，并按照第三导航路径进行移动处理。

接着，在按照第三导航路径进行移动处理之后，自动导引车还可判断是否需要进行旋转处理，以在第二姿态角度与第一姿态角度之间的角度差值超过预设的差值阈值时，表明自动导引车的当前朝向与托盘的朝向存在较大偏差，为避免叉取过程中发生货物损坏，可根据角度差值进行旋转处理，直至自动导引车的当前朝向与托盘的朝向一致，接着可通过传统的托盘高精度定位算法确定出目标货物底部的托盘精确位置，以按照该托盘精确位置对目标货物底部的托盘进行叉取处理，进而实现对目标货物的搬运处理。

请参阅图3，图3示出了本申请实施例提供的一种基于视觉语言模型的自动导引车导航装置的结构示意图。

如图3所示，该基于视觉语言模型的自动导引车导航装置至少可以包括场景分析模块301、第一规划模块302、第二规划模块303以及货物处理模块304，其中：

场景分析模块301，用于当处于指定工作区域时，将包含货物类型的货物指令以及与指定工作区域对应的场景图像输入至视觉语言模型，得到指定工作区域的场景描述信息；其中，视觉语言模型由至少两组指令文本样本、与每组指令文本样本对应的样本图像以及描述文本样本训练得到；

第一规划模块302，用于基于场景图像中的货物区域以及场景描述信息，生成第一导航路径，并按照第一导航路径移动至货物区域；其中，货物区域包含与货物类型对应的至少两种待识别货物；

第二规划模块303，用于在货物区域获取包含所有待识别货物的货物图像，并在货物图像中确定出任意一个待识别货物为目标货物时，根据目标货物所对应的预设堆放规则、货物图像以及场景描述信息生成第二导航路径；

货物处理模块304，用于按照第二导航路径进行移动处理，并当检测到目标货物的底部存在托盘时，根据托盘的位姿信息对托盘进行叉取处理。

在一些可能的实施例中，场景描述信息包括障碍物信息以及道路信息；

在一些可能的实施例中，在货物区域获取包含所有待识别货物的货物图像之后，还包括：

在一些可能的实施例中，场景描述信息还包括关键对象信息；

在一些可能的实施例中，根据关键对象信息得到对象运动轨迹，包括：

在一些可能的实施例中，目标子货物的位姿信息包含目标位置以及第一姿态角度；

在一些可能的实施例中，托盘的位姿信息包括托盘位置以及第二姿态角度；

根据托盘的位姿信息对托盘进行叉取处理，包括：

本领域的技术人员可以清楚地了解到本申请实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是现场可编程门阵列（Field－ProgrammableGate Array，FPGA）、集成电路（Integrated Circuit，IC）等。

请参阅图4，图4示出了本申请实施例提供的又一种基于视觉语言模型的自动导引车导航装置的结构示意图。

如图4所示，该基于视觉语言模型的自动导引车导航装置400可以包括至少一个处理器401、至少一个网络接口404、用户接口403、存储器405以及至少一个通信总线402。

其中，通信总线402可用于实现上述各个组件的连接通信。

其中，用户接口403可以包括按键，可选用户接口还可以包括标准的有线接口、无线接口。

其中，网络接口404可以但不局限于包括蓝牙模块、NFC模块、Wi-Fi模块等。

其中，处理器401可以包括一个或者多个处理核心。处理器401利用各种接口和线路连接基于视觉语言模型的自动导引车导航装置400内的各个部分，通过运行或执行存储在存储器405内的指令、程序、代码集或指令集，以及调用存储在存储器405内的数据，执行路由基于视觉语言模型的自动导引车导航装置400的各种功能和处理数据。可选的，处理器401可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器401可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器401中，单独通过一块芯片进行实现。

其中，存储器405可以包括RAM，也可以包括ROM。可选的，该存储器405包括非瞬时性计算机可读介质。存储器405可用于存储指令、程序、代码、代码集或指令集。存储器405可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器405可选的还可以是至少一个位于远离前述处理器401的存储装置。如图4所示，作为一种计算机存储介质的存储器405中可以包括操作系统、网络通信模块、用户接口模块以及基于视觉语言模型的自动导引车导航应用程序。

具体地，处理器401可以用于调用存储器405中存储的基于视觉语言模型的自动导引车导航应用程序，并具体执行以下操作：

根据托盘的位姿信息对托盘进行叉取处理，包括：

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统（包括分子存储器IC），或适合于存储指令和/或数据的任何类型的媒介或设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都描述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

Claims

1.一种基于视觉语言模型的自动导引车导航方法，其特征在于，包括：

当处于指定工作区域时，将包含货物类型的货物指令以及与所述指定工作区域对应的场景图像输入至视觉语言模型，得到所述指定工作区域的场景描述信息；其中，所述视觉语言模型由至少两组指令文本样本、与每组所述指令文本样本对应的样本图像以及描述文本样本训练得到；

基于所述场景图像中的货物区域以及所述场景描述信息，生成第一导航路径，并按照所述第一导航路径移动至所述货物区域；其中，所述货物区域包含与所述货物类型对应的至少两种待识别货物；

在所述货物区域获取包含所有所述待识别货物的货物图像，并在所述货物图像中确定出任意一个所述待识别货物为目标货物时，根据所述目标货物所对应的预设堆放规则、所述货物图像以及所述场景描述信息生成第二导航路径；

按照所述第二导航路径进行移动处理，并当检测到所述目标货物的底部存在托盘时，根据所述托盘的位姿信息对所述托盘进行叉取处理。

2.根据权利要求1所述的方法，其特征在于，所述场景描述信息包括障碍物信息以及道路信息；

所述基于所述场景图像中的货物区域以及所述场景描述信息，生成第一导航路径，包括：

在所述场景图像中确定出货物区域所对应的区域轮廓，并识别出所述区域轮廓的特征点位置；

基于预设的相机参数对所述特征点位置进行转换处理，并根据经过处理后的所述特征点位置、所述道路信息以及当前位置生成至少两个第一备选路径；

基于所述障碍物信息对所有所述第一备选路径进行筛选处理，得到第一导航路径。

3.根据权利要求1所述的方法，其特征在于，所述在所述货物区域获取包含所有所述待识别货物的货物图像之后，还包括：

基于预设的数据库查询出与所述货物类型对应的标准轮廓；其中，所述预设的数据库包含至少两种货物类型以及与每种货物类型对应的标准轮廓；

在所述货物图像中确定出与每个所述待识别货物对应的货物轮廓，并计算出所述标准轮廓与每个所述货物轮廓之间的相似度；

当任意一个所述相似度超过预设的相似度阈值时，将相应所述待识别货物作为目标货物；或

当任意一个所述相似度均未超过所述预设的相似度阈值时，确定不存在目标货物。

4.根据权利要求2所述的方法，其特征在于，所述场景描述信息还包括关键对象信息；

所述根据所述目标货物所对应的预设堆放规则、所述货物图像以及所述场景描述信息生成第二导航路径，包括：

在所述货物图像中统计出所述目标货物包含的子货物个数，并当检测到所述个数超过预设的个数阈值时，基于所述目标货物所对应的预设堆放规则确定出目标子货物的位姿信息；其中，所述目标货物包含至少一个所述子货物，所述目标子货物为所有所述子货物中的一个所述子货物；

根据所述关键对象信息得到对象运动轨迹，并基于所述目标子货物的位姿信息、所述对象运动轨迹以及经过处理后的所述特征点位置，生成第二导航路径。

5.根据权利要求4所述的方法，其特征在于，所述根据所述关键对象信息得到对象运动轨迹，包括：

按照预设的时间间隔获取与所述关键对象信息对应的至少两帧运动图像，并在每帧所述运动图像中识别出对象轮廓；

根据任意相邻两帧所述运动图像所对应的对象轮廓以及所述预设的时间间隔，计算出对象运动参数，并基于所述对象运动参数模拟出对象运动轨迹。

6.根据权利要求4所述的方法，其特征在于，所述目标子货物的位姿信息包含目标位置以及第一姿态角度；

所述基于所述目标子货物的位姿信息、所述对象运动轨迹以及经过处理后的所述特征点位置，生成第二导航路径，包括：

基于所述目标位置以及经过处理后的所述特征点位置生成至少两个第二备选路径；

当任意一个所述第二备选路径与所述对象运动轨迹均不存在重叠路径时，根据路径距离最小的所述第二备选路径以及所述第一姿态角度得到第二导航路径。

7.根据权利要求6所述的方法，其特征在于，所述托盘的位姿信息包括托盘位置以及第二姿态角度；

所述根据所述托盘的位姿信息对所述托盘进行叉取处理，包括：

当所述托盘位置与所述目标位置不一致时，根据所述托盘位置与所述目标位置之间的直线距离生成第三导航路径，并按照所述第三导航路径进行移动处理；

当所述第二姿态角度与所述第一姿态角度之间的角度差值超过预设的差值阈值时，根据所述角度差值进行旋转处理，并对所述托盘进行叉取处理。

8.一种基于视觉语言模型的自动导引车导航装置，其特征在于，包括：

场景分析模块，用于当处于指定工作区域时，将包含货物类型的货物指令以及与所述指定工作区域对应的场景图像输入至视觉语言模型，得到所述指定工作区域的场景描述信息；其中，所述视觉语言模型由至少两组指令文本样本、与每组所述指令文本样本对应的样本图像以及描述文本样本训练得到；

第一规划模块，用于基于所述场景图像中的货物区域以及所述场景描述信息，生成第一导航路径，并按照所述第一导航路径移动至所述货物区域；其中，所述货物区域包含与所述货物类型对应的至少两种待识别货物；

第二规划模块，用于在所述货物区域获取包含所有所述待识别货物的货物图像，并在所述货物图像中确定出任意一个所述待识别货物为目标货物时，根据所述目标货物所对应的预设堆放规则、所述货物图像以及所述场景描述信息生成第二导航路径；

货物处理模块，用于按照所述第二导航路径进行移动处理，并当检测到所述目标货物的底部存在托盘时，根据所述托盘的位姿信息对所述托盘进行叉取处理。

9.一种基于视觉语言模型的自动导引车导航装置，其特征在于，包括处理器以及存储器；

所述处理器与所述存储器连接；

所述存储器，用于存储可执行程序代码；

所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于执行如权利要求1-7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在计算机或处理器上运行时，使得所述计算机或处理器执行如权利要求1-7任一项所述方法的步骤。