CN116483977A

CN116483977A - 一种利用大语言模型实现移动机器人人机交互巡检的方法

Info

Publication number: CN116483977A
Application number: CN202310495005.5A
Authority: CN
Inventors: 黄德青; 陈宏睿; 甘运; 危爽; 张目华
Original assignee: Chengdu Guojia Electrical Engineering Co ltd
Current assignee: Chengdu Guojia Electrical Engineering Co ltd
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-07-25

Abstract

本发明公开一种利用大语言模型实现移动机器人人机交互巡检的方法，包括建立任务调度管理器；通过移动机器人的语音模块或者可视化交互界面获取用户的自然语言指令；通过任务调度管理器和自然语言指令，使用大语言模型推理巡检任务执行流程；使用任务调度管理器将巡检任务执行流程反馈给用户。若用户提出意见，则返回上一步迭代优化巡检任务执行流程，若用户确认执行，则进入下一步；使用任务调度管理器控制移动机器人执行巡检任务，巡检过程中使用大语言模型迭代推理；巡检任务完成后，将巡检结果反馈给用户。本发明提高移动机器人与用户之间的交互效率和质量，并提高移动机器人巡检的适应性和智能。

Description

一种利用大语言模型实现移动机器人人机交互巡检的方法

技术领域

本发明属于移动机器人技术领域，特别是涉及一种利用大语言模型实现移动机器人人机交互巡检的方法。

背景技术

移动机器人是一种能够在环境中自主或半自主地移动的机器人，它们可以用于执行各种任务，如导航、探测、搬运、巡检等。移动机器人在巡检中具有良好的应用前景，能够在复杂环境中代替或辅助人工完成巡检任务，其具有无需预埋导航标识、可实现多点多线路灵活切换、可实现远程监控与控制等优点。

巡检需求通常不固定且多变，通常根据现场的情况有不同的巡检要求，需要工作人员在现场和移动机器人进行交互，下达不同指令来满足多样的巡检需求。然而，移动机器人的智能化水平还有待提高，尤其是在人机交互方面。目前，移动机器人与人之间的交互主要依赖于触摸屏、按键、遥控器等方式，这些方式不仅操作复杂，而且交互效率低下，不能很好的对工作人员的意图进行理解，并自主对任务进行规划和执行。因此，如何实现移动机器人与人之间的自然语言交互，是当前移动机器人领域的一个重要研究课题。

发明内容

为了解决上述问题，本发明提出了一种利用大语言模型实现移动机器人人机交互巡检的方法，提高移动机器人与用户之间的交互效率和质量，并提高移动机器人巡检的适应性和智能。

为达到上述目的，本发明采用的技术方案是：一种利用大语言模型实现移动机器人人机交互巡检的方法，包括步骤：

步骤1：建立任务调度管理器；

步骤2：通过移动机器人的语音模块或者可视化交互界面获取用户的自然语言指令；

步骤3：通过任务调度管理器和自然语言指令，使用大语言模型推理巡检任务执行流程；

步骤4：使用任务调度管理器将巡检任务执行流程反馈给用户。若用户提出意见，则返回步骤3迭代优化巡检任务执行流程，若用户确认执行，则进入步骤5；

步骤5：使用任务调度管理器控制移动机器人执行巡检任务，巡检过程中使用大语言模型迭代推理；

步骤6：巡检任务完成后，将巡检结果反馈给用户。

进一步的是，所述任务调度管理器包括调度原则、巡检功能模块库、问答模块和大语言模型输入模块，在所述步骤1中建立任务调度管理器，包括步骤：

步骤1.1：建立调度原则：为大语言模型提供规范格式和顺序推理出任务步骤，并优先调用巡检功能模块库；

步骤1.2：建立巡检功能模块库：封装针对不同巡检子任务的基础模块，每个基础模块都提供明确的名称提示符、用途使用提示符和输入输出提示符，方便大语言模型正确理解和调用；

步骤1.3：建立问答模块：用户通过语音指令或者交互界面与问答模块交互，问答模块储存用户当前自然语言指令和历史自然语言指令，以便后续大语言模型再次推理；

步骤1.4：建立大语言模型输入模块：汇总大语言模型推理的历史隐藏问答和历史推理结果，并将各基础模块输出信息转换为大语言模型所理解的自然语言形式，以便后续再次推理。

进一步的是，在所述步骤1.1中，建立调度原则，包括：

(1)任务调度管理器能够访问巡检功能模块库，使大语言模型根据基础模块的提示符推理巡检任务流程或执行指令代码；

(2)任务调度管理器为每个巡检任务生成一个唯一的序列号，并在序列号后面加上一个后缀提示，表示该任务是由哪些基础模块组成的，以避免因混乱的任务名导致大语言模型推理错误；

(3)任务调度管理器使用链式思维来协助大语言模型推理或调度基础模块，即每次生成一个巡检任务后，向大语言模型提出一个问题，询问是否需要使用更多的基础模块来完善或优化该巡检任务。

进一步的是，在所述步骤1.2中，巡检功能模块库通过基础模型的提示符来协助任务调度管理器调度基础模型，使大语言模型准确理解基础模块，基础模型提示符具体包括：(1)名称提示符：提供了每个基础模块整体功能的摘要，帮助大语言模型简洁地理解每个基础模块的目的，并作为基础模块的调用入口；(2)用途使用提示符：描述每个基础模块的使用场景，帮助大语言模型对特定任务使用哪个基础模块做出决定；(3)输入输出提示符：描述每个基础模块所需的输入和输出格式，帮助移动机器人正确执行基础模块提供明确的定义。

根据基础模型的种类和提示符，定义移动机器人感知主机模块包括：即时定位与地图构建模块，地图管理模块，路径规划及运动控制模块，语音交互模块，基于深度学习的人员位置识别模块，基于深度学习的人员穿戴标准识别模块，以及基于深度学习的火灾烟雾检测模块。

进一步的是，在所述步骤2中，通过麦克风阵列语音模块获取用户自然语言指令，包括步骤：

步骤2.1麦克风阵列语音模块采集用户语音输入；通过麦克风阵列语音模块收集用户语音输入的自然语言指令，并将其转换为数字信号；

步骤2.2数字信号将被送入语音处理模块进行预处理，所述预处理包括噪声消除、语音信号增强；

步骤2.3语音识别；将预处理后的信号送入语音识别模块，使用声学模型、语言模型和发音词典技术，将自然语言指令语音转换为文本。

进一步的是，在所述步骤3中：使用大语言模型推理巡检任务执行流程，包括步骤：

步骤3.1：查询问答模块的用户历史自然语言指令和输出模块的历史隐藏问答和历史推理结果；

步骤3.2：利用任务调度管理器将步骤3.1查询的内容、用户的自然语言指令、调度原则和基础模块提示符输入大语言模型进行迭代推理，得到巡检任务执行流程；

步骤3.3：储存大语言模型迭代推理过程的隐藏问答和用户的当前自然语言指令。

进一步的是，在所述步骤4中：使用任务调度管理器将巡检任务执行流程反馈给用户，包括步骤：

步骤4.1：将巡检任务执行流程通过语音模块或者可视化交互界面呈现给用户；

步骤4.2：再次通过移动机器人的语音模块或者可视化交互界面获取用户的自然语言指令；若用户下达执行任务的命令，则进入步骤5；若用户提出修改意见，则返回步骤3再次推理巡检任务执行流程；若用户不回应或下达取消任务的命令，则取消任务。

进一步的是，在所述步骤5中：使用任务调度管理器控制移动机器人执行巡检任务，巡检过程中使用大语言模型迭代推理，包括步骤：

步骤5.1：根据巡检任务执行流程和巡检功能模块库，使用大语言模型生成任务执行代码；

步骤5.2：将任务执行代码通过任务调度管理器下达至机器人，控制基础模块执行巡检任务；

步骤5.3：接收基础模块的执行信息，并使用大语言模型输入模块处理执行信息；

步骤5.4：利用任务调度管理器将处理后的基础模块的执行信息、巡检任务执行流程、调度原则和巡检功能模块库输入大语言模型推理是否完成巡检任务，并储存推理结果和基础模块执行信息；

步骤5.5：根据推理结果执行相应输出；若已完成巡检任务，则进入步骤6；若未完成巡检任务，则继续执行；若出现异常情况，则推理新的巡检任务执行代码，并进入步骤5.2。

进一步的是，在所述步骤6中：巡检任务完成后，将巡检结果反馈给用户，包括步骤：

步骤6.1：通过任务调度管理器将基础模块历史执行信息和巡检过程大语言模型历史推理结果输入大语言模型，推理巡检结果汇报内容；

步骤6.2：任务调度管理器通过语音模块或者可视化交互界面将汇报内容呈现给用户。

采用本技术方案的有益效果：

本发明通过构建任务调度管理器和集成多个巡检功能模块，实现了大语言模型与用户之间的高效、智能、灵活的人机交互，并利用大语言模型的强大生成能力和创造力，实现更多样化和个性化的巡检内容和方式。本发明可以提高移动机器人在机车检修车间场景下的巡检效率和质量，增强移动机器人的适应性和智能性，并提高用户体验和满意度。

本发明通过构建任务调度管理器，实现了大语言模型与用户之间的高效、智能、灵活的人机交互，提高了移动机器人在工业场景下的巡检效率和质量。

本发明通过集成多个巡检功能模块，扩展了大语言模型处理不同类型巡检任务的能力，增强了移动机器人在工业场景下的适应性和智能性。

本发明通过使用语音接口和模型输出模块，简化了用户与移动机器人之间的交互方式，提高了用户体验和满意度。

附图说明

图1为本发明的一种利用大语言模型实现移动机器人人机交互巡检的方法流程示意图；

图2为本发明实施例中个模块间的连接关系示意图；

图3为本发明实施例中移动机器人的连接关系示意图；

图4为本发明实施例的完整执行流程示意图；

图5为本发明实施例中大语言模型推理巡检任务执行流程的流程示意图；

图6为本发明实施例中任务执行过程大语言模型推理的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

本发明使用的硬件主要有移动四足机器人、推理服务器、麦克风阵列、激光雷达、深度相机和无线AP，其中大语言模型部署服务器GPU为NVIDIA V10032G，硬件部分连接示意图如图3所示。

在本实施例中，参见图1所示，本发明提出了一种利用大语言模型实现移动机器人人机交互巡检的方法，包括步骤：

步骤1：建立任务调度管理器；

步骤6：巡检任务完成后，将巡检结果反馈给用户。

具体实施过程如图4所示，通过用户下达指令，调动推理巡检任务执行流程，用户在循环中迭代解决方案的直流和安全性，推理执行代码执行任务。

作为上述实施例的优化方案，所述任务调度管理器包括调度原则、巡检功能模块库、问答模块和大语言模型输入模块，在所述步骤1中建立任务调度管理器，包括步骤：

其中，建立调度原则，包括：

其中，在所述步骤1.2中，巡检功能模块库通过基础模型的提示符来协助任务调度管理器调度基础模型，使大语言模型准确理解基础模块，基础模型提示符具体包括：

(1)名称提示符：提供了每个基础模块整体功能的摘要，帮助大语言模型简洁地理解每个基础模块的目的，并作为基础模块的调用入口；

(2)用途使用提示符：描述每个基础模块的使用场景，帮助大语言模型对特定任务使用哪个基础模块做出决定；

(3)输入输出提示符：描述每个基础模块所需的输入和输出格式，帮助移动机器人正确执行基础模块提供明确的定义。

如图2所示，根据基础模型的种类和提示符，定义移动机器人感知主机模块包括：即时定位与地图构建模块，地图管理模块，路径规划及运动控制模块，语音交互模块，基于深度学习的人员位置识别模块，基于深度学习的人员穿戴标准识别模块，以及基于深度学习的火灾烟雾检测模块。

(1)即时定位与地图构建模块m₁：

名称提示符：该模块用于实时获取机器人的位置和周围环境的地图。

用途使用提示符：该模块可以用于机器人的实时位置，可能的使用方式：获取实时位置后通过地图管理模块m₂获取所在的区域信息。

输入输出提示符：该模块无需额外的输入，输出可选位置和地图。其中获取位姿代码为“getLocation()”，输出类型为定义的location类，代表目前所处的位置；获取地图代码为“getMap()”,输出类型为map类型，代表周围的地图信息。

(2)地图管理模块m₂：

名称提示符：该模块用于存储和加载地图信息，指不同位置所属的区域信息，如位置(1，2，3)在办公区域等。

用途使用提示符：该模块可以用于了解不同位置所属的区域信息。

输入输出提示符：该模块的输入为位置信息，输出是区域信息。获取区域信息代码为“getAreaName(locaiton)”，输出类型为string类型，代表区域名字，输入需要提供location，类型为location类，代表想要查询的位置。

(3)路径规划及运动控制模块m₃：

名称提示符：该模块用于根据机器人的目标位置和地图信息，规划一条安全、高效和平滑的路径。并通过运动控制控制机器人前往指定地点。其间，该模块会自动调用即时定位与地图构建模块，获取自身位置以及地图信息，不需要额外的调用。同时，该模块会自动循环调用，以实现动态避障。

用途使用提示符：该模块可以实现机器人的自主运动。

输入输出提示符：该模块输入为终点位置信息，当生命周期结束时，会输出是否到达终点。获取路径序列的代码为“setDestination(goalLocation)”，输出类型为bool类型，代表是否到达终点，输入需要提供goalLocation，类型为location类，代表目的地的位置。

(4)语音交互模块m₄：

名称提示符：该模块用于实现机器人与人类的语音交互，包括语音识别和语音合成。

用途使用提示符：该模块可以用于实现用户与机器人之间的自然语言交互，通过语音识别获取用户的指令信息，以及通过语音合成提供语音反馈。

输入输出提示符：该模块包括两个子模块，包括语音识别和语音合成，其中语音识别无需额外输入，调用代码为“getSpeech()”，输出为string类，表示用户所说的话。语音合成的调用代码为“speak(string)”，无输出，输入需要提供string类型，代表需要和用户说的文字。

(5)基于深度学习的人员位置识别模块m₅：

名称提示符：该模块用于根据机器人的摄像头数据，在复杂环境中识别出人员的位置信息。

用途使用提示符：当需要知晓人员位置的时候使用，比如说：前方是否存在人员，位置在地图中的何处。

输入输出提示符：该模块的无需额外的输入，输出人员位姿。调用代码为“getPersonLocationAndPose()”。输出为定义的person类，其中包含人员编号与位置信息。

(6)基于深度学习的人员穿戴标准识别模块m₆：

名称提示符：该模块用于识别出相机视角范围内人员是否符合穿戴标准，如是否佩戴口罩、安全帽等。

用途使用提示符：该模块可以用于让机器人能够监督人员的穿戴情况，当需要查看人员是否穿戴标准时使用。

输入输出提示符：该模块无需额外的输入，输出为是否有人员穿戴不标准。调用代码为“getPersonWearingStandardRecognitionResult()”，输出为bool类型，代表是否有人员穿戴不标准。

(7)基于深度学习的火灾烟雾检测模块m₇：

名称提示符：该模块可以检测出相机范围内是否有火灾烟雾的迹象。

用途使用提示符：当需要检查该区域是否存在火灾时使用。

输入输出提示符：该模块无需额外的输入，输出为是否存在火灾烟雾迹象。调用代码为“getFireSmokeDetectionResult()”，输出为bool类型，代表是否存火灾烟雾迹象。

步骤1.3：建立问答模块。用户通过语音指令或者交互界面与问答模块交互，问答模块储存用户当前自然语言指令和历史自然语言指令，以便后续大语言模型再次推理；

步骤1.4：建立大语言模型输入模块。大语言模型输入模块汇总大语言模型推理的历史隐藏问答和历史推理结果，并将基础模块输出信息转换为大语言模型能够理解的自然语言形式，以便后续再次推理。

作为上述实施例的优化方案，在所述步骤2中：通过麦克风阵列语音模块获取用户自然语言指令，具体包括如下步骤：

作为上述实施例的优化方案，在所述步骤3中：使用大语言模型推理巡检任务执行流程，包括步骤：

其中推理函数定义为：

其中i为对话轮次，j为第i轮对话m_j的输出，表示问答模块输出，f为任务调度管理器函数，P为步骤1.1所述的调度原则，M＝{m₁,m₂,...,m₉}为步骤1.2所述的巡检功能模块库，Q_i为用户第i轮问答内容，H_i为用户历史自然语言指令，包含了第i轮之前所有的用户自然语言指令；A_j为历史隐藏问答，大语言模型会依靠任务调度管理器逐步调用各个基础模块的功能来完成巡检任务生成，调用过程会产生多个隐藏问答交互；/>为推理历史，对于第i轮对话将调用所有基础模块之前的推理内容，巡检任务执行流程推理过程的示意图如图5所示。

步骤3.3：储存大语言模型迭代推理过程的隐藏问答A_j和用户的当前自然语言指令Q_i。

作为上述实施例的优化方案，在所述步骤4中：使用任务调度管理器将巡检任务执行流程反馈给用户，包括步骤：

作为上述实施例的优化方案，在所述步骤5中：使用任务调度管理器控制移动机器人执行巡检任务，巡检过程中使用大语言模型迭代推理，如图6所示，包括步骤：

作为上述实施例的优化方案，在所述步骤6中：巡检任务完成后，将巡检结果反馈给用户，包括步骤：

本发明利用大语言模型的强大生成能力和创造力，实现更多样化和个性化的巡检内容和方式，满足不同场景和任务的需求。例如，可以通过自然语言查询和反馈，引用或描述新的巡检需求和目标，实现零样本或少样本的巡检学习。通过这种方法，巡检机器人可以更加智能、高效、灵活地完成工业场景内的巡检任务，提高巡检效率和安全性。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，包括步骤：

步骤1：建立任务调度管理器；

步骤6：巡检任务完成后，将巡检结果反馈给用户。

2.根据权利要求1所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，所述任务调度管理器包括调度原则、巡检功能模块库、问答模块和大语言模型输入模块，在所述步骤1中建立任务调度管理器，包括步骤：

3.根据权利要求2所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，在所述步骤1.1中，建立调度原则，包括：

4.根据权利要求2所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，在所述步骤1.2中，巡检功能模块库通过基础模型的提示符来协助任务调度管理器调度基础模型，使大语言模型准确理解基础模块，基础模型提示符具体包括：(1)名称提示符：提供了每个基础模块整体功能的摘要，帮助大语言模型简洁地理解每个基础模块的目的，并作为基础模块的调用入口；(2)用途使用提示符：描述每个基础模块的使用场景，帮助大语言模型对特定任务使用哪个基础模块做出决定；(3)输入输出提示符：描述每个基础模块所需的输入和输出格式，帮助移动机器人正确执行基础模块提供明确的定义。

5.根据权利要求1所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，在所述步骤2中，通过麦克风阵列语音模块获取用户自然语言指令，包括步骤：

6.根据权利要求2所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，在所述步骤3中：使用大语言模型推理巡检任务执行流程，包括步骤：

7.根据权利要求6所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，在所述步骤4中：使用任务调度管理器将巡检任务执行流程反馈给用户，包括步骤：

8.根据权利要求7所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，在所述步骤5中：使用任务调度管理器控制移动机器人执行巡检任务，巡检过程中使用大语言模型迭代推理，包括步骤：

9.根据权利要求8所述的一种利用大语言模型实现移动机器人人机交互巡检的方法，其特征在于，在所述步骤6中：巡检任务完成后，将巡检结果反馈给用户，包括步骤：