CN114491299B

CN114491299B - 一种基于专家模型的行进策略判断方法和装置

Info

Publication number: CN114491299B
Application number: CN202111576379.7A
Authority: CN
Inventors: 苏瑞; 衡进; 孙贇; 姚郁巍
Original assignee: Chongqing Terminus Technology Co Ltd
Current assignee: Chongqing Terminus Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2024-04-16
Anticipated expiration: 2041-12-21
Also published as: CN114491299A

Abstract

本发明请求保护的一种基于专家模型的行进策略判断方法和装置，通过获取行进装置的第一检测信息，基于第一专家模型对行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划；当行进装置的第一检测信息的偏差度大于第一阈值时，获取行进装置的第二检测信息，基于第二专家模型对行进装置的第二检测信息进行失真度计算并进行第二行进策略规划；当行进装置的第二检测信息的失真度大于第二阈值时，获取行进装置的内部的第三检测信息，基于第三专家模型对行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划，本发明基于对当前状况识别的专家模型，实现行进策略的快速判断决策，提高路线决策的实时性和安全性。

Description

一种基于专家模型的行进策略判断方法和装置

技术领域

本申请涉及行进技术，具体涉及一种基于专家模型的行进策略判断方法和装置。

背景技术

相关技术中，可行进设备可按照地图的指示的路线从其所处位置行进到目的地。其中，所述地图通常为全局地图，以世界坐标系为坐标系而建立，出现在世界坐标系中的各个物体的位置是相应物体在地球上的绝对坐标。通常，全局地图的建立至少事先需要人员到全球各个地方去采景、并将采集到的信息进行系统的录入、编辑、合成等一系列的处理，耗费一定的人力和物力。这种全局地图对于诸如公交车、出租车、私家车等较为大型的出行设备而言其存在的意义较大。对于机器人、滑板车、平衡车等这种相对小型的出行设备而言，使用全局地图进行导航，一方面存在地图资源的浪费，另一方面无疑向这种小型的出行设备的软硬件资源提出挑战。

而且在当前的路线规划方法中，很多情况下忽略了行进设备的周边环境、自身信息和行进设备内部的综合信息，对于规划出的路线常常不能满足多维度的需要。

此外，相关技术中也存在有基于非全局定位的导航方案，这种方案也需要提前建立地图，并将实际环境中的特定位置与地图中的特定位置的特征信息做关联，作为导航的目标点发送给机器人，效率也比较低，在实现上也具有一定的难度。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种基于专家模型的行进策略判断方法，用于行进装置的行进策略规划，其特征在于：

获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划；

当所述行进装置的第一检测信息的偏差度大于第一阈值时，获取所述行进装置的第二检测信息，基于第二专家模型对所述行进装置的第二检测信息进行失真度计算并进行第二行进策略规划；

当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划。

进一步地，所述第一专家模型、第二专家模型和第三专家模型的检测过程中从数据库中获取对应行进装置的结构化数据，提取或者量化专家模型中评分项的数值；

量化后的中层特征值输入到专家模型评分模块，输出行进装置的信用得分；同时也将这些特征值输入到机器学习预测模型输出行进装置的行进合理概率；

融合专家模型评分模块和机器学习预测模型得出偏差度值、失真度值或生态度值。

进一步地，所述获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划，具体包括：

所述第一检测信息为所述行进装置的环境信息，所述环境信息包括天气数据、时间数据；

将所述第一检测信息输入所述第一专家模型的输入端；

所述第一专家模型对输入的所述第一检测信息进行偏差度计算；

所述偏差度计算表征所述行进装置的当前环境数据与所述第一行进装置的历史环境数据比对后的偏差情况；

当所述偏差度不大于第一阈值时，表明所述行进装置与历史行进环境相似，则向行进装置推荐环境历史行进策略；

将所述历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置。

进一步地，当所述行进装置的第一检测信息的偏差度大于第一阈值时，获取所述行进装置的第二检测信息，基于第二专家模型对所述行进装置的第二检测信息进行失真度计算并进行第二行进策略规划，具体包括：

当所述偏差度大于第一阈值时，表明所述行进装置与历史行进环境差别较大，则进一步获取所述行进装置的第二检测信息；

所述行进装置的第二检测信息为所述行进装置的性能表征数据，所述性能表征数据至少包括所述行进装置的能源损耗情况、保养维护情况；

将所述第二检测信息输入所述第二专家模型的输入端；

所述第二专家模型对输入的所述第二检测信息进行失真度计算；

所述失真度计算表征所述行进装置的当前性能数据与所述第一行进装置的历史性能数据比对后的真实情况；

当所述失真度不大于第二阈值时，表明所述行进装置与行进装置的历史性能情况相似，则向行进装置推荐性能历史行进策略；

将所述性能历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置。

进一步地，所述当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划，具体包括：

当所述失真度大于第二阈值时，表明所述行进装置与历史行进性能差别较大，则进一步获取所述行进装置的第三检测信息；

所述行进装置的第三检测信息为所述行进装置内部的生态表征数据，所述生态表征数据至少包括所述行进装置内部的人员疲劳程度、宠物或婴幼儿生理状态；

将所述第三检测信息输入所述第三专家模型的输入端；

所述第三专家模型对输入的所述第三检测信息进行生态度计算；

所述生态度计算表征所述行进装置内部的当前生态数据与所述第一行进装置的历史生态数据比对后的真实情况；

当所述生态度不大于第三阈值时，表明所述行进装置与行进装置的历史生态情况相似，则向行进装置推荐生态历史行进策略；

将所述生态历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置；

当所述生态度大于第三阈值时，表明所述行进装置与行进装置的历史性能情况差别较大，则基于全网用户的行进历史向所述行进装置推荐行进策略。

本发明还请求保护一种基于专家模型的行进策略判断装置，用于行进装置的行进策略规划，其特征在于，包括：

第一规划装置，获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划；

第二规划装置，当所述行进装置的第一检测信息的偏差度大于第一阈值时，获取所述行进装置的第二检测信息，基于第二专家模型对所述行进装置的第二检测信息进行失真度计算并进行第二行进策略规划；

第三规划装置，当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划。

进一步地，所述第一规划装置，获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划，具体包括：

将所述第一检测信息输入所述第一专家模型的输入端；

进一步地，所述第二规划装置，当所述行进装置的第一检测信息的偏差度大于第一阈值时，获取所述行进装置的第二检测信息，基于第二专家模型对所述行进装置的第二检测信息进行失真度计算并进行第二行进策略规划，具体包括：

将所述第二检测信息输入所述第二专家模型的输入端；

进一步地，所述第三规划装置，当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划，具体包括：

将所述第三检测信息输入所述第三专家模型的输入端；

本发明请求保护的一种基于专家模型的行进策略判断方法和装置通过获取行进装置的第一检测信息，基于第一专家模型对行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划；当行进装置的第一检测信息的偏差度大于第一阈值时，获取行进装置的第二检测信息，基于第二专家模型对行进装置的第二检测信息进行失真度计算并进行第二行进策略规划；当行进装置的第二检测信息的失真度大于第二阈值时，获取行进装置的内部的第三检测信息，基于第三专家模型对行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划，本发明基于对当前状况识别的专家模型，实现行进策略的快速判断决策，提高路线决策的实时性和安全性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明所涉及的一种基于专家模型的行进策略判断方法的工作流程图；

图2为本发明涉及的一种基于专家模型的行进策略判断方法的实施例一的工作流程图；

图3为本发明所涉及的一种基于专家模型的行进策略判断装置的结构模块图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例至少能够解决相关技术中，对于机器人、滑板车、平衡车等出行设备，使用全局地图进行导航，导致地图资源浪费和对出行设备的软硬件资源要求高的问题。也能够解决相关技术中的非全局定位的导航效率低的问题。可以理解，本申请实施例中涉及到的可行进设备为任何合理的能够进行行进的设备，如机器人、智能汽车等设备。

参照附图1，本发明实施例提供一种基于专家模型的行进策略判断方法，用于行进装置的行进策略规划，其特征在于：

本发明使用三个专家模型S1、S2和S3。所述专家模型优选为基于变换器的双向编码表征BERT模型。其中，所述BERT模型包括N层特征编码器，且每层特征编码器分别连接一个分类器。其中，所述分类器可以采用决策树模型、朴素贝叶斯模型、Logistic分类器、支持向量机分类器等，本发明不作具体限定。其中，BERT模型本质上是由双向Transformer组成的语言模型。BERT模型可以包含12层Transformer(BERT-base模型)，也可以包含24层Transformer(BERT-lager模型)。即：N可以取12，也可以取24。BERT模型包括顺次堆叠设置的N层结构相同的特征编码器Trm，并且每层特征编码器Trm都连接一个分类器Fr。其中，所述特征编码器指的是Transformer的encoder。E表示词的embedding，T表示经过BERT模型编码后每个词的新的特征表示，F表示与每层的特征编码器连接的分类器。

所述行进装置的结构化数据输入BERT模型后，将所述行进装置的结构化数据依次输入第i层特征编码器以及与所述第i特征编码器连接的第i分类器，得到所述第i层检测识别结果；判断所述第i层检测识别结果是否满足检测识别要求。具体可以计算所述第i层检测识别结果的信息熵S，当第i层检测识别结果的信息熵S小于预设值，确定所述第i层检测识别结果是否满足检测识别要求。其中，所述预设值可以根据BERT模型的精度要求进行设置。若所述第i层检测识别结果不满足检测识别要求，对所述第i层检测识别结果进行第i+1层检测识别，直至当前层检测识别结果满足检测识别要求，将所述当前层检测识别结果作为所述行进装置的结构化数据的检测输出，并删除所述行进装置的结构化数据。

BERT模型从最底层的特征编码器及与该特征编码器连接的分类器开始逐层进行检测识别；当每层检测识别完成后，判断该层检测识别结果是否满足检测识别要求。若满足，则无需进入下一层检测识别，直接输出该层检测识别结果，结束当前文本的检测识别，从而有效提高模型的检测识别速度，避免在用户与行进装置的交互中出现行进装置回答速度慢，用户等待时间久的现象，提升行进装置与用户的行进交互效果。

BERT模型采用多层Transformer对文本进行双向学习，且Transformer采用一次性读取方式对文本进行读取，因此可以更准确地学习到文本中词之间的上下文关系，对语境的理解更加深刻，即双向训练的语言模型对语境的理解会比单向的语言模型更深刻，从而能够准确地对文本进行处理，因此，BERT模型相较于处理自然语言理解任务的其他模型而言，具有更好的任务处理效果。

进一步地，参照附图2，所述获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划，具体包括：

将所述第一检测信息输入所述第一专家模型的输入端；

具体的，所述行进装置的结构化数据中的结构化数据一为所述第一检测信息所述第一行进装置的历史环境数据；

所述环境信息的天气数据、时间数据包括天气的温度、湿度、光照强度、雨雪强度、当前日期、当前时刻；

所述第一行进装置的历史环境数据记录着所述行进装置在不同温度、湿度、光照强度、雨雪强度、日期、时刻下的行进路线，例如获取到20摄氏度、湿度65％、光照强度强、无雨雪、5月15日、17:00的历史环境数据，当监测到当前温度、湿度、光照强度、雨雪强度、当前日期、当前时刻分别为22摄氏度、湿度68％、光照强度强、无雨雪、5月18日、18:00时，各项历史环境数据的属性的偏差度不大于第一阈值，则判断行进装置极大可能采取相似的行进路线，将所述历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置。

将所述第二检测信息输入所述第二专家模型的输入端；

具体的，所述行进装置的结构化数据中的结构化数据二为所述第二检测信息所述第一行进装置的历史性能数据；

所述性能数据包括行进装置的行进累积时长、发动机工作温度、行进速度；

所述第一行进装置的历史性能数据记录着所述行进装置在行进累积时长、发动机工作温度、行进速度下的行进路线，例如获取到行进累积时长800小时、发动机工作温度65摄氏度、行进速度30km/h的历史性能数据，当监测到当前行进累积时长、发动机工作温度、行进速度分别为行进累积时长850小时、发动机工作温度67摄氏度、行进速度28km/h时，各项历史性能数据的属性的失真度不大于第二阈值，则判断行进装置极大可能采取相似的行进路线，将所述历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置。

将所述第三检测信息输入所述第三专家模型的输入端；

具体的，所述行进装置的结构化数据中的结构化数据三为所述第三检测信息所述第一行进装置的历史生态数据；

所述生态数据包括行进装置内部的用户疲劳程度、是否有宠物、是否有婴幼儿；

所述第一行进装置的历史生态数据记录着所述行进装置在用户疲劳程度、是否有宠物、是否有婴幼儿下的行进路线，例如获取到用户疲劳程度高、有宠物、有婴幼儿的历史生态数据，当监测到当前用户疲劳程度高、有宠物、有婴幼儿时，各项历史性能数据的属性的生态度不大于第三阈值，则判断行进装置极大可能采取相似的行进路线，将所述历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置。

参照附图3，本发明还请求保护一种基于专家模型的行进策略判断装置，用于行进装置的行进策略规划，其特征在于，包括：

将所述第一检测信息输入所述第一专家模型的输入端；

将所述第二检测信息输入所述第二专家模型的输入端；

将所述第三检测信息输入所述第三专家模型的输入端；

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本申请的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语；包括；包含；或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句；包括一个；限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种基于专家模型的行进策略判断方法，用于行进装置的行进策略规划，其特征在于：获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划；

当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划；

所述获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划，具体包括：

将所述第一检测信息输入所述第一专家模型的输入端；

所述偏差度计算表征所述行进装置的当前环境数据与行进装置的历史环境数据比对后的偏差情况；

将所述历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置；当所述行进装置的第一检测信息的偏差度大于第一阈值时，获取所述行进装置的第二检测信息，基于第二专家模型对所述行进装置的第二检测信息进行失真度计算并进行第二行进策略规划，具体包括：

将所述第二检测信息输入所述第二专家模型的输入端；

所述第二专家模型对输入的所述第二检测信息进行失真度计算；所述失真度计算表征所述行进装置的当前性能数据与所述行进装置的历史性能数据比对后的真实情况；

将所述性能历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置；所述当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划，具体包括：

将所述第三检测信息输入所述第三专家模型的输入端；

所述生态度计算表征所述行进装置内部的当前生态数据与所述行进装置的历史生态数据比对后的真实情况；

将所述生态历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置；当所述生态度大于第三阈值时，表明所述行进装置与行进装置的历史性能情况差别较大，则基于全网用户的行进历史向所述行进装置推荐行进策略。

2.如权利要求1所述的一种基于专家模型的行进策略判断方法，其特征在于：所述第一专家模型、第二专家模型和第三专家模型的检测过程中从数据库中获取对应行进装置的结构化数据，提取或者量化专家模型中评分项的数值；

3.一种基于专家模型的行进策略判断装置，用于行进装置的行进策略规划，其特征在于，包括：

第三规划装置，当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划；

所述第一规划装置，获取行进装置的第一检测信息，基于第一专家模型对所述行进装置的第一检测信息进行偏差度计算并进行第一行进策略规划，具体包括：所述第一检测信息为所述行进装置的环境信息，所述环境信息包括天气数据、时间数据；

将所述第一检测信息输入所述第一专家模型的输入端；

所述偏差度计算表征所述行进装置的当前环境数据与所述行进装置的历史环境数据比对后的偏差情况；

将所述历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置；所述第二规划装置，当所述行进装置的第一检测信息的偏差度大于第一阈值时，获取所述行进装置的第二检测信息，基于第二专家模型对所述行进装置的第二检测信息进行失真度计算并进行第二行进策略规划，具体包括：

将所述第二检测信息输入所述第二专家模型的输入端；

将所述性能历史行进策略通过地图播报给所述行进装置，用于导航所述行进装置；所述第三规划装置，当所述行进装置的第二检测信息的失真度大于第二阈值时，获取所述行进装置的内部的第三检测信息，基于第三专家模型对所述行进装置的内部的第三检测信息进行生态度计算并进行第三行进策略规划，具体包括：

将所述第三检测信息输入所述第三专家模型的输入端；

4.如权利要求3所述的一种基于专家模型的行进策略判断装置，其特征在于：所述第一专家模型、第二专家模型和第三专家模型的检测过程中从数据库中获取对应行进装置的结构化数据，提取或者量化专家模型中评分项的数值；