CN117576489B

CN117576489B - 智能机器人鲁棒实时目标感知方法、装置、设备及介质

Info

Publication number: CN117576489B
Application number: CN202410065206.6A
Authority: CN
Inventors: 陈雁; 王瑞; 杜吉祥; 翟传敏
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2024-01-17
Filing date: 2024-01-17
Publication date: 2024-04-09
Anticipated expiration: 2044-01-17
Also published as: CN117576489A

Abstract

本发明提供了智能机器人鲁棒实时目标感知方法、装置、设备及介质，包括获取由采集设备采集到的智能机器人使用场景数据集，并对所述智能机器人使用场景数据集进行标注划分处理，生成训练集和测试集；调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理，生成感知信息；根据所述感知信息，生成感知结果。旨在更加鲁棒、实时且稳定的跟踪感知目标，从而为智能机器人的准确执行任务提供了可靠的基础支持。

Description

智能机器人鲁棒实时目标感知方法、装置、设备及介质

技术领域

本发明涉及计算机视觉与模式识别、智能机器人技术领域，具体涉及智能机器人鲁棒实时目标感知方法、装置、设备及介质。

背景技术

在上述多样化的现实世界应用场景中，智能机器人需要具备鲁棒的实时目标感知能力，能够即时地感知、识别并跟踪目标物体，以适应快速变化的环境。因此，鲁棒的实时目标感知方法是智能机器人能够准确执行任务的关键因素。然而，尽管经过世界各地的学者和专家的多年潜心研究，目前单目标跟踪技术已经取得了很大的进步，但在多变的现实场景中，现有的目标感知方法依然存在一定的应用挑战。在存在相似物、光照变化、目标遮挡以及快速运动等复杂条件下，现有技术往往表现不佳，无法满足智能机器人对高精准度和鲁棒性的要求。

目前的智能机器人鲁棒实时目标感知方法存在诸多不足，主要表现在以下几个方面：首先，在复杂环境下，现有方法的稳定性不足，容易受到场景变化、相似物体、遮挡等多种因素的影响，导致目标跟踪的不稳定性和准确性下降；其次，实时性和效率问题也是当前方法面临的挑战之一，部分算法在处理复杂场景时速度较慢，无法满足实时感知的要求，影响了机器人在动态环境下的应对能力；最后，现有的方法对多种目标类型的适应性不足，虽然在特定目标上取得了一定成果，但在面对多样化目标时表现不尽如人意。

因此，智能机器人目标感知的方法需要面对这些挑战并提供更加鲁棒、实时且稳定的解决方案，以满足智能机器人在各种应用场景中的高精准度和鲁棒性需求。

有鉴于此，提出本申请。

发明内容

本发明公开了智能机器人鲁棒实时目标感知方法、装置、设备及介质，旨在提高智能机器人在各种动态场景中的适应能力，为其准确执行任务提供可靠的基础支持。

本发明公开了智能机器人鲁棒实时目标感知方法, 包括：

获取由采集设备采集到的智能机器人使用场景数据集，并对所述智能机器人使用场景数据集进行标注划分处理，生成训练集和测试集；

调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理，生成感知信息，其中，目标跟踪预处理包括指定目标的位置和类别，采用预测边界框来定位后续视频帧中目标的位置，并标明边界框包围目标物体所属的前背景类别信息，所述鲁棒实时目标感知模型包括顺序连接的特征提取网络、编码器解码器、运动预测模块和设有分类任务和回归任务的双支预测头网络；

根据所述感知信息，生成感知结果。

本发明还公开了智能机器人鲁棒实时目标感知装置，包括：

数据集获取单元，用于获取由采集设备采集到的智能机器人使用场景数据集，并对所述智能机器人使用场景数据集进行标注划分处理，生成训练集和测试集；

目标跟踪处理单元，用于调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理，生成感知信息，其中，目标跟踪预处理包括指定目标的位置和类别，采用预测边界框来定位后续视频帧中目标的位置，并标明边界框包围目标物体所属的前背景类别信息，所述鲁棒实时目标感知模型包括顺序连接的特征提取网络、编码器解码器、运动预测模块和设有分类任务和回归任务的双支预测头网络；

感知结果生成单元，用于根据所述感知信息，生成感知结果。

本发明还公开了智能机器人鲁棒实时目标感知设备，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如上任意一项的智能机器人鲁棒实时目标感知方法。

本发明还公开了可读存储介质，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项的智能机器人鲁棒实时目标感知方法。

综上所述，本实施例提供的智能机器人鲁棒实时目标感知方法、装置、设备及介质，利用计算机视觉分析技术，配合智能机器人携带摄像头，可以实现动态地分析视频流画面，自动感知跟踪目标位置，缓解了相似物存在和目标遮挡的挑战，使得目标感知模型能够自适应实际不同场景下的目标位置情况，提高目标感知模型的鲁棒性和识别精度；同时能够帮助智能机器人实时感知目标，提高了智能机器人在动态环境下的应对能力。从而更加鲁棒、实时且稳定的跟踪感知目标，从而为智能机器人的准确执行任务提供了可靠的基础支持。

附图说明

图1是本发明实施例提供的智能机器人鲁棒实时目标感知方法的流程示意图。

图2是本发明实施例提供的智能机器人鲁棒实时目标感知方法的智能机器人使用场景数据集的标注示意图。

图3是本发明实施例提供的智能机器人鲁棒实时目标感知方法的目标跟踪器模型示意图。

图4是本发明实施例提供的智能机器人鲁棒实时目标感知方法的卷积块结构示意图

图5是本发明实施例提供的智能机器人鲁棒实时目标感知方法的注意力块结构示意图。

图6是本发明实施例提供的智能机器人鲁棒实时目标感知方法的目标跟踪器模型运动预测模块的示意图。

图7是本发明实施例提供的智能机器人鲁棒实时目标感知方法的训练和测试流程示意图。

图8是本发明实施例提供的智能机器人鲁棒实时目标感知装置的模块示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

以下结合附图对本发明的具体实施例做详细说明。

请参阅图1，本发明的第一实施例提供了智能机器人鲁棒实时目标感知方法,其可由智能机器人鲁棒实时目标感知设备（以下感知设备）来执行，特别的，由感知设备内的一个或者多个处理器来执行，以实现如下步骤：

在本实施例中，所述感知设备可为存储设备（如智能手机、智能电脑或者其他智能设备），该用户终端设备可与云端的服务器建立通讯连接，以实现数据的交互。

S101，获取由采集设备采集到的智能机器人使用场景数据集，并对所述智能机器人使用场景数据集进行标注划分处理，生成训练集和测试集；

具体地，步骤S101包括：获取所述采集设备采集到的预设的不同类别的目标和不同目标所在的场景，组成智能机器人使用场景数据集，其中，所述智能机器人使用场景数据集中的每个场景包含多张连续图片构成的视频帧，视频帧中每张图片均包含相同目标；

对所述智能机器人使用场景数据集中的图片进行图片标注，其中，所述智能机器人使用场景数据集的图片标注信息包括分类标签和定位标签，分类标签有前景目标和背景两种类别信息，定位标签包括目标标注框坐标，坐标表示为标注目标框的中心点坐标和宽、高；

对所述智能机器人使用场景数据集进行划分处理，生成训练集和测试集，其中，所述训练集中的图片目标物体不包括所述测试集中的图片目标物体。

具体地，在本实施例中，采集智能机器人使用场景数据集：在家庭应用、体育赛事以及商场街头等智能机器人应用的现实世界场景中，采集各种不同类别的目标和不同目标所在的场景组成智能机器人使用场景数据集，智能机器人使用场景数据集中的每个场景包含多张连续图片构成的视频帧，视频帧中每张图片均包含相同目标，如图2所示，对智能机器人使用场景数据集的图片进行图片标注，智能机器人使用场景数据集的图片标注信息包括分类标签和定位标签，分类标签有前景目标和背景两种类别信息；定位标签包括目标标注框坐标，坐标表示为标注目标框的中心点坐标和宽、高，然后将智能机器人使用场景数据集划分为训练集和测试集两部分，训练集中的图片目标物体不包括测试集中的图片目标物体。

S102，调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理，生成感知信息，其中，目标跟踪预处理包括指定目标的位置和类别，采用预测边界框来定位后续视频帧中目标的位置，并标明边界框包围目标物体所属的前背景类别信息，所述鲁棒实时目标感知模型包括顺序连接的特征提取网络、编码器解码器、运动预测模块和设有分类任务和回归任务的双支预测头网络；

具体地，步骤S102包括：将所述智能机器人使用场景数据集作为输入，传入训练好的鲁棒实时目标感知模型中；

调用所述鲁棒实时目标感知模型的特征提取网络、编码器解码器网络和运动预测网络对所述智能机器人使用场景数据集进行图片特征的提取处理；

调用所述鲁棒实时目标感知模型的双支预测头网络，分类分支输出分类预测值，并结合二分类交叉损失熵分类损失函数，获取图片目标物体的类别信息，以判断特征网络提取到的每个特征属于前景还是背景，其中，前景信息为所跟踪的目标，除目标所在目标框外其余特征均属于背景信息；

双支预测头网络的回归分支对识别为前景的目标物体进行拟合边界框，并采用GIoU回归损失函数和PNS特征限制损失函数进行学习拟合预测框，生成感知信息。

具体地，在本实施例中，所述特征提取网络的输入是的模板帧图片和的搜索帧图片，包括顺序连接的输出向量为的第一卷积块、输出向量为的第二卷积块、输出向量为的第三卷积块、输出向量为的第四卷积块、输出向量为且卷积核大小为的卷积层；

其中，所述第一卷积块的输入通道为3，输出通道为64的卷积核的卷积层、批归一化层、ReLU激活函数和大小为3且步长为2的最大池化操作，所述第一卷积块的输入为批量图片、通道维度是3的像素向量；

所述第二卷积块、所述第三卷积块和所述第四卷积块，均包含多层结构，每层结构均设有卷积层、批归一化层和ReLU激活函数，其中，卷积层为个步长为，卷积核大小为的卷积层，、和的大小在不同位置选取不同的数值进行使用，其中，，；

所述编码器解码器网络的输入是大小为的，模板帧和搜索帧经过特征提取网络后连接的特征向量，包括顺序连接的输出向量均为的第一注意力块、第二注意力块、第三注意力块、第四注意力块、第五注意力块、第六注意力块、以及输出向量均为的第七注意力块、第八注意力块、第九注意力块、第十注意力块、第十一注意力块和第十二注意力块；

所述第一注意力块、所述第二注意力块、所述第三注意力块、所述第四注意力块、所述第五注意力块、所述第六注意力块、所述第七注意力块、所述第八注意力块、所述第九注意力块、所述第十注意力块、所述第十一注意力块和所述第十二注意力块均设有多头注意力层，线性层，失活层和归一化层，其中，多头注意力层输入向量,包含个权重矩阵，，，，最终输出结果如下公式所示：

其中，,。失活层仅在网络训练过程中使能，实现部分神经元以概率停止工作来增强模型的泛化性，网络计算公式如下所示：

其中，，表示对应参数，为层函数的输出值，表示第层网络以概率通过伯努利函数生成的概率向量，为伯努利函数,为失活后第层网络的输出，表示第层网络函数对应参数,为第层网络的输入值，为第层网络的输出结果，表示第层神经网络的计算函数。

所述运动预测网络的输入是的特征向量，包括顺序连接的输出向量为的第五卷积块、输出向量为的第六卷积块、输出向量为的卷积层、输出向量为的第十三注意力块、输出向量为的卷积层、输出向量为的第十四注意力块、第十五注意力块、第十六注意力块、第十七注意力块、第十八注意力块、第十九注意力块、输出向量为的第一线性计算块和第二线性计算块；

所述第十三注意力块由顺序连接的五层核大小为，步长为1的卷积层和线性层、失活层构成，最终输出结果如下公式所示：

其中,输入向量均由输入特征经过全连接层网络后得到，且，表示第个注意力头中第个采样点的注意力权重矩阵。表示的坐标点，表示第个注意力头中第个采样点相对于原坐标点的位置偏移,均由输入特征经过卷积层得到；

其中，所述第十四注意力块、所述第十五注意力块、所述第十六注意力块、所述第十七注意力块、所述第十八注意力块、所述第十九注意力块均由顺序连接的第十三注意力块，失活层，层归一化层，多头注意力层构成，所述第一线性计算块和所述第二线性计算块均由两层输出大小为256维的线性层构成；

所述第五卷积块和所述第六卷积块输入均为通道维度为256的特征向量，均包含多层堆叠的结构，每层结构均设有卷积层、批归一化层和ReLU激活函数，其中，卷积层为个步长为1，卷积核大小为的卷积层，和的大小在不同位置选取不同的数值进行使用，其中，。

所述设有分类任务和回归任务的双支预测头网络，输入是的特征向量，包括分类预测网络和回归预测网络，分类预测网络具体是由三层线性层构成，回归预测网络由左右角点回归网络构成，均包含四层卷积块和输出通道为1，卷积核大小为的卷积层，输出向量为大小，其中，4维表示预测框坐标；

其中，所述第五卷积块和所述第六卷积块通过核大小为2，步长为2的最大池化操作连接，所述第三卷积块由顺序连接的核大小为，步长为1的卷积层，批归一化和ReLU激活函数构成。

S103，根据所述感知信息，生成感知结果。

具体地，在本实施例中，定义鲁棒实时目标感知模型：单目标跟踪被看作是一个多任务学习过程，划分为一个分类任务和一个回归任务，即同时要检测出目标的类别信息和位置信息，目标感知模型的跟踪内容包括：指定目标的位置和类别，采用预测边界框来定位目标位置，并标明边界框包围目标物体所属的前背景类别信息，鲁棒实时目标感知模型的预测边界框设定为轴对齐的矩形框，鲁棒实时目标感知模型包括顺序连接的特征提取网络、编码器解码器、运动预测模块和设有分类任务和回归任务的双支预测头网络，其中，如图3所示，所述特征提取网络的输入是的模板帧图片和的搜索帧图片，包括顺序连接的输出向量为的第一卷积块、输出向量为的第二卷积块、输出向量为的第三卷积块、输出向量为的第四卷积块、输出向量为且卷积核大小为的卷积层。所述编码器解码器网络的输入是的，模板帧和搜索帧经过特征提取网络后连接的特征向量，包括顺序连接的输出向量均为的第一注意力块、第二注意力块、第三注意力块、第四注意力块、第五注意力块、第六注意力块、以及输出向量均为的第七注意力块、第八注意力块、第九注意力块、第十注意力块、第十一注意力块和第十二注意力块。所述运动预测网络的输入是的特征向量，包括顺序连接的输出向量为的第五卷积块、输出向量为的第六卷积块、输出向量为的卷积层、输出向量为的第十三注意力块、输出向量为的卷积层、输出向量为的第十四注意力块、第十五注意力块、第十六注意力块、第十七注意力块、第十八注意力块、第十九注意力块、输出向量为的第一线性计算块和第二线性计算块；所述设有分类任务和回归任务的双支预测头网络，输入是的特征向量，包括分类预测网络和回归预测网络，分类预测网络具体是由三层线性层构成，回归预测网络由左右角点回归网络构成，均包含四层卷积块和输出通道为1，卷积核大小为的卷积层，输出向量为大小，其中，4维表示预测框坐标。

将智能机器人使用场景数据集的图片输入到特征提取网络和编码器解码器网络进行图片特征提取和特征融合，旨在能够充分提取目标物体的判别性特征，以区分于其他干扰性物体。所提取特征经过运动预测网络获得表观-运动信息混合特征来增强对遮挡和干扰物的班别能力。最后经过双支预测头网络输出分类预测值，结合二分类交叉损失熵分类函数，获取图片目标物体的类别信息，即判断特征网络提取到的每个特征属于前景还是背景。预测头网络的回归任务则是对识别为前景的目标物体进行拟合边界框，采用GIoU回归损失函数和PNS特征限制损失函数进行学习拟合预测框，GIoU损失函数比IoU损失函数的优势在于能够减小训练边界框回归时的歧义，旨在拟合出更精确贴合目标物体的边界框。PNS特征限制损失函数旨在限制提取特征的一致性与连续性。通过此网络结构训练得到的目标跟踪感知器是一个单阶段的端到端跟踪模型，即在一个阶段内可以同时获取目标的类别和位置信息，同时目标跟踪感知器具有鲁棒准确和实时的特点，跟踪速度达34.5 FPS（FPS，Frame per Second，每秒检测帧数）。

请参阅图4，在本实施例中，所述第一卷积块的输入通道为3，输出通道为64的卷积核的卷积层、批归一化层、ReLU激活函数和大小为3且步长为2的最大池化操作，所述第一卷积块的输入为批量图片、通道维度是3的像素向量。所述第二卷积块、所述第三卷积块和所述第四卷积块，均包含多层结构，每层结构均设有卷积层、批归一化层和ReLU激活函数，其中，卷积层为个步长为，卷积核大小为的卷积层，、和的大小在不同位置选取不同的数值进行使用，其中，，。所述第五卷积块和所述第六卷积块输入均为通道维度为256的特征向量，均包含多层堆叠的结构，每层结构均设有卷积层、批归一化层和ReLU激活函数，其中，卷积层为个步长为1，卷积核大小为的卷积层，和的大小在不同位置选取不同的数值进行使用，其中，。所述第五卷积块和所述第六卷积块通过核大小为2，步长为2的最大池化操作连接，所述第三卷积块由顺序连接的核大小为，步长为1的卷积层，批归一化和ReLU激活函数构成。

请参阅图5，所述第一注意力块、所述第二注意力块、所述第三注意力块、所述第四注意力块、所述第五注意力块、所述第六注意力块、所述第七注意力块、所述第八注意力块、所述第九注意力块、所述第十注意力块、所述第十一注意力块和所述第十二注意力块均设有多头注意力层，线性层，失活层和归一化层，其中，多头注意力层输入向量,包含个权重矩阵，，，，最终输出结果如下公式所示：

其中，，表示对应参数，为层函数的输出值，表示第层网络以概率通过伯努利函数生成的概率向量，为伯努利函数,为失活后第层网络的输出，表示第层网络函数对应参数,为第层网络的输入值，为第层网络的输出结果，表示第层神经网络的计算函数。所述第十四注意力块、所述第十五注意力块、所述第十六注意力块、所述第十七注意力块、所述第十八注意力块、所述第十九注意力块均由顺序连接的第十三注意力块，失活层，层归一化层，多头注意力层构成，所述第一线性计算块和所述第二线性计算块均由两层输出大小为256维的线性层构成。

请参阅图6，所述运动预测模块输入为第帧特征和第帧特征，分别通过嵌入网络提取目标物体前后两帧的标志特征和，进而利用其标志特征构建像素级别的相似性对应关系，通过相似性对应关系与位置偏移矩阵的乘积，实现对目标偏移量的计算。并且通过目标物体相邻两帧的特征差异值实现对目标边缘的偏移量的计算。获得运动偏移量后，运动预测模块利用运动偏移量和上一帧的预测位置，通过角点预测网络得到当前帧目标的预测位置。

同时运动预测模块通过得到的运动偏移量生成融合运动信息的目标物体混合特征，所述第十三注意力块由顺序连接的五层核大小为，步长为1的卷积层和线性层、失活层构成，最终输出结果如下公式所示：

其中,输入向量均由输入特征经过全连接层网络后得到，且，表示第个注意力头中第个采样点的注意力权重矩阵。表示的坐标点，表示第个注意力头中第个采样点相对于原坐标点的位置偏移,均由输入特征经过卷积层得到。

在本发明一个可能的实施例中，在调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理之前，还包括：

采用STARK作为鲁棒实时目标跟踪器的基准模型，对所述训练集进行批量选取，每批次随机读取n张图片，n值大小可随意选取，常用范围为；

在读取图片之后，基于目标框中心位置对目标进行裁剪至大小，对所有批量图片依次进行抖动、数据增广、随机平移、归一化处理，并将经过数据增广后的图片作为鲁棒实时目标感知模型的输入数据；

经过特征提取网络进行提取图片特征，再经过编码器解码器和运动预测网络，联系和建模模板帧和搜索帧的关系，并通过双支预测头网络预测图片中跟踪对象的类别和位置信息；

图片经过鲁棒实时目标感知模型后，分别输出分类预测向量和回归预测向量，其中，预测向量包括预测目标物体类别、预测边界框中心点坐标、宽、高；

把鲁棒实时目标感知模型预测的每组分类回归预测值与图片目标物体的标注数据通过损失函数进行损失计算，将计算得到的损失值通过反向传播算法将梯度回传给鲁棒实时目标跟踪器，以进行鲁棒实时目标跟踪器参数的更新；

让鲁棒实时目标感知模型迭代地去学习识别跟踪目标物体，不断拟合真实数据的分布，得到一个训练鲁棒实时目标跟踪器跟踪模型，其中，鲁棒实时目标感知模型的分类损失函数采用二分类交叉损失熵分类函数如下公式所示：

其中，代表分类损失函数，是样本数，代表鲁棒实时目标感知模型的分类预测值，介于0到1之间，代表像素所述分类的标签真值，代表鲁棒实时目标感知模型的分类预测值，二者均介于0到1之间，通过计算标签值和预测值之间的差距熵，评估模型预测的概率相似性,鲁棒实时目标跟踪器跟踪模型的回归任务采用GIoU回归损失函数如下公式所示：

其中，代表回归损失函数，A代表预测边界框的面积，B代表目标真实标注框的面积，C代表能够将A和B包围的最小矩形的面积，代表预测边界框A和目标真实标注框B的面积交并比，代表最小包围矩形C的面积减去A预测框与B真实标注框面积的并集的差值；

鲁棒实时目标跟踪器跟踪模型的回归任务采用PNS特征限制损失函数如下公式所示：

其中表示像素点的上一帧位置是，且当前帧位置是，当位置和均位于目标的目标框内时，为1。表示位置偏移矩阵的行，表示位置偏移矩阵的列，表示像素点的上一帧位置是，且当前帧位置是行偏移量，表示像素点的上一帧位置是，且当前帧位置是列偏移量，，，其中是PNS特征限制损失函数的超参数，通过运动偏移量损失函数对与的约束，能够驱使运动预测模块网络学习到的目标特征在前后两帧的位置不断接近，并远离背景区域来保证运动偏移量的一致性与连续性;

从所述测试集中读取不同于训练数据集场景的图片，统一将读取的图片裁剪处理到尺寸为像素图片，然后将处理后的图片作为鲁棒实时目标感知模型的输入数据，经过鲁棒实时目标感知模型后，输出当前帧的目标跟踪预测结果，并保留当前帧的预测目标框位置，以该目标框中心点为基准对下一帧图片进行裁剪，生成训练好的鲁棒实时目标感知模型。

具体地，在本实施例中，学习鲁棒实时目标感知模型：包括训练检测器阶段和测试检测器阶段，如图7所示，其中，第一步，训练跟踪器阶段：鲁棒实时目标跟踪器采用STARK作为基准模型，训练样本从步骤1）创建的智能机器人使用场景数据集的训练集中进行批量选取，每批次随机读取n张图片，n值大小可随意选取，常用范围为：。读取图片后基于目标框中心位置对目标进行裁剪至大小，然后对所有批量图片进行抖动、数据增广即变换颜色空间、随机平移、归一化，经过数据增广后的图片作为鲁棒实时目标感知模型的输入数据，先经过特征提取网络进行提取图片特征，然后经过编码器解码器和运动预测网络联系和建模模板帧和搜索帧的关系，并通过双支预测头网络预测图片中跟踪对象的类别和位置信息。图片经过鲁棒实时目标感知模型后，分别输出分类预测向量和回归预测向量，预测向量包括预测目标物体类别、预测边界框中心点坐标、宽、高。接着把鲁棒实时目标感知模型预测的每组分类回归预测值与图片目标物体的标注数据通过损失函数进行损失计算，计算得到的损失值会通过反向传播算法将梯度回传给鲁棒实时目标跟踪器，进行鲁棒实时目标跟踪器参数的更新。通过这样的学习模式，让鲁棒实时目标感知模型迭代地去学习识别跟踪目标物体，不断拟合真实数据的分布，训练得到一个最佳的鲁棒实时目标跟踪器跟踪模型，其中，鲁棒实时目标感知模型的分类损失函数采用二分类交叉损失熵分类函数如下公式所示：

其中，代表分类损失函数，是样本数，代表鲁棒实时目标感知模型的分类预测值，介于0到1之间，通过计算标签值和预测值之间的差距熵，评估模型预测的概率相似性,鲁棒实时目标跟踪器跟踪模型的回归任务采用GIoU回归损失函数如下公式所示：

其中表示像素点的上一帧位置是，且当前帧位置是，当位置和均位于目标的目标框内时，为1,表示位置偏移矩阵的行，表示位置偏移矩阵的列，，，其中是PNS特征限制损失函数的超参数，通过运动偏移量损失函数对与的约束，能够驱使运动预测模块网络学习到的目标特征在前后两帧的位置不断接近，并远离背景区域来保证运动偏移量的一致性与连续性。

第二步，测试跟踪器阶段：首先从智能机器人使用场景数据集的测试集部分读取不同于训练数据集场景的图片，统一将读取的图片裁剪处理到尺寸为像素图片，然后将处理后的图片作为鲁棒实时目标感知模型的输入数据，经过鲁棒实时目标感知模型后，输出当前帧的目标跟踪预测结果。并保留当前帧的预测目标框位置，以该目标框中心点为基准对下一帧图片进行裁剪。

综上，所述智能机器人鲁棒实时目标感知方法利用计算机视觉分析技术，配合智能机器人携带摄像头，可以实现动态地分析视频流画面，自动感知跟踪目标位置，缓解了相似物存在和目标遮挡的挑战，使得目标感知模型能够自适应实际不同场景下的目标位置情况，提高目标感知模型的鲁棒性和识别精度；同时能够帮助智能机器人实时感知目标，提高了智能机器人在动态环境下的应对能力。能更加鲁棒、实时且稳定的跟踪感知目标，从而为智能机器人的准确执行任务提供了可靠的基础支持。

请参阅图8，本发明的第二实施例提供了智能机器人鲁棒实时目标感知装置，包括：

数据集获取单元201，用于获取由采集设备采集到的智能机器人使用场景数据集，并对所述智能机器人使用场景数据集进行标注划分处理，生成训练集和测试集；

目标跟踪处理单元202，用于调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理，生成感知信息，其中，目标跟踪预处理包括指定目标的位置和类别，采用预测边界框来定位后续视频帧中目标的位置，并标明边界框包围目标物体所属的前背景类别信息，所述鲁棒实时目标感知模型包括顺序连接的特征提取网络、编码器解码器、运动预测模块和设有分类任务和回归任务的双支预测头网络；

感知结果生成单元203，用于根据所述感知信息，生成感知结果。

本发明的第三实施例提供了智能机器人鲁棒实时目标感知设备，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如上任意一项的智能机器人鲁棒实时目标感知方法。

本发明的第四实施例提供了可读存储介质，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如上任意一项的智能机器人鲁棒实时目标感知方法。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。

Claims

1.智能机器人鲁棒实时目标感知方法, 其特征在于，包括：

调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理，生成感知信息，其中，目标跟踪预处理包括指定目标的位置和类别，采用预测边界框来定位后续视频帧中目标的位置，并标明边界框包围目标物体所属的前背景类别信息，所述鲁棒实时目标感知模型包括顺序连接的特征提取网络、编码器解码器、运动预测模块和设有分类任务和回归任务的双支预测头网络，具体为：

将所述智能机器人使用场景数据集作为输入，传入训练好的鲁棒实时目标感知模型中；

双支预测头网络的回归分支对识别为前景的目标物体进行拟合边界框，并采用GIoU回归损失函数和PNS特征限制损失函数进行学习拟合预测框，生成感知信息；

根据所述感知信息，生成感知结果。

2.根据权利要求1所述的智能机器人鲁棒实时目标感知方法, 其特征在于，获取由采集设备采集到的智能机器人使用场景数据集，并对所述智能机器人使用场景数据集进行标注划分处理，生成训练集和测试集，具体为：

获取所述采集设备采集到的预设的不同类别的目标和不同目标所在的场景，组成智能机器人使用场景数据集，其中，所述智能机器人使用场景数据集中的每个场景包含多张连续图片构成的视频帧，视频帧中每张图片均包含相同目标；

3.根据权利要求1所述的智能机器人鲁棒实时目标感知方法, 其特征在于，所述特征提取网络的输入是的模板帧图片和的搜索帧图片，包括顺序连接的输出向量为的第一卷积块、输出向量为的第二卷积块、输出向量为的第三卷积块、输出向量为的第四卷积块、输出向量为且卷积核大小为的卷积层；

其中，为网络计算中间值，,，失活层仅在网络训练过程中使能，实现部分神经元以概率停止工作来增强模型的泛化性，网络计算公式如下所示：

4.根据权利要求3所述的智能机器人鲁棒实时目标感知方法, 其特征在于，所述运动预测网络的输入是的特征向量，包括顺序连接的输出向量为的第五卷积块、输出向量为的第六卷积块、输出向量为的卷积层、输出向量为的第十三注意力块、输出向量为的卷积层、输出向量为的第十四注意力块、第十五注意力块、第十六注意力块、第十七注意力块、第十八注意力块、第十九注意力块、输出向量为的第一线性计算块和第二线性计算块；

其中,输入向量均由输入特征经过全连接层网络后得到，且，表示第个注意力头中第个采样点的注意力权重矩阵，表示的坐标点，表示第个注意力头中第个采样点相对于原坐标点的位置偏移,均由输入特征经过卷积层得到；

5.根据权利要求4所述的智能机器人鲁棒实时目标感知方法, 其特征在于，所述设有分类任务和回归任务的双支预测头网络，输入是的特征向量，包括分类预测网络和回归预测网络，分类预测网络具体是由三层线性层构成，回归预测网络由左右角点回归网络构成，均包含四层卷积块和输出通道为1，卷积核大小为的卷积层，输出向量为大小，其中，4维表示预测框坐标；

6.根据权利要求1所述的智能机器人鲁棒实时目标感知方法, 其特征在于，在调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理之前，还包括：

其中表示像素点的上一帧位置是，且当前帧位置是，当位置和均位于目标的目标框内时，为1，表示位置偏移矩阵的行，表示位置偏移矩阵的列，表示像素点的上一帧位置是，且当前帧位置是行偏移量，表示像素点的上一帧位置是，且当前帧位置是列偏移量，，，其中是PNS特征限制损失函数的超参数，通过运动偏移量损失函数对与的约束，能够驱使运动预测模块网络学习到的目标特征在前后两帧的位置不断接近，并远离背景区域来保证运动偏移量的一致性与连续性;

7.智能机器人鲁棒实时目标感知装置，其特征在于，包括：

目标跟踪处理单元，用于调用训练好的鲁棒实时目标感知模型对所述智能机器人使用场景数据集进行目标跟踪预处理，生成感知信息，其中，目标跟踪预处理包括指定目标的位置和类别，采用预测边界框来定位后续视频帧中目标的位置，并标明边界框包围目标物体所属的前背景类别信息，所述鲁棒实时目标感知模型包括顺序连接的特征提取网络、编码器解码器、运动预测模块和设有分类任务和回归任务的双支预测头网络，具体为：

8.智能机器人鲁棒实时目标感知设备，其特征在于，包括处理器、存储器以及存储在存储器中且被配置由处理器执行的计算机程序，处理器执行计算机程序时实现如权利要求1至6任意一项所述的智能机器人鲁棒实时目标感知方法。

9.可读存储介质，其特征在于，存储有计算机程序，计算机程序能够被该存储介质所在设备的处理器执行，以实现如权利要求1至6任意一项所述的智能机器人鲁棒实时目标感知方法。