CN117237402B

CN117237402B - 一种基于语义信息理解的目标运动预测方法及系统

Info

Publication number: CN117237402B
Application number: CN202311516214.XA
Authority: CN
Inventors: 王玥; 吴若愚; 李兴波; 王龙; 李瑞民
Original assignee: Beijing Zhongbing Tiangong Defense Technology Co ltd
Current assignee: Beijing Zhongbing Tiangong Defense Technology Co ltd
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-20
Anticipated expiration: 2043-11-15
Also published as: CN117237402A

Abstract

本申请公开了一种基于语义信息理解的目标运动预测方法及系统，方法包括以可见光传感器自身获得的图像为中心，将运动控制、避障等方法分为上游算法运动预测方法和下游方法闭环运动控制，通过利用神经网络学习常用数据集上物体的运动模式，并将这些运动模式作为先验知识存储到网络中，最后在实际需要应用的平台上进行参数微调，实现针对不同无人装备的精细目标运动预测。本预测方法可以与多种运动控制方法配合，应用场景广泛，同时再训练的成本较低，可以快速更新网络版本以适应无人装备自身状态的变化或不同的使用环境。

Description

一种基于语义信息理解的目标运动预测方法及系统

技术领域

本申请涉及无人设备的防撞与导航控制领域，尤其涉及一种基于语义信息理解的目标运动预测方法及系统。

背景技术

视觉设备相对便宜使用方便，能够适应不同的无人装备的需求，因此基于视觉算法的运动控制方法是无人装备领域较为常用的算法，这种运动控制方法如专利（CN111912411A），主要通过可见光传感器获取周围环境的障碍物与路径信息，再利用运动控制与路径规划方法使无人装备在环境中行进；如专利（CN112799401A），采用端到端的设计方法直接实现从可见光图像理解到运动控制指令直接映射的神经网络，都是建立在目标运动预测的基础上，运动控制的前提是对（静态或动态）目标有一定的预测，并按照预测的结果进行相应的控制动作。

解耦式三步运动控制方法（CN111912411A），控制的误差无法反馈到可见光传感器中，容易导致时延累积导致操纵迟滞；非解耦式端到端运动控制方法（CN112799401A）虽然可以解决操作迟滞问题，但无人装备的操作模块的变化或地面阻碍造成的操作反馈迟缓可能会导致算法失效或控制精度降低。为了解决上述问题，需要重新训练运动控制部分网络，对于解耦式运动控制方法，除了需要训练运动控制网络还需要训练配合的可见光识别方法，非解耦式运动控制方法则需要重新训练整个网络，工作量较大，难以快速完成算法更新。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于语义信息理解的目标运动预测方法，该方法将以可见光传感器自身获得的图像为中心，将运动控制、避障等方法分为上游算法运动预测方法和下游方法闭环运动控制。这样的方法可以避免解耦式三步运动控制方法中控制的误差无法反馈到可见光传感器中的问题，也可以减少重新训练模型时下游闭环运动控制网络参数过多、训练过慢的问题。一般无人装备上的可见光传感与无人装备采用固定连接，其采集的图像主要以自身为中心，同时采集的图像会随着无人装备的运动而产生运动，图像的变化会对目标运动的预测造成影响。

第一方面，一种基于语义信息理解的目标运动预测方法，所述方法包括以下步骤：

步骤1：利用已有的目标跟踪数据集训练目标语义理解网络，完成深度网络的初步预训练；其中，根据无人装备所执行的任务调整训练集和验证集中的训练数据的数量，所述无人装备所执行的任务的主要目标为地面车辆，训练数据集中的其他数据包括路上设施；

步骤2：通过无人装备上的可见光传感器拍摄周围的环境形成视频序列，利用人工或者智能标定的方法确定发生目标碰撞帧、直线运动帧、方向突变换帧，并将关键帧的相邻2S内的图像进行提取得到视频片段，并建立自建数据集；

步骤3：利用建立的自建数据集对目标语义理解网络进行调整，实现针对不同无人装备特性的精准目标运动预测模拟；

其中，调整的具体过程包括，采用冻结训练的方法，保持语义理解网络的最后一层网络前的所有参数不变，对语义理解网路的最后一层全连接层进行参数更新，将自建数据集中的视频片段按照每秒60帧的速率进行采样生成在时间上连续的图片序列，将图片序列采用顺序采样的方式，裁剪为224*224的大小输入目标语义理解网络，训练语义理解网络最后一层的网络参数；最终利用调整完成的网络，训练网络后目标运动预测网络的输出；

所述目标运动预测网络由一个神经网络组成，该神经网络的输入为语义理解网络输出的前120帧，探测出的目标在可见光视场中的相对位置，该神经网络的输出为偏移量和概率，分别用来表示60帧的范围内目标在可见光传感器光轴垂直平面上的预测运动方向和碰撞概率，其中偏离量的单位为像素；

步骤4：针对所要应用的无人装备及其自身的控制模型，设计闭环运动控制模型；其中，所述闭环运动控制模型，采用偏差消除的方法，根据图像预测出的目标碰撞、预测时间、目标位置，输出控制过载，根据控制后图像反馈回来的新碰撞标志位、预测碰撞时间、目标位置的变化调整输出过载，直到图像中目标碰撞标志消失为止；

步骤5：将精准目标运动预测模型与闭环运动控制模型进行连接，将两个模型布置在无人装备上，控制无人装备在实际环境中运行，完成基于实际无人装备的微调；

步骤6：将去掉调整参数功能的网络的完成所有调整的模型进行布置，控制其进行对应的任务。

可选地，所述语义信息理解网络基于Transformer，Transformer网络包括前端和后端；

所述Transformer前端为Swim Transformer编码网络，用于从图像移动窗口提取信息，并将提取的信息经过编码网络转换呈编码信息；

所述Transformer后端为W层卷积神经网络组成，其中每层卷积神经网络由1个多头注意力模块、1层前馈网络、1层规范层、1层全连接层、1层卷积层和1层激活层组成；

可选地，所述的Swim Transformer编码网络可以采用卷积神经网络代替；卷积神经网络可以采用ResNet50网络。

可选地，步骤3中神经网络的输出为偏移量和概率φ%，分别用来表示60帧的范围内目标在可见光传感器光轴垂直平面上的预测运动方向和碰撞概率，其中偏离量的单位为像素；碰撞概率φ%具体表示为：

其中，表示在x轴的偏移量，/>表示在y轴的偏移量。

可选地，参数调整网络为四层神经网络，神经网络包含两层隐藏层、一层输入和一层输出层，在所述步骤3中进行细致微调时主要对隐藏层的参数进行调整其他网络的参数冻结，参数调整的方法具体采用梯度下降的搜索方法。

可选地，所述目标运动预测网络为五层神经网络，神经网络包含两层隐藏层、一层输入和一层输出层，神经网络的输入数量为120个，输出数量为3个。

顶层参数调整网络的输出为图像中除了背景后的探测到的物体的碰撞标志位、预测碰撞时间、目标位置；

可选地，步骤4中闭环运动控制模型，采用偏差消除的方法，根据图像预测出的目标碰撞、预测时间、目标位置，输出控制过载，根据控制后图像反馈回来的新碰撞标志位、预测碰撞时间、目标位置的变化调整输出过载，直到图像中目标碰撞标志消失为止。

第二方面，一种基于语义信息理解的目标运动预测系统，系统包括：

预训练模块，用于利用已有的目标跟踪数据集训练目标语义理解网络，完成深度网络的初步预训练；其中，根据无人装备所执行的任务调整训练集和验证集中的训练数据的数量，所述无人装备所执行的任务的主要目标为地面车辆，训练数据集中的其他数据包括路上设施；

数据集建立模块，用于通过无人装备上的可见光传感器拍摄周围的环境形成视频序列，利用人工或者智能标定的方法确定发生目标碰撞帧、直线运动帧、方向突变换帧，并将关键帧的相邻2S内的图像进行提取得到视频片段，并建立自建数据集；

精准目标运动预测模块，用于利用建立的自建数据集对目标语义理解网络进行调整，实现针对不同无人装备特性的精准目标运动预测模拟；

闭环运动控制模块，用于针对所要应用的无人装备及其自身的控制模型，设计闭环运动控制模型；其中，所述闭环运动控制模型，采用偏差消除的方法，根据图像预测出的目标碰撞、预测时间、目标位置，输出控制过载，根据控制后图像反馈回来的新碰撞标志位、预测碰撞时间、目标位置的变化调整输出过载，直到图像中目标碰撞标志消失为止；

连接模块，用于将精准目标运动预测模型与闭环运动控制模型进行连接，将两个模型布置在无人装备上，控制无人装备在实际环境中运行，完成基于实际无人装备的微调；

处理模块，用于将去掉调整参数功能的网络的完成所有调整的模型进行布置，控制其进行对应的任务。

第三方面，提供了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的基于语义信息理解的目标运动预测方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的基于语义信息理解的目标运动预测方法。

相比现有技术，本申请至少具有以下有益效果：

本发明基于人眼利用自身大量先验知识识别物体运动的原理，利用神经网络学习常用数据集上物体的运动模式，并将这些运动模式作为先验知识存储到网络中，最后在实际需要应用的平台上进行参数微调，实现针对不同无人装备的精细目标运动预测。该模型可以与多种运动控制方法配合，应用场景广泛，同时再训练的成本较低，可以快速更新网络版本以适应无人装备自身状态的变化或不同的使用环境。

附图说明

图1为本发明提供的一种基于语义信息理解的目标运动预测方法流程图；

图2为本发明提供的一种基于语义信息理解的目标运动预测方法的网络结构图；

图3为本申请一个实施例提供的基于语义信息理解的目标运动预测系统的模块架构框图；

图4为一个实施例中电子设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本申请的描述中：术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

下面结合附图并举实施例，对本发明进行详细描述。应指出，以下说明给出了详细的实施方式和具体操作过程，旨在对本申请进行详细说明，但本发明的保护范围不限于此实施方式。

如图1所示，本发明提供了一种基于语义信息理解的目标运动预测方法，该方法将运动控制方法、避障等方法分为上游算法运动预测方法和下游方法闭环运动控制，可以有效避免误差无法反馈到可见光传感器中的问题，也可以减少重新训练模型时下游闭环运动控制网络参数过多、训练过慢的问题。该方法包括以下步骤：

步骤1：利用已有的目标跟踪数据集训练目标语义理解网络，完成深度网络的初步预训练；优选的，该目标语义理解网络由Transformer架构组成，网络前端主要实现目标的识别，网络的后端主要实现目标的跟踪；可选的，利用ImageNet 1k数据集对如图2所示的网络结构中语义理解网络的Transformer架构前端的目标识别模型进行训练，主要训练网络模型对于典型目标的识别能力，使其能够在运行环境中分辨目标与背景；训练完成后，利用目标跟踪数据集对Transformer架构后端的目标跟踪数据集进行训练，使其具备预测无人装备是否会发生与目标碰撞的能力，以此完成深度网络的初步预训练；根据无人装备所执行的任务调整训练集和验证集中的训练数据的数量，如无人装备执行任务的主要目标为地面车辆，训练数据集中车辆类数量占总数据集的比例为75%，训练数据集中的其他数据应该由其他常见路上设施如标志牌，红绿灯等组成；

Transformer网络前端由1个图像分割模块，1个图像编码模块和3个通用模块组成，每个通用模块包含由1个Swim Transformer模块和1个图像融合模块；Transformer网络后端为W层卷积神经网络组成，其中每层卷积神经网络由1个多头注意力模块、1层前馈网络、1层规范层、1层全连接层、1层卷积层和1层激活层组成；卷积神经网络可以根据探测环境的复杂性进行调整；

运动控制网络由6层卷积神经网络和参数调整网络组成，其中每层卷积神经网络由1层卷积层、1层ReLu激活层、1层池化层和1层卷积层组成；

参数调整网络为四层神经网络，神经网络包含两层隐藏层、一层输入和一层输出层，在步骤3中进行细致微调时主要对隐藏层的参数进行调整其他网络的参数冻结，参数调整的方法主要采用梯度下降的搜索方法。

步骤2：在室内环境中，利用无人装备上的可见光传感器拍摄周围的环境形成视频序列，用人工或者智能标定的方法确定发生目标碰撞帧、直线运动帧、方向突变换帧，并将关键帧的前2秒或后2秒提取出视频片段，所有样本均改为512×512的分辨率大小并建立自建数据集；

步骤3：利用建立的自建数据集对目标语义理解网络进行细致微调，实现针对不同无人装备特性的精准目标运动预测模；细致微调的方法为，采用冻结训练的方法，保持语义理解网络的最后一层网络前的所有参数不变，对语义理解网路的最后一层全连接层进行参数更新，将自建数据集中的视频片段按照每秒60帧的速率进行采样生成在时间上连续的图片序列，将图片序列采用顺序采样的方式，裁剪为224*224的大小输入目标语义理解网络，训练语义理解网络最后一层的网络参数。实现针对不同无人装备特性的精准目标运动预测模型中的语义网络的微调，主要解决光学传感器在无人装备使用中出现的图像抖动等问题；最终利用微调好的网络，训练网络后目标运动预测网络的输出，目标运动预测网络由一个神经网络组成，该神经网络的输入为语义理解网络输出的前120帧即2s时间内，探测出的目标在可见光视场中的相对位置，该神经网络的输出为一个偏移量和一个概率φ%，分别用来表示下1s钟即60帧的范围内目标在可见光传感器光轴垂直平面上的预测运动方向和碰撞概率，其中偏离量的单位为像素（pixel）；碰撞概率φ%表示为：

其中，表示在x轴的偏移量，/>表示在y轴的偏移量。

步骤4：针对所要应用的无人装备及其自身的控制模型，设计针对无人装备运动机构的闭环运动控制模型，运动控制模型的输入为图像预测出的目标碰撞、预测时间、目标位置等，输出为运动过载；闭环运动控制模型，采用偏差消除的方法，根据图像预测出的目标碰撞、预测时间、目标位置等，输出控制过载，根据控制后图像反馈回来的新碰撞标志位、预测碰撞时间、目标位置的变化调整输出过载，直到图像中目标碰撞标志消失为止；

步骤5：将精准目标运动预测模型与闭环运动控制模型进行连接，将两个模型布置在无人装备上，控制无人装备在实际环境中运行，完成基于实际无人装备的微调，主要解决无人装备在实际运动过程中，执行机构时延造成的动作迟滞造成的控制问题，对闭环运动控制模型进行调整；

步骤6：将去掉调整参数功能的网络的完成所有调整的模型进行布置，控制其进行对应的任务；

在一个实施例中，如图3所示，提供了一种基于语义信息理解的目标运动预测系统，系统包括：

闭环运动控制模块，用于针对所要应用的无人装备及其自身的控制模型，设计闭环运动控制模型；其中，所述闭环运动控制模型，采用偏差消除的方法，根据图像预测出的目标碰撞、预测时间、目标位置等，输出控制过载，根据控制后图像反馈回来的新碰撞标志位、预测碰撞时间、目标位置的变化调整输出过载，直到图像中目标碰撞标志消失为止；

在一个实施例中，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，该电子设备通过加载运行计算机程序以实现上述一种目标运动预测方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，涉及上述实施例方法中的全部或部分流程。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于语义信息理解的目标运动预测方法，其特征在于，所述方法包括以下步骤：

其中，调整的具体过程包括，采用冻结训练的方法，保持目标语义理解网络的最后一层网络前的所有参数不变，对目标语义理解网络的最后一层全连接层进行参数更新，将自建数据集中的视频片段按照每秒60帧的速率进行采样生成在时间上连续的图片序列，将图片序列采用顺序采样的方式，裁剪为224*224的大小输入目标语义理解网络，训练目标语义理解网络最后一层的网络参数；最终利用调整完成的网络，训练网络后目标运动预测网络的输出；

所述目标运动预测网络由一个神经网络组成，该神经网络的输入为目标语义理解网络输出的前120帧，探测出的目标在可见光视场中的相对位置，该神经网络的输出为偏移量和概率，分别用来表示60帧的范围内目标在可见光传感器光轴垂直平面上的预测运动方向和碰撞概率，其中偏离量的单位为像素；

2.根据权利要求1所述的方法，其特征在于，所述目标语义理解网络基于Transformer，Transformer网络包括前端和后端；

所述Transformer后端为W层卷积神经网络组成，其中每层卷积神经网络由1个多头注意力模块、1层前馈网络、1层规范层、1层全连接层、1层卷积层和1层激活层组成。

3.根据权利要求2所述的方法，其特征在于，所述Swim Transformer编码网络采用卷积神经网络代替；卷积神经网络采用ResNet50网络。

4.根据权利要求1所述的方法，其特征在于，步骤3中神经网络的输出为偏移量和概率φ%，分别用来表示60帧的范围内目标在可见光传感器光轴垂直平面上的预测运动方向和碰撞概率，其中偏离量的单位为像素；碰撞概率φ%具体表示为：

；

其中，表示在x轴的偏移量，/>表示在y轴的偏移量。

5.根据权利要求1所述的方法，其特征在于，参数调整网络为四层神经网络，神经网络包含两层隐藏层、一层输入和一层输出层，在所述步骤3中进行细致微调时主要对隐藏层的参数进行调整其他网络的参数冻结，参数调整的方法具体采用梯度下降的搜索方法。

6.根据权利要求1所述的方法，其特征在于，所述目标运动预测网络为五层神经网络，神经网络包含两层隐藏层、一层输入和一层输出层，神经网络的输入数量为120个，输出数量为3个；

顶层参数调整网络的输出为图像中除了背景后的探测到的物体的碰撞标志位、预测碰撞时间、目标位置。

7.根据权利要求1所述的方法，其特征在于，步骤4中闭环运动控制模型，采用偏差消除的方法，根据图像预测出的目标碰撞、预测时间、目标位置，输出控制过载，根据控制后图像反馈回来的新碰撞标志位、预测碰撞时间、目标位置的变化调整输出过载，直到图像中目标碰撞标志消失为止。

8.一种基于语义信息理解的目标运动预测系统，其特征在于，系统包括：

9.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。